본문 바로가기

SEO (검색 엔진 최적화)

웹 크롤러 (Web Crawler)

What is Web Crawler ?

  • 자동화된 방법으로 WWW(World Wide Web)를 탐색하는 컴퓨터 프로그램
  • 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 사용
  • 방문한 사이트의 모든 페이지의 복사본을 생성하는데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 색인화
  • 봇이나 소프트웨어 에이전트의 한형태
  • 주로 시드(seeds)라고 불리는 URL 리스트에서 부터 시작하여 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신 후 갱신한 URL 리스트는 재귀적으로 다시 방문

 

What is Web Crawler Bot?

스파이더 또는 검색 엔진 봇이라고도 하며, 전체 인터넷에서 콘텐츠를 다운로드하고 색인을 생성한다. 봇의 목표는 웹상의 모든 웹페이지가 무엇에 대한 것인지 파악하여 필요할 때 정보를 추출할 수 있도록 하는 것이다. 해당 작업을 "크롤링"이라고 한다. 검색 엔진은 웹 크롤러가 수집한 데이터에 검색 알고리즘을 적용하여 사용자의 검색에 대한 응답으로 관련 링크를 제공한다.

 

이를 통해 Google 또는 Bing 등의 검색 엔진에 키워드를 입력하면 검색 엔진 결과 페이지(SERP : Search Engine Results Page) 목록이 표시되는 것이다. 웹 크롤러 봇은 인터넷이 제공하는 모든 관련 정보를 찾기위해 알려진 일련의 웹 페이지에서 시작해 다른 페이지로 연결된 링크를 따라가고 또 거기에서 다른 페이지로 링크를 따라가는 식으로 작동한다.

 

How the Web Crawler works ?

인터넷은 작성자가 이 글을 작성하고 있는 이 시간에도 변화하고 확장되고 있다. 그렇기에 인터넷에 얼마나 많은 웹페이지가 있는지 알 수 없어 웹 크롤러 봇은 시드(seeds)라고 불리는 알려진 URL 목록에서 부터 크롤링을 시작한다. 해당 크롤링 작업 과정에서 다른 URL에 대한 링크를 찾게 되면, 다음으로 크롤링할 페이지 목록에 추가한다.

 

대부분의 웹 크롤러는 공개된 웹 페이지 전체를 크롤링하지 않지만, 해당 페이지에 중요한 정보가 포함될 가능성을 해당 페이지를 링크하고 있는 다른 페이지의 수, 페이지 방문자의 수 등의 요소들을 기준으로 먼저 크롤링할 페이지를 결정한다. 다른 웹페이지에서 많이 언급되며 방문자 수가 많은 웹페이지에는 고품질의 정보가 있을 가능성이 크기 때문에 검색 엔진이 색인화를 하는 가능성이 높다는 것이 특히 중요하다. 그리고 웹 콘텐츠는 지속적으로 변경되거나 삭제되고 새로운 위치로 이동하기 때문에 웹 크롤러는 정기적으로 페이지를 다시 방문하여 최신 버전의 콘텐츠를 색인화 하여야 한다.

 

웹 크롤러는 Robots.txt Protocol을 기반으로 크롤링할 페이지를 결정하기도 한다. 크롤링 전 웹 크롤러는 해당 페이지의 웹 서버에서 호스팅하는 Robots.txt* File을 확인한다. 이 규칙에는 봇이 크롤링할 수 있는 페이지와 팔로우할 수 있는 링크를 정의한다. 검색 엔진마다 스파이더(= 웹 크롤러) 봇 전용 알고리즘 내에  가중치 요인을 다르게 설정하기 대문에 콘텐츠를 다운로드하고 색인화한다는 목표는 같지만, 웹 크롤러 작동 방식은 검색 엔진마다 차이가 있다.

*Robots.txt : 호스팅된 웹사이트 또는 애플리케이션에 액세스하는 모든 봇에 대한 규칙을 지정하는 텍스트 파일

 

웹 크롤러가 웹사이트를 크롤링하지 않으면 해당 사이트는 색인화 되지 않고 검색 결과에 표시되지 않는다. 그렇기에 웹사이트 소유자가 검색 결과를 통한 자연 검색(Natural or Organic Search) 트래픽을 얻으려면 웹 크롤러 봇을 차단하지 않아야 한다.

 

[Reference]

[SEO (Search Engine Optimization)] - SEO (Search Engine Optimization)

 

SEO (Search Engine Optimization)

What is SEO ? SEO (Search Engine Opimization) 검색 엔진 최적화 즉, 검색 결과에서의 상위 노출 Technical SEO : 검색 엔진의 기술적인 요건 만족 Contents SEO : 키워드 리서치를 통해 콘텐츠의 질을 높임 Link Buildin

why-not-thrive.com

 

[SEO (Search Engine Optimization)] - URL (Uniform Resource Locator)

 

URL (Uniform Resource Locator)

What is URL ? Let's find out what URL is !! 오늘날 인터넷 사용자의 수는 위와 같이 약 54억명을 넘는다. 또한 웹 사이트의 개수도 약 20억개로 상상을 초월한다. 여기서 20억개의 웹사이트가 각각 가지고

why-not-thrive.com

 

'SEO (검색 엔진 최적화)' 카테고리의 다른 글

SERP (Search Engine Result Page)  (0) 2023.10.19
Meta Data - SEO Basic  (0) 2023.10.15
URL (Uniform Resource Locator)  (0) 2023.10.14
SEO (Search Engine Optimization)  (0) 2023.10.13