네이버 vs 구글, 넌 어디에서 검색하니?
네이버 vs 구글, 넌 어디에서 검색하니?
  • 주상호 기자
  • 승인 2011.04.03
  • 호수 1340
  • 댓글 0
이 기사를 공유합니다

문화적 특성의 네이버, 기계적 특성의 구글

네이버에 ‘대학생’을 입력하면 파워링크를 제외한 맨 처음, 대학생의 국어사전 뜻이 나온다. 이후 최신 대학생 관련 뉴스, 소셜네트워크 순으로 대학생 관련 사이트가 랭크된다. 한편 구글에 ‘대학생’을 입력하면 베스트 웹문서로 ‘대학생 공모전 세상 - 데티즌닷컴’이 제일 상위에 랭크된다. 이후 이미지, 동영상이 랭크되고 다음 웹문서가 나온다. 이 둘의 검색 방식의 차이는 무엇일까. 우리가 제일 많이 사용하고 있는 네이버, 세계에서 가장 많이 쓰이는 구글에 대해 알아보자.

검색엔진의 발전과정
1990년은 인터넷이 존재했지만 현재의 검색엔진이 아직 개발되지 않은 때였다. 하지만 인터넷으로 서로 파일을 주고받을 수 있었는데 파일전송프로토콜(File Transfer Protocol, 이하 FTP)을 사용했다. FTP를 사용하려면 반드시 FTP서버가 있어야 했다. 파일을 다운로드하거나 업로드하려는 사용자들은 FTP클라이언트라는 소프트웨어를 이용해 FTP서버에 접속하면 됐다.

1990년에는 이런 방식으로 인터넷을 통한 파일 교환이 이뤄졌다. 파일을 공유하고 싶은 사람은 먼저 FTP서버를 구축해야만 공유하고 싶은 파일의 다운로드가 가능했던 것이다. 이때 공유한 파일은 올린 사람이 주소를 알려줘야 했다.

이는 현재의 네이트온 파일방과 같은 방식이다. 우선 네이트온이란 프로그램을 설치해야하고 사용자가 파일방에 공유하고 싶은 파일을 올린다. 이후 사용자와 친구를 맺고 있는 사람은 사용자의 파일을 받을 수 있다. 그러나 여러 사람들이 함께 이용하기에는 한계가 있었다.

몬트리올 맥길대학교에 재학 중이던 앨런 엠티지는 인터넷의 문제를 보완하기 위해 최초의 검색엔진 아키를 개발했다. 아키는 FTP 사이트들의 목록을 모아 사용자의 검색어에 맞게 결과를 알려줬다. 그러나 파일 제목만 검색되거나 손수 데이터베이스를 구축 해야하는 등의 한계가 있었다. 이후 1993년 메튜 그레이는 새로운 검색엔진인 월드와이드웹 원더러를 개발했다. 이는 웹 로봇을 사용했는데 웹 로봇은 수많은 웹페이지를 방문하면서 웹사이트의 내용을 데이터베이스에 저장했다. 이후 많은 웹 프로그래머들은 성능 좋은 웹 로봇 개발에 몰두했다.

1994년 4월, 야후가 분야별로 카테고리를 나눠 사용자들이 쉽게 정보를 찾을 수 있도록 정리해 놓은 디렉터리 검색을 개발함으로써 검색엔진은 한 단계 도약을 이뤄냈다. 이와 더불어 야후 에디터들이 사이트를 분야별로 나누기 전 등록 여부를 결정했기 때문에 웹사이트의 품질이 향상됐다.

이후 구글은 1998년 검색 서비스를 시작했고 사용의 편리성, 색인 페이지의 방대함, 검색 결과의 정확성으로 현재 가장 많이 사용되는 검색엔진이 됐다. 네이버는 1999년 검색 서비스를 시작했고 2002년 지식검색서비스 ‘지식iN’을 내놓으면서 국내 검색 시장을 선도하는 결정적인 계기가 됐다.

웹사이트 분석업체 컴스코어에 따르면 2007년 구글은 세계 검색 점유율 60%로 1위를 차지했고 네이버는 3.2%로 5위를 차지했다. 또 같은 시기 네이버의 국내 검색 점유율은 74.6%에 달했다. 전병국<코리아인터넷닷컴> 편집장은 “구글과 네이버는 모두 검색의 후발주자로 시작했지만 현재는 선두를 지켜나가고 있는 기업”이라며 “이들의 검색 알고리즘과 차별화 전략을 살펴볼 필요가 있다”고 전했다.

네이버 검색엔진의 문화적 검색
네이버는 검색어에 따라 지식iN이 맨 위에 놓일 때도 있고 인물이 맨 위에 놓일 때도 있는 등 임의대로 랭크되는 것처럼 보인다. 그러나 검색어의 특성에 맞춰 그에 가장 잘 맞는 카테고리가 제일 먼저 나오는 것이다.

전 편집장은 “네이버의 검색 위력은 스스로 구축한 데이터베이스에서 나온다”며 “뉴스 등 다른 콘텐츠 사업자로부터 구매하고 네이버 블로그나 카페, 지식iN처럼 네티즌을 동원해 간접적으로 구축한다”고 말했다. 국내 50여 개 언론사로부터 뉴스를 받아 자체 데이터베이스에 저장하는 것은 물론이고 데이터베이스 구축을 위해 수많은 곳과 제휴를 맺었다. 지하철역 검색서비스, 민원정보 검색서비스, 표준국어대사전 검색서비스 등의 데이터베이스 구축을 위해 제휴한 곳만도 100곳이 넘는다.

네이버는 모든 것을 자동화 기술로 해결하는 구글과 달리 수작업도 시행한다. 인기를 끌 만한 데이터베이스는 일일이 사람 손을 거쳐 재분류한다. 전 편집장은 “방금 끝난 월드컵 경기 결과를 한눈에 볼 수 있도록 모아 놓으며 유명 인사를 검색하면 프로필과 함께 사진과 출연작까지 뜨는 것 모두 사람이 해낸 일이다”며 “한국 네티즌의 검색 문화를 잘 알고 있는 네이버는 네티즌이 보기 좋도록 정보를 가공해준다”고 말했다.

네이버는 네티즌이 어디에 관심이 있는지, 무엇을 좋아할지 끝없이 탐구해 검색 주도권을 잡았다. 이슈 검색이 대표적이다. 네이버 검색에는 이슈가 살아 있다. 실시간 급상승 검색어에 이어 인기 검색어, 사용자 그룹별 인기검색어 등이 있다.

이용자는 네이버를 통해 세부적이고 다양한 관심사를 공유하고 이슈화하면서 네이버에 더 오래 머문다. 구글의 검색창이 하나인 데 비해 인기 검색어가 계속 바뀌는 네이버는 검색할 단어 자체를 알려준다.

구글 검색엔진의 기계적 검색
구글 검색의 위력은 색인 페이지의 방대함에서 나온다. 웹페이지를 방문해 정보를 수집하는 웹 로봇의 능력이 뛰어나기 때문에 검색의 질과 속도가 좋아진다. 구글은 100억 개 이상의 웹페이지를 색인한 것으로 알려졌다.

전 편집장은 “구글 검색의 원리 중 하나는 페이지 링크를 사용하는 것”이라고 말했다. 구글은 페이지 링크가 많이 될수록 중요한 페이지로 본다. 이전의 방법은 검색어가 해당 웹페이지에 얼마나 자주 등장하느냐를 분석해 검색이 이뤄졌다. 검색어 빈도가 높고 검색어가 제목 등 웹페이지 주요 부분에 있으면 적합성이 높다고 평가했다. 그러나 이를 악용해 키워드를 웹사이트 곳곳에 배치해놓고 검색 결과 상위를 차지하는 키워드 조작의 문제가 있었다.

구글에서 개발한 페이지 링크의 방법은 간단하다. A웹페이지의 링크 수를 계산한다. 링크 수가 많으면 중요한 페이지다. 또 A에 연결된 B웹페이지의 중요도를 계산한다. B의 중요도도 같은 방식으로 계산해서 B의 중요도가 높다면 A의 점수는 더 올라간다.

구글의 페이지 랭크 알고리즘은 링크를 고려한다는 기본 원칙에 변수 5억 개와 용어 20억 개로 된 세밀한 공식이 있다고 전해진다. 구글은 해당 페이지의 텍스트도 자세히 분석한다. 전 편집장은 “구글이 분석하는 공식에는 필요한 변수 5억 개 중 많은 부분이 페이지 텍스트 분석에 필요한 것”이라고 말했다. 그 중에서 구글이 중요하게 여기는 것 중 하나가 ‘앵커 텍스트’다. 앵커 텍스트는 링크 주변 혹은 링크 내에 있는 텍스트다. 앵커 텍스트에는 해당 페이지의 중요성을 평가할 수 있는 정보가 많다. 이외에도 글꼴, 폰트 크기, 대소문자 여부, 키워드 단어의 위치 등 세세한 부분까지 분석한다. 굵은 표시나 대문자 단어라면 적합도 점수가 올라간다.

일러스트 심소연 기자


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.