실시간 뉴스



[조영환의 검색문명 유람기]키워드검색은 20%노력으로 80점만족하는 서비스


20:80법칙

어느 생태학자가 개미사회를 관찰해서 발견하였다는 20:80법칙이 있습니다. 개미의 사회에서 20%정도는 열심히 일하는 계층이고, 60%는 적당히 일하는 계층이고 나머지 20%는 일을 하지 않는 집단이라고 합니다.

인간세상에도 이 법칙을 염두에 두고 관찰한 결과, 여러가지 상황에서 비슷한 현상이 나타나는 것으로 보입니다. 20:80법칙은 뒤집어서 80:20법칙이라고도 이야기합니다. 기업에 있어서 이익의 80%는 출시한 제품중에 20%에서 얻어지고 있다고 합니다. 제품 판매나 마케팅에 있어서도 이익의 80%는 20%의 우량고객에게서 얻어지고 있다고 합니다.

은행도 비슷한 현상인 것인지 우수고객을 상대하는 공간이 별도로 마련되어 있습니다. 이러한 관점에서 '80:20'에 관련된 서적을 100% 읽었다면 좀 우스운 것 아닌가 싶습니다. 어차피 20%의 내용이 80%의 주장을 대표하고 있을 테니 말입니다.

네이버와 구글의 20:80 법칙

검색에 있어서의 20:80법칙은 두가지의 관점에서 이루어지고 있다고 보아야 할 것 같습니다. 첫번째의 관점은 '찾는다'는 행위에서 나타나는 현상입니다. 검색에서도 대략 20%의 키워드가 전체 검색질의어의 80%를 차지하는 현상이 발생합니다. 두번째 관점은 현재의 검색기술의 한계에 대한 것입니다. 검색기술은 (엄밀하게 말하면 키워드 검색 서비스의 현재 상황은) 찾고자 하는 의도의 20%정도 밖에는 지원해주지 못하지만 사용자는 80% 정도의 만족을 가지고 있는 것 같습니다.

우리가 일반적으로 접하는 두 가지의 다른 검색서비스가 있습니다. 하나는 현재 국내 검색서비스 시장의 70%정도를 점유하고 있는 네이버의 통합검색이고 다른 하나는 현재 국내 검색서비스 시장의 2%를 점유하고 있는 구글의 브랜디드 검색입니다. 구글의 브랜디드 검색이라는 것은 여러가지의 콘텐츠를 하나로 섞어서 검색결과를 만들어 내는 것을 의미합니다. 기술적으로는 브랜딩기술이 더 흥미롭지만 시장 점유율을 보면 아직까지는 그다지 맛이 없나 봅니다.

네이버의 통합검색은 수십가지의 검색섹션을 각각 키워드 검색해서 키워드에 적합한 순서로 각 섹션별 검색결과를 나열하는 스타일입니다. 그러므로 네이버에 하나의 키워드를 입력한 후에 검색 버튼을 누르면 수십개의 검색 엔진이 작동해서 각자의 검색결과를 만들어내고, 그것을 모아서 통합검색이라는 방식으로 화면에 뿌려지게 됩니다.

이렇게 검색 결과를 섹션으로 나누어 놓을 수 있다는 아이디어는 사람들이 자주 찾는 20%의 검색 키워드에 대한 검색결과를 수작업으로도 풍성하게 만들어 주면 된다는 검색결과 편집이라는 아이디어로 진화할 수 있게 되었던 것 같습니다. 네이버에서 '단풍'이라는 키워드를 입력하면 '단풍여행'이라는 콘텐츠 검색결과를 최상단에 노출시켜줍니다. '검색은 페이지 번호가 키워드인 책이 되다'라는 관찰결과는 네이버 검색결과를 보면 쉽게 이해되는 것 같습니다.

구글의 20:80법칙은 좀 엉뚱합니다. 구글에서는 직원의 업무 시간중에 20%정도를 자신이 원하는 프로젝트에 투입할 수 있다는 것으로 유명합니다. 미국의 본사에서는 효과를 보고 있지만 다른 나라에서는 이러한 제도의 정착이 약간 어렵지 않은가 하는 이야기도 있습니다.

구글이 검색을 보는 관점은 20:80법칙의 거부였습니다. 대신에 롱테일(Long tail)현상에 관심을 가지고 있습니다. 롱테일은 실제의 검색 질의어를 분석해보면 빈도가 많지 않은 키워드들의 합이 결코 무시할 수 없는 양이라는 것입니다. 그렇기 때문에 구글은 기술의 힘으로 모든 키워드에 대해서 적합한 검색결과를 만들어 내는 알고리즘이 더 중요한 것이고 특정의 키워드에 친절한 정보를 직접 제작해서 보여줄 수는 없다고 주장합니다.

20:80법칙과 롱테일은 조사방식에 따라서 다른 결과를 나타낸 경우입니다. 20:80의 법칙은 키워드 빈도가 3회 이상인 검색어 만을 대상으로 할 때 나타나는 현상입니다. 3회 이하의 검색어가 의외로 상당히 많이 발생하고 있습니다. 검색어 빈도 1회나 2회짜리의 검색어에는 글자가 틀린 경우도 많고 키워드가 아닌 이상한 문자들의 경우도 있습니다. 반면에 롱테일은 빈도가 1회 이상인 검색어를 대상으로 조사해보면 보이는 현상입니다. 어떠한 질의어라도 최선을 다하겠다는 마음가짐으로서는 한번밖에 안나타나는 검색어도 존중해야하는 것이지요.

어쩔수 없는 20점짜리 검색기술

기술의 관점에서 20:80법칙을 고민해봐야 하겠습니다. 지금 우리가 사용하고 있는 검색이란 것이 무엇인가하는 고찰입니다. 사실 10년전의 검색기술에 비해서 현재의 검색기술은 오히려 퇴보된 것입니다. 동의어, 외국어 표기, 자동분류, 유사문서 검색, not 키워드, 사용자 피드백, 3차원 GUI, 직답형 검색결과 등등 여러가지 시도가 근래 10년동안 시도되었지만 현재의 승리자는 빠른 키워드 매칭입니다.

지금의 검색결과는 검색창에 입력한 '키워드'에 대해서 1순위) 제목에 키워드가 붙어있는 상태로 나타나는 것, 2순위) 본문에 키워드가 붙어 있는 상태로 나타나는 것, 3순위) 키워드가 떨어져 있는 상태로 나타나는 것의 순서대로 검색결과를 만들어주고 있습니다. 각각의 순위에는 페이지가 생성된 날짜, 클릭된 횟수, 페이지가 속한 홈페이지의 중요도 등등이 혼합되어 세부 순위를 결정하게 됩니다.

검색기술의 메카라고 보아야할 카네기멜론대학교의 정보검색 교재의 첫 부분에는 검색기술의 위치에 대해서 명확하게 정의하고 있습니다. “정보검색은 단어의 의미를 고려하지 않고 통계적인 방식으로 질의어에 적합한 문서를 찾는 것”이라고 되어 있습니다. 사실 의미(semantics)의 의미(meaning)는 어려운 것 같습니다. 의미는 언어 이전의 체계이기 때문에 사람들이 모두 같은 의미체계를 공유할 수 없습니다.

언어의 의미를 다루는 학문 분야가 '자연어 처리'라는 분야인데, 이 분야는 지난 40여년 동안 계속되는 실패를 경험해야 했었습니다. 현재도 '자연어처리'의 실패는 계속되고 있는 것 같습니다. 이러한 실패에 그나마 위안이 되는 것이 통계에 대한 기대입니다. 통계적인 기법은 현상을 관찰해서 빈도가 높은, 혹은 확률이 높은 것을 추론하는 방법론입니다. 다행히 최근에는 인터넷을 통해서 대단히 많은 언어자원을 손쉽게 수집할 수 있고, 가격이 매우 저렴해지고 성능이 우수한 컴퓨터가 제공되기 때문에 '통계적인 언어처리'가 고전적인 '전문가의 규칙작성에 의한 언어처리'를 대체하거나 혹은 접합되고 있습니다.

의미를 모르고 찾아주는 검색엔진에 80점을 줄 수 있는 이유가 무엇일까요? 그것은 검색결과를 이용하는, 혹은 해석하는 사람의 두뇌가 지능적이기 때문입니다. 초기의 정보검색 혹은 최근의 의미를 이해해 보려는 검색서비스들은 인간보다 지능이 높은 시스템을 만들려고 하였습니다.

컴퓨터가 수많은 정보로부터 열심히 학습을 하여 점점 더 나아지고는 있지만 아직 성공의 수준은 아닙니다. 오히려 부족한 학습량으로 수많은 키워드에 적절하지 못한 대답을 만들어내고 있는 수준입니다. 그러므로 80점이라는 점수는 검색엔진을 훌륭하게 사용하고 있는 지능적인 사람의 입장에서 80점짜리 도구라는 것입니다. 도구라는 관점의 검색엔진이지 지능의 관점이 아닙니다.

80점을 유지하기 위한 노력들

초기의 야후는 10%의 노력으로 90점의 만족도를 가지게 했던 디렉토리 검색을 선보였었습니다. 인터넷을 사용하던 많은 사람들이 야후의 깔끔하고 명확한 홈페이지 분류에 고마움을 표했었습니다. 야후의 디렉토리는 다른 검색엔진이 절대 넘을 수 없는 난공불락으로 여겨지기도 했었습니다.

그러던 디렉토리 체계는 홈페이지의 숫자가 디렉토리로는 감당할 수 없을 정도로 커져버린 상황에서는 90점의 만족도를 유지하지 못하고 지속적으로 하락한 것 같습니다. 아마도 홈페이지의 숫자가 50만개 정도 이상이 되면 디렉토리를 찾아 내려가야 하는 깊이가 깊어지고, 길이 멀어지니까 도중에 혼동도 많아지게 된 것 같습니다. 그래서 원하는 홈페이지를 찾아내는 노력이 인내의 한계를 넘어서게 된 것 같습니다.

그런 즈음에 '키워드 검색'이 검색엔진의 대안으로 체택된 것 같습니다. 초기의 키워드 검색인 '알타비스타'는 60점 정도의 만족도를 가지지 않았나 싶습니다. 어쩔수 없어서 찾기는 하지만 (특정의 '키워드'를 포함한 문서를 야후 스타일의 디렉토리 검색에서는 도저히 찾을 수 없기 때문에) 그렇다고 검색결과 페이지를 모두 보는 것 또한 고역이었습니다. 구글의 페이지 랭크라는 개념이 나오면서부터 '키워드 검색'은 사용자의 만족도를 상당수준 상승시킬 수 있었습니다.

20%의 기술로 80점을 유지하는 것이 신기합니다. '키워드 검색'의 단점은 명확하게 '의미'를 모르고 '키워드'가 포함된 문서를 찾아내는 한계입니다. 내가 찾으려고 하는 것을 '키워드'로 만들어 내는 것도 어렵거니와 다른 사람이 내가 찾으려는 '의미'를 내가 생각한 '키워드'로 제목에 써주는 행운(?)을 기대하는 것이 '키워드 검색'의 한계이기 때문입니다. 그래서 기술 이외의 비법('키워드 검색'의 단점을 보완해주는 여러가지 장치)에 관심이 가게 만듭니다. 이러한 장치에는 대표적으로 세가지 정도가 보입니다.

첫번째가 '대단히 많은 양의 컨텐츠'입니다. 검색분야에서는 “양이 질을 담보한다”라는 유명한 격언이 있습니다. 심하게 이야기하자면, 성능이 나쁜 검색기술로도 검색 가능한 컨텐츠의 양이 많다면 성능이 좋은 검색기술을 사용하였지만 검색 가능한 컨텐츠가 부족한 경우보다 만족도가 높다는 것입니다. 워낙에 문서가 많으면 '키워드'에 딱 맞는 문서가 포함될 확률이 매우 높습니다. 국내에는 네이버, 전세계적으로는 구글이 대표적입니다. 네이버는 자체 편집한 컨텐츠와 더불어 지식인, 블로그, 카페, 전문 컨텐츠 등 국내 최대의 컨텐츠를 검색서비스에 적용하고 있습니다. 구글은 '툴바의 마법'이라고도 이야기하는데, 현재 전세계 최대의 웹문서를 수집해서 검색에 적용하고 있습니다.

두번째가 '키워드 발견 도구'입니다. 검색 악세서리라고도 하고 검색의 곁반찬이라고 할 수 있습니다. '검색어 자동완성', '연관 검색어', '실시간 급상승 검색어' 등의 곁반찬은 주메뉴인 '키워드 검색'과 어울어져서 만족도를 상승시키는 역할을 하고 있습니다. 2000년도 초반쯤에 쇼핑몰을 대상으로 키워드 검색과 디렉토리 검색의 비율을 조사해 보았을때는 최소 10배 정도가 디렉토리를 이용해서 상품을 찾고 있었습니다. 검색 질의어는 많아봐야 10%정도 였습니다. 최근에는 쇼핑몰에서도 키워드 검색이 50%가 넘는다고 합니다. 여기에 많은 보탬을 한 것이 '검색어 자동완성' 기능이 아닌가 싶습니다. 키워드의 일부분만 입력해도 찾으려고 하는 키워드가 보입니다. 정말 훌륭한 도구입니다.

마지막으로는 '사용자 인식의 정착'입니다. '검색 패러다임.이라고 할 수 있는 사용자의 TOM (Top of mind)에 "키워드를 입력하면 찾을 수 있다"는 개념이 자리잡고 있는 것입니다. 검색 3종세트(검색창, 검색 버튼, 검색결과)가 우리가 무엇을 찾아야 하겠다고 생각할 때에 우리의 뇌에서 가장 먼저 상상되는 시나리오로 자리잡은 것입니다. 또한 브랜드에 대한 믿음도 한몫하고 있습니다. 몇 년전 미국 야후 본사의 엔지니어들과 이야기를 나눌 기회가 있었는데, 참으로 억울해 합니다. 검색의 결과만을 보면 야후와 구글의 검색결과에 큰 차이가 없거나 혹은 야후의 검색결과가 더 좋은 경우도 허다한데, 사용자에게 구글의 검색결과임을 알려주면 구글 검색결과에 더 신뢰를 표시한다는 것입니다. 이러한 현상은 검색 결과에 대한 만족도도 커다란 역할을 하고 있겠지만 '키워드 광고'를 통해 마련한 막대한 자금력으로 대중매체 광고를 한다거나(네이버의 경우), 인터넷 트렌드를 이끌어나가는 다양한 활동을 하는(구글의 경우) 등의 노력을 통해서 사용자의 인식공간에 자리잡고 있습니다.

그래도 우주는 넓다

디렉토리가 검색이라고 인식되었던 시절의 야후는 웹 문서의 숫자가 감당할 수 없는 수준에 이르러서는 더 이상 검색엔진의 승자가 아니었습니다. 마찬가지로 키워드가 검색이라고 인식되는 현재의 네이버와 구글은 “찾는다”는 대상이 다양해지는 순간, 검색엔진의 승자라기 보다는 '키워드 검색'의 대명사로 위치하게 될 것 입니다. 생각해 보면, 우리가 찾고 싶은 것이 '사람'인 경우도 있고, 가격이 적당한 '아파트', 가입하고 싶은 '카페', 취업할 수 있는 '일자리', 헐값에 나온 '경매 물건', 결혼하고 싶은 '파트너' 등등 너무 많습니다. '사람'에 대한 욕구는 너무나 강렬하지만, 찾을 수 없다고 포기하고 있는 상태가 아닌가 싶습니다. 때로는 찾고 싶은 것이 무엇인지 모르는 경우도 허다합니다.

20%의 노력으로 80점을 맞는 방법과 100%의 노력으로 90점을 맞는 방법이 있다면 어느쪽을 선택하시겠습니까? 우리가 일반적으로 교육받은 사실은 100%의 노력은 100점을 맞을 수 있다는 것이지만, 현실은 그렇지 않습니다. 시험 문제를 내는 입장에서는 변별력이 필요하기 때문이기도 하지만 사회가 복잡해지니까 여러가지 역할을 요구하기 때문이기도 합니다. 쉽게 받아들이기 어렵지만 20%의 노력을 다섯개의 분야로 나누어서 다섯가지 분야 모두에서 80점을 맞아야 하는 것이 현실입니다.

“찾는다”는 입장에서는 현재의 검색엔진은 너무 허술하지만, 여러가지 보완을 해나가면서 만족도를 높이고 있는 노력은 참으로 아름답습니다. 그렇다고 100점은 아니겠지요?

/조영환 모란소프트 대표 column_yhwan@inews24.com







alert

댓글 쓰기 제목 [조영환의 검색문명 유람기]키워드검색은 20%노력으로 80점만족하는 서비스

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
포토뉴스