[차세대 격전지에서 '금맥' 찾자] ⑤차세대 검색엔진

개인화 검색 및 이미지·동영상 검색이 핵심될 듯


인터넷은 검색과 함께 발전해 왔다. 정보를 생산하고 공유하는 곳이 인터넷의 기본 질서라고 볼 수 있다. 인터넷 검색은 시간이 지남에 따라 그 모양새를 달리해 왔다. 가장 쉽게 자신이 찾고자 하는 정보를 최적의 상태로 보여주는 방향으로 발전해왔다.

차세대 검색엔진의 흐름도 이와 무관하지 않다. 디렉토리 검색, 키워드 검색, 자연어 검색 등등 수많은 검색 트렌드를 보여주는 용어가 생겼지만 그 모든 것은 ‘이용자가 찾고자 하는 정보를 가장 최적의 상태로 보여주는 것’을 달성하기 위한 목적이었다.

검색 기술은 시기별로 나눠 볼 수 있다.

우선 1980년~1990년으로, 이때는 내 PC안에 있는 데이터베이스와 파일, 폴더를 대상으로 하는 것에 머물렀다. 이어 월드와이드웹(World Wide Web)이 도래하면서 1990년~2000년대까지는 디렉토리와 키워드 검색이 대세를 이뤘다.

이때 전세계적으로 관심을 모은 업체는 야후와 라이코스였다. 이때의 검색은 이용자가 필요한 정보를 제공받는 식이었다. 즉 야후나 라이코스 등 콘텐츠제공자가 정보를 독점하고 이용자는 정보를 소비하는 형태였다. 웹1.0으로 규정하기도 한다.

이어 2000년~2010년까지는 웹2.0의 시대로 소셜웹(Social Web)이 대세를 이루고 있다. 웹2.0의 시대가 도래하면서 이용자들의 참여가 활성화된다. 웹2.0 검색의 가장 큰 특징은 플랫폼을 기반으로 누구나 참여할 수 있다는 점이다.

네이버의 지식iN, 위키피디아 등 전세계 이용자들이 서로 참여하면서 보다 폭넓고 다양한 정보들이 교류되고 생성됐다. 웹2.0에서는 이용자가 정보를 소비하면서 동시에 정보를 생성하는 시대로 발전한 것이다.

전문가들은 2010년~2020년까지를 웹3.0으로 규정하면서 시맨틱 웹(Symantic Web)시대가 도래할 것으로 보고 있다. 웹2.0과 웹3.0의 차이로 전문가들은 '상황인식'을 들었다. 즉 웹3.0에서는 이용자가 원하는 정보의 검색이 가능하고 개인별 맞춤 정보 서비스가 이뤄질 것이란 전망이다.

이어 2020년~2030년이 되면 인공지능이 펼쳐지는 웹4.0 시대인 인텔리전트웹(Intelligent Web) 환경이 펼쳐질 것으로 예상하고 있다.

◆차세대 검색은 정보검색 넘어 개인화 검색

검색기술을 이끌어 왔던 미국의 업체와 학계의 이야기를 우선 들어보자.

"앞으로 검색화두는 개인화 검색(Personalized Search)이 될 것이다. 검색기술이 더욱 정교해 지면서 개인에게 최적화된 검색이 주목받을 것이다."

지난 2007년 초 카네기멜론대학(CMU) 언어기술연구소(Language Technologies Institute) 하이미 카보넬(Jaime G. Carbonell) 소장의 말이다.

"검색엔진의 보다 중요한 요소는 정확한 검색정보를 찾아주는 것에서 개인화로 이동할 것이다."

구글 에릭 슈미트 CEO가 서울디지털포럼 강연 등에서 언제나 강조하는 말이다.

하이미 카보넬 소장은 하나의 예를 들었다.

"심장병 전문의인 한 의사가 수술에 필요한 로봇을 구매하기 위해 구글검색을 이용한다고 치자. 구글의 검색결과는 일반인들이 알 수 있는 검색 결과물만을 보여줄 뿐이다. 정확한 정보임에는 틀림없다. 그러나 심장병 전문의인 내게 필요한 정보는 많지 않다.

즉 심장병 전문의인 내게 필요한 정보가 아니라 일반 대중들이 관심을 가지는 검색결과를 보여준다는 것이다. 앞으로 이런 검색결과가 많이 변화할 것으로 보인다.

심장병 의사인 나에게 꼭 필요한 검색결과를 보여줘야 한다는 것이다. 그것이 바로 한 개인의 검색 유형을 알고리즘으로 분석해 정보를 제공할 수 있는 '개인화 검색'이다. 이미 구글, 마이크로소프트, 야후 등이 개인화 검색으로 나아가고 있지 않은가."

라이코스의 키워드 검색을 개발했던 검색엔진의 메카인 카네기멜론대학과 현재 전세계적으로 네티즌들의 관심을 모으고 있는 구글의 방향성이 모두 '개인화 검색'으로 집중되고 있다는 것을 보여준다.

이같은 개인화 검색이 시맨틱 웹과 결합하면서 새로운 검색 기술로 발전하고 있다. 시맨틱웹은 문서의 의미정보와 문서 사이의 연관정보를 표현하는 RDF(Resource Description Framework), 제약조건 로직을 표현하도록 확장된 언어인 온톨로지(Ontology) 등 이를 이용해 용어들 간의 계층구조, 연관관계를 정해 지식을 표현하는 기술이다.

◆개인화 검색에 뛰어든 업체들

시맨틱 웹의 궁극적 목표는 개인화 검색이다. 같은 키워드나 자연어로 검색하더라도 축적된 이용자의 검색 트렌드에 따라 차별화된 검색 결과물을 보여주는 것, 이러한 검색 결과물을 의미 분석을 통해 나열해 준다.

시멘틱스도 시맨틱 웹 검색에 뛰어든 기업이다. 시멘틱스 이수웅 본부장은 "시멘틱스가 보유한 검색엔진 큐로보는 특정 사이트가 아니라 온전한 시맨틱 방식의 검색엔진을 구축한 것"이라고 설명했다.

시맨틱 방식의 검색로직은 단어가 가지고 있는 의미를 뿌려주는 것이고 단어를 수집, 단어가 어떤 의미를 지니느냐에 따라 랭킹방식의 구글과 다르다고 말했다. 키워드 의미분석을 통해 개인에게 최적화된 검색결과를 보여준다는 분석이다.

이 본부장은 "현존하는 모든 검색은 단어별 사전에 바탕을 둔 것"이라며 "반면 우리가 보유한 큐로보 검색엔진은 웹상에 있는 한 문서를 열어 이를 분류하는 작업을 기반으로 진행된다"고 말했다.

큐로보를 통해 의미검색이 가능하기 때문에 키워드를 쳤을 때 로봇이 이 키워드를 친 사람이 무엇에 관심을 가지는지 파악이 가능하다는 것이다. 이 본부장은 "키워드 입력시 뉴스, 블로그, 웹문서 검색 분류 위에 '한뼘 요약' '한뼘 키워드'가 나오는 데 이것이 시맨틱 웹의 특장점인 의미추론"이라고 지적했다.

시멘틱스는 조만간 개인화 검색 서비스를 선보일 예정이다. 한 개인이 로그인 후 검색하는 이용자가 앞으로 이용할 수 있는 서비스 개념이다. 즉 해당 이용자의 검색 관심 분야, 카테고리 등을 평소에 축적해 뒀다가 이를 활용하는 것. 특정 분야를 선호하는 기호에 따라 검색결과가 이용자가 관심 가지고 있는 방향으로 편집된다.

'빅뱅'이라는 똑같은 키워드로 검색하더라도 음악, 가요, 연예 쪽에 치우쳐 있는 이용자에게는 가수 빅뱅이 메인 검색 화면에 뜨고 우주 현상 빅뱅에 대해 관심을 가지고 있는 이용자에게는 우주현상 빅뱅에 관련한 내용이 메인으로 표출되는 식이다.

이 본부장은 "개인화 검색이 가능해지면 개인별 기호와 관심사를 고려한 맞춤검색광고 또한 가능해진다"며 "우리가 장기적으로 생각하는 주된 수익원"이라고 강조했다. 시멘틱스는 개인화검색 서비스를 1~2개월 내에 도입할 예정이다.

프로토마 권호기 대표는 시맨틱웹의 특징으로 ▲토픽맵 솔루션(시멘틱웹 기반) ▲온톨리지(컴퓨터가 스스로 추론하는 것) ▲의미론(의미기반의 웹) 등을 들었다.

시맨틱 웹은 추론기능이 가능하다고 설명했다. A가 B의 아버지고 B가 C의 아버지면 A가 C의 조부라는 추론이 가능한 것이 시맨틱 웹이라는 설명이다. 프로토마는 강남구청 민원행정시스팀을 구축했다.

강남구청 홈페이지에서 '혼인신고담당부서'를 검색하면 '민원여권과'가 나온다. 그렇다면 이를 검색한 개인은 그 다음 무엇이 필요할까? 이러한 고민을 연관시켜 혼인신고에 필요한 서식과 신고절차에 대한 Q&A로 연결시켜 주는 형식이다. 웹이 일종의 콜센터 역할을 하면서 2, 3차례 질문하지 않도록 한다.

권 사장은 "네덜란드의 전자정부시스템이 시맨틱 웹으로 구축돼 있다"며 "전체 웹을 시맨틱 웹으로 구축하기는 아직 초기단계"라고 설명했다. 앞으로 분야별로 엮어 이를 전체로 연결시키는 작업을 진행중이라고 밝혔다.

그는 "강남구청의 의뢰를 받아 행정민원시스템을 구축해 놓은 것 처럼 하나하나 만들어나가면 조금씩 완성될 것"이라며 "시맨틱 웹이 앞으로 대세가 될 것이라고 예상하고 있지만 우리의 경우 세계 변화에 뒤쳐져 있다"고 지적했다.

프로토마는 앞으로 ▲디지털교과서 ▲의료분야 ▲소셜 네트워크 서비스(SNS) 등을 시맨틱 웹으로 구축해 나갈 예정이다. 권 사장은 "현재 14명의 인력으로 연구개발하고 있고 3년내 매출 60억원을 일구는게 목표"라고 말했다.

권 사장은 "2010년쯤 되면 시맨틱 웹이 보편화 될 것"이라고 내다봤다.

◆이미지, 동영상 검색도 관심

웹 2.0시대, 또다른 차세대 검색 서비스로는 이미지, 동영상 검색 등이 있다. 그러나 기술 자체의 난이도, 수요 부족, 시장성 미검증 등의 원인으로 상용화에서는 아직 걸음마 단계에 머물러 있다.

이미지 검색은 말 그대로 이미지에 나타난 형태를 인식해 검색하는 방법이다. 현재 포털에서 제공하고 있는 '이미지 검색'은 사실상 '텍스트 검색'으로 이미지에 달린 제목이나 태그 등을 이용해 검색하는 것이다.

이미지 검색은 기술적으로 텍스트 검색보다 어렵고 수요가 없다 보니 광고 수익과 연계도 여러워 전면적으로 상용화에는 들어가지 못한 현실이다. 텍스트는 기본이 단어와 형태소, 어절 등 단위별로 매치를 시켜 데이터를 가져오는 것에서부터 시작하지만 이미지는 색깔, 프레임, 인물 등 그림 안의 갖가지 수많은 변수들을 잡아내야 한다.

만약 '물체'를 검색했다고 가정하자. 텍스트로 검색한다면 '물체'와 관련된 단어, 문장 등의 검색결과를 제시할 것이다. 그러나 이미지 혹은 동영상이 사용자가 생각하는 것과 차이가 더 크기 때문이다.

그러나 현재 이미지 검색의 기술 수준은 제한적 용도 하에서 상용화가 가능한 수준에 올라 있다. A검색업체에 익명을  조건으로 현재 개발 중인 이미지 검색 기술의 시연을 부탁했다. 기본 '바다'라는 텍스트 검색값을 입력하면 바다와 관련된 사진들이 뜬다. 거기에 색깔, 구도, 사람수 등의 이미지를 재인할 수 있는 변수를 입력하면 해당되는 사진을 찾아준다.

최근 포털 파란에서 내 놓은 '얼굴 검색'을 제외하고는 실제 상용화된 예는 많지 않다. '얼굴 검색'은 자신의 얼굴을 입력하고 연예인과 닮은꼴 얼굴 등을 비교해볼 수 있는 흥미성 서비스다. 이 기술을 파란에 제공하는 올라웍스의 김재성 차장은 "사람에게서 눈, 코, 입 등 얼굴의 특징값을 추출해 비교한 다음 이 사람이 맞는지 검색하는 방식"이라고 설명했다.

아직 시작 단계지만 파란은 이 서비스를 매출과 직결시키겠다는 의지를 보이고 있다. 심철민 파란서비스본부장은 "사진뿐 아니라 동영상 속 인물 검색이나 다양한 소품 검색 등의 개발을 통해 추후 연관 광고 및 커머스 상품으로까지 서비스 영역을 확대할 계획"이라고 밝혔다.

그러면 동영상 검색을 살펴보자. 동영상 검색의 핵심 기술은 '비디오 DNA(디엔에이)'. 비디오DNA는 영상의 색깔, 외곽선, 음성 등의 데이터를 뽑아 부여한 특수한 값이다. 혈액형이나 염색체로 사람을 구분하듯이 비디오DNA로 한 영상과 다른 영상을 매치할 수 있다.

이는 저작권 관련 이슈에 가장 유용할 것으로 보인다. B검색업체의 한 엔지니어는 "이 기술이 상용화된다면 저작권자가 웹상에 불법으로 퍼져 있는 동영상 파일을 적발하는 데 수월할 것"이라며 "그 정도 수준에서 사용할 수 있는 기술 수준을 이미 갖췄다"고 말했다. 방송사의 영상 콘텐츠라면 영상 귀퉁이에 있는 방송사 워터마크를 추적해 적발하는 기술도 완성돼 있다.

코난테크놀로지의 양승현 상무이사는 "아무래도 동영상 검색은 저작권 이슈에서 많이 사용되지 않을까 한다"며 "만약 사람 얼굴을 인식해 출입을 허가하는 보안 관련 제품에 쓰인다면 1%만 매치를 못해도 큰 잘못인데, 저작권은 전체 중 절반만 찾아도 성공하는 것이기 때문에 수요가 생길 것"이라고 내다봤다.

그러면 차세대 검색 서비스가 널리 쓰일 수 있는 시기는 언제쯤일까?

올라웍스의 김대성 차장은 "콘텐츠 자체가 이미지와 영상 위주로 바뀌고 있는데 비디오에 대한 수요가 발생할 것이고 기술적인 구현성이 완성된다면 결국 검색을 통해 매출을 발생시킬 수 있는 광고와 연결시킬 수 있지 않겠나"라고 전망했다.

코난테크놀로지의 양 이사는 "과거 미국에서 동영상 검색을 시도했던 업체가 실패한 적이 있었는데, 주 원인은 콘텐츠의 부족"이라며 "수익성은 차치하더라도 웹에 쌓여 있는 사진과 동영상의 콘텐츠의 양을 보면 안 하려야 안 할 수 없을 것이다. 과거 선발자들보다 토양이 나아진 것은 사실"이라고 말했다.

한편 콘텐츠도 중요하지만 사용자 행동(User behavior) 데이터의 중요성을 역설하는 시각도 있었다.

모란소프트의 조영환 대표는 "앞으로는 콘텐츠보다 로그인 기반 서비스에서 축적되는 사용자 행동 데이터가 더 중요해질 것"이라며 "콘텐츠의 중요성은 시간이 갈수록 큰 변동이 없는 반면 사용자 행동 데이터의 중요성이 급격히 증가할 것이기 때문에, 사용자 행동이 콘텐츠의 중요성을 앞지르는 시기가 차세대 검색 상용화의 변곡점이 될 것"이라고 말했다.

/인터넷팀 feel@inews24.com

강아지, 고양이도 타로를 본다? 꽁냥꽁냥 펫타로
매주 목요일 오후 6시 스타카페 라부에노

관련기사


포토뉴스









아이뉴스24 TV