실시간 뉴스



"글·사진·음성 어떤 질문에도 수준 높은 답변"⋯네이버클라우드, 옴니모달 모델 공개


옴니모달 모델, 차세대 AI 기술로 주목⋯단계적 스케일업 등으로 일상·산업 AI 전환 속도
시각·음성·도구 역량 더한 고성능 추론 모델⋯"2026학년도 수능 영어와 한국사 만점"

[아이뉴스24 정유림 기자] 네이버클라우드는 과학기술정보통신부의 독자 인공지능(AI) 파운데이션 모델 프로젝트 주관 사업자로서 추진 중인 옴니 파운데이션 모델(다양한 형태의 데이터를 이해하고 생성) 개발 과제의 성과를 29일 공개했다. AI에 글·사진·음성 중 어떤 형태로 질문하더라도 일관되게 높은 수준의 이해와 답변을 제공하는 역량을 갖췄다고 회사 측은 강조했다.

텍스트(글)와 이미지의 맥락을 함께 이해해 결과물을 만들어내는 네이티브 옴니모델(HyperCLOVA X SEED 8B Omni) 예시 [사진=네이버클라우드]
텍스트(글)와 이미지의 맥락을 함께 이해해 결과물을 만들어내는 네이티브 옴니모델(HyperCLOVA X SEED 8B Omni) 예시 [사진=네이버클라우드]

네이버클라우드는 국내에서 처음으로 네이티브 옴니모달(다양한 형태의 정보를 처음부터 하나의 통합된 방식(네이티브)으로 이해하고 처리) 구조를 적용한 파운데이션 모델인 네이티브 옴니모델(HyperCLOVA X SEED 8B Omni)과 기존 추론형 AI에 시각·음성·도구 활용 역량을 더한 고성능 추론 모델(HyperCLOVA X SEED 32B Think)을 각각 오픈소스로 공개하며 일상과 산업 현장에서 누구나 활용할 수 있도록 했다.

이번에 공개된 옴니모달 모델은 텍스트(글)·이미지·오디오 등 서로 다른 형태의 데이터를 단일 모델에서 처음부터 함께 학습하는 네이티브 옴니모달 구조를 전면 적용한 모델이다. 옴니모달 AI는 정보의 형태가 달라지더라도 하나의 의미 공간에서 맥락을 통합적으로 이해할 수 있어 말과 글, 시각·음성 정보가 복합적으로 오가는 현실 환경에서 활용도가 높은 차세대 AI 기술로 주목받고 있다.

네이버클라우드는 이 모델의 역량과 성능 검증을 위해 4개의 글로벌 멀티모달 거대언어모델(LLM)을 비교군으로 정했으며 다양한 시나리오로 모델을 검증하기 위해 대표 벤치마크 13개를 선정해 평가했다고 밝혔다.

텍스트(글)와 이미지의 맥락을 함께 이해해 결과물을 만들어내는 네이티브 옴니모델(HyperCLOVA X SEED 8B Omni) 예시 [사진=네이버클라우드]
텍스트(글)와 이미지의 맥락을 함께 이해해 결과물을 만들어내는 네이티브 옴니모델(HyperCLOVA X SEED 8B Omni) 성능 비교 표 [사진=네이버클라우드]

네이버클라우드 측은 "다른 AI 모델은 '오디오 투 오디오(음성을 인식하고 다른 형태의 음성으로 변환하거나 처리)' 같은 일부 입출력은 지원을 못한 반면, 회사의 AI 모델은 어떠한 입출력이든 고르게 지원하고 있음을 확인할 수 있었다"며 "텍스트 투 비전(글 설명을 토대로 이미지, 비디오 등 시각적 콘텐츠를 생성)'처럼 특정 입출력 조합에만 강점을 보이는 모델에 뒤처지지 않고 모든 조합에서 고르게 높은 점수를 기록하며 균형 잡힌 성능을 입증했는데 이는 이용자가 글·사진·음성 중 어떤 형태로 질문하더라도 일관되게 높은 수준의 이해와 답변을 제공해 줄 수 있음을 보여준다"고 강조했다.

이 모델은 텍스트 지시를 기반으로 이미지를 생성·편집하는 옴니모달 생성 기능도 갖췄다. 텍스트와 이미지의 맥락을 함께 이해해 의미를 반영한 결과물을 만들어내는 방식으로, 단일 모델에서 텍스트 이해와 이미지 생성·편집을 자연스럽게 수행한다. 이는 글로벌 선두 AI 모델들이 제공해 온 기능으로, 네이버클라우드는 이번 모델을 통해 멀티모달 생성 역량을 확보했음을 보여줬다고 자평했다.

텍스트(글)와 이미지의 맥락을 함께 이해해 결과물을 만들어내는 네이티브 옴니모델(HyperCLOVA X SEED 8B Omni) 예시 [사진=네이버클라우드]
고성능 추론 모델(HyperCLOVA X SEED 32B Think)의 영역별 벤치마크 점수 [사진=네이버클라우드]

고성능 추론 모델의 경우 AI 평가 기관인 아티피셜 애널리시스가 종합 지식·고난도 추론·코딩·에이전트형 과제 등 10개 주요 벤치마크를 종합해 산출한 지수 기준에서 글로벌 주요 AI 모델들과 유사한 성능 범위에 위치한 것으로 나타났다.

영역별 평가에서는 특히 실사용과 밀접한 항목에서 경쟁력을 보였다. 한국어 기반 종합 지식, 시각 이해, 실제로 도구를 활용해 문제를 해결하는 에이전트 수행 능력 등 주요 능력 항목에서 글로벌 모델과 비교해 우수한 성능을 기록하며 복합적인 문제 해결 역량을 보였다.

네이버클라우드는 이 모델로 올해 대학수학능력시험 문제를 풀이한 결과, 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급에 해당하는 성과를 거뒀다고 밝혔다. 영어와 한국사에서는 만점을 기록했다. 회사 측은 다수의 AI 모델이 문제를 글(문자)로 변환해 입력해야 하는 방식과 달리 이 모델은 이미지 입력을 직접 이해해 문제를 해결했다는 점에서 차별화된다고 덧붙였다.

네이버클라우드는 이번 AI 모델을 기반으로 검색·커머스(쇼핑)·콘텐츠·공공·산업 현장 등 다양한 영역에서 활용 가능한 AI 에이전트를 단계적으로 확장하며 '모두의 AI' 실현을 위한 기술 생태계 구축에 속도를 낸다.

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 "텍스트(글)·시각·음성 등 AI의 감각을 수평적으로 확장하는 동시에 사고와 추론 능력을 함께 강화했을 때 현실 문제 해결력이 크게 높아진다는 점을 확인했다"며 "이러한 기본기를 갖춘 구조 위에서 점진적으로 규모를 확장해야 크기만 큰 모델이 아닌, 실제로 쓰임새 있는 AI로 발전할 수 있다고 보고 이를 토대로 '스케일업'을 이어갈 계획"이라고 밝혔다.

/정유림 기자(2yclever@inews24.com)




주요뉴스



alert

댓글 쓰기 제목 "글·사진·음성 어떤 질문에도 수준 높은 답변"⋯네이버클라우드, 옴니모달 모델 공개

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중

뉴스톡톡 인기 댓글을 확인해보세요.



포토뉴스