마인즈랩 "데이터, 양 보다 질…목적에 맞게 정제해야"


최홍섭 대표 "정제된 데이터셋으로 코로나 연구 기여"…K-DA 데이터 콘퍼런스

[아이뉴스24 최은정 기자] "데이터가 유의미하게 사용되기 위해서는 단순히 데이터를 모으고 인공지능(AI)를 활용하는 데 주안점을 두는 것보다 높은 가치를 지니도록 데이터를 정제하는 것이 더욱 중요하다"

최홍섭 마인즈랩 대표는 27일 서울 용산 서울드래곤시티호텔 그랜드볼룸에서 열린 'K-DA 데이터 콘퍼런스' 행사에서 이 같이 강조했다. 잘 정제만 된다면  적은 양의 데이터라도 사업 운영에 필요한 고품질의 데이터셋이 될 수 있다는 게 그의 얘기다.

실제로 마인즈랩의 경우 자사의 정제된 데이터셋을 기반으로 코로나19 관련 연구 성과에서 성과를 내고 있다. 옥스포드대는 캘리포니아주의 코로나19 확진자 DNA와 마인즈랩의 데이터셋에 포함된 국내 코로나19 감염경로를 대조했다.

최홍섭 마인즈랩 대표 [이미지=캡처]

이를 통해 8종의 코로나19 바이러스가 캘리포니아에 퍼졌으며, 타 국가나 주에서 유입된 인구들이 큰 감염 요소였다는 등의 결과를 도출할 수 있었다는 게 그의 설명이다.

최 대표는 "로컬 데이터셋이 글로벌한 코로나19 감염 패턴을 예측하는 데 쓰인 것"이라며 "이는 데이터셋을 잘 정제했기에 가능했던 것"이라고 말했다. 또한 "포스트 코로나 시대에는 데이터를 잘 정제해 활용하는 능력이 더욱 중요질 것"이라고 내다봤다.

마인즈랩은 이 데이터셋을 확보하는 과정에서 AI 기술인 자연어 전처리 기술을 활용했다. 각종 비정형 데이터를 정형 데이터로 바꾸기 위해서다.

그는 "가공되지 않은 대규모의 원 데이터 보다 적은 양이더라도 공들여 연구분석에 활용할 수 있도록 만든 데이터가 더욱 가치있다"고 덧붙였다.

아울러 그는 최근 스타트업 등 기업들 대부분이 도입하는 AI를 사업 목적에 맞게 제대로 활용해야 한다고 조언했다. 사업 서비스 모델을 오픈해서 데이터가 모이면 이 데이터를 목적에 맞게 AI 학습용 데이터로 정제 가공하고, 이를 통해 AI를 고도화하는 등 방안을 제시했다.

그는 AI 모델을 학습시키는 데이터 역시 이런 고품질의 데이터가 기반이 돼야 한다고 했다.

최 대표는 "AI를 완성시키기 위해선 데이터, 알고리즘, 클라우드, 애플리케이션, 하드웨어 등까지 여러 단계의 기술이 융합돼야 하겠지만 원 데이터가 아닌 정제된 데이터로 학습시키는 것이 필요하다"고 말했다.

최은정 기자 ejc@inews24.com





포토뉴스