[IT사이트] 'AI' 답게 만든다…'데이터 라벨링'


크라우드웍스, 슈퍼브에이아이 등 국내 스타트업 활약

정보통신기술(ICT)이 급격하게 진화발전하면서 현안에 대한 복잡성도 더욱 증대되고 있다. 때문에, 디지털 정보에 뒤쳐진 이들의 소외감도 증가하고 있는 실정이다. 이에 다소 난해한 ICT 용어를 풀어 설명할 수 있는 ICT 리터러시 코너를 마련해봤다. 어려운 ICT를 보다 쉽게 접할 수 있는 기회가 되기를 바란다. [편집자주]
자율주행 오토라벨링 [사진=슈퍼브에이아이]

[아이뉴스24 박진영 기자] 인공지능(AI) 고도화를 위해서는 데이터가 필수적이다. 그런데 AI는 문서나 사진 등 비정형 데이터를 스스로 식별할 수 없다. AI가 스스로 학습할 수 있는 형태로 데이터를 가공하는 작업이 필요한데, 이를 '데이터 라벨링'이라고 한다.

데이터라벨링은 수많은 비정형 데이터들을 AI가 학습할 수 있도록 각 원천데이터에 이름(라벨)을 붙이는 작업이다. AI 고도화의 핵심과정인 만큼 'AI를 만드는 AI'라는 수식이 붙기도 한다. 이 작업을 하는 사람을 '데이터 라벨러'라고 부른다.

예를 들어, 강아지 사진과 동영상 등에 대해 데이터 라벨러가 '강아지'라고 라벨을 붙이면, AI는 이러한 데이터들을 학습하면서 유사한 이미지를 강아지라고 인식하게 된다.

이전에는 없던 기술이 등장함에 따라 새로운 일자리가 생긴 것이다. 정부는 지난해 5월 공공 및 청년일자리 창출계획과 7월 한국판 뉴딜 종합계획에서 데이터 라벨링을 위한 청년 일자리 10만 개를 만들겠다고 밝힌 바 있다.

특히, 데이터라벨러는 직장인들의 '부업'으로 각광받고 있는 상황이다.

크라우드웍스의 '2020 데이터 라벨러 현황 조사'에 따르면, 국내에서 활동 중인 데이터 라벨러의 43.8%는 일반 회사에 다니는 직장인인 것으로 나타났다. 또 본업이 있지만 부수적 경제활동으로 데이터 라벨러를 병행하고 있다고 응답한 인원은 55.6%로 과반수가 넘었다.

이에 따라 데이터라벨링을 전문으로 다루는 스타트업들의 활약도 눈에 띈다.

국내 데이터 라벨링 기업으로 '크라우드웍스'가 있다. AI기술 고도화를 위해 필요한 데이터를 수집·가공하는 AI 학습데이터 플랫폼 회사다.

회사는 데이터라벨링 작업을 위해 일반 대중도 참여할 수 있는 '크라우드소싱' 방식을 도입했다. 국내외 다양한 연령층의 회원 25만 명의 데이터라벨러와 AI 수요기업을 연결해주며 데이터 가공 시간과 비용은 절감하고 일자리 창출에 기여하고 있다고 설명했다.

크라우드웍스는 자체 기술력이 적용된 검수 시스템으로 부적합 데이터를 분류하는 재작업을 의무화해 라벨링 정확도를 높이고 있다. 또 데이터 품질 향상을 위해 '크라우드웍스 아카데미'를 도입, 데이터 라벨러 전문 교육을 진행하고 있다.

크라우드웍스 측은 "데이터 생산성 및 품질 관리 강화를 위해 데이터라벨링 전문 교육 서비스를 확대하고, 데이터 품질 관리 프레임워크 고도화와 함께 기술력 기반 검수 시스템 강화 등을 순차적으로 진행할 계획"이라고 밝혔다.

이 가운데 사람이 일일이 라벨링 작업을 해야 했기에 '디지털 노가다'라는 이름이 붙었는데, 수작업의 번거로움을 줄이고 과정의 정확성과 효율성을 높이는 기술도 나왔다.

AI 데이터 플랫폼 기업 슈퍼브에이아이는 이같은 수작업을 자동화한 '오토라벨링'을 선보였다. AI가 1차로 단순 반복 작업인 데이터 라벨링을 진행하면, 사람은 AI가 검수를 요청한 부분만 확인하면 된다. 이를 통해 수동 작업 대비 약 10배의 속도를 향상시켜 생산성을 극대화했다고 회사 측은 설명했다.

특히, 데이터 처리에 섬세한 분류가 필요한 자율주행 분야에서 작업효율을 대폭 향상 시켰다. 자율주행의 경우 하나의 이미지 안에도 라벨링을 해야 하는 객체 수가 많아 데이터 처리 작업 소요 시간이 타 분야 대비 많이 긴 편이다.

회사는 올해 4월부터 공항 내 교통 약자 지원을 위한 자율주행 시스템 개발 프로젝트 데이터 구축 작업에 회사의 데이터 플랫폼인 '스위트'의 오토라벨링이 활용되고 있다고 설명했다. 

슈퍼브에이아이 측은 "오토라벨링은 작업별 난이도를 산출하고, 이에 따라 사람의 검수가 필요한 작업이 무엇인지 스스로 판단한다"면서, "사람이 직접 손으로 단순 데이터 라벨링을 하는 작업은 거의 사라지고, 난이도가 높은 일부 작업에 대해서만 검수가 진행돼 작업의 생산성을 향상시켰다"고 밝혔다.

크라우드웍스도 데이터 라벨링 자동화 서비스를 준비 중이다. 컴퓨터비전 기술을 보유한 딥픽셀과 손을 잡고, '휴먼 인더 루프' 기술을 적용한 데이터 라벨링 서비스를 올 하반기 내 출시할 예정이다.

이미지 데이터의 윤곽선을 정밀하게 인식·분석하는 컴퓨터비전 기술이 데이터 라벨링 자동화 솔루션에 적용되면, 보다 정교하고 정확한 이미지 데이터 추출이 가능해질 것으로 기대된다.

크라우드웍스 관계자는 "AI가 사람을 도와주고 사람이 AI를 도와주는 방향으로 AI와 사람이 공존할 수 있도록 데이터라벨링 솔루션을 고도화할 방침이다"고 밝혔다.

/박진영 기자(sunlight@inews24.com)







포토뉴스