[데이터링]"AI 학습데이터, 개인정보 이용형태와 달라…넓은 범위로 허용돼야"

[아이뉴스24 박진영 기자] 인공지능(AI) 업계에서는 최근 오픈AI가 공개한 '챗 GPT'가 화제인 가운데 AI가 내놓은 결과물에 대한 저작권 문제는 물론, 데이터 편향성 문제, 개인정보가 포함된 데이터 활용에 대한 논의가 진행됐다.

개인정보보호위원회는 21일 서울 중구 서울중앙우체국 대회의실에서 인공지능 및 로봇 산업과 개인정보를 주제로 '2022-2023 개인정보 미래포럼 6차 회의'를 개최했다.

이번 회의는 '기술의 시대, 미래산업과 프라이버시 조화'를 대주제로 진행하는 세 번째 토론회로, 고학수 개인정보위 위원장과 윤종수 민간의장, 미래포럼 위원 등 20여 명이 참석한 가운데 진행됐다.

AI기술의 공정성과 편향성을 개선하기 위해 방대한 데이터가 필수다. 특히, AI학습 모델에서 데이터 활용의 경우 일반적인 개인정보 이용형태와 다르기에 범위를 넓게 허용할 필요가 있다는 의견이 나왔다.

이날 토론에서 최성진 코리아스타트업포럼 대표는 "AI개발에 활용되는 데이터의 적합한 처리 범위를 확대할 필요가 있다"면서 "AI품질을 높이기 위해 학습되는 데이터가 30억건이라 해도 많은게 아니다. 개인정보가 어느 정도 포함됐더라도 프라이버시 침해 없이 AI학습과정에 적법하게 처리, 활용할 수 있는 방안을 모색할 필요가 있다"고 밝혔다.

이어 "AI가 만든 결과물에서 개인정보가 유출되는 것은 보통 AI 품질의 문제"라면서 "결과물을 만드는 알고리즘은 물론이지만 이용자에게 제공하기 전게 개인정보가 유출되지 않도록 충분한 조치를 취할 필요가 있다"고 전했다.

장준영 쿠팡 정보보호 법무책임자도 "초거대AI 모델 개발을 위해 엄청난 데이터가 필요한데, 데이터 수집 이용 과정에서 매번 적법성을 따지는 것이 필요한지 논의할 필요가 있다"면서 "기업이 AI알고리즘 개발에만 데이터를 활용할 경우, 그 행위가 개인정보 이용으로 볼 수 있는지 고려해 볼 필요가 있다"고 밝혔다.

아울러 '초 대규모 AI 생태계의 현재와 미래'로 발제를 맡은 하정우 네이버 AI 연구소장은 방대한 데이터를 활용해도 AI의 편향성 문제는 생길 수 밖에 없는 한계가 있다고 지적하면서, 초거대AI와 같은 초기 모델을 구축하고 추가학습을 통해 분야별 맞춤형 AI를 만들어갈 필요가 있다고 강조했다.

하정우 소장은 "데이터를 많이 활용할수록 AI의 인지 기능 측면에서는 편향성이나 공정성 부분이 훨씬 개선될 수 있다"면서 "다만, 학습한 데이터를 기반으로 완전히 새로운 것을 만들어내는 생성 기능은 다른 문제"라고 밝혔다.

이어 "일례로 AI가 말을 타고 있는 우주인은 잘 그리지만, 우주인을 타고 있는 말은 그리기 어렵다. 이는 일반적인 데이터가 적기 때문이다. 비슷하게 먹는용 연어 이미지는 많지만 물고기 연어가 적기에 생물 연어를 그리기 어려울 수 있다"면서 "이러한 한계를 극복하기 위해 초거대AI 기본 모델에서 추가학습을 통해 문제를 풀 수 있는 파인튜닝 과정이 필요하다"고 전했다.

또 하 소장은 네이버 초거대AI 하이퍼클로바에 활용된 학습데이터 선별 기준이 무엇이냐는 질의에 "법적 근거에 기반해 적법하게 활용 가능한 데이터를 사용했다. 네이버 블로그, 카페, 뉴스 등 데이터는 서비스 개선을 위해 활용할 수 있도록 동의를 받았기에 5천600억 단어 중 3천억개를 AI학습에 활용했다"고 밝혔다.

이어 "네이버 내부적으로 서비스 개선을 위해 동의받은 데이터를 활용한만큼 초거대AI모델을 외부에 공개하지 못하고 있는 현실"이라면서 "이는 법적으로 논의할 필요가 있는 부분"이라고 전했다.

이날 고학수 개인정보위 위원장은 "AI의 경우 기술개발이 급속하게 이뤄지고 있는 만큼 현실적인 가이드라인을 지속적으로 업데이트할 필요가 있다. AI업계와 지속적으로 소통하면서 피드백을 적극 반영해 나갈 것"이라면서 "현재 국회 논의 중인 개인정보보호법이 개정되면, 국민들이 디지털프랜스포메이션을 체화할 수 있도록 위원회 차원에서 보다 적극적으로 나설 것"이라고 말했다.

한편, 개인정보위는 다음 달 ‘생애주기 전 과정에서 개인정보 안심사회 구현’을 주제로 제7차 토론회를 개최할 계획이다.

/박진영 기자(sunlight@inews24.com)

[데이터링]"AI 학습데이터, 개인정보 이용형태와 달라…넓은 범위로 허용돼야"

개인정보위, '인공지능·로봇 산업과 개인정보' 주제로 미래포럼 개최

주요뉴스

댓글 쓰기 ^제목 [데이터링]"AI 학습데이터, 개인정보 이용형태와 달라…넓은 범위로 허용돼야"

댓글-

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순

개인정보위, '인공지능·로봇 산업과 개인정보' 주제로 미래포럼 개최

관련기사

주요뉴스새로고침

댓글 쓰기 제목 [데이터링]"AI 학습데이터, 개인정보 이용형태와 달라…넓은 범위로 허용돼야"

뉴스톡톡 인기 댓글을 확인해보세요. 정렬 인기순 최신순

주요뉴스

댓글 쓰기 ^제목 [데이터링]"AI 학습데이터, 개인정보 이용형태와 달라…넓은 범위로 허용돼야"

뉴스톡톡 _{인기 댓글을 확인해보세요.}

정렬 인기순 최신순