현재 데이터 라벨링 사업은 전면 재수정이 불가피

▲ GPT4. 사진=연합뉴스
▲ GPT4. 사진=연합뉴스

[일간투데이 배상익 기자] 정부는 이르면 이번 주 안으로 생성 AI 시대에 걸맞은 인공지능 정책을 발표할 예정이다.

국내 파운데이션 모델 개발 지원과 더불어 특화된 분야의 AI 기술 강화(파인튜닝)를 통한 버티컬 생태계 지원 등이 담길 것으로 알려졌다.

12일 정부의 디지털 뉴딜 정책 설명(2020년 발표)에 따르면 정부는 데이터 라벨링에 대해 3년이 지난 현재 데이터 라벨링 사업은 전면 재수정이 불가피해졌다. GPT 시리즈 등장 때문이다.

따라서 챗GPT 등장으로 상징되는 생성형 인공지능(AI) 기술이 정보기술(IT) 분야에 대변혁을 가져오면서 정부의 AI 정책을 포함한 디지털 산업 정책 전반에도 수정이 불가피해졌다.

대표적인 것이 지난 정부 '한국판 뉴딜' 사업의 하나인 디지털 뉴딜에서 시작한 데이터 라벨링 사업이다. 

과학기술정보통신부는 이 사업을 생성 AI 시대에 맞춰 혁신하는 방안을 추진 중이다.

GPT 등장 전에 법률 전문 도서를 분석해 판결 해석 초거대 AI 서비스를 만들려고 했을 때 라벨이 붙은 데이터가 10만건이 필요했다. 하지만 지금은 1만건으로 필요 데이터양이 대폭 줄었다.

챗GPT 같은 인공 신경망을 사용한 생성형 AI는 '토큰'이라고 부르는 사전학습 대상이 된 데이터를 써서 정확도를 높였기 때문에 라벨링 데이터가 예전처럼 대량 필요하지 않게 된 영향이다.

과기정통부도 이를 인식하고 데이터 라벨링 사업을 생성 AI 시대에 맞게 변형하는 것을 검토 중이다.

지난달 말 공고된 올해 인공지능 학습용 데이터 구축 지원사업 예산은 2천188억원으로 확정됐지만 내년부터 규모가 축소되거나 현재 118종 데이터로 구성된 지원 과업 분야가 바뀔 가능성이 높은 것으로 관측된다.

다만, 데이터 라벨링 사업이 전면 폐기되는 것은 아니라 생성 AI 시대에도 고품질(Fine Tuned) 데이터 라벨링을 통한 지도학습이 꼭 필요하기 때문이다.

생성 AI 파고가 국내 IT 업계를 덮치면서 오픈AI의 GPT 기술과 연동한 응용 서비스가 우후죽순으로 탄생하고 있는 가운데 정책 당국은 국내 AI 업계 지원 방향을 두고 장고 중이다.

최근 챗GPT에 외부 정보와 서비스를 불러와 사용할 수 있는 '플러그인'(plugin) 기능이 출시되면서 GPT와 연결(API)을 통해 AI 경쟁력을 확보하려는 국내 스타트업이 많아지며 고민이 더 깊어졌다는 것이다.

하지만, GPT 활용이 대세가 되면 그동안 구축한 라벨링 데이터가 무용지물이 될 가능성뿐 아니라 국내에서 발생하는 데이터가 오픈AI로 흡수될 우려도 크다는 게 정부 고민이다. 

따라서 해외 AI 거인 기업이 정책을 바꾸면 국내 업계가 타격을 받을 기술 종속 우려도 나온다.

국내 스타트업이라고 해서 모두 GPT 기술만 바라보는 것도 아니다. 

레플리, 스캐터랩 등 대화 서비스 전용의 파운데이션 모델(근간이 되는 AI)을 개발하는 기업들을 정부가 적극 지원해 데이터 수집, AI 모델 개발, 서비스 단계로 이어지는 수직적(버티컬) 생태계를 구성해야 한다는 요구가 나오는 대목이다.
 

저작권자 © 일간투데이 무단전재 및 재배포 금지