감성 대화 말뭉치 AI 데이터구축 수행기업
긍정적 감정 유도 챗봇 개발 전망

▲ 미디어젠 조직도. 자료=미디어젠 홈페이지 캡처

[일간투데이 유경석 기자] AI 로봇 에리카와 시시콜콜 대화할 수 있을까. 로봇이 영화에서 주인공으로 발탁돼 화제가 되고 있는 가운데 감성대화 AI 데이터 구축사업이 추진돼 기대를 모으고 있다.

1일 음성기반 인공지능(AI) 전문기업인 미디어젠(대표 고훈)에 따르면 한국정보화진흥원(NIA)이 추진하는 2020 인공지능(AI) 학습용 데이터 구축사업에 선정됐다.

미디어젠은 음성 플랫폼(Speech Platform) 또는 음성대화시스템(SDS : Speech Dialogue System)으로 불리는 다국어 처리 및 대화 모듈을 포괄하고 있는 'TIMA'가 주력제품이다. 차량 음성 서비스 기술은 음성을 듣고 문자로 바꿔주는 음성인식(ASR) 기술, 문자를 음성으로 되살리는 음성 합성(TTS) 기술, 인식된 음성의 의미를 이해하고 차량 내 다양한 기능과 연결해주는 음성 콘트롤 엔진(VCE) 기술로 구분된다.

2020 인공지능(AI) 학습용 데이터 구축 사업은 산업적 활용 가치가 높으며 데이터 확보가 시급한 스무 가지 분야를 선정해 양질의 AI 학습용 데이터를 대규모로 저장하고 필요에 따라 개방하기 위한 목적으로 운영된다.

미디어젠은 딥러닝 기반 감성대화 서비스 인공지능 챗봇 개발용 AI 말뭉치 데이터 구축에 참여한다. 오는 11월 30일까지 데이터 구축 및 딥러닝 모델 개발을 수행할 예정이다.

이 과제를 통해 구축할 감성대화 말뭉치 데이터는 여러 감정과 상황에서 사람이 표출할 수 있는 다양한 음성 발화(말하기) 표현과 응답 대화를 기반으로 수집된다. 사람의 감정적인 발화에 대해 긍정적인 감정을 유도하기 위한 감성 챗봇을 개발하는 데 기여할 것으로 기대하고 있다.

미디어젠은 음성 및 언어 AI 전문 연구소인 남즈(NAMZ) 연구소를 운영하고 있다. 또한 차량 음성인식 분야에서도 세계 최고 수준의 품질 경쟁력을 보유하고 있는 기업으로 과제를 통해 다양한 대화 시스템 개발에 활용할 수 있는 알버트(ALBERT) 기반 언어 모델을 제공할 계획이다.

알버트(ALBERT)는 대화 모델을 최적화하고 학습 방법을 개선해 기존 딥러닝 언어 모델인 BERT의 성능을 유지하면서 모델 크기는 줄인 경량화된 버전으로 현재 SQuAD2.0의 최상위권을 차지하고 있는 가장 진보된 모델이다.

구어 말뭉치 AI 데이터 과제를 통해 AI 기술의 미래 유망 분야인 감성대화 기술을 활성화하는 데 주력하는 한편 다양한 영역에서 AI 서비스 구축과 신시장 진출을 확대할 계획이다.

송민규 미디어젠 상무(과제 총책임자)는 "크라우드 소싱 방식을 활용해 빅데이터 가공 인력을 추가 채용해 일자리 창출에 적극 노력할 계획"이라며 "AI 오픈 플랫폼 기업 및 인공지능 분야 전문가들과 협업을 통해 추가적인 시너지 효과도 기대하고 있다"고 말했다.

이어 송민규 상무는 "구축되는 구어 말뭉치 AI 데이터와 알버트(ALBERT) 모델을 일반에 공개해 새로운 챗봇을 직접 만들어 보는 해커톤 대회도 개최할 예정"이라고 덧붙였다.

한편 미디어젠은 음성인식 기술의 한길만을 걸어온 국내 No. 1 음성인식 솔루션 전문기업이다. MarketsandMarket 2019에 따르면 차량 음성인식 시장은 연간 평균 15.2% 이상의 성장률을 기록하며, 오는 2024년에 약 6000억 원 규모로 성장할 것으로 전망된다.


저작권자 © 일간투데이 무단전재 및 재배포 금지