라이어버드, 딥 보이스, 듀플렉스…인공지능, 목소리마저 복제

     

[일간투데이 홍정민 기자] 영화 '장산범'의 내용이 현실에서 펼쳐진다면 어떤 느낌일까. 영화 장산범은 한 가족이 도시를 떠나 장산으로 이사와 숲속에 숨어있는 여자아이를 만나는데 이 여자아이가 딸의 목소리를 똑같이 흉내내면서 수상한 일이 발생하기 시작한다.

장산범 속 가족의 목소리를 똑같이 흉내내는 것은 귀신이지만 만약 현실 속에서 이러한 상황이 재현된다면? 내 목소리를 그대로 따라하는 인공지능(AI)이 등장해 이 중 3가지를 소개하고자 한다.

 

사진=게티이미지뱅크

■ 목소리 감정까지 변화…캐나다 '라이어버드'

지난해 캐나다 AI 스타트업 '라이어버드(Lyrebird)'는 도널드 트럼프 미국 대통령과 버락 오바마 전 미국 대통령의 목소리를 복제해 화제가 됐다. 60초 정도의 음성 데이터만 있으면 그 사람의 목소리를 바로 만들 수 있다. 이 데이터만 있으면 원하는 문장을 텍스트나 음성으로 넣어 바로 복제가 완성된다. 또한 단순히 목소리 복제에 그치지 않고 화가 나거나 짜증이 난 목소리 등 감정변화까지 조정할 수 있다.

라이어버드에서 사용하는 알고리즘은 몬트리올 대학의 MILA연구소에서 수행한 딥러닝 연구의 결과물로 음성 데이터만 확보되면 0.5초 안에 1천여개의 새로운 문장을 생성할 수 있다. 라이어버드 개발진은 목소리를 잃은 사람의 목소리를 복원하거나 부모와 멀리 떨어진 아이들에게 부모님의 목소리를 들려주는 등 좋은 목적으로 사용될 수 있다고 설명했다.

 

캐나다 라이어버드가 사람 목소리를 복제하는 과정. 사진=블룸버그통신 유튜브 캡처

■ 남성 목소리를 여성으로? 바이두 '딥 보이스'

지난해 중국의 포털 사이트 '바이두'도 인공지능 딥 보이스(Deep Voice)를 개발했다. 딥 보이스는 사람이 1분동안 녹음한 분량의 음성데이터를 가지고 학습을 통해 목소리를 복제한다. 딥 보이스 개발팀은 약 2천400명의 음성 데이터 800시간을 학습시켰다. 최적화를 위해서는 최소 5초 단위의 음성 데이터 100개가 필요하지만 데이터가 10개만 있어도 95%의 인식률을 보인다고 연구진들은 설명했다.

목소리가 한 번 복제되면 텍스트를 음성으로 바꿀 수 있다. 뿐만 아니라 딥 보이스는 남성 목소리를 여성 목소리로, 그 반대로도 바꿀 수 있다. 연구진은 이를 이용하면 게임 캐릭터 목소리를 자유롭게 설정할 수 있다고 말했다. 또한 모국어로 말하면 외국어로 번역해 사용자의 음성으로 재생시켜주는 시스템을 만들 수도 있다.

 

미 캘리포니아주 마운틴뷰 레스토랑 '오렌스 허머스'에서 듀플렉스의 기능을 기자들에게 설명하는 닉 폭스 구글 부사장. 사진=연합뉴스/AP

■ 사람일까 AI일까…구글 '듀플렉스'

인간의 목소리를 복제하는 기능은 아니지만 사람과 똑같은 목소리로 미장원이나 식당 예약을 할수 있는 인공지능도 나타났다. 지난 5월 초 구글은 '2018 연례 개발자 콘퍼런스(I/O)'에서 인공지능(AI) 비서 플랫폼 '듀플렉스'를 공개한 뒤 큰 논란이 일었다.

공개 직후 일각에서 듀플렉스가 인간과 너무 똑같아 윤리적으로 문제가 될 수 있다는 지적이 제기됐다. 통화하는 상대방을 기만하거나 교란할 수 있고 AI를 이용한 보이스 피싱이 발생할 가능성이 존재할 수 있기 때문이다. 이러한 논란 속에서 구글은 일부 기업을 대상으로 듀플렉스 시범 운영을 시작한다.

저작권자 © 일간투데이 무단전재 및 재배포 금지