29일(현지시각) 오픈AI는 자사 블로그에 '합성(Synthetic) 음성의 도전과 기회 탐색'이라는 제목의 게시글을 올리고 AI 음성 도구 '보이스 엔진(Voice Engine)'을 공개했다. 실제 사람이 녹음한 15초 길이의 음성 샘플만 있으면 그를 흡사하게 모방해 다양한 음성 샘플을 만들어 내는 기술이다.
오픈AI는 "보이스 엔진을 이용해 프랑스어 화자의 오디오 샘플로 영어 텍스트를 생성하면 원래의 프랑스어 억양까지 살린 음성이 생성되는 등 실제 원어민 억양을 그대로 유지할 수 있다"고 덧붙였다.
보이스 엔진은 언어 관련 질환에 필요한 치료는 물론 교육, 광고 등 다목적으로 사용될 수 있다. 노먼 프린스 신경과학 연구소에서는 임상 실험에서 AI 활용을 모색 중이다. 종양 또는 신경학적 원인으로 언어 장애를 겪는 개인에게 보이스 엔진을 제공하는 프로그램을 시범적으로 운영 중이다. 오픈AI는 환자의 목소리가 담긴 비디오, 오디오 파일을 사용해 혈관성 뇌종양으로 인해 목소리를 잃은 환자의 목소리를 복원할 수 있었다고 설명했다.
하지만 AI 기술을 이용한 음성 생성 기술은 심각한 위험 부담을 안고 있다. 이미 미국에서는 바이든 대통령의 목소리를 흉내 낸 모방 음성이 전화의 자동 메시지를 통해 유권자들에게 투표하지 말 것을 권하는 사건이 큰 논란을 빚기도 했다.
오픈AI 역시 이러한 점을 언급하며, "보이스 엔진을 테스트 중인 파트너들은 동의나 법적 권리 없이 다른 개인이나 단체를 사칭하는 것을 금지하는 사용 정책에 동의했다"고 말했다.
이어 "정책에 따라 모방 샘플의 생성에 있어 모델이 되는 실제 화자의 명시적인 사전 동의가 필요하며 모방 음성이 인공지능으로 생성된 것을 명확하게 공개해야 한다"며 "이를 위해 보이스 엔진에서 생성된 모든 오디오의 출처 추적을 위한 워터마크 및 사전 모니터링 등을 포함한 일련의 보안 조치도 함께 구현했다"고 설명했다.
편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com