기존 AI 번역에서 컴퓨터가 추측하고 올바른 답을 얻으려면 프로세스를 적절히 조정할 수 있는 것은 데이터의 기초가 되는 문서가 풍부하게 있어야 한다는 조건에 의해서만 가능했다.
하지만 새롭게 발표된 방법은 전혀 다른 접근 방법을 취하고 있다. 간이 AI에게 "당신의 추측은 옳다"고 가르치지 않고 AI 스스로 독자적인 사전을 만들어내도록 했다.
예를 들면 '테이블'과 '의자'라는 단어는 자주 함께 쓰이는 등 많은 언어에는 유사점이 존재하기 때문에 이러한 공통 기능성을 바탕으로 매핑을 하는 것으로 사전을 구축하는 게 가능하다는 점을 이용했다. 그 후 여러 번에 걸쳐 지도를 하면서 번역을 위한 최종 사전이 독자적으로 완성되는 방식이다.
이 같은 기술에 대한 연구 논문이 두 곳에서 새롭게 발표됐다. 하나는 스페인 바스크 대학의 컴퓨터 과학자 'Mikel Artetxe'에 의한 것이고, 다른 하나는 페이스북의 컴퓨터 과학자인 'Guillaume Lample'이 발표했다.
두 연구는 모두 '역번역(back-translation)'과 '노이즈 제거'를 사용한 비슷한 방식으로 진행됐다. 역번역은 일단 다른 언어로 대충 번역한 문장을 원래 언어로 다시 번역하는 방법으로, 이때 개발된 신경망은 역번역 된 문서와 첫 번째 문서가 일치하지 않는 경우 ‘조정’을 거치게 된다. 따라서 이후 같은 문서를 번역했을 때 두 문서는 이전보다 훨씬 가까워지게 되는 원리다.
노이즈 제거는 역번역과 비슷하지만, 다시 번역할 때 단어를 제거하거나 재편성함으로써 원래의 문장을 재현하려고 한다는 방식에서 차이가 있다. 이 같은 역번역과 노이즈 제거를 실시함으로써 신경망은 문장 구조의 더 깊은 곳까지 학습할 수 있는 구조를 갖게 다.
김길수 기자 gskim@g-enews.com