AI 날개 달고 대역문서 없이 '신경망 번역' 습득… '역번역'과 '노이즈 제거' 방식 정확성 탁월

최근 대역 문서 없이 신경망 번역을 습득할 수 있는 새로운 번역 기술이 발표돼 화제가 되고 있다. 자료=글로벌이코노믹

[글로벌이코노믹 김길수 기자] 인공지능(AI)이 10년 내에 아마추어 번역가를 뛰어넘는 수준으로 번역할 것으로 전망됐지만 현 단계에서는 신경망 번역(NMT, Neural Machine Translation)을 하려면 여전히 수백만 문장을 번역한 학습 데이터가 필요하다. 최근 대역 문서 없이 신경망 번역을 습득할 수 있는 새로운 기술이 발표돼 화제다.

기존 AI 번역에서 컴퓨터가 추측하고 올바른 답을 얻으려면 프로세스를 적절히 조정할 수 있는 것은 데이터의 기초가 되는 문서가 풍부하게 있어야 한다는 조건에 의해서만 가능했다.

따라서 영어와 프랑스어 등 문서가 많이 있는 언어의 번역은 비교적 잘 되는데 반해 소수인이 사용하는 언어나 대역 문서가 별로 없는 언어는 정확하게 번역하기가 어려웠다. 그동안 기계 학습은 이처럼 인간이 먼저 I에게 '가르침'을 주는 작업이 필요했다.

하지만 새롭게 발표된 방법은 전혀 다른 접근 방법을 취하고 있다. 간이 AI에게 "당신의 추측은 옳다"고 가르치지 않고 AI 스스로 독자적인 사전을 만들어내도록 했다.

예를 들면 '테이블'과 '의자'라는 단어는 자주 함께 쓰이는 등 많은 언어에는 유사점이 존재하기 때문에 이러한 공통 기능성을 바탕으로 매핑을 하는 것으로 사전을 구축하는 게 가능하다는 점을 이용했다. 그 후 여러 번에 걸쳐 지도를 하면서 번역을 위한 최종 사전이 독자적으로 완성되는 방식이다.

이 같은 기술에 대한 연구 논문이 두 곳에서 새롭게 발표됐다. 하나는 스페인 바스크 대학의 컴퓨터 과학자 'Mikel Artetxe'에 의한 것이고, 다른 하나는 페이스북의 컴퓨터 과학자인 'Guillaume Lample'이 발표했다.

두 연구는 모두 '역번역(back-translation)'과 '노이즈 제거'를 사용한 비슷한 방식으로 진행됐다. 역번역은 일단 다른 언어로 대충 번역한 문장을 원래 언어로 다시 번역하는 방법으로, 이때 개발된 신경망은 역번역 된 문서와 첫 번째 문서가 일치하지 않는 경우 ‘조정’을 거치게 된다. 따라서 이후 같은 문서를 번역했을 때 두 문서는 이전보다 훨씬 가까워지게 되는 원리다.

노이즈 제거는 역번역과 비슷하지만, 다시 번역할 때 단어를 제거하거나 재편성함으로써 원래의 문장을 재현하려고 한다는 방식에서 차이가 있다. 이 같은 역번역과 노이즈 제거를 실시함으로써 신경망은 문장 구조의 더 깊은 곳까지 학습할 수 있는 구조를 갖게 다.

두 연구팀이 개발한 시스템은 모두 하나의 언어를 인코딩하여 다른 언어로 바꾸기 전에 한 번씩 추상적으로 표현하는 구조를 가지고 있다. 하지만 페이스북 연구팀의 중간 언어가 보다 더 추상적이라는 시스템의 차이가 있는 것으로 나타났다. 두 연구팀은 상대의 연구 논문을 통해 자신들이 개발한 기술을 더욱 다듬고 있는 중인 것으로 알려졌다

김길수 기자 gskim@g-enews.com