미국 주간 시사 잡지 아틀란틱(The Atlantic)은 메타와 AI 분야의 다른 회사들이 Books3 데이터베이스에서 생성형 AI 시스템을 훈련한 정황을 폭로했다고 23일(현지시간) 프랑스 뉴스 웹사이트 01net가 보도했다.
◇ 메타의 저작권법 위반 논란 발생 경위
이들 회사는 이런 책을 저자의 동의 없이 훈련 데이터로 사용한 것으로 추정되며, 이것은 저작권 침해에 해당하는 행위라는 것이 논란의 중심이다.
생성형 AI가 붐을 이루면서 사실 작가들은 많은 불만이 있었다. 소설이나 시 등 문학작품은 창작의 영역인데 생성형 AI가 학습을 통해 모방형 창작물을 제작해 아마존 등에서 온라인으로 판매를 하고 있어 창작 활동 방해는 물론 이를 판매해 사람과 경쟁에 돌입하면서 작가들의 경제생활을 위협한다고 항의해 왔다.
이런 가운데 컴퓨터 과학자이자 작가인 알렉스 레이스너도 저작권법 위반 여부를 확인하기 위해 대규모 언어 모델에 대한 연구를 진행했다. 여러 조사를 하던 가운데 일루써(Eleuther)AI가 만든 대규모 교육 텍스트 데이터의 저작권법 위반 여부를 확인했다.
그는 Books3 데이터베이스를 조사한 결과, 메타가 이 데이터베이스를 사용했다는 사실을 밝혀냈다. 그는 아틀란틱의 칼럼니스트로 활동하고 있다.
일루써(Eleuther)AI는 이번 조사에서 문제가 된 Books3 데이터베이스를 개발한 연구 단체로 2020년에 설립된 비영리 단체다.
이 회사는 AI 기술 발전을 위해 투명성과 접근성을 촉진하는 것을 목표로 하며 오픈소스를 지향한다. 오픈소스를 지지하는 사람들은 저작권 논란을 해결하기 위해 노력하기보다 AI 모델을 누구나 쉽게 개발하고 사용할 수 있도록 하는 것이 더 중요하다고 생각한다. 오픈소스가 AI 기술의 발전을 촉진하는 데 도움이 된다고 믿고, 그 신념에 입각해 기술을 개발하고 있다.
이들은 AI 기술은 방대한 데이터를 사용해 훈련해야 하는데 저작권을 준수하면 AI 기술을 개발하는 기업이 저작권자로부터 사용 허가를 받기 위해 많은 돈을 내야 하고, 이는 대기업만이 지불할 수 있어 결국 대기업만이 AI 기술 개발을 할 수 있다고 본다. 이는 AI 기술 발전을 저해하고, AI 기술 혜택을 일반 대중이 누리는 데 어려움을 줄 수 있다고 주장한다.
Books3 데이터베이스는 저작권 보호와 무관하게 콘텐츠를 활용하는 모델로 설계됐으며, 17만권 이상의 책과 100억 개 이상의 단어로 구성된 이 데이터베이스에는 저작권으로 보호되는 책이 상당수 포함되는 불법 복제가 있었다. 그리고 누구나 사용할 수 있도록 자료 접근도 허용했다.
유튜브 동영상 자막, 문서 및 번역본, 유럽의회 문서, 영어 위키피디아, 2001년 파산 전 엔론사 직원들이 주고받은 이메일 등 다양한 데이터가 포함되어 있었는데, 이러한 데이터 중 일부는 저작권으로 보호되는 부분이었다.
유튜브 동영상 자막은 저작권자의 허락 없이 사용해서는 안 된다. 또한, 유럽의회 문서와 언론사 직원들의 이메일은 개인 정보 보호법에 따라 보호될 수 있는 내용이다.
이에 일루써(Eleuther)AI의 Books3 데이터베이스를 사용해 언어를 훈련한 메타, 오픈AI는 결과론적으로 저작권 침해를 범했다는 비난을 받고 있다.
◇ 실제 소송도 진행
저작권법 위반 소송이 2023년 7월 20일에 미국 캘리포니아 북부지방법원에서 소송이 진행됐다.
미국 코미디언 사라 실버먼(Sarah Silverman)과 작가 2명은 메타와 오픈AI가 LLaMA 훈련을 위해 Books3 데이터베이스를 사용하는 과정에 저작권으로 보호된 콘텐츠를 불법적으로 사용했다고 소송을 제기했다.
소송이 제기된 후, 메타의 저작권법 위반 논란은 크게 확산됐다.
메타는 저작권 침해 논란에 대해 “Books3 데이터베이스는 저작권 침해 방지 차원의 필요한 모든 조치를 하고 있다”라고 주장했다. 실제 Books3 데이터베이스는 저작권으로 보호되는 콘텐츠를 식별하고 차단하는 알고리즘을 사용하고 있다.
또한, “AI 기술 발전을 위해서는 방대한 데이터가 필요하며, 이는 저작권 침해와의 균형을 맞추는 것이 필요하다”라고 강조한다.
이에 대해 창작인들은 메타가 AI 기술의 발전을 위해 저작권 침해를 정당화하려고 한다는 비판을 내놓고 있다.
AI가 생성한 작품은 근본적으로 인간만을 보호 대상으로 하고 있어 저작권 자체를 위반하지는 않는다. 그러나 AI 프로그램이 기존 작품에 접근하고, 상당히 유사한 출력을 생성하는 경우 저작권을 침해한 것으로 미국 법원은 인정하고 있다.
실제 메타의 대규모 언어 모델은 Books3 데이터베이스를 사용해 훈련됐고, 저작권으로 보호되는 콘텐츠가 포함되어 있어 저작권으로 보호되는 콘텐츠에 접근해, 상당히 유사한 출력을 생성했을 수도 있다.
만약 이런 사실이 입증된다면, 메타는 저작권 침해로 인한 손해를 배상해야 할 수도 있다. 이 부분에 대한 최종 판단은 법원에서 내린다.
한편, 이번 메타의 저작권법 위반 논란과 소송은 AI 기술의 발전과 저작권 보호 사이의 갈등을 보여주는 사례라는 점에서 주목된다.
미국과 EU에서는 향후 생성형 AI가 더 활성화될 것에 대비해 갈등 확산을 예방하는 차원에서 AI 기술 발전을 위한 데이터 확보와 저작권 보호라는 두 가지 측면을 모두 고려하는 정책을 조속히 마련해야 한다는 주장이 확산되고 있다. 우리도 이런 글로벌 흐름을 참고해 K팝 등 K컬처 보호를 위한 적절한 대책 마련이 필요해 보인다.
박정한 글로벌이코노믹 기자 park@g-enews.com