전쟁의 시작은 뉴욕타임스로부터 촉발됐다. 뉴욕타임스가 AI 회사를 저작권 위반으로 고소할 계획임을 알렸다. 여기에 다른 언론사들도 AI의 무분별한 뉴스 정보 수집에 민감하게 반응, 챗GPT의 접근을 속속 차단하는 언론사가 증가하기 시작했다.
문제는 챗GPT가 답변하기 위해 수집하는 데이터 상당수가 뉴스를 기반으로 한다는 데 있다. 챗GPT 외에 구글의 바드(Bard), 메타의 라마2(Llama-2) 같은 AI 모두 스스로 정보를 생성하는 대신, 기 공개된 정보들을 습득하고 학습한다. GPT봇으로 알려진 웹 크롤러(Web Crawler)가 방대한 웹 페이지를 방문해 각종 정보를 자동으로 수집한다. 여기에는 각종 SNS에 올라온 게시물과 블로그 글도 포함되지만 뉴스기사와 전자책 등의 데이터도 포함된다. 특히 주요 현안에 대한 과거 기록과 최신 정보 상당수가 뉴스에서 수집되는 만큼 생성형AI는 어찌 보면 뉴스를 무단으로 도용하는 셈이 된다.
이와 관련해 올해 초 미국의 미디어 복합기업 뉴스 코펴레이션의 다우존스 사업부 법무 자문위원 제이슨 콘티는 성명을 통해 "월스트리트저널 기자들의 작업을 이용해 인공지능을 훈련시키려는 사람은 다우존스로부터 이에 대한 권리를 적절하게 라이센스 받아야 한다"고 지적했다.
국내에서 한국신문협회도 유사한 목소리를 냈다. 한국신문협회는 "뉴스는 AI 기술 발전을 위한 학습용 데이터로 활용할 수 있는 퀄리티 콘텐츠다. 이에 따라 회원사는 뉴스 콘텐츠에 대한 저작권 보호와 정당한 보상이 이뤄질 수 있도록 정부가 적극 나설 것을 요구했다. 또 검증되지 않은 기사를 AI를 통해 제작·유포할 경우 제재 방안도 마련할 것을 주문했다"고 밝혔다.
국내에서는 자연히 네이버의 입장에 관심이 쏠렸다. 네이버가 이달 24일 공개한 '클로바X'가 한국형 챗GPT로 대화형AI 서비스를 제공하기 시작했기 때문이다. 클로바X 역시 AI 답변에 뉴스 데이터를 활용하고 있다.
이와 관련해 최수연 네이버 대표는 "콘텐츠를 제공하는 기업과 기술기업이 상호 '윈윈'하는 방향으로 논의가 계속 이뤄져야 한다"면서 "이를 위해 다양하게 논의를 진행하고 있다"고 말했다.
이상훈 글로벌이코노믹 기자 sanghoon@g-enews.com