현재 전 세계에서 가장 많은 사용자를 확보한 챗GPT도 언어적 한계와 데이터의 신뢰성 및 최신성 확보, 비용적 문제 등 여러 가지 한계를 드러내고 있다. 특히 영어권 국가가 아닌 우리나라에서 챗GPT 같은 자연어처리 AI가 제대로 활용되기 위해서는 한국 문화와 한글, 한국어를 이해하고 학습한 AI가 더욱 요구된다.
하이퍼클로바X는 오픈AI의 GPT-3(175B)를 넘어서는 204B(2040억)개 파라미터(parameter, 매개변수) 규모로 개발됐다. 한국어 데이터 학습량은 GPT-3의 6500배 이상이다. 하이퍼클로바의 이러한 성능과 기술력은 자연어처리 분야 최고 권위 학회인 'EMNLP(Empirical Methods in Natural Language Processing) 2021'에서 관련 연구 논문이 메인 트랙에 채택되며 세계적으로 인정받기도 했다.
오픈AI는 지난 3월 챗GPT의 GPT-3를 넘어서는 GPT-4를 공개했지만 파라미터 개수를 발표하지는 않았다. 그 때문에 일각에서는 추정치만을 얘기하고 있는데 3000억~1조 개의 파라미터 규모일 것으로 예상하고 있다. 파라미터 규모만 보면 GPT-4가 더 우수한 듯 보이지만, 하이퍼클로바X는 한글과 한국어를 더 많이 학습시킨 만큼 국내 사용자들에게 훨씬 정확하고 빠른 정보를 제공할 것으로 기대된다. 이론상 초대규모 AI의 파라미터 수가 많을수록 AI가 더 정교한 학습을 할 수 있다.
여기서 주목할 부분은 네이버가 상당히 오래전부터 AI 연구를 본격화했다는 점이다. 네이버는 국제적인 AI 학회에 107건의 정규 논문을 발표했을 정도로 일찌감치 AI에 투자해왔다. 나아가 AI 연구 동향 분석 플랫폼 '제타알파(Zeta Alpha)'의 분석 결과에 따르면, 한 기업에서 발표한 논문 중 피인용 상위 100건에 해당하는 논문의 비율을 산출한 결과 네이버가 전 세계 AI 기업 중 6위를 기록했을 정도다. 7위가 인텔, 10위가 구글일 정도로 네이버의 AI 연구는 본격적이고 심도 깊다. 하이퍼클로바X가 단순히 챗GPT에 대항하기 위해 급조한 것이 아닌 만큼 그 성능이 기대된다. 네이버의 설명대로 하반기에 네이버의 다양한 서비스에 하이퍼클로바X가 적용된다면 네이버의 활용도와 편의성은 더욱 커질 것으로 기대된다.
이상훈 글로벌이코노믹 기자 sanghoon@g-enews.com