
6일(현지 시간) 구글은 온라인 행사를 통해 제미니를 공개하고 주요 기능과 성능 등을 소개했다.
‘챗GPT’를 비롯한 기존의 생성형 AI는 텍스트, 이미지, 음성 등 다양한 종류의 데이터 중 한 번에 한 종류의 데이터만 입력하고 출력할 수 있다.
반면, 멀티모달(Multi Modal) 방식의 차세대 생성형 AI인 제미니는 한 번에 텍스트와 이미지, 음성 등의 데이터를 동시에 인식하고 처리 및 결과물을 출력할 수 있다.
이를 통해 구글은 제미니가 사람과 더 자연스럽게 소통할 수 있는 AI라고 강조했다. 구글의 시연에서 제미니는 사람이 보여준 그림을 음성으로 설명하고, 사람과 텍스트가 아닌 음성으로 소통하는 모습을 보였다.
앞서 디 인포메이션 등 외신들은 구글이 제미니의 일부 언어 처리 문제로 출시를 내년 1월로 연기할 것이라고 보도했으나, 구글은 당초 예정일로 알려졌던 이날 제미니를 공개했다. 다만 외신들이 언급한 오류가 해결됐는지 여부는 밝혀지지 않았다.
구글은 제미니가 챗GPT의 개발사 오픈AI의 최신 대규모언어모델(LLM)인 GPT-4보다 우수한 성능을 제공한다고 강조했다.
데미스 허사비스 구글 딥마인드 최고경영자(CEO)는 “제미니는 MMLU(대규모 다중작업 언어 이해) 테스트에서 90%의 점수를 얻었다”며 “인간 전문가 점수인 89.8%를 넘은 첫 AI 모델”이라고 밝혔다.
특히 구글은 제미니가 기존 생성형 AI보다 앞선 성능을 제공함에도 불구하고 데이터 처리 효율을 개선해 언어모델 개발과 유지, 서비스 비용 등을 대폭 줄였다고 덧붙였다.
제미니는 성능과 규모, 사용처에 따라 데이터센터 및 기업용 서비스로 제공하는 ‘제미니 울트라’, 개인 전문가 및 중소 규모 사업장 등을 위한 ‘제미니 프로’, 모바일 기기에서 작동하기 위한 ‘제미니 나노’ 등 3가지 버전으로 선보인다. 현재 서비스 중인 생성형 AI ‘바드’에도 제미니 프로의 일부 기능을 추가해 기능을 강화했다.
순다르 피차이 구글 CEO는 “제미니는 구글이 기업으로 수행한 가장 큰 과학적 엔지니어링 성과”라며 “제미니가 전 세계 사람들에게 무한한 가능성을 선사할 것으로 기대한다”고 말했다.
최용석 글로벌이코노믹 기자 rpch@g-enews.com