오픈AI 최신 모델 o3, 가장 스마트하지만 정확도는 48.3%에 그쳐

첨단 AI 모델, 진화 패턴 예측 어려워... 잘못된 정보 생성 현상 두 배 증가

인공지능(AI) 기술이 발전할수록 오히려 성능 예측이 어려워지는 역설적인 상황이 나타나고 있다. 오픈AI의 최신 모델들이 일부 영역에서 획기적 진전을 보이면서도 다른 부분에서는 오히려 후퇴하는 불규칙한 발전 양상을 보인다고 악시오스가 지난 23일(현지시각) 보도했다.

오픈AI는 약 일주일 전 '지금까지 출시한 모델 중 가장 스마트한 모델'이라고 소개하며 o3와 이보다 작은 o4-mini 모델을 출시했다. 이 회사와 초기 테스터들은 o3의 전반적인 추론 능력, 특히 계획된 일련의 단계를 계획·실행·설명하여 사용자 요청에 응답하는 능력을 높이 평가했다.

보도에 따르면, 전문가들은 o3가 지속적인 사용자 감독이나 개입 없이도 웹 검색을 수행하고 다른 디지털 도구를 사용하는 능력이 뛰어나다고 평가했다. 개발자 사이먼 윌리슨은 "이러한 모델은 최종 답변을 생성하기 전에 생각의 연쇄 추론 과정의 일부로 검색을 실행할 수 있다. 이것은 엄청난 성과로 밝혀졌다"고 설명했다.

에브리(Every)의 댄 시퍼는 o3를 "GPT-4 이후 새로운 오픈AI 모델을 사용하면서 경험한 가장 큰 '놀라운' 순간"이라고 표현했다. 경제학자이자 블로거인 타일러 코웬은 더 나아가 "o3가 인공일반지능(AGI)의 출현을 예고했다."라고 주장했다.

◇ 시각 인식 능력은 놀랍지만, 정확도는 여전히 문제

o3의 가장 주목할 만한 기능 중 하나는 뛰어난 시각 인식 능력이다. 원문에 따르면, 입소문을 탄 인기 있는 기능으로 "o3를 사용하여 거의 모든 디지털 사진을 보고 사진이 촬영된 위치를 식별하는 것"이 소개됐다. 이는 개인정보 보호 전문가들에게는 우려를 낳을 수 있는 성능이다.

그러나 많은 리뷰어들은 o3의 수학적 오류와 부정확한 답변 등 여러 문제점을 지적했다. 이 연구에 따르면, o3는 테스트한 AI 모델들 중 재무 분석 능력이 가장 뛰어났지만, 사용자 질문에 정확하게 답변하는 비율은 48.3%에 그쳤다. 또한, 한 번 질의할 때마다 평균 3.69달러(약 5,000원)의 비용이 발생해 비교 대상 모델 중 가장 비싼 것으로 나타났다. 워싱턴포스트는 이 연구 결과에 대해 상세히 보도했다.

특히 주목할 점은 오픈AI 스스로 o3가 '잘못된 정보 생성' 측면에서 이전 모델보다 퇴보했다고 인정했다는 것이다. 널리 사용되는 정확도 벤치마크 테스트에서 o3는 이전 제품인 o1보다 두 배 이상 잘못된 정보를 생성하는 것으로 나타났다. 오픈AI는 o3의 오류율이 급증한 이유를 이해하기 위해 "더 많은 연구가 필요하다"고 밝혔다.

◇ "불규칙한 발전" 현상 두드러져

AI 분석가 에단 몰릭은 o3의 인상적이지만 산발적인 성능을 "들쭉날쭉한 개척지"라고 표현했다. 그는 "일부 작업에서 AI는 신뢰할 수 없지만, 다른 영역에서는 인간을 뛰어넘는 능력을 보인다"며 "최신 모델은 우리가 AGI라고 부르든 말든 이전에 나온 것과는 질적으로 다른 것을 나타낸다. 이들의 자율적 특성과 불규칙한 능력이 결합되어 이전과 비교할 수 없는 진정으로 새로운 상황을 만들어냈다"고 분석했다.

소프트웨어 제작자와 프로그래머들은 수십 년 동안 자신들의 작업을 더욱 안정적이고 확장 가능하며 유연하게 만들기 위해 노력해 왔고 많은 진전을 이뤘다. 그러나 AI 개발은 아직 예측 가능한 분야로 전환될 만큼 충분히 이해되지 않았다는 평가가 업계에서 지배적이다.

AI 모델을 설계·구축·훈련하는 과정은 과학적 엄격함을 부과하거나 결과를 복제하려는 개발자의 노력에 완고하게 저항하고 있다. 관련 업계에서는 "이 과정은 다리를 놓는 것보다 아이를 키우는 것과 더 비슷하다"는 분석이 나오고 있다. 이러한 특성은 AI 개발을 둘러싼 신비감과 가능성을 더하지만, 동시에 AI를 통제하거나 경제적 이익을 위해 활용하려는 노력을 어렵게 만드는 요인으로 작용하고 있다고 이 매체는 전했다.

박정한 글로벌이코노믹 기자 park@g-enews.com