닫기

글로벌이코노믹

[초점] 변호사들 긴장하겠네…챗GPT, 변호사 시험서 능력 향상 '최고'

글로벌이코노믹

글로벌비즈

공유
0

[초점] 변호사들 긴장하겠네…챗GPT, 변호사 시험서 능력 향상 '최고'

GRE 언어영역 시험·SAT 독해·작문 시험서 최상위권
경기 프로그래밍·AP 영문학 시험 성적은 최하위권



챗GPT3.5와 챗GPT4가 다양한 형태의 테스트에서 거둔 성적표. 사진=오픈AI/비주얼캐피털리스트이미지 확대보기
챗GPT3.5와 챗GPT4가 다양한 형태의 테스트에서 거둔 성적표. 사진=오픈AI/비주얼캐피털리스트

미국의 인공지능(AI) 전문업체 오픈AI가 세계 최대 소프트웨어업체 마이크로소프트(MS)의 전폭적인 지원 속에 지난해 11월 출시해 전 세계적으로 돌풍을 일으킨 최첨단 대화형 인공지능(AI)의 이름은 정확히 말하면 ‘챗GPT’가 아니라 ‘챗GPT3.5’다.

그러나 현재 기준으로 이야기한다면 챗GPT3.5는 벌써 구식이 됐을 정도로 진화 속도가 빠르다. 그사이에 챗GPT3.5의 업그레이드 버전으로 ‘챗GPT4’가 나왔기 때문이다.

지난달 출시된 챗GPT4가 챗GPT3.5보다 결정적으로 나아진 점은 사람이 입력한 문장을 인식하고 그에 맞는 답을 제공하는 데 그치지 않고 이미지까지 인식하고 분석하는 능력까지 갖춘 것.

채점이 가능한 다양한 형태의 시험, 즉 그동안 인간을 대상으로 널리 실시된 각종 테스트를 챗GPT에게도 보게 한 결과를 미국의 시장정보 조사업체 비주얼캐피털리스트가 26일(현지 시간) 집대성해 제시했다.

챗GPT가 분야에 따라 사람의 일자리를 잠식할 가능성이 크다는 관측이 쏟아지고 있는 가운데 인간과 비교할 때 챗GPT의 능력이 얼마나 일취월장했는지를 실증적으로 분석한 셈이다.

그 결과 인간과 거의 차이를 보이지 않을 정도로 놀랍게 뛰어난 능력을 보여준 분야도 있는 반면, 인간에게 범접할 수 없을 정도로 큰 격차를 보인 분야도 있는 것으로 나타났다.

◇ 챗GPT4, GRE 언어영역 시험서 석차 백분율 99% 기록

비주얼캐피털리스트는 오픈AI가 그동안 챗GPT를 대상으로 실시한 다양한 종류의 테스트 결과를 석차 백분율을 기준으로 인간과 비교했다.

예컨대 석차 백분율이 99%라면 전체 응시자 가운데 상위 1% 안에 속한다는 뜻이고 반대로 석차 백분율이 1%라면 하위 1% 안에 든다는 의미다.

그 결과 챗GPT4가 가장 좋은 성적을 거둔 시험은 ‘GRE 시험’의 언어영역 시험인 것으로 나타났다. GRE 시험 과목 가운데 언어 능력을 측정하는 언어영역 시험에서 챗GPT4가 얻은 석차 백분율은 99%였다.

GRE 시험은 전 세계에서 가장 널리 사용되는 대학원 및 전문학교 입학시험이자 토플(TOEFL) 시험과 함께 미국에서 널리 인정되는 공인시험이다.

챗GPT 자체가 거대 언어모델에 기반한 생성형 AI이라는 점에서, 즉 언어를 이해하는 능력에 초점을 맞춰 개발된 AI라는 점에서 충분히 납득이 되는 결과라는 해석이다. 앞서 챗GPT3.5가 거둔 성적이 63%였으므로 불과 몇 달 사이에 최상위권 성적을 올린 셈이기도 하다.

◇ 미국 변호사 시험서 폭발적인 성적 향상


GRE 언어영역 시험 다음으로 챗GPT4가 인간과 맞먹는 능력을 보여준 시험은 미국 대학 입시에 사용되는 ‘SAT 시험’의 독해 및 작문 영역 시험인 것으로 나타났다. 석차 백분율 98%를 기록했다. 챗GPT3.5가 기록한 87%에 비해 성적이 소폭 올랐다.

그러나 챗GPT가 가장 괄목할 만한 능력 개선을 이룬 분야는 미국 각 주에서 법학전문대학원 졸업자를 대상으로 실시하는 ‘미국 변호사 시험(UBE)’인 것으로 나타났다.

챗GPT4에게 이 시험을 치르게 한 결과 90%의 석차 백분율이 나왔을 뿐 아니라 챗GPT3.5가 거둔 성적인 10%에 비해 폭발적인 성적 향상이 있었기 때문이다.

이뿐 아니라 챗GPT4는 미국 법학전문대학원에 입학할 때 보는 시험인 LSAT 시험에서도 88%라는 높은 성적을 올렸다. 앞서 챗GPT3.5는 40%를 기록한 바 있다.

이는 챗GPT가 앞으로 법률 분야에서 적극 활용될 가능성이 매우 큼을 시사한다는 지적이다.

◇ 경기 프로그래밍 5%, AP 영문학 시험 8%로 최하위권


그러나 챗GPT3.5에서 챗GPT4로 진화했음에도 여전히 성적이 저조할 뿐만 아니라 그사이 성적 향상이 전혀 없었던 분야도 있었다.

‘경기 프로그래밍(competitive programming)’과 ‘AP(Advanced Placement) 시험의 영문학 및 영어학 시험’이 대표적이다.

경쟁 프로그래밍으로도 불리는 경기 프로그래밍은 인터넷이나 로컬네트워크를 통해 개최되는 일종의 마인드 스포츠 경기로 참가자가 제한된 시간 안에 프로그래밍 능력을 겨루는 행사다.

챗GPT4를 경기 프로그래밍에 참여시킨 결과 얻은 석차 백분율은 하위권인 5%로 나타났다. 이는 앞서 챗GPT3.5가 거둔 성적과 동일한 것으로 다른 분야와 달리 이 영역에서는 개선이 없었다는 뜻이다.

AP 시험은 미국 고등학교에서 제공하는 대학 1~2학년 수준의 수업으로 학업 성적이 우수한 고등학생들에게 대학교 수준의 수업을 듣게 한 뒤 치르는 시험.

챗GPT4가 AP 영문학 시험과 영어학 시험에서 각각 기록한 석차 백분율은 8%와 14%였다.

AP 시험의 다양한 영역 가운데서도 AP 영문학 시험은 AP 영어학 시험과 함께 점수가 낮게 나오기로 유명한 어려운 과목으로 꼽히는데, 챗GPT 입장에서도 아직은 넘기 어려운 장벽으로 남아있음을 보여주는 대목이다.


김현철 글로벌이코노믹 기자 rock@g-enews.com