AI전문기업 솔트룩스, AI가 우리말 더 잘 알아듣게…국립국어원 한국어 데이터 말뭉치 구축 사업 수주
올연말까지
솔트룩스는 구어 말뭉치 15,000시간 이상, 준구어 말뭉치 1540만 어절 이상을 빅데이터로 DB화하게 된다. 방대한 말뭉치 빅데이터 구축을 하게 되면 광범위하게 수집된 대규모·고품질 어절을 바탕으로 한 기계학습과 딥러닝을 할 수 있게 돼 우리말 기반 AI을 더 원활하게 사용할 수 있게 된다.
인공지능(AI)전문기업 솔트룩스(대표 이경일)가 지난 20년간 국어 말뭉치(어절·語節)분야의 축적된 경험과 신뢰성을 바탕으로 국립국어원의 ‘구어 자료 수집 및 원시 말뭉치 구축 사업’을 수주했다고 12일 밝혔다.
솔트룩스는 이달부터 AI 활용과 빅데이터 구축에 필수 요소라 할 빅데이터 확보용 우리말 말뭉치 구축사업에 들어간다. 계약 구축 기간은 2019년 6월부터 올연말까지 약 6개월여다.
이에따라 솔트룩스는 구어 말뭉치 1만5000시간 이상 분, 준 구어(準 口語) 말뭉치 1540만 어절 이상을 빅데이터로 DB화하게 된다. 방대한 말뭉치 빅데이터 구축을 하게 되면 광범위하게 수집된 대규모·고품질 어절을 바탕으로 한 기계학습과 딥러닝을 할 수 있게 돼 우리말 기반 AI을 더 원활하게 사용할 수 있게 된다.
이경일 솔트룩스 대표는 “인공지능 산업 및 국어·언어학계에 필요한 구어(口語) 말뭉치 구축을 위해 유용성 검증과 품질 확보라는 두 마리 토끼를 잡아야 한다”며 “자체 보유한 인공지능 원천 기술력과 국내 최다 인공지능 서비스 개발 경험을 통해 최상의 프로세스로 반드시 성공적으로 사업을 수행하겠다”라고 의지를 밝혔다.
현재 주요 국가 공공 데이터세트 현황을 살펴보면 미국 25만2952건, 캐나다 8만1949건, 영국 5만1297건에 달한다. 이에 비해 한국은 2만9934건으로 미국의 9분의 1 수준이다. 특히 언어 데이터인 말뭉치(어절) 보유량을 살펴보면 문제는 더욱 심각해진다. 언어별 말뭉치 데이터는 영어 2000억 어절, 중국어 800억 어절에 비해 한국어는 2억 어절에 불과해 한국어가 영어의 1000분의 1에 그치는 등 해외 AI선진국에 비해 매우 취약한 데이터 자산을 갖고 있는 상황이다.
이에 국립국어원은 TV, 라디오 등의 구어체 원자료와 드라마, 연극 대본 등의 준(準) 구어체 원자료를 수집해 말뭉치를 구축하고, 저작권 이용 계약까지 체결해 민간 활용 가치를 극대화하기 위한 내용의 말뭉치 구축 사업을 계획했다.
AI, 데이터과학 분야 국내 1위 기업 솔트룩스는 이미 지난해 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 ‘국어 말뭉치 연구 및 구축 사업’을 수행했던 경험을 갖고 있다. 이밖에도 한국전자통신연구원(ETRI) ‘음성 DB 구축’, 한국언론진흥재단 ‘뉴스 빅데이터 시스템 구축’ 등 20년간 축적된 빅데이터 구축 경험과 4단계 품질관리 프로세스 등의 전문성을 인정받고 있다.