데이터 라벨링이란 사진이나 동영상 등의 데이터를 인공지능이 바로 학습할 수 있는 형태로 가공하는 작업이다.
글로벌이코노믹은 슈퍼브에이아이가 진행하는 기업 대상의 ‘데이터 라벨링 전문성 강화 프로그램'에 참여해 인공지능 개발에 필요한 데이터 구축, 관리, 분석 등의 전 과정을 지원하는 올인원(All-in-One) 플랫폼 '스위트(Suite)'를 체험하고 2회에 걸쳐 체험기를 싣는다. AI 데이터 플랫폼 기업 ‘슈퍼브에이아이’는 최근 ‘디지털 뉴딜’ 혁신 기업에 선정되기도 했다.
<편집자 주>
"데이터 라벨링 전문성 강화 프로그램에 참여해 주셔서 감사합니다. 많은 분이 신청해 주셔서 사실 저희도 너무 놀랐습니다."
이현동 슈퍼브에이아이 이사가 활짝 웃으며 말했다.
흔히 ‘디지털판 인형 눈 붙이기’라고 불리는 '데이터 라벨링 전문성 강화 프로그램'이 지난 6일 강남 논현빌딩에서 열렸다. 이현동 이사는 “데이터와 AI생태계가 강화되고 있다”면서 “코로나 19로 비대면 산업 육성이 관심이 쏠리고 이번 디지털 뉴딜정책이 발표되면서 데이터 라벨링 사업에 좋은 기회가 왔다”고 말했다.
이번 프로그램에는 예비 데이터 라벨링 사업자 100명이 참석해 AI 학습용 데이터 시장을 이해하고 데이터 라벨링 사업 운영 전반에 대해 공유했다. 참석자들은 데이터 라벨링을 수행하고자 하는 인공지능 기술기업과 데이터 라벨링 산업에 진출이 필요한 기업이 대부분이다.
취약계층 일자리 창출을 고민하는 사회적 기업 담당자들도 교육에 참석했다. A 벤처기업 담당자는 “데이터 바우처 사업에 선정되길 바라는 마음으로 참석했다”면서 "선정 과정이 복잡하고 어려워 준비할 게 많다”고 말했다.
데이터 라벨링 사업 교육은 슈퍼브에이아이가 처음 시도했다. 클라우드 전문기업인 메가존 클라우드도 교육에 합세했다. 교육시간은 잘 짜여진 프로그램으로 풍성했다. AI 학습용 데이터 시장이 한눈에 들어왔다. 데이터 라벨링 사업 운영 A부터 Z까지 상세한 설명이 이어지자 여기저기 질문이 쏟아졌다. 공공·민간 프로젝트 수주와 각종지원 노하우에 대해 설명한 마지막 시간은 가장 인기있었다.
AI 산업의 핵심은 데이터다. 데이터 라벨러는 데이터를 1차 가공하는 직업이다. 아기에게 말을 가르칠 때 사물 이름을 하나하나 알려주는 것처럼 AI가 학습할 데이터에 '이것은 자동차, 이것은 비행기' 이런 식으로 입력해주는 것이라고 이해하면 된다.
데이터 라벨링을 단순 반복작업으로 생각하는 사람이 많다. 그러나 AI 학습 데이터 구축 시간의 80~90%는 라벨링 작업에 소요된다. 이현동 이사는 “AI에게 학습시킨다는 개념이 더 어울린다”면서 AI산업에 대해 관심을 가지고 AI가 어떤 상황에서 어떻게 적용되는지를 생각하고 작업하면 더 좋은 데이터 라벨 작업을 수행할 수 있다“고 조언했다.
이날 슈퍼브에이아이는 자사의 머신러닝 데이터 플랫폼인 ‘스위트(Suite)’도 실습할 수 있도록 지원했다. 교육에 참석한 기자도 슈퍼브에이아이의 ‘스위트(Suite)’에서 라벨링 작업을 해봤다. 프로그램 설치 단계는 없었다. 아이디와 비밀번호 입력후 슈퍼브에이아이 사이트에 접속하면 된다. 몇가지 설정을 한 후 다운받은 이미지를 불어온다.
사실 슈퍼브에이아이의 데이터 라벨링 도구 ‘스위트(Suite)’는 오토 라벨링을 지원한다. 예를 들어 오토 라벨링은 ‘오리 인지 AI’를 사전에 만들어 두고 이를 데이터 라벨링에 투입한다. 사람은 AI가 보류한 부분이나 찾아내지 못한 오리만 골라 라벨링할 수 있도록 하는 방식이다.
이날은 오토라벨링 기능은 잠시 꺼두고 직접해봤다. 데이터 라벨링 작업은 마치 포토샵에서 ‘누끼(ぬき, 빼다) ' 따기와 비슷했다. 누끼 따기는 이미지에서 특정 객체의 테두리를 본떠 오려내는 작업을 의미한다. 작업이 정교하게 될수록 AI가 인식하기 쉽다. 이렇게 이미지에서 요구하는 개체를 표시하고, 각각에 이름을 달아주면 된다. 이런 작업을 몇 천장에서 몇 만장 해야 한다. 하면 할수록 더욱 정교하게 할 수 있어 데이터 라벨러로 시작해 라벨링 전문가로도 성장할 수도 있다.
사실 이 작업은 처음엔 영상전문 분석가들이 AI 학습 데이터를 구축하기 위해 했던 일이다. 지금은 대량의 데이터를 처리해야 하고 단순 작업량이 많아 데이터 라벨러들이 많이 필요하게 됐다.
공성배 메가존클라우드 데이터 서비스 센터장은 "AI 데이터 라벨링 자체가 어려운 일은 아니다. 그래서 경력단절 여성이나 50~60대도 충분히 할 수 있다"면서도 "더 중요한 건 이렇게 모인 데이터를 어떻게 AI와 접목해 비즈니스(수익)화시킬 수 있는지가 관건”이라고 말했다.
그렇다면 데이타와 AI를 접목해서 어떻게 비즈니스를 할 수 있을까? 자율주행, 인공지능 스피커, 게임로봇 등 많은 적용 분야가 있지만 먼저 의료와 교육 데이터 중심으로 공공시장이 커지고 있다. 정부기관, 교육기관, 의료기관이 최대한 빠르게 디지털 기술을 이용할 수 있도록 하면서 수요기업과 공급기업의 니즈가 커졌다.
국내 데이터 라벨링 바우처에 참여한 기업은 약 80개정도다. 현재 데이터 직무 인력은 8만9000여 명인 것으로 집계됐다. 올해 정부가 3차 추경을 통해 AI 기반인 ‘데이터 라벨링’ 사업 예산을 2925억 원으로 책정해 데이터 시장은 계속 늘어날 것으로 보인다.
슈퍼브에이아이와 자사가 컨설팅을 한 데이터연구소는 한국정보화진흥원(NIA) ‘인공지능 학습용 데이터 구축 사업' 공모 과제에 나란히 선정됐다. 이번 AI 데이터 부문 정부 과제는 국내 AI 학습용 데이터 시장의 세계적 경쟁력 강화를 위해 시도된 것으로, 오는 11월 말까지 과업이 이뤄질 예정이다.
그럼 스위트를 활용한 인공지능 관련 서비스들은 어떤게 있을까. 시어스랩, 비프로일레븐 등이다.
가상 피팅 서비스를 가능하게 해주는 핵심 AI엔진인 ‘AR기어(ARGear)’를 개발한 시어스랩(Seerslab)은 실제 신체 사진 데이터를 찍어 증강현실 쇼핑을 실현할 수 있는 솔루션을 선보이고 있다. 손이나 발, 얼굴 등 신체의 사진을 찍으면 그 위에 반지, 신발, 안경 등 가상의 패션 아이템을 입힐 수 있어, 실제로 착용을 해보지 않아도 실감나는 온라인 쇼핑을 할 수 있다. 실제 여러 패션 브랜드가 AR기어를 활용한 가상 피팅 서비스를 제공 중이다.
비프로일레븐(Bepro11)은 설치형 카메라 3대로축구 경기장을 촬영한 후, 이를 데이터화해 분석한다. 기존에는 직접 경기를 눈으로 보며 하나씩 주요 장면을 셀렉하고 연구해 자료를 전달했다면, 이제는 인공지능이 데이터를 객관적으로 분석한 자료를 훨씬 빠르게 받아볼 수 있게 됐다.
슈퍼브에이아이 김현수 대표는 "실생활에서 활용 가능한 제품 수준(Production level)의 AI를 출시한 기업들이 국내외에서 속속 등장하고 있다"며 "입맛에 딱 맞는 데이터 구축이 간편해질수록 AI 생태계의 발전속도가 빨라지고, AI 산업은 급격한 성장세와 함께 대중화의 흐름을 탈 것으로 예상한다”고 말했다.
한현주 글로벌이코노믹 기자 kamsa0912@g-enews.com