데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“사전 데이터로 AI 시대 선도하는 주역 되고 싶다” - 윤택기 이지메타 대표

DATA 인터뷰
작성자
dataonair
작성일
2018-08-01 00:00
조회
2505


데이터 개발자: 윤택기 이지메타 대표

“사전 데이터로 AI 시대 선도하는 주역 되고 싶다”

한국학 전문 출판사 직원에서 데이터 구축 및 분석업체 대표로 특이한 행로를 걸어온 사람이 있다. 사전 데이터를 중심으로 데이터 사업을 펼치고 있는 이지메타의 윤택기 대표가 바로 그 주인공. 이지메타는 엑소브레인(ETRI가 주도하는 인공지능 국가 혁신기술 연구개발 과제) 프로젝트를 비롯해 최근 굵직한 인공지능 프로젝트에 사전(어휘) 데이터를 속속 공급하면서 사전 데이터 분야의 숨은 고수로 인정받고 있다. CD-ROM DB의 매력에 빠져 다니던 출판사를 그만두고 DB 구축 업체로 이직해 프로그래밍까지 배우며 자신의 길을 개척해온 윤 대표를 만나 데이터 사업과 데이터에 대한 얘기를 나눴다.

- 한국학 출판사에서 일하다 DB가 좋아 IT 업체로 이직
- 뒤늦게 자바, PHP, 파이썬까지 배워 개발자들과 소통
- 전문용어 사전 데이터 분야의 숨은 강자
- 엑소브레인 프로젝트에 ‘유의어 사전’ 공급하며 실력 인정받아
- 텍스트 마이닝 프로그램 ‘인공지능 식별기’도 개발




column_img_3503.jpg
윤택기 이지메타 대표이사


이지메타를 간단히 소개하면.

전 세계 문헌에서 추출한 2300만 개 이상의 사전(어휘) 데이터를 보유한 텍스트 마이닝 및 데이터 분석 전문업체다. 2300만 개 이상의 어휘 데이터는 한국어 500만 개, 영어 1200만 개, 중국어 600만 개로 구성됐다.


우연히 찾아온 DB와의 인연

전 세계 문헌에서 추출한 2300만 개 이상의 사전(어휘) 데이터를 보유한 텍스트 마이닝 및 데이터 분석 전문업체다. 2300만 개 이상의 어휘 데이터는 한국어 500만 개, 영어 1200만 개, 중국어 600만 개로 구성됐다.


사전 데이터 비즈니스는 어떻게 이뤄지고 있나.

주로 기관의 의뢰를 받고 고객 환경에 맞게 전자사전을 만들어 공급한다. 벌크 데이터로 공급하는 경우는 별로 없었고 고객 니즈에 맞게 가공?공급해 왔다. 고객 환경에 맞춘 전문 사전을 만들어 낼 수 있는 것이 이지메타의 노하우인 셈이다.


엑소브레인 프로젝트에도 참여한 것으로 알고 있다.

엑소브레인 프로젝트(인공지능 소프트웨어 분야의 국가 혁신기술 연구개발 과제)에 ‘유의어 사전(지식 베이스)’을 공급했다. 이는 인공지능에 쓰는 일종의 언어 사전이다. 모든 언어의 자체 식별코드에 맞춘 동의어 사전 데이터를 만들어 공급했다. 이 데이터를 활용해 인공지능에서 어휘들의 연관관계를 분석하게 된다.


이지메타의 사전 데이터 비즈니스는 덜 알려진 느낌이다.

질문에 동의한다. 사실 엑소브레인 프로젝트에 유의어 사전을 공급했던 배경도 우연한 계기로 이뤄졌다. 중소기업 컨설팅을 하던 분이 이지메타의 경력과 상품을 알고서 엑소브레인 프로젝트 부서와 연결해줘서 참여할 수 있었다. 이지메타의 사전 데이터는 사용자의 아이디어만큼 폭넓게 활용될 수 있는 제품이다. 현재 데이터 스토어(www.datastore.or.kr)에 ‘토픽 동의어’ 파일 데이터가 등록돼 있다.


이지메타의 사전 데이터 상품을 간단히 소개하면.

크게 3가지로 구분할 수 있다. 먼저 아날로그적인 사용 사례로서 작가나 편집자들이 동의어를 피하려고 이 사전을 쓴다. 순우리말 유의어 (종이책) 사전은 나왔는데 한자에서 온 말을 포함한 유의어 사전은 아직 없다. 이지메타는 한자어를 포함한 (인쇄 안 된) 국어 유의어 사전이라고 할 수 있다. 이 유의어 사전 데이터를 미국 국방부에서 구입해 가기도 했다. 이 어휘 데이터로 유의어 또는 확장 검색 서비스나 소셜 분석에 적용할 수 있다.

두 번째로 검색엔진에서 동의어 또는 확장 검색 서비스를 구현할 때 활용할 수 있다. 우리가 자주 접하는 동의어 검색은 기능적으로 구현이 된 것이지, 사전(dictionary) 데이터 측면에서는 모양새를 갖추지 못한 경우가 적지 않다. 즉 사전 데이터가 많이 부족한 상태다.

세 번째로 감성분석 또는 소셜 분석에 적용할 수 있다. 검색엔진은 색인어 측면에서 접근하는 데 비해, 이지메타의 사전 데이터는 키워드 측면에서 접근한다. 다시 말하여, 일반 기술 중심의 소셜 분석에서는 단어 사전이 없어서 분석가가 나올 만한 단어를 직접 넣어준다. 반면 이지메타 유의어 데이터는 옵션 몇 개만 지정해 놓으면 기존 감성분석의 색인 단어보다 훨씬 폭넓고 정확한 분석이 가능하다.


이지메타의 사전 데이터의 특징이 있다면.

키워드 식별기능과 복합명사 식별기능을 들 수 있다. 복합명사 식별기능은 띄어쓰기가 되거나 안 된 복합명사를 인식한다. 이 기능이 유용한 이유는 사전에 없는 단어까지 파악할 수 있기 때문이다. 사전에 나오지 않았지만 우리 일상생활에서 쓰는 단어이므로 텍스트를 파악할 때 매우 유용하다. 사전에 없는 단어라도 의미를 파악할 수 있다는 말이다. 이것을 KoNLP와 같은 형태소 분석기와 통합하면 매우 중요한 지식 자원이 될 것이다. 전문용어, 제품용어, 신조어에 특화한 기능이다.

참고로 사람이 글을 읽거나 대화할 때는 의미 맥락 차원에서 받아들인다고 한다. ‘시스템엔지니어링’이 무슨 말인지 몰라도 ‘시스템’과 ‘엔지니어링’으로 구성된 단어로서 대략 어떤 뜻이겠구나 하고 순간적으로 파악하는 것이다. 시만틱 분석을 할 때도 복합명사 식별기능은 매우 중요하다. 빈도수와 중요도 계산 시에 중요한 기능이다. 컴퓨터가 의미를 이해한다는 건 곧 계산할 수 있다는 뜻이다.


앞서 ‘세계 문헌에서 추출한 2300만 개 이상의 사전 데이터’라고 했는데, 문헌에서 추출한 데이터는 어떤 의미를 갖는가.

일상에서 쓰는 우리 말은 한자어와 영어가 섞인 경우가 많다. 일반적으로 전문 사전 기반의 사전(어휘) 데이터는 표준어를 중심으로 접근하는 데 비해, 문헌에서 추출한 사전 데이터는 표준어는 물론, 비표준어까지 수용한다. 예를 ‘네트워크’라는 단어를 특정 문헌에서는 ‘네트웍’으로 표현하기도 한다. 이지메타 어휘 데이터는 이렇게 다르게 표현된 단어들을 같은 말로 인식한다. 당연한 얘기지만, 반대로 문헌이 아닌 소셜 빅데이터에서 추출한 사전 데이터는 (문헌에서 추출한 사전에 비해) 전문 용어가 부족하다. 이 사전 데이터를 기반으로 4~5년 전부터 ‘인공지능 식별기’라는 이름의 텍스트 마이닝 프로그램을 개발했다. 2017년 이 접근 방법론으로 특허 출원을 했으며, 2018년 4월에 프로그램 등록을 마쳤다.


이것이 전문 분야의 인공지능 프로젝트에서 이지메타의 사전 데이터가 각광 받고 있는 이유일 거 같다.

동의한다. 인간과 ‘자연스러운’ 대화가 가능한 인공지능 대화형 시스템 개발에는 ‘사용자의 자연어를 이해한 후, 최적의 답변을 제공하는 기술이 핵심’이라고 알고 있다. 인공지능 시스템은 다양한 기술이 들어가지만, 가장 기본적인 것이 구글이나 아마존 등에서 강조하는 데이터다. 이를 이쪽 용어로 표현하면, 인간 뇌의 장기기억에 해당하는 학습 DB와 지식베이스다. 이지메타는 지식베이스 구축의 바탕이 되는 우수한 사전 데이터를 갖고 있다. 그것도 갑자기 구축한 것이 아닌, 10여 년 전부터 수작업으로 사전 데이터를 구축해왔으므로 풍부한 경험과 노하우를 갖고 있다. 지금은 머신러닝 방식으로 사전 데이터를 구축하고 있다. 앞? 용어와 전문 용어까지 고루 확보한 것이 강점이다. 만약 금융이나 재난방재 영역에서 사람의 대화를 이해할 수 있는 인공지능 시스템을 구축한다고 하면, 이 분야의 전문 용어 사전이 필수적이다. 이러한 전문 용어 사전 데이터가 없다면 하나부터 일일이 구축해야 한다. 시간과 비용이 그만큼 소요될 수밖에 없다.


전문 분야의 사전 데이터를 별도로 공급할 수 있다는 말인가.

그렇다. 지금까지의 비즈니스가 사전(어휘) 데이터를 고객이 요구하는 형태로 가공?공급해왔으므로 이 분야에 대한 노하우가 풍부하며, 이게 이지메타의 경쟁력이다.


데이터 분석도 사업 영역이었다.

사전 데이터를 갖고 있으므로 소셜 데이터와 콜센터 데이터 분석을 주로 하고 있다. 소셜 데이터 분석은 특정 키워드에 대해 빈도수 중심으로 접근하는 경우가 많다. 이지메타는 사전 데이터가 있으므로 분석가가 애초 예상하지 못했던 인사이트도 찾아낼 수 있다는 점에서 분석 기술 중심의 업체와 차이가 난다. 앞서 간단히 소개했지만, 사전 데이터가 없는 소셜 분석은 분석가가 미리 키워드를 입력하는데, 그러다 보니 분석가의 지식과 경험 테두리로 축소될 가능성이 상존한다. 요즘 한 콜센터의 고객 데이터를 분석하는 프로젝트를 진행하고 있다. 이 업체는 많이 쓰이는 단어가 어떤 것인지 이미 알고 있었다. 그런데도 이 업체는 예상하지 못했던 지점이 있는지, 다양한 단어의 연관성을 알고 싶어 했다.


개인적으로 특이한 이력을 갖고 있었다.

한국학 출판사에서 한의학 담당 편집자로서 직장 생활을 시작했다. 회사 옆 사무실이 국제퇴계학회 사무실이었다. 당시 삼보컴퓨터 이용태 회장이 그 학회의 회장이었는데 ‘한의학 자료를 DB로 만들어 보라’고 조언한 게 시작이 됐다. 지금처럼 인터넷이 대중화하지 않았을 때여서 CD-ROM으로 한의학 DB를 만들었다. 솔빛조선미디어에 개발을 의뢰해 ‘CD 동의보감’이라는 CD-ROM DB를 내놓았다. 이때가 1993년이었다. 뭔가를 DB화한다는 것이 무척 매력적이어서 출판사를 그만두고 서울시스템에 들어가 개발자들과 일을 했다.


column_img_3504.jpg

“좋아하면 길이 보일 것이다. 개인적으로 DB 구축 사업이 좋아서 출판사에서 일하다가 낯선 IT 분야로 와서 적응할 수 있었다. 개발자들이 하는 말을 못 알아들을 정도의 사람이 몇 번이고 물어보면서 알게 됐고 자바·파이썬·PHP 프로그래밍까지 가능해졌다. 좋아하면 할 수 있고 힘이 난다”


인문학 전공자일 거 같은데, 이 분야에 들어왔을 때 어려움이 많았을 거 같다.

역사학을 전공했다. 처음에는 프로그래머들이 하는 말을 제대로 알아들을 수 없었다. 회의에서 나온 낯선 기술용어나 어려운 개념은, 주변 지인을 총동원해 이해하면서 차츰 적응해 나갔다. 서울시스템에서 나와서 지식공학으로 옮겨서 시소러스와 콘텐츠 사업 부서에서 일했다.


향후 계획과 준비중인 제품이 있다면.

사람이 컴퓨터에서 자료를 찾는 시간을 현실적으로 더 단축해주는 역할을 하고 싶다. 논문을 준비하는 시간의 40%는 선행 연구자료를 찾는 데 쓰인다고 한다. 이걸 20%로 낮춰도 크게 기여한 게 아닐까 한다. 다음으로는 전문지식에 특화한 챗봇(Conversational System)을 내놓을 계획이다. 쇼핑몰 등의 챗봇은 전자상거래 상황에 특화한 것이다. 하지만 언어는 인간 지식 자체이므로 생각보다 넓고 복잡하다. 그래서 한두 명의 사람이 뭔가를 해낼 수 있는 것도 아니다. 여러 명이 함께하여 도출해 내는 전문지식 챗봇을 내놓을 채비를 하고 있다.


데이터 비즈니스를 검토중인 분들에게 조언한다면.

좋아하면 길이 보이지 않을까 한다. 좋아하다 보니 출판사에서 일했던 사람이 IT 분야에 와서도 적응할 수 있었다. 개발자들이 하는 말을 못 알아들을 정도의 사람이 몇 번이고 물어보면서 알게 됐고 자바?파이썬?PHP 프로그래밍까지 가능해졌다. 좋아하면 할 수 있고 힘이 난다. (끝)


출처 : 한국데이터산업진흥원
제공 : 데이터 온에어 Dataonair.or.kr