데이터 인사이트

데이터 지식공유
나만 알기는 아까운 데이터 지식 함께나눠요.

[Data Seller? 데이터 셀럽!] 유의어 사전 데이터 분야의 ‘재야 고수’ 이지메타

작성자
관리자
작성일
2020-09-10 13:50
조회
58

[Data Seller? 데이터 셀럽!]

유의어 사전 데이터 분야의 ‘재야 고수’ 이지메타

- 문헌에서 추출한 2000만 개 이상의 어휘 데이터 보유

- 엑소브레인 프로젝트에 유의어 사전 공급하며 실력 인정받아

- ‘전문지식 챗봇’ 등 활용분야 넓어

- 텍스트 마이닝 프로그램 ‘인공지능 식별기’ 개발

이지메타 소개에 들어가며

  데이터 스토어(www.datastore.or.kr)에 올라온 유료 데이터 상품은 대부분 API 인터페이스 형태다. 지난 4월, 파일 데이터로서는 최초로 이지메타의 ‘토픽 동의어’ 등이 유료 상품으로 등록돼 눈길을 끌었다. 지난 2007년에 문을 연 이지메타는 2400만 개가 넘는 어휘 데이터를 기반으로 분야별 전자사전과 연관어‧키워드 분석 등 데이터 분석 사업을 펼치고 있다. 독자적인 키워드‧의미 식별 기술과 오랜 데이터 처리 경험을 토대로 데이터 분석 시대에 주목할 만한 기업으로 등극을 예고하고 있다. 한국학 출판사 직원에서 데이터 사업체 대표로 특이한 행로를 걸어온 이지메타의 윤택기 대표를 만나 어휘 데이터 상품에 대해 얘기를 나눴다.


▲ 윤택기 이지메타 대표

[본문]

이지메타를 간단히 소개하면.

전 세계 문헌에서 추출한 2000만 개 이상의 어휘 데이터를 확보하고 있는 텍스트 마이닝 및 데이터 분석 전문업체다. 2000만 개 이상의 어휘 데이터는 한국어 500만 개, 영어 1200만 개, 중국어 600만 개로 구성됐다.


▲ 이지메타의 어휘 데이터 상품의 구성

문헌에서 추출한 어휘 데이터는 어떤 의미를 갖나.

 일상에서 쓰는 국어는 한자어와 영어가 섞인 경우가 많다. 일반적으로 사전(dictionary) 기반의 어휘는 표준어를 중심으로 접근하는 데 비해 문헌에서 추출한 어휘는 표준어는 물론, 비표준어까지 수용한다. 예를 ‘네트워크’라는 단어를 특정 문헌에서는 ‘네트웍’으로 표현하기도 한다. 이지메타 어휘 데이터는 이렇게 다르게 표현된 단어들을 같은 말로 인식한다. 이 어휘 데이터를 기반으로 4~5년 전부터 ‘인공지능 식별기’ 라는 이름의 텍스트 마이닝 프로그램을 개발했다. 2017년 이 접근 방법론으로 특허 출원을 했으며, 2018년 4월에 프로그램 등록을 마쳤다.

개인적으로 어떤 일을 해 왔나.

 한국학 출판사에서 한의학 담당 편집자로서 직장 생활을 시작했다. 회사 옆 사무실이 국제퇴계학회 사무실이었다. 당시 삼보컴퓨터 이용태 회장이 그 학회의 회장이었는데 ‘한의학 자료를 DB로 만들어 보라’ 고 조언을 한 것이 시작이 됐다. 지금처럼 인터넷이 대중화하지 않았을 때여서 CD-ROM으로 한의학 DB를 만들었다. 솔빛조선미디어에 개발을 의뢰해 ‘CD 동의보감’이라는 CD-ROM DB를 내놓았다. 이때가 1993년이었다. 뭔가를 DB화한다는 것이 무척 매력적이어서 출판사를 그만두고 서울시스템에 들어가 개발자들과 일을 했다.

인문학을 전공하지 않았나. 이 분야에 들어왔을 때 사연이 많았을 거 같다.

 역사학을 전공했다. 처음에는 프로그래머들이 하는 말을 제대로 알아들을 수 없었다. 회의에서 나온 낯선 기술용어나 어려운 개념은, 주변 지인을 총동원해 이해하면서 차츰 적응해 나갔다. 서울시스템에서 나와서 지식공학으로 옮겨서 시소러스와 콘텐츠 사업 부서에서 일했다. 

시소러스를 쉽게 설명하면.

 일종의 유의어 또는 관련어 분류 사전이다. 분류는 잘못 들어가면 헤어 나오지 못 한다는 말이 있을 정도다. 시소러스는 유럽에서 18세기에 등장했으며, 19세기에 ‘로제(Peter Mark Roget)의 분류표’가 나올 정도로 비교적 역사가 깊다.

어휘 데이터 비즈니스는 어떻게 이뤄지고 있나.

 주로 기관 의뢰를 받고 고객 환경에 맞게 전자사전을 만들어 공급하는 사업이다. 벌크 데이터로 공급하는 경우는 별로 없었고 주로 가공해서 공급해 왔다. 고객 환경에 맞춘 어휘 사전을 만들어 낼 수 있는 것이 이지메타의 노하우다.

엑소브레인 프로젝트에 참여한 것으로 알고 있다.

 엑소브레인 프로젝트(과학기술정보통신부가 주도하는 인공지능 소프트웨어 분야의 국가 혁신기술 개발형 R&D 과제)에 ‘유의어 사전(지식 베이스)’을 공급했다. 이는 인공지능에 쓰는 일종의 언어사전이다. 모든 언어에 자체 식별코드에 맞춘 동의어 사전을 만들어 공급했다. 이 데이터를 활용해 인공지능에서 어휘들의 연관관계를 분석하게 된다.

이지메타의 어휘 데이터는 덜 알려진 느낌이다.

 질문에 동의한다. 사실 엑소브레인 프로젝트에 유의어 사전을 공급했던 배경도 우연한 계기로 이뤄졌다. 중소기업 컨설팅을 하던 분이 이지메타의 경력과 상품 소개를 듣더니 엑소브레인 프로젝트 부서와 연결해줘서 제품을 공급할 수 있었다. 이지메타의 어휘 데이터는 사용자의 아이디어만큼 폭넓게 활용될 수 있는 제품이다. 데이터 스토어에서 어떤 데이터인지 미리 확인해 보면, 나중에 분명 활용할 일이 있을 거라고 본다.

데이터스토어에 올라온 이지메타의 어휘 데이터 상품을 간단히 소개하면.

 크게 3가지로 구분할 수 있다.

 먼저 아날로그적인 사용 사례로서 작가나 편집자들이 동의어를 피하기 위해 이 사전을 쓴다. 순 우리말 유의어(종이책) 사전은 나왔는데 한자에서 온 말을 포함한 유의어 사전은 아직 없다. 이지메타는 한자어를 포함한(인쇄 안 된) 국어 유의어 사전이라고 할 수 있다. 이 유의어 사전 데이터를 미국 국방부에서 구입해 가기도 했다. 이 어휘 데이터로 유의어 또는 확장 검색 서비스나 소셜 분석에 적용할 수 있다.

 두 번째로 검색엔진에서 동의어 또는 확장 검색 서비스를 구현할 때 활용할 수 있다. 우리가 자주 접하는 동의어 검색은 기능적으로 구현이 된 것이지, 사전(dictionary) 데이터 측면에서는 모양새를 갖추지 못한 경우가 적지 않다. 즉 사전 데이터가 많이 부족한 상태다.

 세 번째로 감성분석 또는 소셜 분석에 적용할 수 있다. 검색엔진은 색인어 측면에서 접근하는 데 비해, 이지메타의 유의어 데이터는 키워드 측면에서 접근한다. 다시 말하여 소셜 분석에서는 단어 사전이 있어서 분석가가 분석에 적합한 단어를 직접 넣어준다. 반면 이지메타 유의어 데이터는 옵션 몇 개만 지정해 놓으면 기존 감성분석의 색인 단어보다 훨씬 정확한 검색이 가능하다.



이지메타의 유의어 데이터만의 차별화한 점이라면.

 키워드 식별기능과 복합명사 식별기능이다. 복합명사 식별기능은 띄어쓰기가 되거나 안 된 복합명사를 인식한다. 이 기능이 유용한 이유는 사전에 없는 단어까지 파악할 수 있다는 점이다. 사전에 나오지 않았지만 우리 일상생활에서 쓰는 단어이므로 텍스트를 파악할 때 매우 유용하다. 사전에 없는 단어라도 의미를 파악할 수 있다는 말이다. 이것을 KoNLP와 같은 형태소 분석기와 통합하면 매우 중요한 지식 자원이 될 것이다. 전문용어, 제품용어, 신조어에 특화한 기능이다.

 참고로 사람이 글을 읽거나 대화할 때는 의미 맥락 차원에서 받아들인다고 한다. ‘시스템엔지니어링’이 무슨 말인지 몰라도 ‘시스템’과 ‘엔지니어링’으로 구성된 단어로서 대략 어떤 뜻이겠구나 하고 순간적으로 파악한다는 것이다. 시만틱 분석을 할 때도 복합명사 식별기능은 매우 중요하다. 빈도수와 중요도 계산 시에 중요한 기능이다. 컴퓨터가 의미를 이해한다는 건 곧 계산할 수 있다는 뜻이다.

향후 계획과 준비중인 제품이 있다면.

 사람이 컴퓨터에서 자료를 찾는 시간을 현실적으로 더 단축해주는 역할을 하고 싶다. 논문을 준비하는 시간의 40%는 선행 연구자료를 찾는 데 쓰인다고 한다. 이걸 20%로 낮춰도 크게 기여한 게 아닐까 한다. 다음으로는 전문지식에 특화한 챗봇을 내놓을 계획이다. 쇼핑몰 등의 챗봇은 전자상거래 상황에 특화한 것이다. 하지만 언어는 인간 지식 자체이므로 생각보다 넓고 복잡하다. 그래서 한두 명의 사람이 뭔가를 해낼 수 있는 것도 아니다. 여러 명이 함께하여 도출해 내는 전문지식 챗봇을 내놓을 채비를 하고 있다.

데이터 비즈니스를 검토중인 분들에게 조언을 한다면.

 좋아하면 길이 보이지 않을까 한다. 좋아하다 보니 출판사에서 일했던 사람이 IT 분야에 와서도 적응할 수 있었다. 개발자들이 하는 말을 못 알아들을 정도의 사람이 몇 번이고 물어보면서 알게 됐고 자바‧파이썬‧PHP 프로그래밍까지 가능해졌다. 좋아하면 할 수 있고 힘이 난다.