데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

통계학·언어학 등에 관심 가져야 … 핵심은 ‘데이터 해석’ - 윤준태 다음소프트 부사장 / 자연어처리 연구소장

DATA 인터뷰
작성자
dataonair
작성일
2012-05-15 00:00
조회
6213




통계학·언어학 등에 관심 가져야 … 핵심은 ‘데이터 해석’

in_120515_1.jpg

윤준태 | 다음소프트 부사장 겸 자연어처리 연구소장
연세대 전산학과를 나와 동 대학원에서 자연어 처리로 석?박사 학위를 받았다. 지난 2000년, 자연어 처리를 중심으로 한 다음소프트 설립 멤버로 참여해 국내의 대표적인 데이터 분석 업체 중 한 곳으로 키워냈다.

?최근 빅데이터가 이슈로 떠오르면서 데이터 분석가·데이터 과학자에 대한 관심도 함께 올라가고 있다. 지난 10여 년 간 데이터 분석 분야에서 일해온 다음소프트의 윤준태 부사장 겸 마이닝 연구소장을 만나 빅데이터에 대한 생각부터 데이터 분석의 실체, 데이터 분석가가 되기 위해서는 무엇이 필요한지 얘기를 나눴다.
다음소프트에 대한 소개를 부탁 드립니다.
 

?자연언어 처리·검색엔진·데이터 마이닝 사업을 위해 지난 2000년 4월에 설립된 데이터 분석 전문업체입니다. 현재 약 110명의 임직원이 일하고 있으며, 그동안 데이터 분석과 관련한 거의 모든 기술을 직접 개발해왔습니다. 최근에 텍스트 마이닝 정보를 제공하는 트윗몹(www.socialmetrics.com)을 오픈 했습니다. 트윗몹은 일종의 오픈 소셜 큐레이션 서비스입니다.
요즘 빅데이터 분석이 이슈가 되고 있습니다.
 

?빅데이터라 분석은 사실 동영상, 음성, 텍스트 등 데이터의 종류에 상관없이 대용량의 데이터에 대한 분석 요구가 생기면서 나타난 이슈라고 할 수 있습니다. 빅데이터가 떠오른 이유는 초대용량 데이터 속에서 미래 예측, 각종 의사결정 등을 위한 가치 있는 정보를 찾을 필요가 있기 때문입니다. 이 과정 속에서 다양한 문제가 나타나기도 합니다. ‘실시간’ 문제가 그 중 하나입니다. 실시간 정보 획득은 과거에도 있었던 이슈이지만, 실시간으로 들어오는 방대한 데이터를 분석·모니터링하는 체계가 기존과는 다른 문제로 다가오고 있습니다. 실시간으로 방대한 데이터를 모니터링·분석한 후 정리해 보여 줘야 하기 때문입니다. 이러한 실시간성은 트위터나 페이스북과 같은 소셜 네트워크에서 더욱 강하게 나타납니다.
다음소프트는 소셜 분석 업체로 잘 알려져 있습니다.
 

?다음소프트의 분석 시스템은 소셜 분석에만 치우쳐 있지 않습니다. 소셜 분석뿐 아니라 시대의 흐름에 따라 빅데이터 분석을 염두에 두고 각종 시스템을 개발했습니다. 예를 들어, 기업에서 보유한 VOC(Voice Of Customer)나 신문 기사도 저희의 분석 대상입니다. 다음소프트는 그동안 빅데이터 분석을 위한 플랫폼 구축에 많은 노력을 기울여왔고, 그러한 노력으로 다양한 응용 서비스를 쉽게 구축할 수 있는 체계를 갖추게 되었습니다.

in_120515_2.jpg
소셜 분석의 특징과 다른 분석 분야에 대한 소개를 부탁 드립니다.
 

?소셜 분석에 대해 이야기하기에 앞서 전통적인 미디어 환경과 현재의 미디어 환경을 비교해볼 필요가 있을 거 같습니다. 인터넷이 대중화되기 전까지 미디어란 신문이나 방송을 의미했습니다. 전통적 미디어 환경에서 방송사나 언론사는 일반적으로 그들만의 색깔이나 생각을 갖고 메시지를 전달합니다. 즉, 그 언론사만의 어조를 갖고 있지요. 하지만 웹2.0 더 나아가서 소셜 미디어 시대에는 개인(미디어)이 자신의 의견을 다양한 형태로 표출하고 있습니다. 이들은 과거의 대중 언론사의 사이트에 댓글, 리트윗, ‘좋아요’ 등 다양한 형태의 반응을 남기기도 합니다. 개인이 SNS 세상에서 서로 복잡하게 얽혀있는 것이지요.

?과거의 미디어가 1:N의 관계였다면, 이제는 M:N 관계가 형성되고 있습니다. 그 사이에 파워 블로거 등 영향력 있는 개인 커뮤니케이터가 나타나기도 하고, 이러한 개인 미디어들을 통한 광고와 마케팅 시장이 형성되기도 합니다. 소셜 미디어에서 나타나는 사람들의 의견은 너무나 다양하고 주관적이고 정성적입니다. 소셜 분석이라 함은 이러한 거대한 네트워크 속에서 오가는 담론을 분석하는 작업이고, 이러한 정성적·주관적 데이터를 정량적·객관적 데이터로 변화시킨 것입니다. 여기에는 순수 텍스트 분석도 포함됩니다. 사람 간 혹은 메시지 간 네트워크 분석을 하면, 정보 흐름을 파악할 수 있습니다. 더불어 특정 문서에 대한 사람들의 다양한 반응도 볼 수 있습니다. 이러한 흐름을 분석해 보면 단순히 키워드의 빈도가 문제가 아니라, 시간에 따른 전체 사회의 움직임이나 변화 혹은 그 안에 내재된 변화의 동인이나 개체 간 관계를 파악할 수 있습니다. 요즘 들어, 감성분석이라는 용어를 자주 만날 수 있습니다. 사람들의 감성은 마케팅, 예측 등의 분야에 있어 중요한 정보이기 때문에 감성 분석이라는 게 하나의 중요한 토픽이 되고 있습니다.
분석 분야를 확대해가고 있군요.
 

?예, 그렇습니다. 다음으로 갈 준비를 갖추고 있습니다. 그동안은 텍스트 분석에 주로 관심을 기울여 왔습니다. 여기에 이슈 및 트랜드 분석, 버즈 추이 분석, 실시간 모니터링 및 워크플로우를 고려해 트렌드 분석 및 마케팅 관련 리포트 제공, 소셜 미디어 모니터링 및 대응을 위한ASP(Application Service Provider) 서비스, 분석 솔루션 패키지 등을 개발해 왔습니다. 올해부터는 이들 속에 내재된 또 다른 정보를 마이닝하기 위한 준비를 하고 있습니다. 2012년은 ‘인사이트 발굴’이라는 주제가 중요한 연구과제가 될 것 같습니다.
다음소프트의 분석가 중 인문학 전공자가 30% 정도 된다고 들었습니다.
인문학 전공자들도 회사에 들어오면 수학적 개념과 프로그래밍을 공부하게 되는지요.
 

?컴퓨터가 인사이트를 찾기 위한 많은 도구를 제공합니다만, 결국 사람이 확인하고 판단해야 합니다. 앞서 소개한 것처럼 다음소프트 비즈니스의 중요한 축 가운데 하나가 리포트입니다. 리포트를 쓰기 위해서는 많은 데이터를 보고 다양한 관점에서 각종 ‘함의’를 도출해야 하는데, 이 경우 컴퓨터 프로그래밍까지는 아니더라도 스크립트 언어 정도는 사용할 줄 아는 것이 아무래도 작업을 하기 쉽기 때문에 세미나 등을 통해 프로그래밍 공부를 하고 있습니다. 인문학 전공 직원들도 리눅스의 기본 명령 체계나 간단한 스크립트를 익혀서 업무에 활용하고 있습니다.
데이터에서 ‘함의’를 도출하고 읽을 수 있어야 한다면, 사회적인 이슈를 읽을 수 있는 전반적인 소양이 중요하다고 해석할 수 있을 거 같습니다. 결국 분석 전문가들의 영역도 세분화될 가능성이 있지 않을까요.
 

?어느 정도 타당한 지적입니다. 예를 들어, 특정 회사의 특정 제품에 대해서는 그 회사에 대한 사전 정보와 제품 정보를 가진 사람이 가장 잘 알 것입니다. 이 분야도 아직 역사가 오래되지 않았지만, 시간이 갈수록 해당 분야를 전문적으로 다루는 전문가들이 나타나면서 세분화될 것이라고 생각합니다.
현재 빅데이터에 대한 정보는 주로 해외, 특히 미국으로부터 나온 것이 많아 보입니다. 분명히 문화적인 이슈가 많은 분야인데 한국적인 특수성도 고려해야 하지 않을까요.
 

?실제 내용 분석으로 들어가면 한국어의 특수성과 문화적 특성 같은 것들이 반영돼야 합니다. 하지만 아직 한국에서 빅데이터라는 것은 초기 단계입니다. 아마도 많은 기업들이 아직 빅데이터에형적인 부분이 강조될 수밖에 없고요. 이러한 것들은 미국의 기술이 독보적이다 보니 이들의 정보에 의존하게 되죠. 하지만 내용에 대한 이해가 올라갈수록 한국만의 문화적 특수성에 대한 고려가 중요해집니다. 텍스트 분석을 전문으로 하는 글로벌 분석 업체가 많은데, 이들이 아직 한국에 들어오지 못하고 있습니다. 그 이유는 언어의 장벽이 크게 작용하기 때문으로 봅니다. 데이터를 분석하기 위해서는 깊이 있는 언어처리가 필수적인데, 한국어는 엄두를 못 내고 있는 것이죠.

in_120515_3.jpg
빅데이터의 기준은 무엇이라고 생각하나요.
 

?생각해보면 사실 빅데이터라는 것은 과거에도 있었습니다. 다음 카페나 네이버 블로그에서 생성되는 콘텐츠의 양은 상당하죠. 하지만 빅데이터가 이슈가 된 것은 빅데이터의 추세가 포탈에서 벗어나 점차 일반 기업으로 들어오기 때문입니다. 아직 초기 단계라 그런지 빅데이터에 대한 생각도 매우 다양한 것 같습니다. 해외에서는 페타 이상의 초대용량을 빅데이터라고 하더군요. 저는 빅데이터를 ‘단일 시스템에서 처리가 불가능하고 지속적으로 빠르게 증가해 그것에 대한 체계적인 확장 및 대응이 필요한 정도의 양’이라고 생각합니다.
대용량 데이터 분석을 위한 플랫폼을 어떤 형태로 운영하는지요?
 

?하부 저장 구조를 위해서는 하둡이나 몽고DB 등 오픈소스를 사용합니다. 전체적으로 보면, 데이터 수집기가 블로그·트위터·페이스북·뉴스·게시판 등에서 데이터를 수집해 오면, 문서 정제 및 필터링·언어 처리·텍스트 마이닝과 같은 분석기에서 분석을 합니다. 그 분석 결과를 하둡과 같은 저장구조에 저장합니다. 이것은 API를 갖고 있어 서비스와 데이터 마이닝을 빠르게 수행할 수 있도록 합니다. 데이터 수집과 분석 엔진은 모두 자체적으로 개발했습니다.
어떤 인프라에서 분석을 하는지 궁금합니다.
 

?테라 단위의 하드를 갖춘 서버 약 80대 정도를 운영하고 있습니다.
‘빅데이터=하둡 생태계’로 생각하는데 이에 대한 의견이 궁금합니다.
 

?앞서 소개했듯이 아직도 빅데이터라는 것이 국내에서는 초기 단계이기 때문에 내용보다는 인프라에 관심이 많을 수밖에 없다고 봅니다. 하둡은 좀더 명확하지요. 아직 빅데이터로부터 무엇을 끌어낼 수 있는지에 대해서는 아이디어가 부족한 편이라 그렇습니다. 점차 달라질 것이라고 생각합니다.
소셜 데이터 8년치를 모으고 있고, 10년 정도 이 분야의 사업을 하니까 조금 알 수 있다는 말을 들었습니다. 소셜 부분은 현재와 미래 분석이 특징이라고 했는데, 과거의 데이터를 보관하는 이유는 무엇 때문인지요.
 

?미래는 결국 과거의 분석을 통해 나타나는 것이기 때문에 과거 데이터도 중요합니다. 10년이면 강산도 변한다는 말이 있듯이 10년 혹은 20년의 데이터를 보게 되면 그 흐름을 알 수 있습니다. 블로그, 카페를 기점으로 보더라도 아직 인터넷과 소셜 미디어의 활성화는 10년이 채 안됩니다. 저희는 앞으로도 지속적으로 데이터를 수집·분석하면서 시대의 흐름을 알고자 합니다. 과거의 이슈와 현재의 이슈, 그리고 그 안에서 일어나는 변화, 그 변화의 동인들, 그리고 시간의 흐름에 따른 비교 이런 것들이 결국 중요한 것이니까요. 하둡과 같은 데이터 처리 엔진은 오픈소스로 개발되고 있습니다. 결국 미래의 핵심 경쟁력은 데이터와 내용 분석에 있을 거라 생각합니다. 얼마나 방대한 데이터로부터 신뢰성 높고 창조적인 분석이 가능한지가 핵심이라 생각하기 때문에 시간이 갈수록 데이터의 중요성은 더욱 높아지리라 생각합니다. 이에 따라 저희는 더욱 더 수집과 분석에 노력을 기울일 것입니다.
빅데이터 분야를 준비하는 DB 엔니지어들에게 조언을 해주십시오.
 

?너무나 많은 정보가 온라인에 있습니다. 열심히 팔로업하시고요. 언어처리를 하면서도 느낀 것이지만, 학제 간 연구가 점점 더 중요해지는 것 같습니다. DB·인공지능·OS와 같은 전산학의 다양한 분야뿐 아니라, 통계학·언어학·철학·소비자 심리학·산업공학 등 타 분야에도 관심을 갖고 보면 아이디어가 더 많이 떠오르지 않을까 생각합니다.
데이터 분석가에 대한 나름대로의 기준이 있을 거 같은데요.
 

?저희는 어떤 주제와 관련된 데이터를 찾는 것으로부터 분석을 시작합니다. 기초 지식과 함께 시스템을 이용해 다양한 근거가 될 수 있는 정보를 찾게 되는데, 이러한 과정에서는 엄밀성과 직관성 모두가 필요합니다. 이렇게 데이터를 보면서 나름대로 인과관계, 연결관계를 찾고 그것을 논리적으로 기술하는 과정을 거치게 됩니다. 이 과정에서 통계 지식 같은 것은 큰 도움이 될 겁니다. 결국 창의성, 엄밀성, 논리적 분석 및 수학적 직관 같은 게 좀 요구된다고 보면 될 것 같습니다.
빅데이터와 관련해 창업 또는 분석가, 빅데이터 전문 엔지니어를 꿈꾸는 사람이 많은 것으로 알고 있습니다. 이들에게 각각 해주고 싶은 얘기가 있을 거 같습니다.
 

?제가 빅데이터 분석을 하면서 느낀 점은 ‘핵심은 데이터 해석’이라는 것입니다. 다양한 분석 결과가 제공되고, 심지어는 통계 도구를 이용해 차트를 제시한다고 해도 분석가가 제대로 분석해서 보고서를 쓰지 못하면 아무 소용이 없어요. 결국 ‘구슬이 서 말이라도 꿰어야 보배’라는 이야기인데요. 그것 때문에 저희 회사는 리포트를 직접 제공하는 비즈니스를 하고 있습니다. 자료가 많고 툴도 많지만 이에 대한 적절한 해석을 내리고 그로부터 인사이트를 찾을 수 있는 사람들이 필요합니다. 그렇기 때문에 적어도 당분간은 이러한 데이터 분석가가 많이 필요하리라 생각합니다.
DB 분석 업무는 기술뿐 아니라 비즈니스와 사회를 읽는 눈이 필요하다고들 합니다. 이에 따라 수학?통계학, 경영에 대한 이해 , IT 실무지식이 요구된다고 합니다. 실제로 현업에서 배우지 않고 3가지를 겸비하기란 쉽지 않을 거 같은데요.
 

?어쨌든 대학에서 그런 것들을 최대한 맛보고 나오는 것이 필요하다고 생각합니다. 기초 공부, 그것이 대학의 중요성이라고 생각하는데요. 그것 때문에 최근에 국내 몇몇 대학에서도 데이터 분석가 양성을 위해 준비중인 것으로 알고 있습니다. 물론 그러한 과정에서 저희와 같은 회사와 관계를 맺고 과정 동안 실무를 익힐 수 있는 기회를 갖고자 하죠. 학생이나 신업사원이 처음부터 실무를 잘 알고 업무를 수행하지는 못할 것입니다. 하지만, 대학에서 그러한 것을 배웠느냐 배우지 않았느냐는 차이가 크다고 봅니다.
요즘 우리나라에서도 일반 사무 직원이 프로그래밍 언어를 배우는 등 변화가 있다고 합니다. 이것이 데이터 분석 능력을 높이는 차원에서 어떤 도움이 될까요.
 

?앞서 소개했듯이 분석을 쉽게 하기 위해서는 결국 간단한 스크립트 언어 정도는 익히게 되는 것 같습니다. 자신의 필요에 의해서죠. 물론 전문 프로그래머만큼 강력한 기능이 필요하지는 않겠지만, 그래도 기본적인 프로그래밍 언어는 익히고 있습니다. 저희 회사에서는 내부 세미나를 통해서 분석가들도 스크립트 언어를 배우고 있습니다. 그냥 통계적 해석이 아니라 DB로부터 나온 데이터를 자기가 원하는 형태로 약간 가공을 해야 할 필요가 있는데, 매번 프로그래머에게 부탁할 수도 없고 그렇다고 수작업으로 하자니되는 것 같습니다.

출처 : 한국DB진흥원

제공 : DB포탈사이트 DBguide.net