데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“현재의 기술로 현재의 문제를 어떻게 풀까에 주목했다” - 이경일 솔트룩스 대표

DATA 인터뷰
작성자
dataonair
작성일
2016-06-08 00:00
조회
3253




16년간 솔트룩스가 인공지능 한 우물을 팔 수 있었던 이유;

“현재의 기술로 현재의 문제를 어떻게 풀까에 주목했다”

“기계와 사람, 사람과 사람이 정보와 언어 장벽을 넘어 자유롭게 지식을 소통하는 세상을 꿈꿉니다.” 35년 역사를 가진 솔트룩스의 미션이 눈길을 끈다. 물론 최근에 바꾼 것이 아니다. 다가올 인공지능 시대를 미리 예측하여 정한 것이었을까. 빅데이터, 기계학습, 인공지능의 인기와 함께 누구보다 바쁜 나날을 보내고 있는 이경일 솔트룩스 대표를 만나 데이터 동향 중심으로 이야기를 나눴다.

in_012.jpg

▲ 이경일 대표는 아버지로부터 물려 받은 미놀타 필름 카메라를 아직도 새 것처럼 잘 관리하고 있다.

사업을 시작한 계기가 궁금하다.

대학생 때 여자 친구가 생기면서 사업에 대해 생각하게 됐다. 대학 4학년 때 언어처리 엔진을 만들며 첫 사업을 시작했다. 그 여자 친구가 아내고, 지금의 솔트룩스는 두 번째 회사이다.

사업을 시작했을 때 세웠던 사명을 아직도 유지하고 있다는 소개를 보았다.

창업 아이템이 자연어 처리와 인공지능 분야였다. 그 회사를 3년 정도 운영하다가 팔고 LG연구소에서 근무하다가 2000년 후반에 나와서 다시 창업하였다. 그 회사가 시스메타다. 시스메타는 2003년 모비코라는 회사를 합병했다. 모비코는 다국어 언어처리를 주력으로 하던 회사였는데, 인수 당시 기준으로 23년의 역사를 가진 회사였다. 그때까지의 역사를 합쳐 솔트룩스는 35년된 회사로 본다. 우리나라에서도 기술회사로서 100년 가는 회사를 만들어야겠다고 생각했다. 솔트룩스로 이름을 바꾼 것은 2006년이었다. 솔트룩스가 어떤 사명(mission)을 가져야 하고 어떤 것을 추구해야 하는지를 16년 동안 한 번도 포기한 적이 없다. 16년이라는 세월 동안 한 우물을 파고 있다.

그 사명을 소개하면.

“기계와 사람, 사람과 사람이 정보와 언어 장벽을 넘어 자유롭게 지식을 소통하는 세상을 만들어 가겠다”는 것이다. 이렇게 하려면 자연어 처리뿐 아니라 빅데이터와 인공지능 기술까지 필요하다. 한 우물을 팔 수 있는 이유는 본래 사명에 따라 내놓은 우리의 제품이 있기 때문이다. 예를 들어 요즘 ‘핫한’ 인공지능 기술로 바로 수익을 창출할 수 없다면, 기존에 갖고 있는 검색엔진에 인공지능 기술을 적용해 검색엔진 제품을 시대에 맞게 발전시키는 것이다.

양대 세계대전 후 1950년대의 컴퓨터 학자들이 했던 생각과 비슷한 느낌이 든다.

인공지능 기술을 기호적 접근법과 비기호적 접근법으로 나누어 볼 수 있다. 기호적 접근은 온톨로지나 규칙이라든지 이렇게 지식을 표현하고 명세화하고 추론하는 체계를 가져가는 것이었다. 솔트룩스는 이 분야의 선도자이다. 최근의 인공지능은 비기호직 접근인 데이터 기반의 기계학습에서 큰 성과를 보이고 있고, 솔트룩스는 지난 10년간 이 분야에 많은 투자를 했다. 기호적 접근은 추론이나 예측 등을 연역적(deduction)으로 추론하는 것이고, 알파고가 사용한 것과 같은 기계학습은 데이터에 기반한 귀납적(induction) 학습/추론으로 비기호적 접근법을 사용하고 있다. 지난 1962년에 이미 프랭크가 퍼셉트론이라고 하여 기계학습의 한 분야인 인공신경망에 대한 연구의 장을 열었다. 그럼 뭐가 바뀐 것이냐? 하는 질문에 이른다. 그때는 데이터가 없었다는 게 답이다. 딥러닝 같은 기계학습 방법에서는 방대한 데이터가 필요하다. 최근에 새로운 기술로 축적돼 왔던 데이터가 큰 변화를 불러왔다고 볼 수 있다.

솔트룩스가 보는 인공지능은 무엇인가?

최근에 나온 [사피엔스]라는 책에서는 인공지능의 미래에 대한 거대 담론이 나오더라. 그것에 비해 솔트룩스는 인공지능 기술로 당장의 우리 문제를 어떻게 풀 수 있을까에 집중하고 있다. 회사를 설립했을 때의 관심은 ‘현재의 기술로 현재의 문제, 즉 현안을 어떻게 해결해 나갈 것인가를 놓고 끊임 없이 고민하고 실험하여, 현재 고객에게 필요한 제품을 만들어 가치를 제공하는 것’이었다. 그래서 요즘 인공지능에서 말하는 개념을 사명으로 오래 전부터 갖고 있었으면서도 뜬 구름 잡는 것이 아닌, 실제로 고객에게 가치를 제공하는 회사 이미지를 유지할 수 있다. 그래서 지난 15년 동안 솔트룩스는 창업 원년 한 해 외에는 적자를 낸 적이 없다. 매년 이익을 냈고 그 이익의 30%를 연구개발에 재투자하면서도 이익을 낼 수 있었다.

창업 당시 인공지능이라는 개념은 매우 낯설었을 거 같다.

물론 당시에는 지금처럼 인공지능이라는 용어가 아닌 ‘지능화, 자연어 처리, 학습, 추론’ 같은 말을 썼다. 인공지능이라는 말이 어렵고 낯설어서가 아니라, 이미 인공지능은 두 번의 실패사례를 갖고 있었기 때문이다. 미국과 일본에서 60년대 후반에서 70년대 초반까지 한 번, 80년대 후반에서 90년대 초반까지 또 한번의 인공지능 붐이 일어났다가 수그러들었다. 그때부터 인공지능이 다시 각광받은 몇 년 전까지를 인공지능의 암흑기라고 한다. 그래서 솔트룩스도 2년 전까지만 해도 인공지능이라는 말 대신에 요즘 인공지능의 키워드인 학습, 추론, 계획, 인지, 인식이라는 용어를 썼다.

기존 DB 전문가들과 요즘 빅데이터 중심의 데이터 전문가들 사이에 틈이 있다고들 한다.

‘빅데이터’라는 말에서 마케팅 냄새가 풍긴다. 이에 비해 관계형(Relational)이라는 이름을 가진 RDB는 기술 용어에 가깝다. RDB는 E-R(Entity-Relationship Model) 모델, 즉 개체-관계 모델에 기반을 두고 있고 테이블 구조를 특징으로 한다. 이 기술의 단점 중 하나는 join 비용이 매우 높다는 것이다. 데이터 마이닝 등을 위한 강력한 모델링과 데이터 관리에 최적화 되어 있지만 말이다. 특히 데이터가 많아지면, join을 잘 못하니까 Key-Value로 나눠서 단순화 하되 join을 없애고 대용량 처리를 하자는 것이 초기 Hadoop을 포함한 No-SQL들이 주창하는 바였다. 물론 카산드라나 몽고디비 같은 No-SQL도 DB 종류 가운데 하나고, 최근의 Spark 기반 SQL과 E-R 모델 지원과 같이 빅데이터 부분에서의 전통적 기술과 접목이 확대되고 있다. 빅데이터 기반의 DB라는 게 기존 RDB와 다른 구조이고, 서로를 인정하기 어려운 다른 것이라고 볼 수만은 없다. 오히려 상호호환 통합되고 있다고 보는 게 맞다.

프로젝트에 따라 E-R 모델 없이 단순히 데이터만 저장하고 찾아내는 게 중요하면, No-SQL로 가면 된다. 반면 데이터 마이닝처럼 join도 중요하고 패턴을 추출하는 것도 중요하다면, No-SQL만으로는 안 된다. 그럴 때는 E-R 모델이 필요하다. 그런 E-R 모델은 SQL on Hadoop이나 SQL on Spark, SQL on Impala 같은 다양한 형태의 빅데이터 플랫폼에서 구현되고 있다.

데이터 분야에 입문하려는 사람들이 자신의 미래에 대해 의문을 나타내기도 한다.

가트너그룹에서 매년 발표하는 하이프 사이클(Hype Cycle) 보고서에 지난해까지 매년 등장했던 ‘빅데이터’가 올해에는 아예 사라졌다. 그럼 빅데이터 시장이 없어진 것이냐? 하면, 그게 아니다. 빅데이터라는 용어 자체가 대중이 이해하기 쉽게 만든 유행어(buzz word), 즉 마케팅 키워드였다는 뜻이다. 빅데이터라는 말 뒤에 따라다녔던 인메모리 분석이나 실시간 분석, 예측기술, 기계학습 같은 용어는 인공지능과 빅데이터가 접목되면서 나온 것이다. 이런 기술은 오히려 시장이 넓어지고 있다. 지난 3년 동안 미국에서 대학 졸업자의 전공 기준으로 봤을 때 수학, 통계학, 전산학이 가장 각광을 받았다.

그 중에서 가장 높은 연봉을 받는 주인공들이 데이터를 다루는 사람들이었다. 따라서 빅데이터라는 용어만 놓고 시장이 있느냐 없느냐 하고 규정할 필요는 없다. 자율주행 자동차, 전자상거래에서 추천엔진, IoT 영역의 상황인식 서비스, 더 나아가 맛집 추천 모바일 서비스까지 생각한다면, 방대한 데이터가 필요하다. 그러므로 어떤 이름이 붙어있든 데이터를 통해 뭔가를 추론해 내는 것이 대세임에는 틀림 없다. 조금 아쉬운 게 있다면, 한국 빅데이터에서 조금 왜곡된 지점이 보인다는 점이다. 하둡과 R, 소셜 분석 관점으로 빅데이터를 바라보는 것에서 벗어날 필요가 있다. 이는 빅데이터를 이해하기 위한 도구 가운데 하나다. 구글에 공개한 인공지능 알고리즘인 ‘탠서플로우’ 같은 빅데이터와 관련된 오픈소스가 매우 많다. 이런 것을 공부할 수 있는 이해력, 이것을 작동하고 바꿔볼 수 있는 프로그래머로서 고급 능력을 갖고 있다면, 국내에서도 엄청난 기회가 기다리고 있을 것이라고 본다.

주식 시장 상장을 추진 중이라고 들었다.

몇 가지 측면에서 필요하다고 보고 준비 중이다. 상장을 한다는 것은 기업이 사회적 책임을 다하겠다는 의미이자 직원들에 대한 대우로 볼 수 있다. 현재 2년 이상 근무한 직원들은 스톡옵션을 갖고 있다. 더불어 솔트룩스는 글로벌 기업으로 나아가는 데 있어 디딤돌이 필요하다.

선배 프로그래머로서 후배들에게 해주고 싶은 이야기가 많을 거 같다.

프로그래머이니까 우선은 프로그램을 잘 짜야 한다. 그렇게 하려면 기초가 탄탄해야 하는데 그 방법 가운데 하나가 운영체제, 어셈블러, DBMS, 컴파일러 등 시스템 레벨의 소프트웨어에 관심을 갖고 공부를 하는 것이다. 오늘날 국내 젊은이들은 외부로 보이는 것 위주로 공부를 하는데, 해외 개발자들은 아직도 시스템 소프트웨어 기술에 접근해 기본기를 쌓는 사람들이 많다.

두 번째로 인내심을 들고 싶다. 인공지능 분야에서 실력을 인정 받으려면 적어도 10년 이상은 견뎌야 한다. 세 번째로 수학공부를 더 할 필요가 있다. 마지막으로 소통력이 필요하다. 화술뿐 아니라 글 쓰기 능력은 독서가 기반이 된다고 생각한다. 개발자로서 사회 초년생일 때는 시키는 것만 잘 하면 된다. 하지만 중간 간부가 되면 소통력이 필요한데, 미리 대비하지 않았을 때 어려움을 겪을 수 있다. 더불어 질문을 할 수 있어야 뭔가 결과를 낼 수 있다는 말을 하고 싶다. 대신 정답에 맞게만 하려는 질문이면 곤란하다. 큰 질문과 올바른 질문을 하는 데 덜 익숙하여, 우리는 늘 정답을 염두에 둔 질문만 하려는 것이 아닌지 자신 스스로를 되돌아 볼 필요가 있다.

이런 이들에게 추천해 주고 싶은 책이 있다면.

[사피엔스], [총 균 쇠]와 더불어 최우석 전 삼성경제연구소 부회장이 쓴 [삼국지 경영학]을 추천한다. [삼국지 경영학]은 리더십에 대해 설득력 있는 메시지를 전달한다. 커뮤니케이션과 관련된 책으로 [스틱!]이 읽을 만 하다. 세상을 조금 특이한 관점에서 보는 말콤 글래드웰의 [그 개는 무엇을 보았나(WHAT THE DOG SAW)]와 [티핑 포인트], [특이점] 등도 도움이 될 것이다.

출처 : 한국데이터베이스진흥원

제공 : 데이터 전문가 지식포털 DBguide.net