데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

빅데이터는 옵션이 아닌 필수... 급속한 지능화/자동화 시대의 전주곡 - 미국 조지워싱턴대 박영기 교수

DATA 인터뷰
작성자
dataonair
작성일
2014-11-20 00:00
조회
6642




[박영기] 빅데이터는 옵션이 아닌 필수... 급속한 지능화/자동화 시대의 전주곡

산업통상부에서 주최하고 정보통신산업진흥원에서 주관한 ‘2014년 지식 컨퍼런스’가 지난 11월 6일 서울 양재동 엘타워에서 열렸다. 이 자리에서 미국 조지워싱턴대 박영기 교수가 ‘ICT 시대, 빅데이터를 활용한 균형적인 서비스 혁신’이라는 주제로 강연을 해 참석자들로부터 큰 호응을 얻었다. 10년 넘게 데이터 아키텍트로 일했던 박영기 교수와 빅데이터/데이터 분석/분석 전문가/데이터 사이언티스트를 주제로 얘기를 나눴다. 박 교수는 “빅데이터 시대에는 제품이나 기술, 소비자, 경쟁자, 법 같은 환경이 점점 빠르게 바뀌고 불확실해지므로 여기에 보조를 맞춰 끊임 없이 실험해 나가야 변화에서 생기는 기회와 위기를 적시에 파악/대응할 수 있다”고 강조했다. 더불어 “빅데이터 시대의 새로운 일자리는 분석에 대한 이해와 기술을 요구하므로 모든 분야의 모든 직급/역할에서 데이터 분석이 필요할 것”이라고 덧붙였다.

in_141120.jpg

빅데이터관련 분야와는 어떤 계기로 인연을 맺게 되었나.

KASIT에서 MIS(경영 정보 시스템)로 석사를 마치고 LG전자 소프트부문에 입사해 ‘C3I’라는 대한민국 전략제대시스템 개발 프로젝트의 데이터 아키텍트로서 4년 간 일했다. 이후 오라클로 옮겨 DW와 BI 컨설팅, PM 업무를 했다. 이때 포스코, 서울대병원, 기획예산처 등 다양한 분야에서 프로젝트 등을 수행했다. IT 벤처 및 온라인 커뮤니티 열풍이 불었던 2000년 전후에 온라인 음악 커뮤니티 회사를 설립해 3년 정도 운영했는데, 결과는 좋은 경험을 한 것으로 끝났다(웃음). 이때 즈음 비즈니스를 더 공부하기 위해 미국 유학을 결심했고, 한국거래소의 코스닥/코스피/선물옵션 시스템 통합 전략 프로젝트에서 데이터 아키텍처팀 리더로서의 일을 마지막으로 하고 유학을 떠났다. 미국 USC (서던캘리포니아대학)에서 IT 전략으로 경영학박사 학위를 받았다. 현재는 조지워싱턴대 경영대 교수로 재작하고 있으며, IT 전략, 빅데이터 애널리틱스와 BI 분야를 전문으로 연구와 강의를 하고 있다.

강연에서 ‘미래 비즈니스 모델링에 초점을 맞춰 데이터 분석을 해야 한다’고 강조했다. 현재의 데이터를 분석하더라도 과거의 결과를 분석하는 것이므로 과거 실적을 파악하는 것이 아닌가.

빅데이터 분석(Big Data Analytics)의 핵심은 히스토리에 근거해 미래를 예측(Predictive Analytics)하는 데에 있다. 이는, 과거의 특정 컨텍스트에서 발생한 일은 그 컨텍스트가 다시 형성되면, 동일한 현상이 반복될 것이라는 믿음에 근거를 두고 있다. 하지만 예상하지 못한 변수가 생겨서 컨텍스트가 달라지면, 과거 데이터에 근거한 예측 모형과 이론은 더 이상 작동하지 않는다. 그래서 끊임없는 실험으로 변한 또는 변할 환경을 감지하고, 그에 맞게 예측 모형과 이론을 수정해 나가야 한다. 이것이 빅데이터 시대에 필요한 전략이라고 할 수 있다.

회사나 기관에서 데이터 분석을 하다 보면, 매우 민감한 부분(?)이 나올 수 있다고 한다. 이 차원에서 경영층의 특별한 배려가 필요하다는 의견도 있다.

성공보다는 실패에서 많이 배운다고 한다. 우선 그런 판단 실수를 줄일 수 있는 전사적 원칙(Enterprise-wide Principle)이 필요하다. 예를 들어, 분석 분야의 대표적 기업인 하라스 엔터테인먼트(Harrah’s Entertainment, 현 시저 엔터테인먼트(Caesar Entertainment))에서는 실험을 할 때마다 반드시 새로운 서비스나 상품의 효과를 제대로 측정할 수 있도록 통제그룹(Control Group)을 두도록 하고 있다. 만일 통제그룹 없이 실험을 하면, 그 책임자는 해고된다. 그런 곳은 분석 문화가 이미 정착됐다고 보면 되는데, 그런 실수를 이런 룰로 줄일 수 있다. 모든 룰을 지켰는데도 역시 예상하지 못한 결과가 나올 수 있고, 그럴 때는 그 결과가 나온 원인을 찾아서 향후 이슈 발생 시 대처할 수 있도록 장려하는 문화 정착도 필요하다.

국내에서는 BI와 빅데이터가 어떻게 다른지를 놓고 혼란스러워한다. BI의 확장판으로서 빅데이터를 바라 보기도 하는데.

BI(Business Intelligence)와 BA(Business Analytics)에 대한 구분을 어떻게 하는지에 대해서는 국가와 업계, 학계에서도 의견이 분분하다. 어떻게 BI를 정의하느냐에 따라 구분이 달라진다. BI라는 용어만 놓고 보면, 매우 광범위하다. 이 차원에서 BA는 BI를 만들기 위한 한 솔루션으로 받아들여 질 수 있다. 기존의 BI 솔루션(DW, OLAP, Dashboard 등)도 많이 발전했고 여전히 필요하다. 거기에 최적화, 미래 예측 등의 BA 솔루션이 추가된 것이라고 본다. 빅데이터는 말 그대로 데이터가 핵심이다. 2001년 가트너리서치의 래니 더글라스(Laney Douglas)는 빅데이터를 소위 3V(Volume, Velocity, Variety)의 특성을 갖는 데이터로 정의했다. 그것을 어떻게 관리/분석해 정확한 데이터(Veracity)로 부가가치(Value)를 창출하느냐에 대한 것이 BI와 BA다. 일부에서는 하둡(Hadoop)을 빅데이터의 전부인 것처럼 받아들이는 오해가 있는데, 하둡은 빅데이터 처리에 필요한 기술 플랫폼이지 솔루션 그 자체도 빅데이터도 아니다. 그래서 요즘은 빅데이터 분석(Big Data Analytics)이라는 말을 더 자주 접하게 되는 것 같다.

한국 경영자 모임에서도 활발하게 활동하고 있는데, 경영자들은 빅데이터와 관련해 주로 어떤 부분에 관심을 갖나.

모든 영역에 관심을 갖고 있었다. 잘 알고 있겠지만, 기업이나 공공기관 등에서 이미 그 필요성을 인식하고 움직이고 있다. 물론 앞서 소개했듯이, 아직 도입기라 선진 사례를 찾는 중이거나 퍼스트무버 역할을 하려는 곳도 있다. 한국 정부도 많은 예산을 투입해 연구를 지원하고 있는 것으로 안다.

빅데이터와 관련해 국내 전문가들이나 경영층에서 꼭 알았으면 하는 바가 있다면.

빅데이터의 가능성은 다양하고 무궁하다. 빅데이터의 의미는 우선, IoT와 모바일, 클라우드 컴퓨팅 확산과 맞물려 다양하고 방대한 데이터가 ‘from/about anything, everywhere, anytime’으로 모아질 것이다. 이 트렌드는 비단 기업 환경뿐 아니라 우리의 일상 생활 모든 분야에서 수집과 활용이 됨을 의미한다. 결국 빅데이터 시대의 그런 다양한 기회의 스펙트럼에서 핵심은 가장 절실하고 중요한 목적이 무엇인지와 그것을 달성하기 위해 필요하고 올바른 질문을 정의하는 것이다. 이것을 하고 나면, 필요한 데이터와 기술은 따라 온다. 즉 비즈니스 질문에 답하기 위해 필요한 데이터는 무엇인지 결정하고, 최적의 분석방법으로 답을 찾아 나가야 한다. 여기서 필요한 데이터란 타입, 소스, 방법 등 데이터에 대한 모든 것을 포함한다. 또 하나 명심할 것은 ‘단 한번의 사이클로 필요한 최적의 답을 찾기는 힘들다’이다. 끊임없는 실험과 그 결과를 반영해서 다음 실험에 투입하는 과정이 필요하다. 빅데이터 시대에는 제품이나 기술, 사람, 경쟁자, 법 같은 환경은 점점 빠르고 불확실하게 변한다. 따라서 그에 보조를 맞춰 실험을 해 나가야 변화에서 생기는 기회와 위기를 적시에 파악/대응해 나갈 수 있다.

한국에서 데이터 분석가들은 ‘피부로 느낄 정도로 (분석) 프로젝트가 많지 않다’는
의견을 제시하기도 한다. 그럼에도 빅데이터와 관련한 뉴스는 과거 어느 IT 아이템보다 많다.

아마 도입기라서 그럴 것이다. 아직까지 제대로 된 사례를 동종 업계나 경쟁사에서 찾을 수 없어서 그런 사례가 나오길 기다리고 있거나, 혹은 안주하고 있다고 볼 수도 있다. 아니면 어떻게 무엇부터 시작해야 할지 몰라서 그냥 아무것도 안 하는 것일 수도 있다. 미국은 이미 도입기를 지나 성장기, 혹은 어떤 분야는 성수기에 들어 섰다. 쉽게 적용할 수 있는 분야, 예를 들어 ‘타깃(Target)’ 같이 소비제를 파는 곳에서 빅데이터 활용이 이미 활성화가 되었고, 인터넷 상거래 기업(아마존), 호텔, 대부분의 스포츠 분야도 마찬가지다. 보스턴이나 사우스 벤드 같은 곳의 도시행정이나 의료부분 등에서도 빅데이터가 적극 활용되고 있다.

in_141120_01.jpg

▲ 박 교수는 인터뷰 중에 미팅 요청이 이어지고, 전화가 걸려와도 DBGuide.net의 인터뷰 요청에 끝까지 응해주었다.

원론적인 질문이지만, 왜 데이터 사이언티스트가 미래의 가장 주목 받는 전문가로 떠올랐다고 보는가.

빅데이터 시대는 점점 더 지능화된다. 따라서 기계로 처리하기가 어려웠던 일들이 점점 로봇 (Program)으로 자동화가 되고 있다. 이는 전통적인 일자리가 줄어드는 것은 거스를 수 없는 대세라는 것을 의미한다. 이미 이뤄진 많은 연구와 현재 진행되고 있는 연구들을 보면, 이러한 변화를 쉽게 예측할 수 있다. 따라서 데이터 시대의 새로운 일자리는 분석에 대한 이해와 기술을 요구한다. 모든 분야의 모든 직급/역할에서 데이터 분석이 필요할 것이다. 이러한 시대를 주도할 사람들이 바로 데이터 사이언티스트이기 때문이다.

미국 대학의 데이터 분석 전문가 양성 프로그램에 관심을 가진 국내 전문가들도 있다. 빅데이터 전문가 양성 과정은 어떤 것이 있는가.

대부분의 미국 대학에서 비즈니스 분석 혹은 데이터 사이언티스트 양성을 위한 석사 과정을 운영하고 있다. 노스캐롤라이나주립대(NCSU)가 2007년부터 석사과정을 시작했고, 뉴욕대(NYU), 노스웨스턴대(North Western U), MIT, 서던캘리포니아대(USC), 조지워싱턴대(GWU), UC버클리대 등 거의 모든 대학에서 둘 중 하나는 운영중이거나 준비중이다. 이 가운데 NCSU의 데이터 사이언티스트 양성 과정은 합격률이 10%도 안될 정도로 치열하기에 우수한 학생들이 모여든다. 뉴욕대는 비즈니스 이코노믹 분석, 애리조나 주립대는 MIS 분석 분야의 최고로 통하는 등 대학마다 특성이 있다. 데이터 사이언티스트를 채용하기 위해 NCSU로 찾아가는 기업들은 3대 1의 경쟁으로 겨우 한 명을 채용하거나 1억원 이상의 초기 연봉 제시에도 아예 뽑지 못하는 게 현실이다.

학부에서는 어떤 준비를 하고 있나.

경영대에서는 BI 및 BA 관련 개념과 기술을 필수 과목 혹은 필수과목의 한 부분으로 포함시켜 가르치고 있다. 다양한 과의 학생들이 경영대에서 애널리틱스 관련 수업을 듣는 것을 볼 수 있다.

일반적으로 데이터 분석 전문가는 IT 엔지니어로 분류되는가, 아니면 IT 지식을 갖춘 새로운 전문가로 분류되는가.

빅데이터 분야는 워낙 광범위한 전문 지식 및 기술을 요구하므로 한 분야로 분류하기 어렵다. 담당하는 부분과 갖추고 있는 지식과 기술에 따라 분류되는 게 맞다. 비즈니스 애널리틱스 과정은 도메인 전문 지식과 분석 지식을 모두 갖춘 인재 양성에 집중하는 것 같고, 데이터 사이언티스트 양성 과정은 분석 기술과 IT, 프로그래밍, 하둡 기술에 좀 더 무게를 두는 것 같다.

한국의 DA들 가운데는 전문가로서 가치를 인정해 주는 사회 분위기가 형성되지 않았다고 느끼는 경우가 많았다.

빅데이터는 유행이 절대 아니고 새로운 패러다임이다. 미국의 모든 대학에서 BA 석사과정을 운영하고 모든 기업에서 이를 도입했거나 도입을 서두르는 것은 유행이 아님을 보여주는 사례다. 부문만 본 상태에서 컴퓨터공학이나 통계, 프로그래밍만을 따로 동원하면 절대 원하는 바를 달성하기 어렵다. 경영 지식만을 갖고 있더라도 안 된다. 비지니스 목적에 맞게끔 필요한 데이터를 정의하고 이를 처리하여 원하는 결과를 최적으로 달성할 수 있는 기술을 잘 구성해야 한다.

데이터 분석 열기와 함께 데이터 분석가 외에도 또 다른 영역에서 주목 받는 사람들이 있나.

일부 기업에서는 통계 전문가를 찾기도 한다. 앞서 말한 대로 도메인 전문 지식에 분석 스킬을 모두 갖춘 인재 양성이 필요하다. 데이터 분석 전문가뿐만 아니라, 현업 실무자들도 분석에 대한 개념을 갖춰야 한다.

빅데이터 전문가를 꿈꾸는 대학생 및 1~2년차 사회생활 초년생들에게 조언한다면.

우리는 빅데이터 시대에 살아야 하고, 직장과 개인 생활까지 빅데이터가 영향을 미치고 있다. 향후 좋은 직업을 얻길 원한다면 이를 도움이 되는 옵션으로 여기지 말고, 반드시 갖추어야 할 필수요건으로 받아들여라.

현재 RDB 전문가들은 빅데이터 물결을 어떻게 받아들여야 할지 조언한다면.

RDB는 하나의 기술이다. RDB를 보완하는 빅데이터 전문 기술로서 하둡과 NoSQL이 나왔다. RDB라는 용어부터 기술지향적인 냄새가 난다. RDB 전문가가 빅데이터 물결을 타는 방법은 크게 두 가지 방안을 생각해 볼 수 있다. 하나는 현재 하는 일을 잘 하는 것이다. 기술 측면에서 RDB를 잘하면서 하둡 등을 수용하면 된다는 말이다. 하둡은 수많은 병렬처리 시스템을 연결해주는 병렬처리 기술이다. 이러한 개념은 이미 2000년 전후에 나왔다. 또 하나의 방법은 RDB 영역에서 이미 잘하고 있다면, 비즈니스에 대해 공부를 해서 도메인 지식을 키우고 경영 마인드를 갖는 것이다. 엔지니어들은 흔히 경영 마인드가 부족하다고 한다. 경영 마인드와 도메인 지식을 갖춘 전문가가 빅데이터 시대의 이상적인 데이터 전문가의 모습이지 않을까 한다. 참고로, 통계나 하둡 지식을 배경으로 ‘빅데이터는 내 영역’이라고 강조하는 것에 현혹될 필요가 없다. 하둡은 데이터 처리 계층에서 가장 기본적인 인프라다. 더불어 데이터 수집을 위한 ETL이나 마스터 데이터 관리(MDM)가 중요하지만, 별로 강조되지 않고 기본 기술로 생각되는 것처럼 말이다. 이러한 인프라를 바탕으로 서비스와 분석, 패턴, 가치 창출이 나온다. 결국 인프라 부분에서 변화를 수용하면서 더 잘하든지, 서비스 마인드를 갖고 도메인 지식을 더 쌓든지 고민해 볼 필요가 있다. (인터뷰: 박세영 글봄크리에이티브 sypark@mustree.com)

 

출처 : 한국데이터베이스진흥원

제공 : 데이터전문가 지식포털 DBguide.net