데이터 인사이트

데이터 지식공유
나만 알기는 아까운 데이터 지식 함께나눠요.

[데이터 사이언티스트] 데이터 사이언티스트,미래를 열어갈 신대륙 탐험가들

작성자
관리자
작성일
2020-09-18 09:10
조회
132

데이터 사이언티스트,미래를 열어갈 신대륙 탐험가들

영역 세분화와 함께 지속적인 수요 예상

통계/수학 분석가, 프로그래머, 시각화 전문가 등이 모여 협업화 추세

 지식사회의 도래가 갖는 의미는 무엇일까? 지나간 경우를 돌이켜 보면, 철기시대의 철 광산을 둘러싼 세력 다툼과 철제 무기가 가져온 정복전쟁과 같은 재앙은 이전에는 유래가 없었다. 고구려의 번영 이면에는 질 좋은 철 광산이 있었다. 아메리카 대륙 발견은 은광을 둘러싼 세력 재편이 따랐고, 아시아의 비단과 향신료를 둘러싼 치열한 다툼에서부터 비교적 최근 석유 전쟁에 이르기까지 시대를 대표하는 핵심 자원이 존재했다. 핵심 자원을 획득한 집단은 권력과 부를 누렸고, 획득에 실패한 집단은 깊은 쇠퇴에 접어들었다.


• 데이터 신대륙을 향하여

앞으로는 무엇이 핵심 자원이 될까? 디지털의 시대를 깊이 파고 들어가 보면 ‘데이터’라는 자원이 있다. 데이터 시대의 도래와 함께 새로운 전문가 집단으로 급부상하고 있는 데이터사이언티스트는 어떤 사람일까? 대항해 시대를 열어 세계의 헤게모니를 동양에서 서양으로 옮기는 데에 결정적인 역할을 한 크리스토퍼 콜럼버스와 같은 역할을 맡은 사람이 아닐까? 이는 수렵과 채집에서 농업, 제조업, 금융?유통 등 서비스업을 거친 발전의 궤적을 보아도 이는 당연한 도출이다. “정보 지시사회에서 데이터는 산업사회 시대의 연료와 같다.” 데이터를 둘러싼 그럴듯한 소개문구가 이제는 낯설지도 않다 인터넷이 대중화되기 전인 1995년을 전후에는 메인프레임 컴퓨터에서 벗어나 PC LAN과 유닉스 서버로 대표되던 클라이언트/서버 다운사이징 열풍은 인터넷의 폭풍과 함께 기억 속으로 살아졌다. 오라클 같은 RDB로 구축하는 클라이언트/서버 환경은 전통적인 계정계 업무 전산화의 표준으로 이미 정착됐다.


• 변화

다시 2000년 이후 모바일과 소셜 네트워크 서비스 현상은 다시 20년 전의 ‘데이터’로 세상의 관심을 이동시켰다. 다만 과거처럼 제한된 컴퓨팅 성능에 제한된 스토리지 공간의 한계를 염두에 둔 접근이 아니었다. 이러한 데이터 중심의 변화 현상은 메인프레임과 클라인언트/서버, 인터넷 열풍을 주도했던 글로벌 IT 벤더들이 주도하지도 않았다.

야후, 구글, 아마존, 페이스북 등 일반인에게도 친숙한 서비스 업체가 데이터 시대의 IT를 도하고 있다. 이 회사들은 전통적인 처리 방법으로는 폭발적으로 늘어나는 데이터를 처리할 수 없어서 관점을 달리한 접근을 하기 시작했다. 새로운 시도는 빅데이터를 대표하는 하둡 등 분산처리 기술을 탄생시켰다. 내부에서 가능성이 확인된 빅데이터 기술은 오픈소스로 공개되기 시작했다. 과거처럼 대형 IT 벤더로부터 비싼 장비와 RDB 같은 시스템 소프트웨어를 구입하지 않고도 구축해 볼 수 있는 문이 열린 것이다.

• 데이터를 중심으로 바뀌는 HW와 SW



오픈소스라는 점과 구글이나 야후, 아마존, 페이스북 같은 서비스 업체들이 빅데이터를 주도하자 IBM, HP, 마이크로소프트, 오라클, EMC 같은 글로벌 IT 벤더들도 빅데이터를 외치기 시작했다. 자사의 시스템 환경에서 하둡을 최적으로 수용하거나 최적화한 상용 제품을 내놓기에 이르렀다. 경쟁상대로 여기지 않았었던 구글이나 아마존 등을 경쟁 상대로 인식하기 시작한 것이다.

소프트웨어 중심으로 펼쳐지던 빅데이터 현상은 플래시 스토리지, 오라클 엑사데이터 같은 DB 어플라이언스 등의 초고성능 하드웨어를 등장하는 견인차 역할을 했다. 더 나아가 HP는 전통적인 컴퓨터와는 다른 빅데이터 시대에 맞는 컴퓨터 출시 계획을 발표했다. ‘머신(The Machine)’ 프로젝트가 그것이다. 머신은 빅데이터 물결이 도래함에 따라 하드웨어까지 변화하는 모습의 단적인 예다. 


 

스마트폰 크기로 줄어드는 슈퍼컴퓨터 과거 은행업무나 회계 시스템 등 기존 업무를 전산화할 때는 제한된 자원을 가장 효율적으로 사용하는 데 최적화한 구조였다. 정보를 처리하는 컴퓨팅 파워뿐 아니라 저장공간도 제한적이었으므로 RDB는 제한된 박스에 빈틈 없이 차곡차곡 데이터를 쌓은 형태로 데이터를 저장했다.

▲HP 부사장 겸 CTO인 마틴 핑크(Martin Fink)가 머신 시스템을 선보이고 있다. (출처: hp.com)

 하지만 네트워크로 컴퓨터들이 연결되고 스토리지 비용이 지속적으로 하락하면서 과거와 같이 데이터를 정형화해 저장하지 않아도 될 것이라는 생각이 나왔다. 이러한 관점의 변화는 대용량 데이터를 다뤄야 하는 구글이나 야후, 페이스북 같은 서비스 업체 중심으로 이뤄졌다. HDFS와 같은 분산 파일 시스템, 클라우드 스토리지, NoSQL 등 하둡 에코시스템은 그 구체적인 결과물로서 이런 변화를 그대로 수용한 흐름이다. 

여기서 더 나아가 전통적인 글로벌 컴퓨터 공급사인 HP는 오는 2020년까지 전혀 다른 종류의 컴퓨터인 ‘머신(The Machine)’를 내놓겠다고 지난 2014년에 발표했다. 이 컴퓨터는 낸드플래시보다 저전력에 고밀도와 더 빠른 속도를 구현한 꿈의 반도체 소재인 멤리스터(memristors)를 핵심으로, 기존과 전혀 다른 컴퓨팅 아키텍처 시스템을 만드는 것을 골자로 한다.

직접 개발한 OS와 프로세서, 새로운 네트워킹, 멤리스터라는 새로운 유형의 기억소자를 활용한 메모리 장치 기술이 총동원된다. 머신은 스마트폰 1대만큼 작은 기기로 160개 랙 크기만한 슈퍼컴퓨터 성능을 지원할 것이라고 한다. 이렇게 되면 과거 거대한 데이터센터가 소형화되면서도 뛰어난 처리 및 저장 능력, 에너지 이슈까지 해결될지도 모른다.

계획대로 이행된다면, 2017년 이전에 멤리스터 반도체 양산에 성공하고, 2018년에는 플래시스토리지를 대체할 수준의 고밀도 멤리스터 기반 스토리지가 출시될 전망이다. 2020년에는 멤리스터 기술과 자체 OS 및 프로세서를 갖춘 머신 컴퓨터가 등장하게 된다.


 

• 데이터 사이언티스트 업무의 분화

국내에서도 많은 데이터를 처리해야 하는 인터넷 포탈 서비스 업체, 온라인 게임 업체, 기간 통신사업자들이 하둡을 비롯한 빅데이터 처리 기술을 앞서서 도입하기 시작했다. 이들 업체에서 대용량 데이터 처리를 접했던 담당자들은 1세대 빅데이터 전문가로서 국내에 빅데이터 기술을 알리는 첨병 역할을 하고 있다.

데이터 사이언티스트는 초인적인 스펙을 요구하는 전문가로 소개되고 있지만, 이는 기술 등장 초기에 나타나는 현상으로 볼 수 있다. SK텔레콤에서 데이터 사이언티스트로 일했던 하용호 씨는 “한 명의 데이터 사이언티스트가 분석 플랫폼 구축, 데이터 수집?처리?분석?시각화?액션플랜 제시에 이르기까지 모든 것을 하던 시대에서 벗어나 데이터 사이언스 업무의 세분화가 빠르게 이뤄지고 있다”고 말했다.

통계학 또는 수학을 배경으로 한 전문가와 프로그래밍이나 시스템 구축 등 IT 영역에서 접근했던 전문가, 경영학 측면에서 접근하는 전문가들이 모여서 팀 플레이를 하는 시대로가 나아가고 있는 것이다. [그림 1]은 데이터 사이언스의 영역이 단계별로 분화되는 모습이다. 1단계는 데이터 사이언티스트가 데이터 분석 플랫폼 구축에서 분석?시각화까지 모두를 커버했던 때다. 데이터 엔지니어와 데이터 애널리스트로 분화된 2단계를 넘어 데이터 엔지니어가 데이터 크리에이티브와 데이터 디벨로퍼로 양분되고, 데이터 애널리스트가 데이터 리서처와 데이터 비즈니스맨으로 양분되는 3단계로 진입한 곳도 벌써 생겨나고 있다고 본다. 


• 데이터 사이언티스트, 공급이 수요 충당 어려워

시장조사 기관인 가트너는 2015년에만 빅데이터 분야에서 세계적으로 440만 명의 IT 일자리를 창출한다고 보고하고 있다. 그럼에도 실제 전문가 수요의 1/3만 충당할 수 있어서 당분간 수요가 공급을 초과하는 대표적인 분야가 될 것이라고 예측하고 있다.


[그림] 빅데이터가 창출하는 IT 일자리 수요와 공급현황 (2015년) (출처: www.gartner.com/newsroom/id/2207915)


• 고수익의 전문가

데이터 사이언티스트는 미래의 직업으로 각광 받는 만큼 급여수준도 높다고 알려졌다. 이에 대해 현업에서 활동하는 전문가들을 통해 확인해도 사실로 확인된다. 이윤모 베가스의 대표 컨설턴트는 “외부에서 보는 만큼 높은 것은 아니지만, 평균적인 소득 수준은 높은 편이다. 어느 분야나 마찬가지겠지만 상위 전문가들과 기타 전문가들과의 차이도 제법 있다”고 말한다. 베가스는 산업시설에서 나오는 머신 데이터를 통계 관점에서 접근하는 빅데이터 전문기업이다.

왜 데이터 사이언티스트가 이렇게 각광을 받는 것일까? 당연한 결론이지만, 빅데이터 분야가 아직 초기이므로 희소가치가 적용되기 때문이다. 현장에서 활동하는 한 데이터 사이언티스트에 따르면, “고수익을 조건으로 일하는 데이터 사이언티스트는 아직 팀을 꾸리지 않은 조직에서 1~2명이서 여러 명이 해야 할 일을 통합적으로 할 수 있는 전문가로서, 데이터 분석 플랫폼 구축에서 시각화?컨설팅까지 통합적으로 접근할 자질을 갖춘 사람”이라고 한다. 이렇게 특화된 데이터 사이언티스트들이 부족하기 때문에 가능한 얘기라는 것이다. 이에 대해 데이터 사이언티스트 하용호 씨는 “어떤 자질을 갖춘 인력이 부족하면 처음에는 관련 인력을 양성하는 교육사업이 발전한다”면서, “(빅데이터) 교육사업이 사라지는 시점이 (데이터 사이언티스트가)일반화가 되는 시점”이 될 것이라고 의견을 제시했다. 그는 또 “향후 10~20년 후면 마치 워드프로세스를 다루듯이 일반인도 데이터를 다루는 시대가 올 것”이라고 예상했다.

그때가 되면 전통적인 분석 기술만 가진 데이터 사이언티스트는 전문가로서 위치를 위협받을 수 있다. 그렇다고 데이터 사이언티스트는 한때 각광받다가 사라질 영역으로 남을까? 이에 대해서 아니라는 의견이 많다. 매킨지 글로벌 연구소는 지금도 그렇고 앞으로도 데이터 과학자가 품귀 현상을 빚을 것이라는 예측을 하고 있다. 구글의 수석 경제연구원인 할 배리언(Hal Varian)은 통계학자를 가장 섹시한 직업이라고 말하는 것으로 유명하다. 그는 각종 인터뷰에서 “성공하고 싶다면 흔히 볼 수 있고 싼 것을 보충해주는 희소 가치가 있는 사람이 되어야 한다”고 말한다. 

 

[현업 데이터 사이언티스트들에게 들어보다] “절대적인 시간과 현장 경험이 필요한 영역”



 “신입 데이터 사이언티스트가 입사하면, 3~4년 정도는 선배들을 따라 다니면서 경력을 쌓습니다. 도제방식이나 오랜 기간 멘토가 필요한 영역들처럼 데이터 분석 분야도 그러한 기간이 필요한 거죠. 이러한 경험들이 쌓여서 나중에 책임자로서 외부 업체에 파견되는데, 그때도 최소한 2명 이상이 함께 나가고 있습니다. 이런 것을 보면, 통계 데이터 전문가로 가는 길이 생각보다 멀다는 것을 알게 됩니다. 일종의 진입 장벽이 있는 분야로 볼 수 있지요.” _이윤모베가스 R&D센터장

 



“만약 유행을 좆아 따라 다녔다면, 저는 수많은 데이터 분석 경험을 갖지 못했을 겁니다. 한 분야를 물고 늘어졌던 게 저를 공부하게 해줬고 스스로를 동기화해 줬던 거 같습니다. 공부를 하다 보니, 어느 시점에 이르면, 다른 분야와 연결된다는 느낌으로 다가올 때가 있더군요. 그렇기 때문에 될 수 있으면 ‘기본’에 대해 다시 공부하는 것을 추천합니다. 새로운 게 나왔다고 불안해 하는 대신 베이스를 다시 한번 되짚어 보면 큰 힘이 될 거라고 생각합니다.” _전희원 SK텔레콤 데이터 사이언티스

 



 

“데이터 사이언티스트는 컨설턴트입니다. 우리가 생각하는 일반적인 컨설턴트가 뛰어난 소통 능력이 70%와 해당 분야의 전문성 30%를 갖춘 사람이면, 데이터 사이언티스트는 전문성이 70%이고 커뮤니케이션 능력이 30%인 컨설턴트라고 볼 수 있어요.” _하용호 전 SK텔레콤 데이터 사이언티스트

 

• 데이터는 넘치고 데이터 지혜는 귀하다!

 데이터 사이언스 영역이 발전하면서 세분화되고, 그것을 통합적인 관점에서 바라보는 전문가들이 등장할 것이라는 점이다. 다시 말하여, 현재 데이터 분석과 관련된 업무 전체를 통합적으로 바라볼 수 있는 슈퍼 전문가들 영역이 새롭게 나타날 것이라는 점이다. 더불어 빅데이터에 대한 모니터링과 투명성 관리도 필요해진다. 이를 위해서는 새로운 유형의 전문 기술과 제도도 요청될 것으로 전망된다. 특정 분야의 복잡성과 전문성이 극도로 증가해서 이를 통합적으로 관리하는 전문가들이 필요했던 경우가 많다. 법률, 의학, 회계, 공학 같은 직업들이 100여 년 전에 이런 변화 과정을 거치며 태어났다.

그 중 하나가 데이터 분석 알고리즈미스트다. 지난 2013년에 출간된 『빅데이터가 만드는 세상』은, 데이터 분석 결과에 따라 이해관계가 극명하게 엇갈렸을 때 이를 조정하는 전문가로서 분석 알고리즈미트스트의 등장을 예고하고 있다. 알고리즈미스트는 컴퓨터 과학, 수학, 통계학 분야를 넘나들면서 빅데이터 분석과 예측의 검토자 역할을 하게 된다. 데이터 소스의 선별, 알고리즘과 그 모델을 포함한 분석 및 예측 도구의 선택, 결과 해석을 평가할 가능성이 높다는 것이다. 논란이 발생하면 주어진 결과를 낸 알고리즘과 통계적 방법, 데이터 세트를 조사해 최종 판결을 내리는 데 도움을 준다.

몇 년 후면, 데이터 알고리즈미스트가 변호사나 회계사들처럼 회사 내부 또는 외부 전문업체에 소속돼 알고리즈미스트로 활동하면서 빅데이터 예측 때문에 피해를 입었다고 믿는 사람들을 위해 서비스를 제공하는 모습을 발견하게 될지도 모른다.

 

• 데이터 보호 책임자의 시대

 독일은 10인 이상의 직원을 고용한 회사에 대해서 법률적으로 ‘데이터 보호 대표자’를 지정하도록 한다고 한다. 국내에서는 개인정보를 다루는 웹 서비스나 개인 정보를 취급하는 곳에 대해 ‘개인정보 관리 책임자’를 지정하는 것에서 한 단계 더 나아간 형태로 볼 수 있다. 정보가 데이터 개념까지 포함하고 있지만, 빅데이터 시대에는 더 구체적으로 접근하므로 기존과 같은 포괄적인 접근이 아닌, 데이터 지향적인 전문가를 지정하려는 움직임으로 연결될 수 있다. 데이터 보호 대표자는 정보 분석의 원천(raw) 데이터에 대한 기획에서 정책 수립, 확보, 보호에 이르기까지 총체적인 데이터 담당자로서 역할을 수행할 것으로 전망된다.

이론의 종말 인과성에서 상관성으로 이동하는 문제 해결방식

빅데이터 분석과 함께 문제 해결을 위한 인간의 접근 패러다임에서도 큰 변화가 예고되고 있다. 인간의 전통적인 문제 해결 방법은 발생 원인을 파악해 그 문제를 해결하는 인과성을 기준으로 접근하는 것이다.

하지만 인간 또는 사물이 생성해 놓은 수많은 데이터를 분석해 두 데이터 값 사이의 통계적 관련성을 수량화해 문제를 해결하는 상관성이 새로운 문제 해결 방법으로 떠오르고 있다.

상관성이 강하다는 것은 하나의 데이터 값이 변할 때, 다른 하나도 변할 가능성이 매우 높다는 의미다. 어떤 현상을 분석할 때 상관성은 그 현상의 내부 원리 파악의 실마리를 제공해줄 뿐만 아니라, 무엇이 내부 원리를 아는 데 유용한 대용물(代用物)이 될 수 있는지도 알려준다.



 

 대용물은 현재를 파악하고 미래를 예측하는 데 도움을 준다. 예를 들어 A라는 사건이 B라는 사건과 함께 발생한다면, 우리는 B사건을 바라 보면서 A사건이 발생할지 예측할 수 있다. A사건을 직접 측정하거나 관찰할 수 없더라도 B사건을 대용물로 사용해 아마도 A사건에 무슨 일이 벌어지고 있는지는 파악할 수 있는 것이다.

반면 인과성, 즉 왜 B 때문에 A가 일어나는지는 빅데이터 시대에서 상대적으로 덜 강조된다. 빅데이터가 더 발전하면, 역으로 상관성에서 인과성을 파악하는 전문가들도 등장할 수 있다. 이에 대해 일부에서는 빅데이터의 통계 분석(상관성 분석)이 이론(인과성)을 대체하기 때문에 ‘이론의 종말’ 시대가 다가오고 있다고 예측하기까지 한다. (참고: 『빅데이터가 만드는 세상』, 빅토르 마이어 쇤버거 등, 21세기북스)