데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“이해를 바탕으로 실무 분석 경험이 필수적인 시험” - 김승윤 SK플래닛 BI 추진단 Data Analytics Service 그룹

DATA 인터뷰
작성자
dataonair
작성일
2015-01-19 00:00
조회
7598




제1회 ‘데이터 분석 전문가(ADP)’ 시험 최종 합격자 인터뷰

“이해를 바탕으로 실무 분석 경험이 필수적인 시험”

2014년에 처음 시행된 분석 전문가 시험에서 3명의 최종 합격자가 나왔다. 1차 필기시험 합격자를 대상으로 실기시험을 치러 최종 합격이 결정된다. 합격자들 가운데 한 명인 김승윤 씨 를 만나 분석 전문가 시험 준비에 대해 얘기를 나눴다.

in_150116.png

▲ 김승윤 SK플래닛 BI 추진단 Data Analytics Service 그룹

‘데이터 분석 전문가’ 1회 시험 최종 합격자로서 소감은.

필기시험은 합격할 수 있을 거 같다는 생각을 했지만, 실기시험은 어떻게 나올지 예측조차 할 수 없어서 부담스러웠다. 평소 실력으로 볼 수밖에 없었다. 시험을 보기 전에도 예상했지만, 역시나 책 한 권만 마스터하면 합격할 수 있거나 이론만으로 합격할 수 없는 시험이었다. 문제 은행에서 패턴화된 문제를 많이 풀어보면서 공부할 수 있는 그런 IT 분야의 자격증 시험과는 분명 달랐다.

 

실기시험은 어떤 형태였나.

온라인 쇼핑 관련 회원정보 DB, 검색, 방문, 구매정보 등의 로그 파일, 인터넷 사이트 검색어 등의 파일이 제시되었다. 이들을 각각의 Primary Key로 Join한 후 통합 데이터세트를 만들어 차례차례 해결해 나가는 문제였다.

첫 번째 문제에서는 통합 데이터세트의 구매정보, 방문정보 등의 다양한 변수를 활용하여 유사 특성별로 소비자 세그먼트를 도출하고, 도출된 세그먼트에서의 분류 타당성, 왜 그 정도 개수의 세그먼트를 도출했는지에 대한 근거와 검증, 그리고 세그먼트별 적합한 마케팅 전략 등을 제시하라고 했다. 두 번째 문제는 앞서 제시된 첫 번째 문제 답안의 결과, 도출된 주요 세그먼트별 구매관련 예측모형을 각각 별도로 구축해야 했던 것으로 기억한다 마지막 문제는 비정형 데이터 마이닝과 관련한 것으로서 텍스트 검색 데이터를 갖고 워드클라우드(Wordcloud)와 그 외 다양한 시각화를 표현하고 Implication을 도출하도록 했던 것으로 기억한다.

물론 문제별로 채점 기준이 제시되며, 각 문제 안에서 날짜 데이터 통일이나 결측값 처리 등 다양한 데이터 전처리 등도 점수 산정의 기준이었다. 클러스터링 개수 선정 기준이나 근거 제시 등 분석 단계별로 점수를 획득해야 하는 요소가 세분화되어 있었다. 이런 유형의 실기 시험은 사실 시험이라기보다는 짧은 시간에 해결해야 하는 프로젝트성 과제에 가깝다는 생각이 하게 했다. 결국 분석 실무 능력을 갖췄는지를 분명하게 점검하는 문제였다고 볼 수 있다. 결국 ‘실무 경험이 없으면 해결할 수 없겠구나’ 하는 생각이 들었다.

 

왜 실무 경험이 있어야 해결 가능한가.

앞서도 언급했지만, 이론적 지식이나 R 등을 이용한 데이터 처리 방법, 통계분석 기법, 데이터마이닝 등 분야별 단편적 지식만 알고 있어서는 문제를 완결적으로 해결할 수 가 없고, 이론적 지식과 데이터 전처리 스킬, 통계분석 기법에 대한 정확한 이해와 이에 대한 코드 구현, 그리고 이러한 분석결과로부터의 Implication 도출까지 종합적인 이해와 경험 없이는 해결할 수 없기 때문이다. 물론 당연히 주어진 시간 안에 해결해야 한다. 사실 데이터 분석이란 것이 시간이 아무리 많이 주어져도 데이터 이해와 처리부터, 분석에 알맞은 형태로의 변환과 마이닝 등을 제대로 하려고 하면 꽤 많은 시간이 필요할 수밖에 없다.

실제 분석을 많이 해 보지 않은 사람이 짧은 시간에 결과를 도출해 낸다는 것은 쉽지 않다. 실제 데이터 분석 경험이 많은 사람만이 자신이 알고 있던 여러 분석 지식과 경험을 동원해 실시간으로 풀어나갈 수 있다. 물론 분석을 많이 해 본 나도 이번 시험에서 주어진 시간 안에 문제에서 요구하는 과정을 다 거쳐서 만족스러운 해답을 도출해 낸다는 게 그리 만만한 일이 아니었다. ‘수험자가 아는 방법으로 데이터를 분석해 마케팅 방법까지 제시하라’고 했으므로 어떤 측면에서 보면 정답이 없는 문제나 마찬가지였다.

 

데이터 분석 전문가 시험 준비 방법이 있다면.

실무 경험이 많더라도 데이터 분석의 전 영역을 잘 알 수 있는 것은 아니다. 그래서 기존에 알고 있던 것과 현장 경험을 정리하고 가다듬는 자세로 준비했다. 사전 정보가 없었으므로 일단, 데이터 처리나 통계분석, 데이터 마이닝, 데이터 시각화 등 시험 관련 전 영역을 빠짐없이 처음부터 끝까지 정리해야 한다고 생각했고, 한국DB진흥원에서 발간한 『빅데이터 분석 전문가 가이드』가 이런 측면에서 큰 도움이 되었다. 물론 책이 너무 두꺼워서 들고 다니기에 힘들었다(웃음). 이 책은 ‘데이터 분석 전문가라면 이 정도는 다 알고 있어야 한다’라는 가이드를 제시한 책이라고 생각한다.

 

데이터 분석 전문가를 준비하는 사람에게 조언을 한다면.

일단 가장 기본은 데이터를 많이 다뤄보고 연습하고 고민하고 분석을 실제로 많이 해 보는 것이 좋다. 실전 연습용으로 각종 도서의 샘플 데이터세트나 논문 관련 사이트, 기트허브 등에 공개된 데이터가 매우 많다. 그 다음에는 자신의 전공이나 지식 영역에 따라 준비하는 방식이 조금씩 다를 수 있다. 사실 엄밀히 말하자면, 데이터 분석 전문가 자격 시험 자체만을 목표로 하기보다는 결국 데이터 분석가로서의 역량과 경력을 쌓는 과정 속에서 자연스럽게 데이터 분석 전문가 자격까지 취득하는 과정이 바람직하다고 볼 수 있다. 데이터 분석가로서의 역량 개발과 관련하여, 전공에 따라 다음 3가지 영역으로 소개하는 것이 어떨까 한다. ▲통계학,수학 전공자 ▲IT 분야 전공자 ▲인문사회 등 기타 전공자로 구분해서 소개할 필요가 있다.

 

통계학 또는 수학 전공자가 데이터 분석가를 꿈꾸고 있다면.

통계 분석 이론과 데이터 분석 실무는 많이 다르다고 조언한다. 개인적으로 응용통계학 박사 과정까지 거쳤지만, 학교에서 배우는 통계학이나 유관 과목들의 내용의 대부분이 통계학 기법, 수리적 증명, 추정과 검정 등에 치우쳐 있었다. 무엇보다도 주요 통계학 분석 방법론을 적용하기에 적합한 형태로 데이터세트가 준비돼 있다는 가정 하에, 혹은 적어도 약간만 노력하면 분석 방법에 적합한 형태로 금방 데이터세트를 준비할 수 있다는 전제 하에 통계학 기법이나 수리적 증명, 추정 등에만 치우쳐져 학습했다. 그러다 보니 실제 통계학이나 수학 전공자들이 실무에 맞닥뜨려서는 곤란해 하는 경우가 많다. 실무에서는 분석해야 할 데이터를 정제해 나가는 과정이 꽤 복잡하고 시간도 많이 걸린다. 로그 데이터 등은 심지어 제대로 데이터가 쌓이고 있지 않은 경우도 많다. 이런 장벽들을 넘어, 원천 데이터를 분석할 수 있을 단계까지 끌어올리는 것이 실제 업무의 80%, 어떤 경우는 90%까지 차지하기도 한다.

특히, 스마트폰 앱이나 게임 등 IT 관련 산업에서의 데이터는 이러한 다양한 원천 데이터를 정의하고 처리하고 다루는 업무가 특히 중요하다. 그렇기에 이런 분야에서 소위 요즘 말하는 ‘데이터 사이언티스트’가 화두이다. 통계학에서는 원천 데이터를 가공하는 부분에 대한 관심보다 ‘이 데이터로 무엇을?어떻게 추정한다거나 내가 갖고 있는 표본으로 어떻게 모집단을 추정할 수 있을까?’와 같은 이론이나 검증방법을 주로 공부한다. 데이터 분석 기법은 대부분 통계학에서 나온 것이지만, 데이터 분석 실무는 이론보다 자신의 노력이 많이 요구된다. 데이터 분석 툴과 관련해서도 예전에는 SAS나 SPSS, JMP, Minitab 등 프로시저나 메뉴 기반의 상용 분석도구를 잘 다루면 됐지?과 경험에 따라 그 활용도와 생산성이 천차만별이다. R은 다른 언어들에 비해 입문하기는 쉬운 편이지만, R만의 고유한 특성과 철학이 있어, R을 정말 소위 ‘R스럽게’ 잘 다루려면 학습 곡선이 꽤 가파른 편이다. 또한 IT에 대한 이해도 필수적이다.

특히 시스템 인프라에 대한 이해가 필요하고, 스크립트 프로그래밍은 꼭 배워야 한다. 대용량 데이터를 처리하기 위한 하둡 인프라나 하이브 등의 쿼리, 파이썬 언어 등을 이용한 데이터 파이프라인 구축 등 요즘의 빅데이터 분석은 IT 인텐시브한 접근이 필요하다. 예전에는 분석할 데이터를 IT 부서에 의뢰했지만, 요즘에는 직접 가져와야 한다. 결국 통계학 또는 수학 전공자가 데이터 분석가가 되기 위해서는 IT에 대한 이해가 꼭 필요하다. 누구나 데이터 분석을 할 수 있지만, 전문 영역에서 자신의 가치를 드러내려면 자신 스스로 더 많은 노력이 필요하다.

 

개발자 등 IT 영역에서 일하는 사람이라면 어떤 준비가 필요하나.

데이터를 가공하는 과정도 프로그래밍이나 마찬가지이므로 프로그래밍 언어에 대한 이해와 자료처리, 알고리즘 등을 잘 알아야 한다. 따라서 프로그래머 또는 프로그래밍이 가능한 사람이 데이터 분야에 진출하기에 더 유리하다. 현재로선 빅데이터 분야에서 IT 전문가들이 특히 두각을 나타내고 있는데, 이들은 데이터 분석가라기보다는 데이터 엔지니어로 활약하는 경우가 많다. 다만 이런 IT 분야의 사람들이 데이터 분석가로 나아가기 위해서는 필요에 따라 통계학이나 수학을 보강하면 된다. 이들은 IT 아키텍처나 프로그래밍 개발 등에 탄탄한 기본기가 있기 때문에, 통계학이나 기계학습, 패턴인식 등 수학적 알고리즘 등에 대한 이론적-실무적 경험 등을 착실히 쌓는다면 소위 데이터 사이언티스트로 활약할 가능성이 다른 분야 출신들보다 높다고 할 수 있다.

다만 진정한 데이터 사이언티스트는 단순히 방대한 데이터를 처리하고 분석하고 고도의 알고리즘만 적용하는 업무로 끝나는 것이 아니다. 데이터 속에서 비즈니스에 유의미한 메시지를 도출해야 한다. 즉 분석 결과를 보고 스토리로 풀어낼 수 있는 역량이 요구된다고 할 수 있다. 사회 현상에 대한 관심과 자신만의 이야기로 풀어낼 수 있어야 한다. 그렇기에 지나치게 엔지니어링적인 부분에만 신경을 쓴다면, 비즈니스에 유의미한 통찰(insight)을 도출하기는 쉽지 않다고 볼 수 있다. 방대한 분야에 대한 이해와 지식을 갖추어야 하기 때문에 데이터 사이언티스트로서의 길이 험난한 길이라는 이야기가 나오고 있다고 볼 수 있다.

 

경영학이나 인문 사회학을 전공자라면 어떤 준비가 필요하나.

IT나 통계학 또는 수학 전공자에 비해 불리한 것이 사실이다. 물론 개인의 노력 여하에 따라 IT 지식, 프로그래밍, 통계학, 데이터 마이닝 등에 대한 공부와 실무 경험을 통해 데이터 분석가로서 활약할 수 있는 가능성은 얼마든지 있다고 생각한다. 다만 통계학 전공자나 IT 엔지니어링 전공자에 비해 데이터 분석가로서의 2대 필수 분야인 통계학 지식이나 기술적 지식 양쪽 다 부족할 수 있으므로, 좀 더 노력을 많이 해야 하는 것은 어쩔 수 없다고 생각한다. 다만, 인문사회학 등을 전공자라면 사회 현상이나 트랜드, 소비자의 마음이나 행동패턴 등의 함의를 캐치하고 의미를 도출하는 영역에서는 통계학 전공자나 IT 전공자에 비해 훨씬 유리하다고 생각한다.

 

어떤 계기로 데이터 분석과 인연을 맺었나.

대학교 때부터 계량적 분석에 관심이 많았고, 원래 숫자로 검증하고 데이터로 결과를 논리적으로 도출하는 일을 좋아했다. 그러던 차에 객관적인 검증과 증명이 가능하다는 데에서 통계학에 매력을 느꼈고, 좀 더 이론적 지식을 쌓고 싶어 박사과정에서 응용통계학을 공부했다. 데이터 분석 전문 벤처기업과 전자제품 기업과 통신사를 거쳐 현재의 직장에 오게 됐다. 했던 일도 대부분 데이터 분석과 관련된 업무였다. 물론 현업은 항상 분석만 하는 게 아니다. 기획이나 전략 제시 등 여러 업무도 해야 한다.

 

분석가로 활동하려면, 석사 학위 정도는 필요하다는 의견이 있었다.

필수라고는 생각하지 않는다. 고도의 통계 이론보다 데이터를 처리-분석해 비즈니스 인사이트를 도출할 수 있는 능력이 더 중요하다. 자신이 몸담고 있는 비즈니스 영역에 대한 지식, 즉 도메인 지식의 바탕에서 깊이 있는 교양으로 현상을 보고 통찰을 끌어낼 수 있는 실력이 더 필요하다고 한다. 한마디로 데이터에서 설득할 수 있는 스토리를 끌어낼 수 있어야 한다. 이 부분은 컴퓨터가 할 수 없는 영역이다.

 

분석 전문가 자격증을 취득하고 나서 바뀐 부분이 있다면.

회사에 알리지 않았는데 회사의 커뮤니티에 올라와 있는 기사를 보고 주변에서 한턱 쏘라는 동료가 많았다(웃음). 사실, ADP(분석 전문가)는 이제 시작되는 자격시험이고, 아직 많이 알려지지 않아서 자격 취득이 내 생활에서 큰 변화를 주었다고 보기는 좀 어려운 것 같다. ADP 자격이 어서 빨리 국가 공인 자격증이 되야 하지 않을까? (웃음)

 

데이터 분석 전문가의 꿈을 갖고 있는 사람에게 조언한다면.

다양한 데이터와 사랑에 빠질 수 있을 정도로 데이터를 다루고 분석하는 일에 몰입할 수 있어야 한다고 생각한다. 그런 측면에서 통계학이나 IT가 재미있는 사람에게 더 어울린다고 생각한다. 일단 재미를 느껴야 잘 하게 될 테니까 말이다. 재미가 없어도 데이터 분석이 뜬다고 하여 공부한다면, 흐름만 좇아가는 사람이 될 수 있다. 유행은 바뀌게 마련이다. 그러나 데이터는 예전에도 중요했고 앞으로도 중요할 것이다. 그렇기에 데이터 분석이 천직이라고 느낄 정도로 매력적이라는 생각과 잘하고 싶다는 욕망이 있다면 도전할 만하다.

 

ADP 시험 준비생에게 조언하면.

앞서 이미 언급했지만 데이터 분석 전문가 자격시험(ADP) 자체만을 목표로 하기보다는 결국 데이터 분석가로서의 역량과 경력을 쌓는 과정 속에서 자연스럽게 데이터 분석 전문가 자격 취득도 달성하는 과정이 바람직하다. 다만 빅데이터에 대한 이해나, 데이터 처리 기법, 통계분석, 데이터 마이닝, 데이터 시각화 등 시험에서 다루는 과목의 영역과 출제경향 정도는 파악해 두고 있어야 하는 것은 시험 준비생으로서 기본일 것이다. 그런 측면에서, 한국데이터베이스 진흥원에서 내놓은 『데이터 분석 전문가 가이드』를 최소한 한 번 정도는 정독하는 것은 필요하다고 본다.

 

향후 계획은.

데이터 분석 등과 관련하여 비즈니스와 연결되는 실질적 성과를 내보고 싶다. 이를 위해 더 알아야 할 것들과 공부해야 할 것들이 많다. 전공인 통계학은 물론이고, IT 관련 회사에 근무하다 보니, 이쪽 분야에 대한 도메인 지식을 많이 쌓아야 한다. 우리나라도 언젠가는 본격적인 데이터 분석 기반 시대로 진입할 것이라고 생각한다. 그런 시대가 왔을 때 준비가 된 인재이고 싶고, 단순히 데이터 분석만 할 줄 아는 그런 분석 기능자 또는 기술자로서의 포지셔닝 보다는 비즈니스의 성과를 개선하거나 새로운 시장기회, 고객의 니즈를 반영해 성공적인 상품이나 서비스라는 결과물을 도출할 수 있어야 한다고 생각한다. 이를 위해 과거에도 그랬지만, 앞으로도 부단히 배우고 학습하고 연습하고 적용하는 노력을 계속해 나가야 할 것 같다. <끝>

출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트