데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“더 멀리 바라보고 준비해도 좋아요” - 하용호 데이터 사이언티스트

DATA 인터뷰
작성자
dataonair
작성일
2015-06-03 00:00
조회
10871




데이터 사이언티스트의 꿈을 가진 후배들에게

“더 멀리 바라보고 준비해도 좋아요”

in_150603_01.jpg

▲ 하용호 | 데이터 사이언티스트

앞에 나와서 말하는 것이 익숙해 보였어요.

어렸을 적에는 사람들 앞에서 말하는 걸 무서워하는 내성적인 성격이었어요. 일화까지 하나 있는데요. 어머니께서 우표 한 장 사오라고 집 앞 우체국에 심부름을 시키셨나 봐요. 몇 시간이 지나도 얘가 돌아오지 않자 무슨 일이 있는가 해서 우체국에 와보니, “우표 주세요”라는 말이 부끄러워 백 원을 쥐고 그대로 서 있는 모습을 발견했대요. 어머니께서 그때 “세상에서 잘 살아가려면 누구와도 이야기를 잘 할 수 있어야 해”라고 말씀하셨던 기억이에요. 그때부터 부단히 제 스스로 훈련했기에 지금은 사람들 앞에서 말하는 것이 제가 가진 가장 큰 장점 가운데 하나가 되었죠. 오랜 시간 스스로 노력해서 얻은 것이기에 그런 칭찬을 들으면 참 기쁘구요. 저는 콤플렉스가 있는 사람은 어떤 의미에서 그 일에 가장 재능이 있는 사람이라 생각해요. 어떻게 하는 것이 잘하는 것인지를 너무 잘 알고 있기에, 지금의 내가 모자란 것이 맘에 안 드는 것이지요. 사실은 가장 잘 할 수 있는 사람들인 거에요.

어떤 계기로 데이터 분석가로 활동하게 되었나요?

2007년 첫 직장으로 티맥스소프트에 입사했습니다. 대용량 처리를 좋아했기에 당시 사장님을 졸라서 검색엔진 팀에 배치될 수 있었고, 거기서 처음 맡게 된 일은 너치(Nutch)라는 오픈소스 검색엔진 분석이었어요. 너치는 나중에 하둡(Hadoop)의 전신이 되었고, 저는 비교적 일찍 하둡 계열의 분산 컴퓨팅 기술을 접하게 된 거죠. 그 이후로 죽 이쪽 세계에 있었습니다. 저는 티맥스에 있을 때는 분산 컴퓨팅의 근간 기술에 집중했던 시기, KT하이텔 분산기술 랩에 일했을 때는 저장과 처리에 대해 집중했던 시기로 보고 있어요. 그리고 현재의 직장인 SK텔레콤에서는 데이터 분석에 집중하는 시기고요. 점점 상위 레이어로 올라가고 있는 것 같아요.

대학에서는 어떤 공부를 하였나요?

학부에서는 전기/전자를 공부했고 대학원에서는 컴퓨터공학을 선택했다가 1학기를 마치고 그만뒀어요. 대신 산업공학과에서 금융 리스크 연구로 석사 학위를 받았습니다. 6살 때부터 코딩을 해서 소프트웨어 쪽에 관심이 많았는데, 전기?전자를 전공으로 택했던 이유는 하드웨어를 손으로 익히며 더 공부해보고 싶어서였습니다. 대학원에서 다시 소프트웨어를 공부해 보기 위해 컴퓨터공학으로 택했는데, 그때 마침 이공계 기피 현상이 심해지면서 과학?공학 외길을 걸어오던 저는 상심이 컸었요. 대안을 찾던 중 금융계 쪽으로 나아가야겠다는 생각으로 금융 리스크 연구실로 진학했습니다. 하지만 전혀 예상하지 못한 곳에서 제가 좋아하는 것에 집중하는 자신을 발견했어요. 금융 이론보다 수학과 통계학에 집중하고 있더군요. 이때 데이터 마이닝도 본격적으로 공부했고요. ‘송충이는 솔잎을 먹고 살아야 한다’고 생각하고 수학과 데이터 마이닝을 집중적으로 공부했고, 첫 직장도 소프트웨어 회사인 티맥스소프트로 들어갔어요.

in_150603_02.jpg

소프트웨어에 관심이 많았다는 뜻이네요.

네. 저는 6살때부터 코딩을 했어요. 아버지께서 8비트 컴퓨터와 일본 컴퓨터 잡지를 사다 주셨는데 그걸 따라서 입력해 보면서 코딩을 배웠어요. 나중에 「학생과 컴퓨터」나 「컴퓨터 학습」 같은 우리나라 잡지를 보면서 앞으로 세상이 어떻게 바뀔지에 대해 늘 생각했어요. 컴퓨터 분야로 가는 것을 목표로 과학고를 나와서 전기?전자를 전공하고 석사 과정까지 컴퓨터공학을 택했는데, 이공계 기피 현상 등을 목격하면서 나름대로 방황의 시기도 겪었고요. 그 시기에 접했던 수학과 데이터 마이닝 등이 오늘날 여기에 서 있게 했습니다. 당시에는 갈지자 행보를 하고 있다고 생각했는데 지금에 와서 보니 최적의 코스를 걷고 있었던 겁니다.

데이터 전문가는 컴퓨터 지식뿐 아니라 수학과 통계학, 산업공학, 경영학 등 다양한 분야에 대해 알아야 한다는 의미에서 하는 말이네요.

네, 그렇습니다(^^).

데이터 사이언티스트는 거의 초인적인 지식을 갖춘 사람으로 묘사되고 있는데, 자신 스스로 그런 사람이라고 보는가요?

지금은 그 직업도 사라지고 말았지만, 타자기가 처음 나왔을 때 타이피스트는 인텔리들의 직업이었다고 해요. 새로운 기술이 나왔을 때 최초의 수혜자는 사회적 자본의 수혜자들이라고 하더라고요. 이들이 새로운 시대로 나아가는 테이프 커터가 되는 거죠. 그 측면에서 데이터 분석도 바라볼 수 있지 않을까 해요. 통계학이나 수학, 대형 데이터 처리 등을 동시에 접했던 일부 전문가들이 1세대 데이터 사이언티스트로서 초기의 타이피스트 같은 역할을 하고 있는 게 아닌가 합니다.

현재의 시점에서 데이터 사이언티스트는 어떤 사람들이라고 보나요?

초기에는 유니콘 같은 사람들이 데이터 사이언스 분야의 업무를 정립했는데, 지금은 그럴 필요가 사라지고 있습니다. 이미, 팀 단위로 움직이는 팀 스포츠 영역으로 자리 잡은 거지요. 데이터는 팀 단위로 접근해야 잘 처리할 수 있게 돼 있습니다. 유니콘급 한 명의 데이터 사이언티스트가 할 수 있는 일이란, 기술 검증 차원에서 하는 POC(Proof of Concept) 프로젝트 정도가 아닐까 싶습니다.

취미는 무엇인가요?

답하기 어려운 질문인데요, 솔직히 공부하는 게 좋습니다. 호기심이 많아서 데이터를 다루고 싶었고, 궁금한 지점을 발견하면 책이나 논문을 읽고 직접 구현해 보는 것을 즐깁니다. 이런 거 말고 좀 더 평범한 취미라면 요리를 좋아합니다. 된장찌개를 끓이더라도 마치 화학 실험을 하듯이 하는데요, 된장을 풀고 청양고추를 넣는 시점에 따라 달라지는 맛의 차이 확인 등 나만의 레시피를 시도해 보곤 하지요. 15분 전후면 끝낼 수 있는 일종의 실험이랄까요. 요리는 한식, 양식 등 가리지 않고 즐기는 편입니다.

요리도 창의적으로 한다고 볼 수 있는 지점일까요?

(^^) 창의성 얘기가 나왔으니?… 창의성은 자신에게 주어진 질문 자체를 의심하는 것으로부터 시작한다고 봐요. 만약 고객이 제게 질문을 한다면, 이 질문이 합당한가? 왜 이 질문을 하지? 하고 생각해 보는 거지요. 예를 들어, 친구가 “차를 구입해야 하는데 어떤 차를 살까?” 하고 질문했다고 하죠. 그러면 왜 차를 구입해야 하지? 하고 상대에게 물어 보면 “딸이 다니는 유치원이 멀어서”라고 답할 수 있겠지요. 그러면 “그 유치원 가까운 곳으로 이사 가는 것도 방법”이라고 답을 해줄 수 있어요. 질문을 한 본질적 이유를 찾아 나아가야 하는 겁니다. 질문부터 다시 한번 생각해 보면 달라질 수 있어요.

데이터 분석도 그렇게 하겠네요.

네. 고객이 어떤 조건으로 데이터 분석 요청을 했을 때, 그 고객이 실제로 원하는 건 질문 뒤에 있을 수 있어요. 다시 말하여, (질문자는) 실제로 원하는 걸 모르고 제게 물어볼 수 있다는 거지요.

 

데이터 사이언티스트를 잘 모르는 사람들에게 데이터 사이언티스트에 대해 어떻게 설명 하나요?

컨설턴트라고 합니다. 우리가 생각하는 일반적인 컨설턴트는 말 잘하고 전달도 잘하는 커뮤니케이션 능력이 70%이고, 해당 분야의 전문성이 30% 정도라면, 데이터 사이언티스트는 전문성이 70%이고 커뮤니케이션 능력이 30%인 사람이라고 볼 수 있어요.

왜 그런가요?

해결해야 할 문제를 풀어주는 사람이 컨설턴트라서 그래요. 데이터 사이언티스트를 엔지니어라고 하지 않고, 데이터 사이언티스트라고 하는 이유는 정말 해결하고 싶은 문제를 풀어주는 컨설턴트로서의 역할을 하는 사람이기 때문입니다. 데이터 사이언티스트는 좋은 코드를 남기는 게 아니라, 데이터를 분석해 도출한 인사이트로 고객이 실행에 옮겨 변화하도록 하는 사람이에요. 만약 인사이트 도출에 그쳤다면 데이터 사이언티스트로서 해야 할 역할의 50%만 했을 뿐입니다. 액션으로 옮겼다면 70%를 달성한 것이고요.

100%도 있겠네요.

네. 최종 목표, 다시 말하여 100%는 자동화예요. 단발로 끝나지 않고 사람이 간섭하지 않아도 데이터가 순환하여 최적의 상태를 유지하는 것이지요. 자동화할 수 없더라도 액션에 이르게까지는 해야 해요. 데이터 수집/처리/분석을 통해 인사이트를 도출하고 실행해 변화를 확인하고, 이 변화에 따라 발생하는 데이터를 다시 분석하고 실행해 변화를 유도하는 사이클이 형성되도록 해야 한다고 봅니다.

요즘 다시 화두인 머신러닝을 빅데이터로 봐서는 안 된다는 의견도 있던데요.

예전에는 빅데이터란 용어가 떴고, 지금은 머신러닝이란 용어가 인기를 얻고 있습니다. 저도 하둡으로 대표되는 커다란 데이터를 다루는 일에 익숙하고, 학부 시절부터 지금까지 꾸준히 머신러닝에 매료돼 공부해온 입장에서 둘의 인기 자체가 매우 기뻐요. 빅데이터로 표현되는 데이터의 증가가 머신러닝을 다시 각광받게 만들고 있습니다. 딥러닝 같은 고수준의 머신러닝은 대량의 데이터가 전제될 때 가능한 기술이니까요. 하지만 이 모든 것은 문제를 풀기 위한 How 가운데 하나입니다. 본질은 ‘풀어야 하는 문제’이고, 그것을 위해 많은 기술이 동원되는 것이지요. How는 꼬리이지 본질인 머리는 아닙니다. 머리는 항상 심플합니다. 문제를 해결하는 것이죠.

데이터 사이언티스트의 몸값이 비싸다는데, 정말로 그런가요?

국내 급여 수준 기준으로 가장 높게 받고 있는 데이터 사이언티스트들이 있어요. 희소가치가 있기 때문이지요. 보통 이런 조건으로 일하는 데이터 사이언티스트들은 아직 팀을 꾸리지 않은 조직에서 1~2명 단위로 일하는 사람들이에요. 앞서 소개했듯이, 데이터 사이언티스트로서 유니콘 같은 자질을 갖춘 사람들이지요. 그러다 보니 차별화한 조건으로 일할 수 있고요. 그럴 만한 데이터 사이언티스트들이 부족하기 때문에 가능한 얘깁니다.

일시적인 현상이라는 뜻이네요.

어떤 자질을 갖춘 인력이 부족하면 처음에는 관련 인력을 양성하는 교육사업이 발전합니다. 교육산업이 사라지는 시점이 일반화되는 시점이지요. 아마도 10~20년 후면, 마치 워드프로세스를 다루듯이 데이터를 다루는 시대가 오지 않을까 합니다.

 

TV 프로그램에 나와서 ‘데이터 리터러시가 필요한 시점’이라고 강조했는데 무슨 뜻이나요?

현재 가장 유명한 제2외국어가 무엇이라고 생각하나요? 중국어, 일본어 등 여러 가지 답이 나오겠지만, 저는 코드라고 봐요. 10년 내에 코딩의 시대가 분명히 올 거라고 예상합니다. 오바마 대통령이 직접 나서서 코딩을 배우라고 강조하는 미국을 보더라도 그것은 분명한 흐름이 될 겁니다. 요즘 웬만한 사람이라면 자연스럽게 하는 MS 파워포인트로 슬라이이드 작성하던 일을 굉장하게 여겼던 적이 있었어요. 코딩도 그럴 텐데요, 현재 10세 언저리의 어린이들이 코드 리터러시를 갖춘 1세대가 되지 않을까 합니다.

 

데이터 리터러시를 ‘21세기 인문학’이라고 했던 말도 눈길을 끌었습니다. 데이터를 통해 사람을 이해할 수 있다는 뜻이나요?

사실 한국에서 ‘인문학’이라는 용어는 쓰는 사람이 원하는 대로 ‘과학이 아닌 모든 것’ 정도로 마음대로 사용되는 측면이 있습니다. 인문학을 ‘세상을 이해하는 틀’이라고 재 규정해 보겠습니다. 만약 16세기를 살아간다면 세상을 이해하기 위해서 철학책이나 문학책을 봐야겠지요. 그게 당시의 인문학이었습니다. 하지만 16세기의 방식을 지금을 이해하기 위해 고집하면 안 된다고 봅니다. 지금 세상을 구성하는 요소들에서 과학과 공학, 특히 디지털과 데이터의 비중의 압도적으로 커졌습니다. 지금 세상을 읽기 위해서는 뭐가 필요할까요? 저는 그것은 과학지식이라고 봅니다. 물론 저도 개인적으로 역사와 철학에 대해 관심이 많습니다만, 요즘 세상을 읽기 위해 당장 도움이 되는 것을 고르라면 통계 코딩을 말하겠습니다.

요즘 관심 있게 읽었던 책도 있겠네요.

신영복 선생님의 『담론』이라는 책입니다. 생각의 틀을 벗어나야 하는 훈련이 왜 필요한지를 생각하게 해주는 책이었습니다.

 

팀 단위로 일하는 데이터 분석 시대라고 했는데, 어떤 사람들과 일하고 있나요?

한 명의 데이터 사이언티스트가 데이터 분석에 필요한 모든 일을 하는 것이 1단계라고 한다면, 데이터 엔지니어와 데이터 애널리스트로 양분된 단계를 2단계라고 할 수 있어요. 3단계는 데이터 엔지니어가 데이터 크리에이티브와 데이터 디벨로퍼로 양분되고, 데이터 애널리스트가 데이터 리서처와 데이터 비즈니스맨으로 양분되는 단계라고 봅니다. 현재 제가 일하는 SK텔레콤은 3단계로 진입한 상태에요. 각각 전문화한 영역에서 일하는 거지요.

 

in_150603_03.jpg

▲ 데이터 사이언티스트 업무의 단계별 세분화

3단계의 데이터 크리에이티브와 데이터 디벨로퍼라는 말이 조금 낯선데요.

데이터 크리에이티브는 오픈소스 소프트웨어를 다루고 머신러닝 등을 주로 하는 전문가들이라면, 데이터 디벨로퍼는 분산 클러스터링 환경 등 분석 플랫폼 전문가들이라고 할 수 있어요. 그리고 데이터 리서처는 통계학이나 산업공학, 수학 이론을 토대로 분석하는 사람들이고요. 데이터 비즈니스맨은 코딩보다는 경영 측면에서 데이터를 다루는 전문가들이라고 할 수 있고요. 정리된 미국 자료에서 이를 보았는데, SK텔레콤은 자생적으로 이런 단계로 발전하고 있었습니다.

 

그래서 앞서 자신을 소개할 때 “데이터 분석가 겸 데이터 엔지니어”라고 표현한 거네요.

네. 이 기준으로 보자면, 데이터 크리에이티브로서 일하고 있습니다. ‘크리에이티브’는 틀을 만들어간다는 뜻을 담고 있어요.

 

어떤 도구로 데이터를 다루나요?

파이썬을 주로 써요. 보통 분석을 위한 데이터 전처리 과정에서 파이썬을 쓴다고 하는데, 외국에서는 R과 파이썬을 동시에 사용하는 경우가 많다고 해요. 국내 분위기는 R이 주도하는 모습입니다. 프로그래머로서 데이터에 접근한 사람들은 파이썬을 좋아하고, 통계나 수학에서 접근하는 사람들은 R을 좋아하는 거 같습니다.

 

국내에서 말 그대로 가장 많은 데이터를 갖고 있는 회사 가운데 한곳에서 일하고 있는데, 어떤 분석을 하는지 궁금합니다.

여기서 소개해 드릴 수 있는 것은 ‘기지국 품질 측정’ 정도입니다.

 

공개할 수 없을 흥미로운 분석들이 많이 이뤄지고 있다는 것으로 해석할 수 있겠네요.

통신사 업무 특성상 개인정보에다 통신업 특유의 중요한 자료까지 다룰 수 있으므로 수많은 서약을 한 후 일하고 있습니다. 빅데이터 분석 소개서에 나오는 여러 분석을 하고 있다고 볼 수 있어요.

in_150603_04.jpg

데이터 사이언티스트를 목표로 하는 학생들이 초인적인 요구조건을 보면 당황스러워하던데요.

데이터 사이언티스트는 25세 전후의 대학 졸업생이 갖출 수 있는 모습은 아니라고 생각해요. 요리의 장인, 무예의 달인이라고 했을 때, 20대 초중반 사람의 이미지가 떠오르지 않은 것과 같은 이치지요. 현업에서 수많은 경험과 공부를 통해 30세 정도는 돼야 어느 정도 데이터 사이언티스트라는 말을 들을 수 있지 않을까 해요. 그것도 최적의 코스를 밟은 경우에 한해서요. 데이터 사이언티스트를 목표로 하는 학생들에게는 목표 시점을 조금 더 멀리 볼 필요가 있다는 얘기를 해주고 싶어요.

석사 이상의 학위를 갖출 필요가 있다는 의견도 있던데요.

가장 수요가 많은 데이터 리서처가 되고 싶다면, 통계와 R을 공부하면서 분석 현업에서 수많은 경험을 할 필요가 있어요. 저도 석사 이상의 학위를 갖고 있으면 좋다고 생각합니다.

무엇 때문인가요?

배우지 않은 것부터 탐색할 수 있는 훈련을 받기 때문이에요. 대학원에서 공부하면, 수준이 높지 않더라도 자신이 연구해 정리하는 연습을 하게 되는데, 데이터 분석 실무에서도 논문을 쓰는 것과 같은 과정을 겪습니다.

데이터 분석이 적성에 맞는지 확인할 수 있는 방법이 있나요?

무조건 데이터를 다뤄보라고 추천합니다. 사실 우리나라에서는 분야를 가지지 않고, ‘무엇을 하려거든 올인을 해야 한다’는 생각이 있는 것 같습니다. 모든 것을 그만두고, 데이터와 관련된 학과로 전과를 하거나 관련 학교로 진학을 해야 한다거나 그렇게 생각을 하죠. 전적으로 뛰어들지 않더라고 괜찮다고 생각합니다. 온도 100도에서 모자라도 라면은 충분히 익습니다. 모든 걸 걸고서 해야 한다거나 거창하게 생각하지 말고 책을 따라 해보면서 데이터를 다루는 일이 재미 있는지를 알아보는 방법은 생각보다 쉽게 확인해볼 수 있습니다.

데이터 전문가로서 가장 어려웠던 순간과 즐거웠던 순간을 소개해 주세요.

분석한 결과를 토대로 뭔가 실행되는 모습을 봤을 때 가장 행복하고요. 데이터를 보려 하지 않고 역으로 설득하려 할 때 가장 힘들었습니다. 내가 변화를 이끌 수 있으면 희열을 느끼고, 그렇지 못했을 때 고민하게 됩니다.

데이터 분석 패러다임은 상관성과 인과성 이슈를 불러 올 수 있다던 데요?

사내에서 이런 논의가 이루어지고 있다면, 그것은 행복한 고민을 하는 시점이라고 봅니다. 데이터 분석이 유행하면서 이런 논의를 포함해 외부 데이터의 결합이라든가 비정형 분석이라든가, 여러 용어와 기법을 이야기하는 사람들은 많습니다. 하지만 대부분의 회사에서 자사의 DB에 잘 쌓여져 있는 데이터를 ‘제대로 보는’ 일마저도 해보지 못한 경우가 대부분입니다. 사내의 데이터를 분석해보겠다는 관점에서 다시 보는 것만으로도 초기에는 엄청난 효용을 얻을 수 있습니다. 일단 걷고 나서 달리는 것에 대해 고민해야 하지 않을까요(^^).

데이터 분석 물결과 함께 기업에서 IT 담당자의 역할도 변화가 있을 거 같은데요.

1~2년 전에는 ‘데이터를 꼭 봐야 하나?’ 하고 의심하였지만, 지금은 당연히 봐야 한다고 생각하는 시대로 넘어왔죠. 마치 지금 회사에서 ERP나 MS 오피스 등을 의심 없이 쓰는 것과 비슷하게 데이터를 쓰는 시대가 올 겁니다. 이에 따라 데이터를 다루는 사람들의 역할과 위상도 달라질 거고요. 예전의 IT 부서가 회사와는 조금 분리된 위치, 즉 뒤편의 백오피스로 있었다면 이제는 회사의 직접적인 활동들과 연계하거나 프론트 오피스에서 사람들과 교류하며 활약하게 될 겁니다. 이전에 비해 의사 소통할 일도 굉장히 많아지게 될 거고요. 회사의 커뮤니케이션의 많은 부분이 데이터 증빙과 함께 이루어지게 될 테니까 그렇습니다.

향후 계획과 목표를 소개해 주세요.

지금 일하는 회사에서 데이터에 대해 많은 경험과 도전을 했기에 이제는 졸업을 해야 할 시점이 아닌가 해요. 그 동안 대기업이라는 높은 탑 위에서 활동했던 데이터 전문가였다면, 이젠 그 탑 아래로 내려가 많은 사람들과 만나고 탑을 직접 쌓고 싶어요. 코먼(Common)한 문제가 많은데도, 탑 위에만 있기에는 아쉽습니다. 최종 목표는 자동화에요. 몇몇 도메인을 정하여 데이터 기반의 자동화를 해보고 싶습니다. (끝)

출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net