데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“다시 분석에 집중해야 할 때” - 전희원 데이터 분석가, SK텔레콤 근무

DATA 인터뷰
작성자
dataonair
작성일
2016-08-01 00:00
조회
5765




“다시 분석에 집중해야 할 때”

전희원 데이터 분석가, SK텔레콤 근무

지난 2012년 5월, DBGuide.net 편집부는 데이터 분석가를 찾아 나섰다가 전희원 씨와 인터뷰를 하게 되었다. 한글 자연어 처리 오픈소스 패키지인 KoNLP 개발자이면서 R 메인 리파지터리 운영에 기여한 공로를 근거로 그를 추천하는 사람이 많아서 인터뷰가 이뤄졌다. 그로부터 꼭 4년이 지나 다시 만난 전희원 분석가는 직장을 바꾼 것을 제외하고는 그 때와 다름 없이 열정적인 분석가로서 길을 걷고 있었다. 자신의 경험을 토대로 [R로 하는 데이터 시각화]라는 책도 내놓았고, 박사 과정에 입학해 주경야독하는 분석가의 모습을 보여주고 있다.

in_020.jpg

데이터 분석 환경은 몇 년 전과 지금을 비교해 보면 달라진 점이 많겠네요.

예. 그때만 해도 지금처럼 분석이 대중화하기 전이라서 ‘트라이 & 에러’가 용납되는 분위기였어요. 그 사이에 분석이 사회적 화두로 떠올랐고, 많은 발전이 있었으므로 그때처럼 실수가 용납되는 분위기는 아닌 거 같습니다. 얼마 전부터 회사에서도 낯선 분석 주제가 제게 자꾸 주어지더라고요. 예전부터 해왔던 일이지만, 함께 고민할 사람이 부족하여 이 일이 조금은 외롭다고나 해야 할까요(웃음). 대신 최근에는 마음이 통하는 몇 사람과 모여서 비공개 세미나를 하면서 큰 도움을 얻고 있습니다. 회계법인에서 일하는 사람부터 대기업 분석 실무자, 분석 전문업체에서 일하는 몇 명의 분석가들이 모여서 정기적으로 세미나를 하고 있습니다. 이중에서 회계법인에서 근무중인 한 회원이 참 신기해요. 실무 분석 경험은 부족한 데도 분석 알고리즘 얘기를 하면 경험 많은 실무자들보다 더 좋은 코멘트를 해주곤 해요. 하도 신기하게 제 질문에 대해 답을 해주길래 물었어요. 그랬더니 ‘책을 보면서도 고민을 한다’고 답하더라고요. 통계학을 잘 이해하고 있는 분이라서 그로부터 알고리즘과 방법론 측면에서 많은 도움을 얻고 있습니다.

비공개 세미나로 진행해야 할 이유라도 있었나요.

편안한 자리에서 시작된 모임이었어요. 한 사람이 ‘우리, 함께 세미나를 해보면 어떨까요?’ 하고 제안하여 시작했죠. 그 전에, 제가 공개 세미나에 나가 했던 발언이 엉뚱하게 해석되어 제게 돌아오는 경험을 몇 번 했어요. 그때 이후로는 학습 세미나를 하려면, 분명한 목적을 가진 사람 중심으로 하는 게 어떨까 하는 생각을 하게 됐어요.

그 경험이 어떤 것이었는지 궁금해지는데요.

오래된 제 발표자료를 근거로 분석 학습자들을 더 혼란으로 유도할 수 있는 정보를 퍼트리는 것을 우연히 보았어요. 정보 출처를 알아봤더니 (데이터 분석) 강의를 하고 있는 분 같더라고요. 전후 문맥을 보면 알 수 있고, 분석을 조금 해봤다면 충분히 이해할 수 있을 이슈였는데도 분석 실무경험이 부족한 상태에서 자의적으로 해석하지 않았나 싶은 내용이었어요. 그래서 데이터 분석은 실패와 어려움을 많이 경험해 보고 나서 얘기할 필요가 있다는 생각을 하게 되었습니다.

한동안 데이터 분석이 사회적 관심거리로 부각되다 보니 나타난 현상이 아닐까 합니다.

그 부분은 이해합니다. 하지만 분석 실무경험이 부족하더라도 직접 시도해 볼 만한 것들이 적지 않아요. 아파트 가격변동 추적 등 자신의 상황에 맞는 주제를 발굴하여 분석을 시도해 보는 것이죠. 이 과정에서 어렴풋하게 나마도 분석 업무의 특성을 이해할 수 있지 않을까 해요. 자신 스스로의 분석 실력을 알아볼 수 있는 좋은 방법 중 하나가 주변에서 이뤄지는 일들을 분석가 관점에서 바라보는 것입니다. 이런 마음이 분석가가 갖는 열정의 모습이자 발전의 동인이 아닐까 하는 생각을 합니다. 대학 교수님들은 현장 분석가보다 분석 실무경험은 부족하지만, 연구 중에 하는 분석 경험이 많아서인지 실무 분석가들의 고민을 비교적 잘 이해하고 있더군요.

그러고 보니 박사과정에 재학중이시죠.

예, 논문을 준비중인데 최근에 중요한 실험에서 원하는 결과가 나오지 않아 고민입니다.

데이터 분석가로서 일하면서 깨달은 바나 떠오른 생각이 꽤 있었을 거 같습니다.

데이터 분석은 꼭 수식이나 알고리즘이 아닌, 말로 설명해야 하는 부분도 있다는 생각을 가끔씩 합니다. 그래서 요즘 그런 경험을 나누고자 내년(2017년) 1월 초까지 실무 분석을 하면서 얻는 경험과 노하우를 담은 책을 내놓을 계획으로 준비 중입니다. 전쟁터에 나가봤던 선임병이 신병에게 해주는 이야기처럼, 학술서와 이야기 책 중간 느낌이 나는 내용을 담고 싶습니다.

직장인으로서 학업을 병행하면서 책까지 쓸 수 있는 열정이 대단합니다.

제 자신에게 ‘나는 실천을 잘하는 사람이야’ 하고 늘 격려하면서 의지를 다집니다. 고민거리도 많고, 불어오는 바람에 흔들릴 때도 있고요. 그럴 때면 좋았던 경험을 생각하면서 마음을 바로 잡습니다. 예전에 [R로 하는 데이터 시각화]라는 책을 내놓았는데 실무자들뿐 아니라 교수님들로부터도 많은 격려를 받았어요. 책을 쓰고 싶게 만든 책도 있었고요. 고려대학교 통계학과 허명회 교수님께서 내놓았던 [R을 활용한 탐색적 자료분석]이라는 책이 그건데요. 해마다 연초에는 이 책을 다시 읽곤 해요. 어렵지도 않고 기본적인 내용을 담고 있는데도 읽을 때마다 새로운 맛이 나고 하여 마음을 가다듬게 됩니다. 데이터 분석을 하려면 꼭 읽어보라고 추천합니다. 이 책에 선배로서 후배들에게 ‘경험과 고민’을 전해주려는 저자의 진심이 느껴졌습니다. 저도 그런 마음으로 제 경험과 고민을 나누고 싶습니다.

in_021.jpg

KoNLP 패키지의 업그레이드를 기다리는 사람이 많지요.

예, 여기저기서 업그레이드 계획을 물어오곤 합니다. 하기는 해야 하는데… 패키지 검증, 문서화 등 업그레이드에 필요한 일이 많아서 미루다 보니까 실천을 못하고 있네요. 5년 전에 (KoNLP를) 내놨을 때 이 정도의 반응이 올지는 몰랐어요. 요즘에는 분석하는 사람들이 (KoNLP를) 많이 쓰지만, 초기에는 사회학/경제학/정치학 연구원들이 텍스트 분석을 하려고 많이 썼어요. 요즘 인기 있는 KoNLPy도 엔씨소프트에서 일하는 박은정 분석가가 대학원 재학 시절에 KoNLP에서 영감을 얻어 개발했다는 말을 들었습니다. KoNLP 때문에 제 분에 넘치도록 많은 인연을 맺게 돼서 그야말로 R은 제게 너무나 고마운 존재 그 자체입니다(웃음). 내가 좋아서 뭔가를 만들어 공유했을 때, 그게 힘이 되어 준다는 소중한 경험도 하게 됐고요. 한국에서 R은 KoNLP 등장 전과 후로 나눌 수 있다는 말까지 들었으니 분에 넘치는 사랑을 받았음에 틀림 없죠. R이 이렇게 뜰지도 예상하지 못했고 좋은 의도에서 했었기에 가능했던 일이지 않나 싶습니다(KoNLP는 전희원 씨가 넥스알에서 일할 때 야후코리아 재직 시 만들었던 모듈들을 토대로 내놓은 R 기반의 한글 텍스트 분석 패키지다. _ 편집자 주).

in_022.jpg

요즘 분석가의 길을 걷고자 하는 이들에게

대용량 데이터 분석 기술이 발전하면서 한동안 눈길을 끌지 못했던 기존 분석 환경, 즉 SQL 같은 언어도 얼마든지 데이터 분석에 요긴하게 쓸 수 있어요. 하둡 등 기술 장벽 때문에 분석 세계로 진입을 망설이고 있다면, 한번 시도해 보라고 당부 드립니다. 분석에 익숙하지 않은 분석가들이 ‘수학’으로 풀어내는 것을 어려워하더군요. 책을 보고 이해가 되지 않은 부분을 며칠씩 붙잡고 있지 말고 필요할 때 찾아보면 어떨까 하고 제안합니다. 그때는 책에서 말하는 바가 무엇인지 훨씬 눈에 잘 들어올 겁니다.

RDB 전문가들에게 대용량 데이터 분석은 어떤 의미가 있을까요.

한동안 빅데이터 플랫폼의 ‘높아 보이는’ 장벽에 기존 분석가들이 위축됐을 수도 있었다고 봐요. 앞서 얘기했듯이 이제는 기술 자체의 도움으로 굳이 Map/Reduce를 알지 못해도 충분히 큰 데이터를 분석할 수 있게 되었어요. 다시 문제에 집중할 때가 되었으니 (빅데이터 분석에) 한번 관심을 둬보라고 추천합니다.

출처 : 한국데이터베이스진흥원

제공 : 데이터 전문가 지식포털 DBguide.net