데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“데이터의 주도권 흐름을 알고 싶었다” - 백형충 분석전문가 7기 환율예측팀장

DATA 인터뷰
작성자
dataonair
작성일
2015-01-14 00:00
조회
3653




<팀장 인터뷰>

“데이터의 주도권 흐름을 알고 싶었다”

in_150114.png

▲ 백형충 분석전문가 7기 환율예측팀장

‘환율 예측’이라는 주제가 매우 전문 영역으로 느껴진다.

팀원들도 그렇게 생각했다. 하지만 이 분야의 전문 지식을 가진 팀원은 한 명도 없다. 다만, 팀원 한 명이 대기업의 전략기획실에서 일하며 국내외 각종 경제지표를 참고해 업무를 했던 경험을 갖고 있었다. 그 팀원이 그나마 환율 메커니즘을 조금은 이해하고 있었다.

환율 예측으로 주제를 정한 이유가 있나.

주제 선정에 대해서 팀원들과 논의하는 과정에서 톡톡 튀는 다양한 주제가 제시되었다. 하지만, 빅데이터 분석의 맛(?)을 제대로 보기 위해서는 익숙한 것보다는 조금 낯설더라도 도전적이고 발전적인 주제를 선정하고 싶었다. 팀장으로서 팀원들에게 제대로 한번 해보자고 제안했는데 흔쾌히 동의해 줬다.

환율은 국가의 정책 개입이 가장 큰 변수로 작용하지 않는가?

국가가 정책적으로 (환율에) 개입할 때는 일반적으로 비정상적인 사태가 일어났을 때다. 세계적으로 어느 국가나 자국의 이익을 위해서 개입하는 것으로 알고 있다. 평소에는 시장의 논리가 작용한다고 보고 접근할 수밖에 없다. 결국 모든 변수를 통제할 수 있는 완벽한 모델은 존재하기 어렵다. 따라서, 수료 프로젝트가 단기간이므로 다량의 로우 데이터(Raw Data)를 활용하여 어느 정도 예측 가능한 파일럿 모델(Pilot Model)을 만드는 것을 1차적으로 목표를 두고 진행했다.

프로젝트 착수 시점에는 ‘주간 단위 환율 예측 모델’ 구축을 목표로 접근했는데, 상세화하는 과정에서 다소 어려움이 있음을 알게 됐다. 그래서, 점증적 발전모델을 만들어 가는 것이 바람직하다는 판단에서 1단계로 ‘일일 환율 예측 모델’ 구축으로 변경하였다. 이번에 개발한 파일럿 모델을 토대로 몇 단계의 가공 과정을 거치면 일,주,월 단위 예측으로 확대해 나갈 수 있겠다는 가능성을 확인하였다.

환율 예측과 관련된 기존 연구 논문이 많은 것으로 알고 있는데, 빅데이터 관점에서 접근한 것과 어떤 차이가 있나?

기존 학술 연구논문은 통계적 접근을 하고 있다. 많은 데이터 중에서 일부를 샘플링하여 전체를 예측하는 방법이었다. 선행 연구를 통해서 가장 영향력 있는 변수가 무엇인지를 알아보기 위해 몇 편의 논문을 참고했다. 대부분의 연구 논문은 2~3개의 변수로 접근하고 있었다. 하지만 우리팀의 환율예측 프로젝트는 5년치의 실제 로우 데이터를 확보해 수많은 변수들에 대해서 직접 탐색적 분석을 통해 상관관계가 있는 변수들을 도출하여 보텀업 접근 분석 모델링을 만들었다는 점에서 차이가 있다. 당초 57개의 변수가 나중에는 60개 이상으로 늘어났다.

예측 분석을 쉽게 설명하면.

일정한 데이터를 모델링을 구축하여 과거 실제자료를 활용하여 트레이닝(Training)한 후 정확도를 검증하는 분석기법이다. 검증 데이터를 통해 예측한 값이 실제 값과 일정한 차이가 있으면 모델링을 보정하면서 예측 모델을 만들어 가는 과정으로 보면 된다.

데이터 확보가 쉽지 않았을 거 같다.

질문처럼 가장 어려운 점이 5년치 데이터 확보였다. 정돈된 데이터가 없었으므로 필요한 데이터를 직접 입수하여 가공하는 데 절대적인 시간이 필요했다.

DB실무 기술을 다루는 데 부담스럽지 않았나?

대기업 계열 SI사에서 개발자로 일할 때 RDB로 애플리케이션을 개발했던 경험이 있다. 지금은 IBM에 인수됐지만 인포믹스(Informix) DB을 활용하여 365일 무중단 ‘리조트 통합운영 시스템’을 구축한 경험을 갖고 있다. 안정적인 성능이 검증되면서, 이 시스템은 전국 체인으로 확대됐었다. 지금은 IT 분야 정보처리기술사로서 감리 업무를 수행하고 있다. 향후 데이터 아키텍트와 데이터 사이언티스트를 목표로 준비를 하고 있다. 이를 위한 과정으로 데이터 아키텍처 전문가(DAP, Data Architecture Professional)와 분석 전문가(ADP, Advanced Data Analytics Professional) 자격증에 관심을 갖고 도전해 볼 생각이다.

데이터 아키텍트는 전사적 관점에서 데이터 모델링을 통해 최적의 데이터베이스를 구축하고, 데이터 품질관리를 통해 데이터의 정확성, 완전성, 일관성을 보장하고, 최종적으로 데이터 분석을 통해 비즈니스 가치창출의 원천이 된다고 생각한다. 따라서, 데이터에 대한 전체 흐름은 ‘모델링-품질-분석’으로 상호 연계되는 중요한 상관관계가 있다.

약 3개월 분석 전문가 교육 과정을 수료한 지금에 와서 바라는 바가 있다면.

2주간의 집체교육의 밀도가 매우 높았다. 하지만 수료 프로젝트는 직장에서 실무를 하면서 진행해야 했는데 이것이 어려움으로 작용했다. 가능하다면, 수료 프로젝트를 단기 1주일이라도 집체교육 방식을 통해 집중력과 효율성을 높일 수 있도록 시도해 보는 것도 좋을 것 같다. 혼자가 아닌 여러 명이 1주일 동안 집중하여 협업을 한다면, 떨어져서 했을 때보다 더 좋은 결과가 나올 것이다.

 

특별히 기억에 남는 일은.

주제가 조금은 낯설었으므로 모델링하기까지가 어려웠다. 우리 팀의 멘토는 팀원들의 열띤 정반합의 과정을 통해 뭔가가 나타날 때까지는 전혀 도와주지 않았다. 하지만 어느 정도의 윤곽이 드러나려고 할 때, 살짝 던져주는 한마디가 막막한 어둠 속 항해를 하다가 등대 불빛을 만난 것처럼 맛깔 나는 희열을 느끼게 하는 길라잡이 역할을 해 주었다.

데이터 분석을 놓고 망설이는 이에게 조언한다면.

(엔지니어링 관점에서) 자동차를 움직이게 하는 핵심이 엔진이듯이 정보 시스템의 비즈니스 가치를 만들어내는 핵심은 데이터다. 데이터가 얼마나 체계를 갖췄는가 데이터 분석에 결정적으로 영향을 준다. 과거 데이터 웨어하우스나 비즈니스 인텔리전스(BI)가 (데이터를) 구축하는 데 역점을 둔 접근이었다면, 빅데이터는 활용하는 데 중점을 둔 접근이라고 볼 수 있다. 데이터의 구축은 엔지니어의 영역이지만, 활용은 실무자의 영역이다. 시대가 바뀌면서 데이터의 권력이 어느 쪽으로 이동하는지를 지켜볼 필요가 있다.

더불어 분석 전문가들이 주시할 게 있다. 과거에는 상용 분석 솔루션이 너무 고가여서, 기업에서도 도입하는 것에 대해 신중할 수밖에 없었다. 따라서 직접 경험할 수 있는 기회가 그다지 많지 않았다. 하지만 지금은 무상으로 활용할 수 있도록 한 강력한 오픈소스 분석 솔루션이 있다.

전 세계 누구나 자유롭게 소프트웨어의 개발이나 개량에 참여할 수 있게 한 것이 (분석 분야에서) 오픈소스의 힘이다. 인터넷과 함께 PC가 대중화되면서 기술적인 관심사에서 벗어나 활용 쪽으로 빠른 속도로 옮겨갔듯이, 이제는 DB 영역 역시 기술적 이슈보다는 데이터 아키텍처와 빅데이터 분석,활용에 대해서 관심이 높아지면서 핵심 영역으로 자리매김하고 있다. 그렇다면 데이터 전문가들은 어떤 준비를 하여야 할까? 오픈소스 패키지의 실체를 이해할 수 있고, 적절하게 적용 및 결과에 대해서 통찰력 있게 해석할 수 있도록 수학,통계학적 역량을 갖출 필요가 있지 않을까 생각한다.

출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net