데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[분석15기] 신한류를 열어갈 한류 지수를 만들다

데이터 이야기
작성자
dataonair
작성일
2017-05-25 00:00
조회
3395


국가별 관광 수요 예측 및 한류 지수 개발

신한류를 열어갈 한류 지수를 만들다



지난 10여 년 동안 전 세계적으로 확산된 한류는 우리나라의 문화 산업을 이끌어가는 미래성장동력으로 자리잡고 있다. 이에 분석전 문가 15기 우수조 구성원들은 한류가 각국에 미치는 영향력은 어느 정도인지, 그리고 한류를 통해 우리나라에 들어오는 관광객은 어디 서 얼마나 오는지를 예측할 수 있는 한류지수를 개발하였다. 이는 앞으로도 한류를 계속 이어가는 데 필요한 정책과 전략을 제공할 수 단으로 기대된다.



The Challenges

한류는 1990년 중화권에서 처음 시작되어 국제적으로 널리 알려진 한국 문화의 열기이다. 현재의 한류는 아시아권을 넘어 유럽, 아메리카로 퍼져나가고 있고 그 분야 또한 다양하다. 드라마, 영화, 음악, 게임 등의 문화와 음식, 화장품 등의 라이프스타일, 그리고 연예계는 이 모두를 아우르며 가파르게 성장했다.

문화체육관광부에 따르면 2008년부터 2010년까지 방송 콘텐츠 해외수출이 33.4% 증가했 고, 특히 음악 콘텐츠는 405%나 증가했다. 또 한국관광공사에 따르면 2008년에서 2011년 사이에 한국을 방문하는 외래 관광객의 수도 일본인이 38%, 중국인이 90%, 홍콩인이 76% 증가하였다. 이러한 한류의 확산은 관련 산업의 성장과 국가 브랜드 이미지 제고의 원동력 이 되었다. 한류는 화장품, 관광, 문화콘텐츠 산업을 견인할 미래성장동력의 핵심으로 자리 매김했다.

한편 최근 IT산업에 있어 가장 화두로 떠오르고 있는 것이 빅데이터다. 다양한 데이터를 가 지고 전처리/분석과정을 통해 데이터의 의미를 찾는다는 것이 기존의 관계형 DB에서 보여 주지 못했던 것과 비교했을 때 차별성을 가진다.

분석전문가 15기 우수조 구성원들은 한류가 각 국가에 미치는 영향력이 어느 정도 인지 분 석할 수 있는 Ensemble 예측모델을 개발하여 국가별 관광객의 국내 유입 가능성을 예측하 는 지표인 한류지수 개발을 목표로 잡았다. 그리고 이러한 분석 결과를 통해 문화체육관광 부 또는 한국관광공사 등 관련기관에 정책적인 제안을 하는 것이 이 프로젝트의 목적이다



dbin_576.jpg

The Approach

1) 한류지수의 필요성
한류 분석에 대한 사례와 연구는 관광사업 활성화방안 마련 및 한류정책의 연계성 확보를 위해서 지속적으로 추진되어왔다. 한류지수는 다양한 기관에서 통계 데이터와 국가별 설문 조사를 통해 개발, 발전되었다. 여러 논문에서 한류지수와 한류지원사업과의 연계성이 연 구되었고 새로운 인바운드 관광정책 방향이 제시되었다.

분석전문가 15기 우수조 구성원들은 한류의 정성적 진단을 위한 국가별 설문조사의 한계 를 인식하고 이를 극복할 수 있는 방안으로 국가별 관광정책 차별화를 목표로 정한 상태에 서 관광수요 예측에 근거한 한류지수개발을 전략으로 삼았다.

2) 어디에서 얻을 것인가
구성원들은 한류와 국내로 들어오는 해외관광객의 연관성에 대한 자료를 살펴본 후 생각보 다 논문자료 및 참고자료들이 많이 있어서 프로젝트가 쉽게 진행될 것이라고 생각했다. 하 지만 자료들이 많다는 것은 오히려 장점보다 단점이 되었다. 먼저 다른 논문과의 차별성을 찾기가 어려웠고 비교적 짧은 시간 안에 진행 되는 이번 프로젝트에 비해 시간을 많이 들인 기존의 자료들보다 더 잘 분석하기도 쉽지 않았던 것이다.

또 하나의 문제는 한류 관련 데이터를 확보하는 것이 생각보다 쉽지 않았다는 점이다. 한국 관광공사 사이트에서 관광객 통계자료를 확보하는 것은 용이했지만, 중요한 것은 해당 국 가 내 국내 드라마의 관심도에 관한 데이터를 확보하는 것이다. 결국 처음 생각한 것보다 범위를 좁혀 구글 트렌드를 이용해서 데이터를 확보하게 되었다. 그밖에 CPI, GDP 등 다양 한 변수들을 활용하여 연관관계를 분석하는데 생각보다 원하는 답이 나오지 않았다. 그래 서 프로젝트를 진행해나가면서 대상 변수 개수도 자연스럽게 줄게 되었다

한 변수들을 활용하여 연관관계를 분석하는데 생각보다 원하는 답이 나오지 않았다. 그래 서 프로젝트를 진행해나가면서 대상 변수 개수도 자연스럽게 줄게 되었다



dbin_577.jpg

UN Comtrade Database에서 국가별 DVD 수출입 데이터를, 구글 트렌드에서 한류검색 트 렌드를 API 방식으로 도출해냈다. 문화체육관광부에서 콘텐츠산업 방송수출 데이터를, 한 국은행의 경제통계시스템에서 음악·영상 저작권 수출 데이터를, IMF Data에서 국가별 경 제지표를, UN 세계관광기구(UNWTO)에서 국가별 해외 관광객수를, 한국관광공사에서 한국 외래 관광객 수의 데이터들을 확보했다.

3) 어떻게 얻을 것인가
한류지수 구축에 앞서 관광수요를 예측하는 방법은 이미 여러 가지가 있다. 그 중에 이번 프로젝트에서는 Kaggle의 관광객 예측 관련 방법론을 참고하여 관광객수로만 예측하는 Univariate 시계열 예측모델을 결합한 Ensemble 모델을 구축하기로 하고, 개별모델을 학 습시켰다. 이미 확보한 국가별 유입 관광객수 중 2010년 1월부터 2014년 3월까지의 데이 터를 학습시키고, 2014년 4월부터 2016년 3월까지의 데이터로 평가하였다. 모델링은 R 의 forecast package를 사용하였으며, 국가별, 연령대별 예측에 Seasonal Naive, ARIMA, Damped Trend, ETS의 4개 모델을 동원해 각각 학습시켰다. 그 결과 ARIMA가 전반적으로 우수하였고, 국가별·연령별 우수모델은 골고루 분포하였다.

Ensemble 모델은 위 4개 모델결과의 가중 합으로 구성했다. 아래와 같이 가중치는 0.25 균 등분할을 하고 MASE가 작은 모델에 큰 가중치를 부여했다(1/MASE).

결과적으로 MASE가 작은 모델에 큰 가중치를 부여한 모델(Ensemble_DW)이 가장 우수했다.

dbin_578.jpg

이제 한류지수를 구축하기 위해서는 우선 한류영향지표와 관광지표가 필요했다. 한류영향 지표와 한류영향요인은 방송콘텐츠(국가별 DVD) 수출입, 한류검색 트렌드(드라마), 음악영 상 저작권, 환율, CPI, GDP 등 국가별 경제지표, 관광객 수를 이용하고 한류 후보요인(x)와 관광객 수(y)를 회귀분석을 통하여 생성했다. 특히 가용 국가와 기간을 고려하고 국가별로 비교 가능한 변수를 선정하였다. 또한 관광지표는 국가별 해외 관광객 수 대비 국내 유입 관광객 수를 바탕으로 만들었다. 이 둘을 결합하여 한류지수를 구축한 것이다.

dbin_579.jpg

기초 데이터는 기초 통계, 상관성 분석, 회귀분석(Regression subset selection)으로 분석했 고 이를 통해 전체, 국가별 영향요인을 파악할 수 있었다. 이를 바탕으로 CPI(소비자 물가지 수) 변수, GDP(국내 총생산) 변수, Google 검색 변수를 공통 영향요인으로 도출해내었다. 회귀분석은 공통 영향요인을 조합하여 수행하였다. 다수 국가에서 유의미한 결과가 나온 모델을 공통모델로 선정하고,

dbin_580.jpg

위드라마)가 국내 유입관광객을 결정 하는 요인으로 파악되었다

dbin_581.jpg

4) 한류지수의 개발
데이터를 통한 예측 기법은 Kaggle(자료분석과 예측모형을 위한 경연 플랫폼)에서 관광객 예측 관련 방법론을 참고하여 Ensemble모델을 구축하였다.



dbin_582.jpg

한류지수를 토대로 일본과 태국은 한류안정형에 속하고, 스페인과 홍콩은 한류영향지표는 높지만 관광지표는 낮은 한류도약형에, 그리스와 캐나다는 두 가지 수치가 모두 미흡한 한 류개발형으로 묶어졌다. 이에 따른 국가별 차별화 전략을 수립했다.

우선 일본의 세대별 한류지수 순위는 20대>40대>30대>50대 순으로 나타났고 그 중 상위 2 개 집단인 20대, 40대를 겨냥하여 신한류 콘텐츠 정책을 수립하고 홍보할 필요성이 드러났 다. 이를 위해 20대, 40대의 수요분석과 관광상품 개발로 전략의 가닥을 잡았다. 태국의 세 대별 한류지수 순위는 30대>20대>40대>50대이고 이에 따라 30대, 20대의 수요분석 및 관 광상품 개발로, 홍콩의 경우에는 20대>40대>30대>50대로 일본의 경우와 동일했지만 홍콩 은 일본보다 관광지표가 낮아 한류와 연계한 새로운 콘텐츠로 20, 40대 관광상품 개발을 전략으로 세웠다. 마지막으로 관광지표와 한류영향지표가 모두 낮은 그리스는 한류지수가 40대>50대>20대>30대 순으로 40대, 50대를 겨냥한 한류 문화콘텐츠 이미지를 제고하고 문화관광사업으로 한류와 국내 관광을 견인하자는 전략을 세울 수 있었다.



dbin_583.jpg

The Outcome

분석전문가 15기 우수조의 ‘국가별 관광수요 예측 및 한류지수 개발’ 프로젝트는 한류지수 개발에 필요한 변수를 도출하여 얻은 자료를 토대로 상관분석, 회귀분석 그리고 앙상블분석 방법을 통해 최종 변수(GDP, 구글 트렌드)를 도출하고, 이를 토대로 한류지수를 개발했다. 개발한 한류지수를 이용하여 각 국가별, 연령별, 연도별 등 국내의 외래 관광객 유입을 예 측하고 각 국가를 대상으로 한국에 대한 홍보와 타겟 마케팅을 통해 지속적으로 관광객이 유입할 수 있도록 정책적으로 활용할 수 있을 것이다.

향후 한류와 관련된 기관을 방문해서 이번에 수행한 프로젝트를 설명하고 실무에 적용할 가능성을 타진해보려고 한다. 좀 더 모델을 발전시킬 소지가 충분하고 유입관광객과 상관 성이 높은 한류지수가 만들어진다면 정부에 정책을 제언할 수 있는 자료가 될 가능성이 높 다고 본다.
한류와 관련된 다양한 데이터를 추가로 확보하는데, 결측치를 처리할 방안과 각국의 언어로 한국 콘텐츠를 검색한 결과에 따른 구글 트렌드 데이터를 추가 확보할 계획이다. 특히 구글 사용이 금지된 중국은 바이두의 검색결과 데이터를 확보하고자 한다. 또한 나라별 화폐단위 로 표현된 물가지수 데이터를 동일한 기준으로 변환하여, 위에 언급된 방안을 통해 수집된 데이터를 이용하여 예측가능성을 높일 수 있게 한류지수를 보완하고 각 국가별 타겟팅이 가 능한 홍보와 마케팅 방안 등을 관련 기관에 정책적으로 제안하고 활용할 계획이다

출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net