데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[분석 10기] 호텔 데이터 분석으로 한국 관광산업 발전에 일조

데이터 이야기
작성자
dataonair
작성일
2016-10-27 00:00
조회
4103


호텔 데이터 분석으로 한국 관광산업 발전에 일조



분석전문가 과정 10기는 주식이나 부동산 등 기존에 많이 다뤄졌던 아이템이 아닌 호텔이라는 생소한 분야를 대상으로 빅데이터 분석을 시작한다. 호텔 객실 수요예측을 통해 비즈니스의 성 과를 높이고 한국 관광산업의 발전에 기여하겠다는 포부를 품고. 데이터 분석 준비에 전체 시간 의 80% 가량의 공을 들여 완성한 ‘호텔 예약 수요 예측·분석 시스템’은 분석전문가 10기 프로젝 트 중 주제와 접근방법에서 뛰어남을 인정받아 우승 트로피를 거머쥔다



The Challenges

호텔의 객실 수요예측, 잘만 하면 대박

빅데이터 과정은 전산전공자로서 별다른 걱정 없이 참가한 과정이었지만 예상을 뒤엎는 시간의 연속이었다. 전산보다는 통계학에 기반한 내용이 대부분이었기 때문이다.

‘빅데이터 미니 프로젝트’를 수행하기 위한 팀을 구성하는 시간이 있었다. 빅데이터 분석 단계별 수행 희망자를 선별해 한 팀을 만들어야 했다. 2주간의 짧은 수업 후 급조된 우리 팀이 프로젝트를 제대로 완료할 수 있을지 '걱정 반, 기대 반'의 심정 으로 한자리에 모였다. 자기소개를 하던 중, 단연 눈에 띄는 한 명이 있었다. 그 분이 바로 박성익 조장이다.

“지는 예, 전산에 대해서는 하나도 아는 게 없는 호텔 매니저라예...”
호텔리어인 박 조장은 구수한 경상도 사투리로 자신을 소개했다. 컴퓨터 전공자가 아닌데다 경상도 산골에서 이제 막 올라온 느낌의 사투리까지... 당황스러움에 걱정스러움이 더해졌다. 그러나 그런 걱정은 기우였음이 바로 밝혀졌다. 박 조장은 우리 조의 프로젝트를 위해 보내진 멤버 였던 것이다. 직장에서 데이터 분석이 당장 필요한 상황이었으며, 분석하고자 하는 대상 이 분명했다.

“지는 전산 업무는 잘 모르지만, 호텔 업무는 전문가라예. 일을 하다 보니 언제 어떤 방을 어느 정도 예약하는지 도무지 알 수 가 없는 기라예. 작년도 실적을 보고 대충 감으로 때려 잡아서 보고는 하는데예, 데이터를 분석하면 정확한 수요를 예측할 수 있다는 생각에 왔다 아입니꺼 고객이 언제 몰릴지 알아야 호텔 장사를 잘할 수 있다 아입니꺼 고객이 많이 몰릴거로 예상 되믄 방값을 탄력적으로 조정할 수도 있고예. 수요가 없을 때는 방 값을 내려서 빈방이 없게 할 수 있따고 생각헙니다. 이런 호텔 수요 예측을 할 수 있는 데는 우리나라에 어데 없어예. 이걸 우리가 개발할 수 있으면 대박이라꼬요. 이걸로 사업해도 되는 기라예.”

확신에 찬 박 조장의 프로젝트 주제 제안에 우리 팀은 만장일치로 호텔 수요 예측·분석 프로젝트를 시작하게 됐다. 호텔 분야 의 빅데이터 분석은 다소 생소하기도 했지만 호텔 데이터로 객실 수요를 예측할 수 있다면 호텔의 비즈니스에도 도움이 될 뿐만 아니라 ‘한국관광산업 발전에 기여하는 점이 있지 않을까’하는 생각이 들었다.



THE APPROACH

호텔리어 Vs. IT 종사자 ‘언어소통’부터

일사천리로 진행될 것 같았던 프로젝트는 뜻밖의 난관에 부딪혔다. 사실 박성익 조장을 제외한 나머지 팀원은 모두 전산 직이어서 호텔 업무에 대해는 아는 게 별로 없었다. 막연하게 고객 예약 정보를 잘 활용하고 저장하고 있을 것이라고 추측 만 할 뿐이었다. 이와는 반대로 박 조장은 호텔 업무에는 프로였지만 전산 업무는 익숙하지 않았다. 호텔 업무는 전산직들 에게 생소했고, 호텔리어인 박 조장은 분석용 데이터 수집을 위한 전산 업무에 대한 이해가 더뎠다. 통성명을 하면서 데이 터 수집을 담당한 김강수 조원이 박성익 조장과 동갑인 것으로 밝혀져 훨씬 부드러운 분위기에서 데이터 수집 업무를 진 행할 수 있었다.



김강수 호텔에서 사용하고 있는 시스템 정보와 운영 데이터가 필요해.박성익 그건 어디에 있는데 전산 시스템을 담당하는 직원이 있긴 한데, 뭘 달라고 해야 하노
우리 호텔에 놀러와라, 우리 호텔 끝내 준다. 호텔 구경시켜 줄게. 와서 이야기하자.김강수 IT 담당자가 있다면, 그 사람을 만나 얘기하는 게 더 빠를 것 같다.박성익 그건 엑셀 같은 걸로 받을 수 있노 일단 얼렁하고 막걸리나 한잔 하자.김강수 데이터 추출이 가능한지 IT 담당자에게 먼저 확인 하고 가도록 하자.



호텔 비즈니스 전문가인 ‘금성인’과 전산시스템이 너무나 익숙한 ‘화성인’은 자신만의 언어를 서로에게 조금씩 이해시키면 서 데이터를 수집해 나갔다. 물론 호텔을 방문해 호텔의 IT 담당자와 미팅을 진행하면서 실질적으로 일이 진척되긴 했지 만, 박 조장이 호텔 매니저로서 강력하게 업무를 추진하지 않았다면 프로젝트가 빨리 진행되지는 않았을 것이다.



데이터는 데이터 일뿐! 클린징으로 의미있게 만들기

호텔 운영 데이터 수집한 후 숨돌릴 틈도 없이 다음 단계인 데이터 클린징 작업에 돌입해야 했다. 데이터 클린징은 회사에 서 고객 CRM 업무를 담당하는 최상림 조원이 진행했다. 마침 담당 업무와 관련이 많아 빠르고 정확하게 데이터 클린징의 방향을 잡을 수 있었다.

데이터 분석 작업의 2/3 이상이 데이터 준비 작업에 소요된 다는 강사님들의 얘기는 빈말이 아니었다.

데이터 클린징 작업은 2주 동안이나 지속됐는데, 남은 프로 젝트 기간이 2주밖에 남지 않아서 우리들은 초조해지기 시 작했다. 유일하게 호텔 업무를 아는 박 조장은 이 기간 동안 미팅에 참석하기 어려웠기 때문에, 박 조장에게서 어떻게든 필요한 자료를 받아야 했다. 그가 전에 건네준 자료에는 데 이터의 의미를 알 수 있는 코드명이 턱없이 부족했던 것이 다. 담당 조원들은 만사를 제쳐 두고 호텔에 매여있는 박성 익 조장에게 몰려 갔다. 알고 보니 코드명이 50개가 넘는데 3개 밖에 건네지 않았다는 것이다.

박 조장으로부터 자료를 받은 우리는 황금 같은 주말에 호 텔 수영장 옆에서 쭈그리고 앉아 작업을 시작했다. 몇 시간 이 지나서야 데이터 클린징 작업을 완료할 수 있었다. 혼자 했다면 말도 못하게 지루한 작업이었을 텐데 조원들과 함께 한 시간이어서 즐겁게 끝낼 수 있었다.



dbin_537.jpg

dbin_538.jpg

dbin_539.jpg

단 몇 시간 만에 4~5년 차 호텔 전문가로 성장()

프로젝트 4주차가 되어서야 우리는 호텔 데이터가 어떻게 생 겼는지 파악할 수 있는 단계에 도달할 수 있었다.

데이터 시각화는 BI 분석가인 이펴라 씨가 맡아주었다. 펴라 씨는 다년간 금융 분야에서 데이터 시각화 분석을 해왔던 전 문가다. 그녀는 정제된 데이터를 가지고, 단 몇 시간 만에 호 텔의 현황을 한 눈에 알아볼 수 있도록 시각화 작업을 해냈 다. 펴라 씨는 데이터 시각화를 위해 몇 가지 기준을 세웠다. 시계열 기반의 접근과 함께, 접수 유형 및 룸 타입 등 업무에 서 도출된 사업 기준을 적용하겠다는 것이다. 우리는 숙박일 수별 투숙객의 분포를 확인해, 데이터 분포의 정도를 기반으 로 장기, 중단기, 단기의 세 그룹으로 투숙객 데이터를 분류 했다. 각 그룹별로 데이터를 분석해보니 숨겨져 있던 패턴이 보이기 시작했다.

이렇게 발견한 몇 몇의 패턴들을 파악하면서 전문가 수준의 인사이트를 얻을 수 있었다. BI(Business Intelligence; 비즈니스 인텔리 전스) 기능이 강력한 ‘스팟파이어’를 빅데이터 분석에 사용한 것은 현명한 선택이었고, 호텔 비즈니스 현황을 한 눈에 파악할 수 있게 되었다. 결과는 대만족이었다.

호텔 투숙객에 대한 분석 결과 레지던스 호텔의 특성상 예약 건별로 총 숙박일 수의 차이가 크고, 장기 투숙객의 비중이 높 은 것으로 드러났다. 또한 기간별로는 장기 고객은 연중에, 중단기 고객은 연말에, 단기 고객은 연말연시에 집중되는 특성 을 보였다. 박 조장은 몇 년간 영업한 호텔 현황을 단 몇 시간 만에 볼 수 있다는 것에 놀라움을 표시했다.

dbin_540.jpg

dbin_541.jpg

또한 데이터 시각화 과정에서는 데이터의 이상 패턴도 발견할 수 있었다. 연별·월별·요일별 등 다양한 시계열을 기준으로 현황을 진단하던 중 몇몇 구간에서 다른 구간과는 확연한 차이를 발견했다. 2011년 초반과 2014년 후반에 동월 대비 예약 율이 유독 낮게 나왔다. 이럴 경우 원인은 두 가지다. 첫째는 사전단계에서 열심히 데이터 정제를 했지만 미처 놓친 경우, 둘째 비즈니스상 이슈가 있는 경우다. 우리의 경우 두 번째일 가능성이 높았다. 호텔 측에 확인해본 결과, 각각 시스템 마 이그레이션과 호텔 리모델링이라는 비즈니스상의 이슈가 원인으로 파악됐다. 이에 따라 호텔 데이터 분석 기준을 5년에 서 2년으로 단축해야 했고, 결과적으로 시계열 분석의 영향 정도를 낮출 수밖에 없었다.



쉽게 만들어진 모형은 쉽게 버려진다는 진리

데이터 시각화 과정을 마치자 기나긴 프로젝트의 끝이 보이기 시작했다. 그래도 아직 갈 길은 남아 있었다. 우리는 5주째 가 되어서야 겨우 R을 이용해 ‘호텔 고객 수요예측’ 모델 개발을 시작할 수 있었다. 생각할 부분이 많은 작업인데다가 상황 이 좋지 않았다. 프로젝트의 많은 시간을 데이터 준비 작업에 쏟아 부은 상태였기 때문에 많은 점을 고려해 1주 만에 R 분 석을 해내야 하는데 시간이 절대적으로 부족했으며, 각종 제한으로 멘토의 지원을 많이 받을 수 없었다. 조원 모두 직장인 들이라 주말에 겨우 시간을 낼 수 있었다는 점도 제약 사항이었다.

상황이야 어찌됐든 그래도 우리는 팔을 걷어 부치고 분석에 매진했다. 데이터 시각화에서 얻은 1차 분석 내용으로 ‘호텔 수요예측 모델’을 어떻게 구현해야 할지 검토했다. 고려사항으로는 장기 투숙객이 많기 때문에 시계열 기반 영향도가 낮 다는 것과 레지던스 호텔의 특성상 외국인이 주는 영향도가 크다는 점, 그리고 분석 항목으로 객실 타입, 예약 경로, 투숙 기간 등을 선정했다. 그런데 R 분석을 하면서 생각지 못한 문제에 봉착했다. 수요 예측만 하면 되므로 R 코드 한 줄짜리 간 단한 회귀분석 모형으로 가능하다는 생각이 큰 오산이었다는 것이 바로 밝혀졌다. 회귀분석 결과 모형의 적합도는 상당히 낮았고, 예측력 또한 부끄러운 수준의 것이 되고 말았다. 이에 부랴부랴 기간별로 모형을 수정해 적합도를 향상시켰다. 기 간뿐만 아니라 객실 타입별, 진입 경로별 모델도 만들어야 하고 회귀분석 이후 시계열 모형 등을 적용시켜보려 했으나 시 간이 절대적으로 부족했다. 역시나 쉽게 만들어진 모형은 쉽게 버려진다는 걸 다시 한번 느낄 수 있었다.

완벽하게 원하는 데이터 모델을 도출할 수는 없었지만, 팀원 전원이 프로젝트의 각 단계에 모두 참여함으로써 프로젝트를 완성할 수 있었다. 또한 전 과정을 거치면서 빅데이터 분석에 필요한 점과 향후 보완해야 할 점을 알 수 있게 된 것이 큰 수 확으로 남았다.

프로젝트를 위해 별도의 장비를 마련할 여력이 없었다. 각 단계별 필요했던 소프트웨어는 테스트 버전 또는 오픈소스를 사용했고, 한국데이터베이스진흥원의 장비를 최대한 사용하고자 했다. 데이터 클린징을 위해서는 강의실에서 오라클 클 라이언트 10G를 활용했다.



THE OUTCOME

서로 배려하고 희생하면서 얻은 값진 결실

다른 팀에 비해 상대적으로 분석 데이터를 쉽게 구할 수 있었기 때문에, 일단 시작만 하면 다른 팀보다 빨리 데이터 분석을 완료할 수 있을 것이라고 팀원 모두가 생각했다. 하지만 서로 호텔 업무와 전산 업무를 이해하는데 시간이 필요했고, 각자 바쁜 업무 때문에 원래 계획보다 프로젝트가 지연됐다. 팀원 대부분이 직장인들로, 주말밖에 시간을 낼 수 없었다는 점과 각자의 일정이 달라 팀원들이 모두 모이는 것이 쉽지 않았던 점도 프로젝트 진행을 힘들게 했다.

그럼에도 불구하고 수립된 프로젝트 절차에 따라 조장을 중심으로 단계별 담당자가 책임감을 가지고 노력해 좋은 평가를 받을 수 있었다. 처음에는 모든 팀원이 모여 호텔 업무 전반에 대해 설명을 들었고, 세부단계에서는 데이터 수집, 클린징, 분석 담당자가 조장과 개별적으로 협의를 하면서 프로젝트를 진행시켰다. 각기 다른 입장에서 호텔 업무와 전산 업무를 이해하기 위해 매주 토요일에 있었던 프로젝트 모임 및 SNS를 적절히 활용해 원활하게 커뮤니케이션 할 수 있었던 점도 성과로 꼽고 싶다.

또한 베가스의 박종훈 멘토로부터 조언을 받아 프로젝트에 적극 반영한 것이 큰 도움이 됐다. 시간이 있고 없고를 떠나서 서로를 배려하고, 희생하는 자세가 좋은 커뮤니케이션과 결과를 만들어 낼 수 있었던 것으로 생각된다.

결과적으로 보면, 서로에 대한 배려와 양보를 통한 환상적인 팀워크를 통해 프로젝트를 무사히 마칠 수 있었으며, 과정들 을 진행하면서 좋은 경험을 얻었던 것 같다. 막바지 제일 중요한 빅데이터 분석 단계에서 생각보다 시간이 많이 부족해, 모 형 적합도가 2%밖에 나오지 못했던 것은 여전히 아쉬운 부분이다. 향후에는 부족했던 시간을 보충하여 보다 세분화한 모 델을 적용해 만족할 만한 호텔 고객 수요예측 결과를 도출할 계획이다.

일반에 널리 알려진 ‘파레토의 법칙’이 있다. 20%의 고객이 80%의 수익을 내고, 상위 20%가 80%의 부를 가지고 있다 는 법칙으로 ‘80:20의 법칙’이라고도 부른다. 이번에 수행한 빅데이터 프로젝트가 파레토의 법칙과 유사한 점이 많다는 생각이 들었다. 프로젝트 기간으로 보면 데이터 분석 준비 기간에 약 80%의 시간을 들여야 했기 때문이다. 호텔 데이터를 활용한 빅데이터 분석은 기존에 많이 다뤄졌던 주식 등의 아이템과는 전혀 생소한 분야로 향후 메르스 등 의 여파로 타격이 큰 관광 분야와 접목해 발전시킬 수 있는 시장성이 높은 분야로 판단된다. 빅데이터 분석가로서 인사이 트(Insight)를 가지게 된 우리들의 '호텔 수요예측 모델'은 향후 해당 호텔의 비즈니스 사업에 도움이 될 수 있을 것이라 생 각된다. 나아가 해외 방문객 유치 및 고객 마케팅에 활용될 수 있다면 크게는 한국 관광 산업의 발전에 조금이나마 기여할 수 있을 것으로 조심스럽게 예상해 본다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net