전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

데이터를 잘 써먹을 수 있는 구체적인 방법들 : 고등분석을 아웃소싱할 때 고려해야 할 점들

전문가칼럼

DBMS별 분류

Etc

작성자

dataonair

작성일

2015-06-15 00:00

조회

6890

데이터를 잘 써먹을 수 있는 구체적인 방법들

고등분석을 아웃소싱할 때 고려해야 할 점들

유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명성을 얻 고 있는 세계적인 데이터 전략, 빅데이터 애널리틱스 전문가이다. I-Behavior의 공동창업자 /CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이터베이스 설계, 통계학적 모델을 활용한 타깃 마케팅 등 마케팅과 IT간의 가교에 큰 기여를 해왔다.

유혁 대표의 오랜 전문가로서의 경험을 바탕으로 국내 사용자들과 독자들에게 보다 데이터 를 효과적으로 잘 사용하면서 시행착오를 줄일 수 있는 방법을 특별연재를 통해 소개하고자 한다. 금융, 통신, 미디어, 유통, NGO 등 다양한 글로벌 고객들과의 현장 경험에서 우러나 온 애정 어린 충고와 쓴 소리에 독자들의 많은 관심을 부탁드린다.

이 시리즈를 연재하면서 거의 매회 통계적 모델의 중요성을 강조해 왔다. 연재 3회‘빅데이터의 핵심은 분석이며 분석의 중심은 모델링’에서 여러 가지 고전적인 모델 적용방법을 구 체적으로 소개한 바 있으나, 데이터가 넘쳐나서 고민인 빅데이 터 시절에는 복잡하고 방대한 양의 데이터를 간단한‘점수’로 변환하는 기능이 모델링의 가장 중요한 기능이라고 감히 말하 고 싶다.

그 다음으로 중요한 요소는‘unknown’을‘potentials’로, ‘모르는 부분’을‘가능성’으로 변환시키는 기능, 즉 데이터에 존재하는 수많은 구멍들을 추정치로 메워주는 역할이라고 할 수 있겠다.

아무리 데이터가 사방에 널려있는 시절이라 하여도 그 누구 도 모든 사람에 관한 모든 것을 알 수는 없는 일이다. 예를 들 어 접촉이 가능한 십만 명 이상의 대상을 분석할 때 그 중‘확 실히 아는 정보로’골퍼로 분류될 사람들은 극소수인 경우가 많다.

모델을 사용하면‘골프를 즐길 가능성’에 관한 점수를 그 데 이터베이스 안의 모든 사람에게 적용할 수 있다. 모델이란 늘 100% 정확한 것은 아니지만, 회사 야유회 날‘오후에 소나기 가 올 확률이 70%’라는 일기예보는 아예 모르고 당하는 것보 다 훨씬 낫다는데 이의가 없을 것이다.

‘모르는 부분’을‘가능성’으로 변환

과거에 이 시리즈를 통해 모델링의 많은 혜택들에 관해 자세 한 설명을 했지만, 여기서 그 리스트를 아주 짧게 요약한다면 모델은 (1)마케터들이 누구를 우선적으로 상대해야 할 지 정하 는데 도움을 주며 (2)일단 어떤 대상을 접촉하기로 정하면, 자 신에게 상관이 없다고 여겨지면 아무리 멋지게 꾸며진 광고라 도 가차 없이 무시해버리는 현대의 소비자에게 도대체 어떤 오 퍼와 메시지를 가지고 접근해야 할지를 정하는데도 가이드가 된다.

이어지는 질문은 모델링이 그렇게 중요하고 유용한 것이라 면 도대체“누가 그런 수학적 작업을 수행할 것인가”이다. 한국이야 미국에 비해 수학을 잘하는 사람들이 넘쳐나 보이 지만, 과연 이런 일들이 통계적 지식만으로 가능한 일인가(12 회‘훌륭한 데이터 사이언티스트란’참조) 그리고 통계 전문 가가 아닌 사람들은 무슨 기준으로 이런 일을 누구에게 맡길 것인가

만약에 조직 내에서 분석 팀을 만들 것이라면 몇 가지 고려 해야 할 점들이 있다. 너무나 많은 조직들이 한두 명의 분석가, 혹은 데이터 사이언티스트를 고용하고 그들에게 가공되지도 않은 산더미 같은 데이터를 몰아준다. 또 제대로 된 분석의 진 로도 제시하지 않은 채, 그저 그들이 마법의 힘으로 데이터로 돈을 벌어줄 방법을 찾아 주리라고 막연한 기대들을 한다(미국 에서도 사정이 비슷한 경우가 많다). 사실 이런 경우 일이 제대 로 돌아간다면 그게 더 놀라운 일이다.

팀의 목적을 분명히 해야

내부의 분석 팀을 만들 때 첫 번째 관문은 훌륭한 후보자를 찾는 것이다. ‘훌륭한 데이터 사이언티스트란’제목의 칼럼 에서 이미 자세히 다룬 바 있으나, 일단 제대로 된 자격요건을 만드는 것부터가 쉬운 일이 아니고, 통계 전문가가 아닌 사람 이 전문가를 면접 심사한다는 것도 간단한 일이 아니다.

게다가 요즘에는 모두가 자신을 데이터 사이언티스트라고 소개하고 다니니 그 중에서 누가 전문지식을 갖추고 또 일을 대로 할지를 알기가 쉽지 않은 것이다. 더욱이 한국에서는 이 데이터 산업이 비교적 새로운 분야라서 경력이 있는 사람들이 흔하지도 않을 것이다.

이런 일을 해 본 사람들도 모든 테크닉에 능통할 수 없는 일 이고, 그 중 기획 전문가와 실제로 숫자를 만지는 사람들 간의 차이도 또한 크다. 그래서 팀의 목적부터 분명히 해야 하는 것 이다.

팀이 만들어진 다음에도 그것을 유지하는 것이 쉬운 일이 아 니다. 일단 수학이나 통계전문가들은 단지 금전적이나 직책에 관한 보상뿐 아니라 끊임없는 도전적 과제를 원한다. 구글 (Google)에서 늘 강조하는 Smart-creatives, 즉 창조적이고 똑똑한 사람들은 더 그렇다. 그들이 판단하기에 쉽고 지루하고 반복적인 작업만 계속 주어진다면 요즘같이 분석가들에 대한 수요가 많은 시절에 가만히 그 자리에 앉아있을 리가 없다. 승진 등 관리직에 대한 제안도 먹혀 들어가지 않을 때가 많 은 것이, 그들은 워낙 사람들보다는 숫자나 컴퓨터를 다루는 것 을 선호하는 부류이고, 다른 사람을 관리하지 않고도 비슷한 보 수를 받을 수 있으니 더 그렇다.

그래서 팀에게 적당히 흥미로우면서도 어렵고, 또 조직에게 도 도움을 주는 과제를 계속 만들어 주는 것 자체가 일이 된다. 그게 유지가 안 되면 유능한 사람들부터 조직을 떠날 것이다(인 재의 유동이 많은 미국에서는 더 그렇다).

첫 번째 관문은 훌륭한 후보자를 찾는 것

아무리 똑똑한 분석가라도 지속적인 멘토링이 필요한 것이, 이 데이터 사이언스라는 것 자체가 단순한 수학적 작업이 아니 라 과학과 비즈니스와의 접목과정이며 유능한 분석가가 되려 면 마케팅과 소비자의 관계와 사업자체의 생태계도 잘 알아야 하는 것이다. 팀 전체를 개인별로 멘토링 해주는 것은 불가능할 터이니, 도대체 자신의 월급이 어떤 과정을 통해 만들어지고 지 급되는지 관심이라도 보이는 통계전문가부터 시작할 일이다. 게다가 이 시리즈에서 계속 강조해 왔듯이 분석에 최적화된 환경도 필요하다. 소프트웨어, 하드웨어는 물론이고 각종 툴 셋, 가끔은 아주 비싼 도구도 필요할 것이다.

그리고 그 Analytics-Ready Environment, 즉 분석에 최적 화된 환경이란 단지 기술적 요소들만으로 이루어지는 것이 아 니고, 과거‘데이터베이스의디자인개념’,‘ 데이터베이스는분 석을위하여최적화되어야’,‘ 랭킹이관건이다’등에서강조한 바와 같이 데이터 자체가 고등분석에 유용하도록 재구성되어 야 하는 것이니, 통계전문가 말고도 데이터를 자유자재로 다루 는 사람들도 필요하다.

그런 데이터 작업은 통계작업과 근본적으로 다른 일이고, 서 로의 일에 대한 이해는 필요하겠지만 반드시 분업화되어 이루 어져야 한다. 그렇지 않으면 통계전문가가 대부분의 시간을 데 이터를 고치고 재구성하는데 소비할 것이다.

‘아웃소싱이 각광받고 있다’

이쯤 되면 도대체 일 년에 모델 몇 개 만들자고 내부에 팀을 만드는 것이 필요한 것인가에 대한 질문이 나올 법하다. 결론은 일이 아주 많아지고 회사 전체의 의사결정 과정이 데이터를 통 해 이루어지는 날이 오기 전까지는 이 모든 일을 시험적으로 하 여 차츰 그 강도를 높이는 것이 낫다는 것이다. 처음부터 모든 일을 내부에서 해결하려고 들면 일단 과도한 투자를 하게 되고, 그것을 성공으로 보이게 만들려면 그야말로 기적적인 결과가 나와야 한다. Economy of Scale을 무시하고 모든 것을 내부에 서 해결하려고 하는 것은 마치 부엌에 간장이 필요하다고 집집 마다 간장 공장을 차리는 격이다.

게다가 이미 여러 차례 설명했듯이 데이터에서 의미를 찾아 내는 것 자체도 공정을 따라 해야 하는 것이고, 아무리 날고 긴 다는 조직도 그 모든 분야에 다 정통할 수는 없다. 그래서 툴 셋 이 흔해빠진 시절에도 각종 아웃소싱(outsourcing)이 각광을 받고 있는 것이고, 통계적 분석 및 그에 관련된 데이터와 해석 작업도 예외가 아니다.

그렇다면 도대체 어디에 전화를 해야 하는가 아웃소싱이 체 계화 되어있지 않고 모든 것이 대기업 중심으로 내부에서 해결 되는 한국에서는 더 난감한 일일 수 있다. 하지만 이 아웃소싱 이야말로 글로벌하게 진행되고 있으며, 미리 밝히자면 필자도 최근 그러한 회사로 자리를 옮긴 바 있다.

그런데 문제는 거의 모든 데이터나 마케팅 회사들이 descriptiveanalytics, predictive analytics, prescriptive analytics 등의 모호한 표현들을 마구잡이로 사용하고 있다는 점이다. 심지어 미국에선 통계 전문가가 한 사람도 없는 광고회 사의 웹 사이트들도 그 애널리틱스 (Analytics)라는 말이 빠져 있는 경우란 없다.

애널리틱스도 빅데이터만큼 남용되고 있는 단어라서 그 정 의를 확실히 해야 할 필요가 있고, 거기에 대해서는 이 연재의 3회‘빅데이터의 핵심은 분석이며 분석의 중심은 모델링’에서 Business Intelligence(BI) Reporting, Descriptive Analytics, Predictive Analytics와 Optimization Model로 나누어 설명한 바 있다. 여기서는 그 중 고등분석에 속하는 통 계적 분석, 즉 predictive analytics를 어떻게 아웃소싱할 것인 가에 대해 다루어 보겠다. 미국에서와 같이 외주를 주는 것이 일상화 되어있고 데이터와 분석의 생태계가 오랫동안 진화되 어 온 곳에서는 선택의 여지가 많고, 그에 따른 장·단점이 구 체화 되어있다. 간단하게 정리하자면

● 개인 컨설턴트(Individual Consultants): 계약기간 동안 고 용인처럼 팀에 완전히 속한다는 장점이 있지만 한시직이라 서 항상 다른 프로젝트를 찾고 있으며, 그들이 떠날 때 그들 의 지식도 같이 떠난다는 단점이 있다. 계약조건에 따라 시 간이 많이 지나면 전체적 비용이 올라갈 수도 있다.

● 분석전문외주회사(Standalone Analytical Service Provider): 그야말로 분석전문회사이며, 다른 일은 하지 않 는다. 축적된 지식과 경험이 많고 각종 산업별 노하우도 풍 부할 수 있다. 다만 규모가 작은 경우가 많고 그래서 과도한 분량의 일을 맡으려고 하는 경향이 있을 수 있다. 데이터에 관한 한 그 어떤 종류의 데이터도 가리지 않고 다루지만, 미 국과 같이 외부데이터가 흔한 나라에서는 자신들만의 데이 터가 없다는 것이 단점이 될 수도 있다.

● 데이터 서비스 제공회사(Database Service Providers): 미 국에서는 데이터를 수집하고 거래하는 Data Broker나 Data Compiler들이 많은데, 예외 없이 그런 회사들은 분석 팀을 운영하고 있다. 일단 그것은 그들의 데이터에 있는 빈 곳들을 통계적 모델로 채워 넣기 위해서인데, 그런 과정을 통해 축적된 지식도 상당하다.

그들과 상대하면 분석뿐 아니라 다른 데이터 가공 등 많은 공정을 한 곳에서 해결할 수 있다는 장점이 있지만, 회사 규 모들이 커서 민첩하고 기민하지는 못할 수도 있다. 그리고 수익을 올리기 위해 자신들이 운영 관리하는 데이터를 중점 적으로 사용하려는 경향이 있다.

● 광고회사/광고 에이전시(Direct Marketing Agencies): 광 고회사들 중 특히 1-to-1마케팅을 전문으로 하는 회사들은 분석에 많은 투자를 하고 있고, 그들의 장점은 전략적 차원 의 시각을 가지고 있다는 것이다. 특히 많은 분석회사들이 다루지 않는 Optimization Model, 즉 광고비 최적화 모델 등이 그들이 강점이며, 전략 수립과 함께 세그멘테이션 (segmentation)을 통한 광고의 개인화와 최적화 등 모든 과 정을 다 관리한다.

하지만 모든 광고회사들이 그런 것은 아니고, 구멍가게 수 준의 분석 팀을 가지고 그 능력을 과장하는 경우도 많다. Predictive Analytics는 다루지 않는다고 하는 경우도 많으 며 그들도 그런 일은 아웃소싱을 한다(오히려 그게 나을 수 도 있다).

이렇듯이 딱 누구와 어떻게 일해야 한다는 정답은 없다. 그 래서 사업 목적에 따라 그 전문가나 아웃소싱회사를 찾아야 하 는 것인데, 여기서 중요한 것은 그 고려대상이 단지 수학적 능 력이 아니라는 점이다.

너무나 많은 경우 단지 가장 싼 값에 입찰하는 회사에 외주 를 주는 경우가 많은데, 그러다가 낭패를 보는 수가 허다하다.

그래서‘고등적 분석을 아웃소싱할 때 고려해야 할 열 가지 요 소들’을 여기서 소개하고자 한다.

1. 컨설팅 능력(Consulting Capabilities)
‘훌륭한 데이터 사이언티스트란’등 이전의 많은 칼럼에서 강조했듯이 데이터 분석을 하는 사람들에게 가장 요구되는 점 은 마케팅 등 비즈니스의 세계와 테크놀로지 세계의 중간에서 통역을 할 수 있는 능력이다. 그들은 비즈니스의 목적과 마케 팅에서 요구되는 점들 두루 이해하고, 적합한 처방을 내리며, 그러한 목적들은 수학적 표현으로 변환하고, 주어진 데이터를 최대한 이용하여 타깃을 찾아내야 한다.

만약 분석을 맡은 사람들이 전략적인 시각을 갖추지 못하면 통계적 지식만으로는 목표를 달성할 수 없다. 그리고 그러한 비즈니스 전략과 목표는 속해있는 산업, 마케팅 채널, 그와 관 련된 성공지표에 따라 달라지기 때문에 훌륭한 컨설턴트라면 일단 사업에 관한 질문부터 하고 고객의 말에 귀를 기울일 줄 알아야 한다. 반면 수준이 떨어지는 분석가들은 자신들의 툴 셋과 분석방법에 마케터들의 목적을 끼워 맞추려 든다.

마케팅의 목적을 자세한 스텝들로 변환하는 것도 기술이다. 제대로 된 분석 파트너라면 구체적인 모델이 비즈니스에 어떤 영향을 미치는 지를 고려하여 단지 분석의 단계를 넘어 전체적 인 데이터 로드맵(roadmap)을 짤 수 있어야 한다.

그 후 큰 목표를 전체적 비용까지 고려하면서 작은 단계로 나누어 일을 진행해야 하며, 거기에는 어떤 종류의 모델이 몇 개가 필요한지, 모델단계에 들어가기 전의 데이터 변환과정에 관한 설계, 모델이 만들어진 다음에 어떻게 알고리듬 (algorithm)을 접근 가능한 모든 대상에 적용할 것인지에 대한 구체적 방안, 외부 데이터는 어떤 경로로 들여올 것인지 등이 포함된다.

모델링에서 타깃의 정의는 다년간의 경험과 산업지식이 필 요한 작업이다. 만약에 그 정의가 틀리거나 적합하지 않으면 아무리 수학적으로 훌륭한 모델도 좋은 결과를 낳을 수 없다. 타깃이 엉뚱한 곳에 걸려있으면 아무리 총을 잘 쏴도 소용이 없는 것과 같은 이치다.

또 다른 중요한 자질은 혼란스럽고 정리되지 않은 (unstructured) 데이터 환경에서 유용한 정보를 만들어내는 능력이다.

모델링은 단지 완벽한 데이터베이스로만 가능한 것이 아니 고 주어진 데이터를 최대한 활용하는 작업이다. 모델 경시대회 등에서 좋은 성적을 거두는 회사들은 주어진 데이터를 창조적 으로 사용하는 참가자들이지 단지 통계에만 도통한 사람들이 아니다.

컨설턴트로서 접근방식이 중요한 것은 모델이나 통계적 분 석이 자체적으로 존재할 수 없는 것이고 그것이 전체적 마케팅 엔진의 일부여야 하기 때문이다. 그래서 모든 활동을 자신들이 창출한 모델 공식을 중심으로 하려는 사람들을 조심해야 한다. 더욱이 전체적 그림을 이해하고 있는 분석가라면 다음 단계가 무엇이어야 하는지도 알려줄 것이다. 마케팅은 연속적인 활동 이지 한시적 작업이 아니고, 거기에 따른 분석도 마찬가지다. 그렇다면 어떻게 컨설팅 자질도 있는 파트너를 찾을 것인 가 아래의 질문부터 하기를 권한다.

● 당신의 말과 고민에 진정으로 귀를 기울이는가
● 당신의 목적을 그들만의 언어로 재해석해 반복할 수 있는가
● 장·단기 목표를 모두 커버하는 데이터 로드맵을 갖추고 있 는가
● 당신의 말을 교정할 수 있을 정도로 자신감이 있는가
● 비수학적인 마케팅 요소들을 이해고 있는가
● 단지 이론만이 아닌 실전경험이 있는가

2. 데이터 처리(Data Processing) 능력
데이터 프로세싱(data processing)이란 말을 여태 쓰냐고 반문하는 사람들도 있지만 데이터를 제대로 처리하고 변환하는 것은 모델링이 시작되 기 전에 거쳐야 할 필수적인 단계이다. 영어 표현 으로“garbage-in, garbage-out”이란 말이 있 듯이 제대로 처리되고 가공되지 않은 데이터로 고 등분석을 할 수 없는 일인데, 불행히도 현대의 많 은 데이터베이스들은‘전혀’분석에 적합하지 않 은 경우가 허다하다.

여하간 누군가가 그런 지저분한 데이터를 청소 해야 하는 것이고, 워낙 이 데이터 비즈니스에서는 마지막으로 데이터를 만지는 사람이 그 이전의 저질러진 모든 실수도 다 고쳐야 하는 법이다.

물론 공평하지는 않은 일이지만, 그래서 분석을 맡을 회사나 사람들의 통계적 지식과 거창한 프레젠테이션뿐 아니라 크고 지저분한 데이터도 처리할 수 있는 능력도 고려해야 하는 것이 다.

그 쓰레기 처리능력이란 데이터 변환, 수정/보정, 카테고리 화/태깅(tagging), 데이터 집적(summarization)과 변수창출 (variable creation) 등을 포함하며, 과거의 칼럼에서 집중적으 로 다룬 숫자적 변수와 자유형 데이터를 다루는 능력을 아우른 다(7회‘RFM 데이터를 넘어서’와 8회‘자유형(freeform) 데이 터는 결코 공짜가 아니다’참조).

이런 작업들은 겉으로 보기에 화려하지 않지만 일관적인 형 태의 데이터는 고등분석의 제1 성공요소이다.

그래서 필자가 강조해 온‘analytics-ready’환경이 이루어 져 있지 않다면 분석파트너라도 주어진 데이터를 분석을 위해 최적화 할 수 있어야 한다. 전체적인 프로젝트로 볼 때 가장 큰 실패요인들은 모델이 아니라 그 모델링의‘before’와‘after’ 과정에서 생기는 경우가 대부분이다.

그래서 후보자들에게 이런 질문들을 던져봐야 한다.

● 데이터 변환, 수정, 카테고리화, 집적화 등의 작업을 하기는 하는가
● 얼마나 큰 데이터까지 다뤄보았으며, 얼마나 많은 변수들을 동시에 다뤄봤는가
● 얼마만큼의 자유형(freeform) 데이터가 부담스러운가
● 과거에 새로 창출한 변수들의 샘플을 보여줄 수 있는가 3. 산업 지식(Industry Knowledge)
약간의 과장을 보태자면 산업지식이 통계적 지식과 모델링 노하우보다도 더 중요하다고 말할 수도 있는데, 그것은 특정 산업에서의 경험이 없는 경우 비즈니스적 뉘앙스가 제대로 전 달이 되지 않는 경우가 생기기 때문이며, 심한 경우 아예 대화 가 이어지지 않을 수도 있다.

농담이 아니라 필자는 (수학은 도사급인) 로켓 전문가가 신 용카드 캠페인을 아주 망가뜨려 놓은 경우도 본 적이 있다. 산업지식이 중요한 첫째 이유는 성공을 가늠하는 잣대부터 다르기 때문이다.

몇 가지 예를 들자면 금융, 신용카드, 보험, 투자, 항공, 숙박, 엔터테인먼트, 포장상품(packaged goods), 온라인과 오프라 인 유통, 카탈로그, 출판, 텔레콤(telecommunication), 자선단 체, 정치단체 등이 다른 형태의 분석과 모델을 요구하는 것이 고, 그것은 그들의 비즈니스 모델과 그들이 고객을 상대하고 거래하는 수단과 채널이 전부 다르기 때문이다.

모델이나 혹은 데이터베이스 자체를 구축할 때‘돈 받기 전 에 물건을 건네주는 사업’과‘지불과 동시에 물건이 전해지는 사업’을 위한 그 구조의 차이는 엄청나다. 그 두 개의 경우 간 단한‘날짜’도 전혀 다르게 기록되고 해석되어야 하는 것이 유 통에서는‘최근의 거래’가 높은 점수를 받는 경우가 많은 반면, 구독이나 장기계약이 필요한 사업에서는 꼭 그렇지 않기 때문 이다. 이 예는 단순한 날짜에 불과하고, 액수나 기타 변수로 파 고들어가자면 차이점은 한두 가지가 아니다.

더욱이 이런 사업들은 그 사업 대상에 따라 B2B와 B2C로 나 뉘는데, 그 둘의 차이는 다뤄야 하는 변수의 차이로부터 시작 해 엄청나다. 거기에 회사 내 부서에 따른 ROI Metrics의 차이 도 고려되어야 하며, 심지어는 쓰는 단어들과 기업문화의 차이 도 분석에 영향을 미친다.

하지만 자신을 컨설턴트로 부르는 사람들은 미팅이 시작되 는 순간부터 그 분야의 전문가로 활동해야 하는 법이다. 그래 서 후보자를 고를 때 (계약상 제약이 있는 경우가 많으니) 허용 되는 범위 안에서 과거에 상대해 본 기업과 부서에 관해 알아 봐야 한다. 그게 여의치 않다면 산업에 상관없이 한 가지 방법 만을 고집하는 분석가를 조심할 일이다.

4. 다루는 모델의 종류(Types of Models Supported) 특정방법에 관한 말이 나온 김에 덧붙이자면, 아웃소싱 파트 너가 다루는 모델의 종류도 알아봐야 한다. 물론 모든 방법을 다 쓰는 분석가는 없지만(그들의 프레젠테이션은 어떨지 모르 지만), 한 가지 방법만 고집하면 곤란하다(미국식 표현으로 ‘One-trick Pony’라고 한다).

이것은 약간은 전문적 분야로 파고 들어가야 하므로 어려울 수도 있는 부분이다. 동시에 마케터가 목적을 분명히 제시하는 대신 특정 방법을 멋대로 지정하는 것도 바람직하지 않다(15회 ‘IT와 마케팅의 다소 껄끄러운 관계’참조). 그래서 구체적인 목적의 예를 나열해 보자면

● 마케팅 대상에 랭킹을 메겨 고르기(Prospect ranking and selection)
● 영업대상의 스코어(Lead scoring)
● 부가 판매(Cross-sell/up-sell)
● 메시징(Messaging)을 위한 세그멘테이션(Segmentation)
● 계약 및 구독 중지(Attrition) 시점 예측
● 고객가치(Lifetime-value) 예측
● 미디어와 채널 최적화(Media and channel optimization)
● 신상품/패키지 개발(New product and package development)
● 사기예방(Fraud detection)
● 기타 등등

과거에 성공적으로 아웃소싱 파트너와 일해 본 경험이 없다 면 Neural-net, CHAID, Cluster Analysis, Multiple Regression, Discriminant Function Analysis 등의 기술적 용어를 나열하는 것은 곤란하다. 그것은 마치 의사가 검진도 하기 전에 환자가 나서서 특정 약을 요구하는 것과 비슷한 일 이다.

요는 유행어를 반복하는 대신 비즈니스의 목적을 분명히 설 명하라는 것이다. 목적에 관한 토론을 마친 이후에 파트너가 방법론을 제시하는 것이 올바른 순서다. 다만 그 후보자가 한 두 가지 특정 방법만을 고집하는지 살필 일이다.

5. 일의 처리 속도(Speed of Execution)
현대 마케팅에서는 속도가 왕이다. 스피드가 승리하고 스피 드가 존경을 얻는 법이다. 하지만 모델링과 분석에 들어서면 아웃소싱 회사마다 작업속도에 엄청난 차이가 있다는 것을 발 견하게 된다. 물론 그 주된 이유는 그들이 어느 정도로 망가진 데이터를 다뤄야 할지 몰라서 미리 많은 시간을 요구하기 때문 이기도 하다.

언급한 바와 같이 모델의 시작과 후가 가장 시간과 노력을 많이 필요로 하는 부분이고, 데이터가 아주 지저분하다면 시간 을 하염없이 잡아먹을 수도 있다. 모델이 만들어진 후 적용단 계도 많은 주의를 필요로 하고 거기에서 시간이 많이 흘러가는 경우도 많다. 그래서 어느 정도 시간이 걸릴 지 예측할 때 모델 링의 전과 후 단계를 나누어 견적해 달라고 해야 한다.

순전히 수학적인 부분도 그 과제의 복잡함에 따라 공정기간 에 많은 편차가 있을 수 있다. 물론 기본적인 변수를 이용한 간 단한 클로닝 모델(Cloning Model)은 다양한 채널에서 비롯된 많은 양의 거래와 이벤트 데지며, 클러스터링(clustering) 같은 작업은 타깃이 분명히 정해진 리그레션(regression) 모델보다 일반적으로 많 은 시간이 소요된다. 만약에 한 가지 사업목적을 위해 여러 가 지 모델이 필요하다면 당연히 더 많은 시간이 필요할 것이다. 그런데 재미있는 것은 마케터들이 프레젠테이션을 만들 때 처럼 많은 분석가들이 모델링을 원하는 대로 끝마치는 것이 아 니라 단지 주어진 시간을 다 소모해 버리는 경우가 많다는 것 이다. 그 공통점은 모델이나 프레젠테이션이나 시간이 한없이 주어진다면 끊임없이 수정을 할 수 있지만 언젠가는 일을 마쳐 야 한다는 것이다.

하지만 지난 수십 년간 이루어진 많은 자동화와 툴셋의 발전 으로 - 근본적인 수학적 개념에는 큰 변화가 없지만 - 모델 작 업의 시간도 비약적으로 줄어들었다. 1960~1970년대에 모델 링이 마케팅에 처음으로 적용된 이후로 정말로 많은 변화가 있 었으니, 아직도 1980년대식의 공정기간을 요구한다면 그건 곤 란한 일이다. 물론‘을’의 입장에서는 지키지 못할 약속을 미리 피하고 싶은 것이지만 말이다.

여기서 고려해야 할 점은 그 소요시간도 약간의 정확성을 포 기하고 더 간단한 모델을 요구하는 식으로 조정과 타협이 가능 하다는 것이다. 만약 98%의 정확도를 성취하는데 일주일이 걸 리고 95%의 정확도는 하루 만에 가능하다면 과연 어떤 선택을 할 것인가 그것이야말로 비즈니스적 결정인 것이다.

그렇다면 일반적 가이드라인은 무엇인가 물론 많은 요소들 이 영향을 미치겠지만 아웃소싱이 일반화 되어있는 미국의 예 를 들어보는 것이 도움이 될 수 있겠다.

● Pre-modeling Processing(모델 전 작업)
● Data Conversions: 반나절 - 수주일
● Data Append/Enhancement: 하룻밤 - 이틀
● Data Edit & Summarization: 주어진 데이터의 상태에 따 라 크게 다름
● Modeling(모델링): 반나절 - 수주일
● 모델의 종류, 방법, 모델 수, 복잡성에 따라 크게 다름
● Scoring(모델 스코어 적용): 반나절 - 일주일
● 적용되어야 할 데이터 베이스 크기, 개체 수와 데이터베이 스의 상태에 따라 다름

물론 이것은 일반적인 추정이라 그 편차가 크지만 간단한 모 델을 만드는데 한 달씩 요구하는 파트너를 주의 할 일이다. 그런 경우 그들이 실전경험이 없어서 일을 제대로 할 줄 모 르거나, 더 나쁜 경우 비즈니스의 속성을 이해하지 못하고 순 수한 수학적 완성도를 고집하는 경우일 수가 있다.

6. 가격 (Pricing Structure)
많은 마케터들은 오로지 가격만을 보고 아웃소싱 파트너를 정하는 경우가 많은데, 그건 정말 바람직하지 않다. 물론 필자는 늘‘을’의 입장에서 경력을 쌓아온 사람이지만, 모든 사업에서의 수익성의 중요성을 이해 못하는 것은 아니다. 하지만 싼 값만 보고 후보자를 고르는 것은 무모한 일이라서 이 긴 리스트를 소개하는 것이고, 예산이 아무리 중요해도 그 런 식으로 대화를 시작해서는 안 된다. 비즈니스의 목적과 분 석의 방법에 대한 토론 이후에 가격을 따져야 하는 것인데, 중 요한 것은 그 가격이 무엇을 포함하고 있는가이다.

이 애널리틱스란 끊임없는 순환과정이고, 각 단계가 다음 단 계로 가는 디딤돌이기 때문이다. 게다가 요즘은‘공짜’로 모델 을 만들어 준다는 회사들도 있는데, 세상일에 거저 얻는 것이 란 없는 것이고 반드시 가격이 붙어있는 단계가 나중에 등장하 게 마련이다.

가격에 관한 한 중요 요소들을 나열해 보자면
● 여러 개의 모델이 필요한 경우 첫 모델 이후 가격할인이 있 는가
● 맞춤형 모델이 비싸다면 이미 만들어진 모델 중 카테고리 별 로 사용 가능한 것을 싸게 제공할 수 있는가
● 특정 기업이나 부서별 데이터가 사용되지 않는다면 할인이 가능한가
● 방법론에 기초한 가격차별이 있다면 어떤 옵션들이 있는가 ● Clustering 이나 segmentations이 일반 모델에 비해 얼마 나 높게 가격이 책정되어 있나

다시 강조하지만 너무나 많은 모델 외적 요소들이 가격과 소 요시간에 영향을 미치므로, 모델링의 전과 후 작업을 따로 떼 어 견적을 요구하는 것이 바람직하다.

모델 적용도 반복적으로 하다 보면 그 비용이 만만치 않게 되는 경우가 있으니 그런 반복 작업에 할인을 미리 요구하는 것도 고려해야 한다. 때로는 이 모든 과정을 패키지로 만드는 사업체들도 있으니 가격을 비교할 때 주의해야 한다.

7. 문서화 (Documentation)
미리 만들어진 모델을 할인가에 구매하는 것이 아니라 맞춤 형 모델을 주문하는 경우 그 주문자가 그 모델 공식 (algorithm)을 소유하게 되는 법이다. 그래서 그 공식과 그 모 델을 만드는 과정, 가정들, 사용된 변수들의 변환과정 등이 문 서들 통해 전해져야 한다.

바람직한 모델 문서는 최소한 다음과 같은 요소들을 갖춰야 한다.

● 타깃과 비교대상에 대한 정의(Target and Comparison Universe Definition): 무엇이 타깃 변수, 즉 Dependent Variable이었으며 어떻게 정의되었는가 타깃 못지않게 중 요한 비교대상은 또 어떻게 정의되었나 그 두 집단에 적용 된 선택 룰은 무엇인가 이것은 모델의 구조보다도 더 중요 할 수 있는 요소들이다.
● 변수 리스트(List of Variables): 모델을 묘사하는 변수들, 즉 Independent Variables는 무엇인가 그것들은 어떻게 선택되고(selected), 변환되고(transformed), 또 구분 지어 졌나(binned) 그 변수들의 출처는 무엇인가 이 모델 변수 들은 모델의 성격을 대변하는 것이고, 상식적으로 이해가 가능해야 한다.
● 모델 공식(Model Algorithm): 모델에 사용된 변수들의 가 중치를 포함한 공식 자체가 공유되어야 한다.
● 증가치 도표(Gains Chart): 모델이 점수 그룹에 따라 얼마 만큼의 증가(gain)를 가져오는지 보여주며(예를 들어“최상 위 그룹의 반응률이 전체에 비해 320%가 높다”), 모델점수 가 내려가면서 얼마나 그 증가치가 줄어드는지도 도식적으 로 설명해야 한다. 동시에 개발용 샘플(Development Sample)과 검증용 샘플(Validation Sample)도 비교하는 것이 바람직하다.

맞춤형 모델일 경우 정식으로 모델 프레젠테이션을 하는 것 도 관행이며, 주문자가 직접 모델을 데이터베이스에 적용할 경우 모델 공식을 실제 사용 가능한 프로그램 언어로 전달해 야 한다. 그리고 만약에 여러 종류의 거래기록 등 주문자가 파일을 제공한 경우, 어떤 과정으로 그 파일이 가공되었고 각 스텝마다 얼마만큼의 기록들이 각종 이유로 제거되었는 지도 보여주는 리포트(Waterfall Report)도 필요하다.

모델이 아웃소싱 회사에서 적용되었을 경우, 실제로 모델점 수 별로 분포도도 제공되어야 한다. 많은 회사들이 요구하지 않은 리포트를 알아서 만들지 주지 않는 경우가 있으므로 계약 당시 이런 요구들을 명시하면 도움이 된다.

8. 실제 스코어 검증(Scoring Validation)
모델의 개발이 끝나고 프레젠테이션까지 마쳤어도 업무가 끝난 것이 아니다. 모델은 나중에 사용될 데이터베이스에 적용 이 되어야 진가를 발휘하는 것이고, 그 스코어링(scoring)이 끝 날 때까지 긴장을 늦춰선 안 된다.

실제로 많은 오류는 이 단계에서 발생하는데, 그 이유는 모 델 개발용 샘플은 아무리 커봐야 몇 십만 줄을 넘지 않지만, 메 인 데이터베이스에는 수백만의 대상이 있을 수도 있기 때문이 다.

일례로 미국 전체의 가구 수는 1억 4천만 정도인데, 그 모든 가구에 점수를 매기는 것은 간단한 일이 아니며, 성공적으로 프로그램이 돌아갔더라도 그 모델 점수의 분포도가 개발 샘플 이나 검증 샘플의 그것들과 다르게 나오는 경우도 허다하다. 여기서 그만, 오류가 나올 경우를 대비해 그들이 질문이 대답할 수 있도록 대기상의 일관되지 않은 분포는 개발 샘플에 비해서 만 아니라 시간이 지나면서 발생할 수도 있다. 예방차원에서 모델을 과거의 데이터베이스에 적용하여 미리 살펴볼 수도 있 다.

요는 많은 오류가 모델 개발이 끝난 후에 생길 수 있으므로 주의를 기울여야 한다는 것이다. 실제로 모델이 잘못되었다고 불만이 들어와 살펴보면 모델에는 오류가 없고 적용과정에서 문제가 생긴 경우가 대부분이다. 게다가 플랫폼과 사용 프로그 램 언어의 차이로 기계끼리도 오해를 하는 경우도 있다. 혹은 언어적 오류는 없었지만 정보의 부재로 일관되지 않은 결과가 발생할 수도 있다(9회‘정보의 부재에도 의미가 있다’참조). 이런 경우 모델을 직접 개발한 사람들이 오류의 원인을 찾아 내는 데에 가장 유리한 통찰력을 가지고 있을 수 있으므로 질 문에 즉각 대답할 수 있도록 계속적인 교류가 있어야 한다.

9. 사용 후 분석(Backend Analysis)
마케팅에서 훌륭한 분석이란 결과가 좋았든지 나빴든지 과 거의 결과를 통해 새로운 것을 배워나가는 과정이다. 그것을 흔히‘Closed-loop Marketing’, 즉‘연결고리가 끊어지지 않 은 마케팅’이라고 부르는데, 불행히도 많은 마케터들은 이런 과정을 따르지 않는다.
제대로 된 분석전문회사라면 당연히 모델 사용 후의 일까지 도 염려해줘야 마땅하다. 물론 그런 일은 모델 작업과는 분리 되어 고려되겠지만, 요는 그러한 서비스의 제공여부도 중요한 고려대상이라는 것이다.
사실 요즘처럼 많은 채널이 동시에 사용되는 Omnichannel 시대에는 어떤 요소와 채널이 좋은 결과를 가져왔는 지를 알아내기가 쉬운 일이 아니고, 그 과정 자체가 여러 가지 룰과 더 나아가 전용 모델을 요구하게 될 수도 있다.
그리고 맞춤형 사용 후 분석은 그 자체가 고비용 프로젝트가 될 수도 있으므로 이미 개발된 리포팅 툴이 있는지도 살펴보는 것이 좋다. 그런 도구들은 사용자가 요구하는 모든 ROI 지수들 이 포함되어있지 않을 수도 있지만, 기본적인 변수들, 즉 이메 일 캠페인 분석이라면 open, click-through, conversion rate이나 거기에 따른 액수나 거래상황 지표들이 포함되어 있 으면 바람직하다.
그러한 지표들을 데이터의 출처, 캠페인, 시간진행, 모델그 룹, 마케팅 메시지 버전, 타깃 정의, 채널, 배너 애드 파트너, 출 판사, 키워드 등으로 전부 따지기 시작하면 리포트 자체가 너 무 커져버리는 수가 있으니 거기에 대한 조언도 해줄 수 있는 파트너가 우선되어야 한다. 그리고 ROI(return on investment)가 기업 내에서 중요한 지표라면 마케팅 비용에 관한 자세한 정보도 공유할 수 있을만한 믿을 수 있는 파트너 가 필요하다.

10. 계속적 지원(Ongoing Support)
세상은 늘 변하고 데이터의 상관관계도 고정된 것이 아니기 때문에 모델의 수명도 한시적일 수밖에 없다. 사업이 계절을 타는 경우, 혹은 비즈니스 모델이나 전략 자체가 바뀌는 경우 에 더 그렇다.

데이터에 대한 접근성의 변화나 데이터의 질의 비일관성도 더욱모델의수명을단축시킨다. ‘ 모든변수가일정하면’이란 가정은 교과서에나 나오는 말이니 마케터들은 모델과 룰의 정 기적 리뷰를 계획해야 한다.

뭔가가 잘못되고 있다는 신호는 모델의 효과가 떨어지는 것 에서부터 보이기 시작한다. 의심이 들면 지체 없이 개발자와 상담을 하여 모델을 재구성하던지 과감히 새로 개발하는 것이 필요하다.

보통 1분기에 한번쯤 리뷰를 하는 것이 바람직하지만 여의치 않다면 6개월이나 1년에 한 번은 하되, 1년은 넘기지 말아야 한 다. 보통 기존 모델의 재개발은 가격이 더 저렴할 수 있으니 계 약단계에서 확인해 두면 좋다.

이 리스트는 의심의 여지없이 길지만, 아웃소싱이란 장기적 안목으로 봐야 하는 것이기 때문에 애초에 훌륭하고 적합한 파 트너를 찾는 것이 매우 중요하다. 그리고 필자가 여기에서 기 술적인 면에 대해 전혀 언급을 하지 않은 데에 의아해 하시는 독자들도 있겠다.

그것은 첫째, 많은 마케터나 사용자들에게 기술적인 질문을 할 지식이 부족하기 때문이며, 둘째, 수학적이고 기술적인 요 소들에서 발생하는 결과의 차이는 이 칼럼에서 나열한 요소들 에서 비롯된 차이보다 일반적으로 훨씬 더 적기 때문이다. 즉, 모델 경시대회에서의 일등과 꼴찌와의 차이는 다른 비즈니스 적 요소들에 비해 덜 중요하다는 말이고, 적절한 절차를 거친 모델은 아무리 수학적으로 완벽하지 않더라도 모델을 아예 사 용하지 않는 것에 비해 더 좋은 결과를 가져온다는 것이다. 한국에서는 아직 아웃소싱이 활성화되지 않았을지 몰라도, 계약의 모양새를 떠나 좋은 파트너를 찾는데 이 칼럼이 도움이 되었으면 한다. 데이터가 넘쳐나는 시대에 분석의 활용은 더 이상 옵션이 아니고 필수사항이다. 고로 자체 내에서 해결이 어렵다면 지체 없이 도움을 청해야 한다

« 이행 프로젝트, 여행 가방 꾸리기

마농의 SQL 백문백답: 단순하고 쉽게 작성하는 SQL 노하우 [2회] »

목록보기