전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

데이터를 잘 써먹을 수 있는 구체적인 방법들 : (5) 데이터베이스는 분석을 위해 최적화되어야

전문가칼럼
DBMS별 분류
Etc
작성자
dataonair
작성일
2014-07-08 00:00
조회
11076




◎ 연재기사 ◎


데이터를 잘 써먹을 수 있는 구체적인 방법들


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (2) 데이터의 종류와 프라이버시


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (3) 빅 데이터의 핵심은‘분석’, 분석의 중심은‘모델링’


데이터를 잘 써먹을 수 있는 구체적인 방법들: (4)데이터베이스의 디자인 개념


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (5) 데이터베이스는 분석을 위해 최적화되어야


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (6) 랭킹이 관건이다


데이터를 잘 써먹을 수 있는 구체적인 방법들 - RFM Data를 넘어서


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (8) 자유형(freeform) 데이터는 결코 공짜가 아니다


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (9) 정보의 부재에도 의미가 있다


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (10) 데이터베이스라고 다 같은 것이 아니다


데이터를 잘 써먹을 수 있는 구체적인 방법들 : (11) 빅데이터가 아니라 스마트 데이터다


데이터를 잘 써먹을 수 있는 구체적인 방법들 : 할 수 있는 일이라고 다 해서는 안 된다


데이터를 잘 써먹을 수 있는 구체적인 방법들 : 정보의 흐름이 가치를 창출한다


데이터를 잘 써먹을 수 있는 구체적인 방법들 : IT와 마케팅의 다소 껄끄러운 관계


데이터를 잘 써먹을 수 있는 구체적인 방법들 : 고등분석을 아웃소싱할 때 고려해야 할 점들


데이터를 잘 써먹을 수 있는 구체적인 방법들 : 예측적 분석을 통한 소비자와의 적절성(Relevancy) 유지


데이터를 잘 써먹을 수 있는 구체적인 방법들 : 연재를 마치며 - Data Movement의 미래는



데이터를 잘 써먹을 수 있는 구체적인 방법들

(5) 데이터베이스는 분석을 위해 최적화되어야



유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명 성을 얻고 있는 세계적인 데이터 전략, 빅 데이터 애널리틱스 전문가이다. I-Behavior의 공동창업자/CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이 터베이스 설계, 통계학적 모델을 활용한 타깃마케팅 등 마케팅과 IT간의 가교에 큰 기여를 해왔다. 유혁 대표의 오랜 전문가로서의 경험을 바탕으로 국내 사용자들과 독자들에게 보다 데이터를 효과적으로 잘 사용하면서 시행착오를 줄일 수 있는 방법을 특별연재를 통 해 소개하고자 한다. 금융, 통신, 미디어, 유통, NGO 등 다양한 글로벌 고객들과의 현장 경험에서 우러나온 애정 어린 충고와 쓴 소리에 독자들의 많은 관심을 부탁드 린다. 편집자 주

필자는 데이터 전문 분야에 오래 종사해온 많은 사람들이 그렇듯이 사실 이“빅 데이터”란 표현을 그리 좋아하지 않는 다. 심지어는“빅 데이터”거품이 다 꺼지고 그 말의 효용도가 바닥을 칠 시기를 대비해서‘의사 결정에 데이터를 분석하여 사용하는 활동’이란 의미를 가진 다른 말을 벌써 생각하고 있 는 이들도 있다.

하긴 데이터를 늘 다루어 오던 사람들의 입장에서 이 빅 데 이터의 유행은 좋은 점도 있고 나쁜 점도 있다. 좋은 점은“당 신은 뭐 하는 사람이냐”라는 질문이 들어왔을 때 과거에 장황 하게 설명해야 했던 것을 이제는 그 단어가 적합하건 아니건 “빅 데이터”라는 단 한마디로 대답할 수 있다는 것이다. 또한 많은 사람들이 데이터 관련 분야에 관심을 가지기 시작하니 과 거에는 상상할 수 없었던 장소와 위치에서 발언권이 자주 주어 지기도 한다.

나쁜 점은 유행이 지나치다 보니 벌써 거품이 많이 끼어 있 고, 어떨 때는 본질보다 거품이 더 주목을 받을 때도 많다는 것 이다. 과도한 유행은 과도한 투자로 이어지고, 과도한 투자는 실망으로 이어지며, 그 실망은 해당 유행어와 관련된 모든 사 람들에 대한 질책으로 귀결되는 것에 예외가 없다.



“빅 데이터 하셔서 재미 좀 보셨습니까”

필자가 미국에서든 한국에서든 빅 데이터 관련 강연을 할 때 항상 하곤 하는 첫마디는“빅 데이터 하셔서 재미 좀 보셨 습니까”이다. 데이터를 만지고 분석하는 것도 다 비즈니스를 하는데 도움이 되자고 하는 일이기 때문이다. 데이터를 다루는 일이 기술 인력들의 취미생활을 위한 놀이터는 아닌 것이다. 사실 빅 데이터란 말 자체도 툴 셋과 소프트웨어를 만드는 회사들이 용량과 속도를 내세우기 위해 만든 것이다. 흔히 일 컬어지는 정의인 3V, 즉 Volume, Velocity, 그리고 Variety도 그런 맥락이다. 즉“크고 빠르고 다양하다”가 빅 데이터의 정 의인 셈인데, 그것이 과거의 데이터 비즈니스나 데이터베이스 마케팅과 차별을 두기 위한 협소한 정의라면 모르겠지만, 요즘 식으로“의사결정에 데이터를 분석하여 사용하는 것”을 다 아 우르는 정의라면 그것은 문제가 있다.

그냥 데이터가 많고 빠르고 다양하기만 하면 모든 대답이 다 거기에 있다는 식의 오해를 낳을 수 있기 때문이다. 실제 상 황을 보면 그건 천만의 말씀이다. 그런 식의 정의는 광산에서 금만 캐오면 그것이 저절로 금시계로 둔갑해서 시간도 알려준 다는 식인 것이다.

그렇게 본질을 놓치게 되는 대표적인 모습은 빅 데이터 관 련 강연에서 종종 보이곤 한다. 그런 주제의 강연들에서는 흔 히 하루에 2.5 quintillion byte (혹은 exabyte)의 데이터가 모 인다는 식의 통계가 꼭 등장하곤 한다. 그런데, 1 quintillion byte가 1 gigabyte의 10억 배인 것을 감안하면 엄청나게 큰 숫 자인 것은 분명하지만, 그런 식으로 데이터의 크기를 강조한다 고 해서“데이터가 내 사업에 왜 도움이 되는 것이지”라는 근 본적인 질문에 대한 대답이 나오지는 않는다는 것이다. 그것은 마치 배고픈 사람을 앉혀놓고 지구상에서 매년 수확되는 쌀의 알갱이 수가 얼마냐는 통계숫자만 나열하는 형국이다.

단언컨대 그 배고픈 사람은 이미 지어진 밥 한 공기가 더 아 쉬운 것이지 쌀 알갱이 숫자는 그에겐 그냥 0이 많이 붙어있는 숫자일 뿐이다. 마찬가지로 아무리 데이터에 둘러싸여 있어도 질문에 대한 대답이 나오지 않으면 아무런 소용이 없는 것이 다.



빅 데이터는 질문에 대답할 수 있어야 도움 돼

데이터의 용량과 처리 속도는 지난 수십 년간 계속 커지며 빨라져 왔고, 그 자체는 이미 뉴스 거리도 안 된다. 빅 데이터 라는 말 자체가‘크기’를 표현하고 있지만, 크기와 속도만 자 랑하는 것은 본질을 놓치는 첩경이며 많은 실망을 가져오게 되 어있다. 그것이 내년이건 내후년이건, 운이 좋아서 앞으로 몇 년을 두고 그 말을 우려먹을 수 있건 간에, 데이터로 수익을 올 리거나 지출을 가시적으로 줄이지 못하면 심판의 날은 반드시 오기 마련이다.

그렇다면 무엇이 본질인가 필자가 감히 정의를 내리자면 빅 데이터는‘사람들의 질문에 대한 대답’의 형태로 이루어져 야만 사업이나 의사결정에 도움이 된다. 역설적으로 표현하자 면, 빅 데이터는“반드시 작아져야만 하는 것”이라고 말하고 싶다.

어차피 사람들이 알고 싶어하는 대답은 한마디로 yes냐 no 이냐 이거나, 그것이 여의치 않으면 어떤 가능성에 대한 확률 (예를 들자면 회사 야유회 날 비가 올 확률, 어떤 사람이 특정 상품을 선호할 확률, 고객의 미래 가치 등)인 것이지 수천 수 만, 심지어는 조 단위 숫자의 데이터 조각들이 아닌 것이다. 그 리고 그렇게 데이터가 작아지려면 (1) Cut down the noise, 즉 데이터에서 잡음을 줄이고, (2) Provide insight, not data, 즉 데이터가 아닌‘통찰력이 담긴 내용’을 주어야 한다는 것이다. 그것은 마치 금 한 덩어리를 얻기 위해 많은 잡석을 버리는 것 과 비슷한 이치이며, 그것이 큰 덩어리의 데이터에서 알맹이로 줄여나가는 과정이다.

그런 데이터 가공의 중심에는 이 연재의 3회“빅 데이터의 핵심은 분석이며 분석의 중심은 모델링”에서 설명했듯이 많은 데이터의 수렴과 통계적 모델이 필요하다. 이 모델링의 이점에 대해서는 이미 충분한 설명이 있었으므로 여기에서 빅 데이터 시대에 중요한 한가지만 다시 강조하겠다. 통계적 모델의 결과 인 모델 점수, 즉 Model Score는 간단한 대답의 형태를 가지 고 있으면서도 아주 많은 데이터를 효과적으로 함축하고 있기 때문에 데이터를 작은 형태로 만드는데 그 이상의 방법은 찾기 어렵다는 것이다.



금을 얻기 위해 많은 잡석을 버리는 데이터 가공 필요

하지만 데이터가 마케팅 등에 오랫동안 쓰여져 온 미국에서 도 이런 모델링에 대한 상담을 하다 보면 많은 벽에 부딪치게 된다. 예를 들자면 온라인 슈퍼마켓을 운영하는 회사가 엄청난 데이터가 쌓여 있는데도 그 보물창고에서 몇 가지 질문에 대한 대답만을 아주 기본적인 query로 겨우 꺼내 보고 있으면서도, 도무지 어디서부터 그‘고등적인 분석’을 시작해야 할 지 엄두 도 못 내는 경우도 있다. 전문가 입장에서 보기엔 정말 안타까 운 일인데, 아이러니컬 하게도 더 효율적인 데이터의 분석을 가로막고 있는 사람들은 다름 아닌 그 회사 데이터베이스의 수 문장 격인 IT쪽 사람들인 경우가 많다. 많은 사람들은 자신들 이 구축한 데이터를 줄이거나 가공하는 것에 대해 거의 공포심 을 가지고 보호막을 치며, 모델을 이용한 고등적 분석이 가치 가 있을 수도 있겠지만 안하고도 잘하고 있는데 왜 사서 고생 이냐는 식으로 둘러 말한다. 그리고 그런 태도는 마케팅을 오 래 해온 사람들에게서도 발견될 수 있다. 그 안 된다는 이유들 을 들어보면 상황을 제대로 판단하는 데 많은 도움이 되므로, 몇 가지 예를 들어보겠다:

▶“타깃이 너무 작다”
상황과 산업 분야에 따라 그럴 수도 있다. 대상의 숫자가 작 으면 각개격파 식의 영업을 통한 전략이 효과적일 수도 있다. 하지만 그 대상을 전부 같은 방법으로 같은 메시지를 가지고 접근하는 것은 전근대적인 방식이다. 데이터는“누구부터 상 대해야 하지”라는 질문에 대한 대답도 줄 수 있으며, 또 누군 가를 상대하기로 정했으면“어떤 상품과 메시지를 어떤 채널 로 접근해야 하지”라는 질문에도 답을 준다.

그것이 데이터 가공과 모델링으로 이루어질 수 있다. 어떤 영업사원이 하루에 전화를 백 통 이상 걸어야 하는데 팔고 있 는 상품에 대해 누가 더 호의를 가질 지 확률적인 점수로 미리 알 수 있다면 점수가 높은 사람부터 상대하는 것이 그냥 가나 다 순으로 무작정 전화를 거는 것보다 훨씬 더 효율적이다. 타 깃이 너무 크다면 그야말로 타깃 마케팅의 고전적 정의에 따라 그 대상을 통계를 이용해 줄여나가는 게 우선이다.

▶“데이터가 빈약하며 예측력이 있는 변수가 부족하다”
불과 십 수년 전만 해도 이런 핑계가 통했지만 지금은 아니 다. 사방에 널린 게 데이터이니 데이터가 부족하다면 그것은 수집 단계에서부터 뭔가가 잘못되어 있다는 뜻이다. 아니면 수 집이 되어 있어도 정리가 제대로 되어 있지 않던가

(fragmented and unstructured), 너무나 지저분하여 의미를 찾기가 어렵다는 경우이다. 먼저 예를 든 온라인 슈퍼마켓의 경우도, 거기서 파는 모든 상품을 종류별 효용별로 구분해 놓 지 않으면 그 다음 단계의 분석이 극도로 어려워지며, IT부서 에서 그런 데이터를“잃지 않고 쌓아 놓은 것”만을 자랑하고 있을 처지가 아닌 것이다. 상품별 구분뿐만 아니라 사는 사람 의 선호도도 구분할 수 있게 어느 물건이 저칼로리인지, 유기 농이라고 표시되어 있는지, 설탕 함량은 얼마나 되는 지까지도 정리를 해놓으면 전혀 생각하지 못했던 사람들의 행동까지도 예측이 가능하게 된다. 빅 데이터 시대에 살고 있으면서 데이 터가 모자라다는 것은 말이 안 된다. 데이터의 예측력이 떨어 진다는 것도 충분히 깊이 파고 들어가지 않았다는 뜻이다.

▶“1-to-1 마케팅에 대한 계획 자체가 없다”
과거에는 1-to-1 마케팅이 디렉트 메일(Direct Mail)이나 이메일 마케팅(Email Marketing) 등에 국한되어 있었지만 이 제는 모든 채널을 일대일 매체로 사용할 수 있는 시대이다. 사 람들은 이미 온갖 종류의 화면을 통해 정보를 대하고 있으며, 그것이 TV 화면이던, 스마트폰이건, 컴퓨터이건, 태블릿이건, 심지어 길거리에 있는 화면이건 그것을 보는 사람을 상대하는 것은 기본적으로 일대일의 개념인 것이다. 그 대상이 누구인지 알 수 있으면 맞춤형 마케팅이 가능한 것이고, 만약 그 상대의 정체를 구체적으로 알지 못하더라도 주변 데이터를 종합해서 기본적인 프로파일링(Profiling)은 가능한 것이다. 모든 사람 에게 다 같은 메시지를 반복적으로 보여주며 그저 누가 걸려들 기를 바라는 것은 구시대적인 접근이다. 그러한 차별화는 많은 데이터를 이용한 모델링과, 그것이 여의치 않으면 기본적인 프 로파일링으로라도 이루어져야 한다.

▶“예산이 부족하다”
예산이 부족하면 정확도는 약간 떨어지더라도 기존의 툴셋 (Toolset)을 이용한다던가 외부에서라도 이미 만들어진 데이터 를 활용하는 방식으로 접근해야지 아예 포기해서는 곤란하다. 그것은 마치 최고급 승용차를 살 수 없다고 아예 차를 사지 않 는 것과 비슷한 태도이다. 마찬가지로 데이터 분석을 시작했다 고 당장 여러 명의 통계전문가들로 구성된 팀부터 만들고 운영 할 필요는 없는 것이고, 아웃소싱(outsourcing) 등으로 작은 프로젝트들을 POC(proof of concept), 즉 시험용으로 시작해 보는 것이 바람직하다. 차를 살 여력이 없으면 대중교통이라도 이용해 목적지에 가야 한다는 말이다. 아무리 시험적인 데이터 의 사용이라도 기본만 갖추면 경영자의 직관에만 의존하는 것 보다는 훨씬 바람직하며, 그 시도 자체가 훌륭한 연습이 된다. 애널리틱스(analytics)란 단지 통계적인 작업뿐 아니라 데이터 통합과 각종 프로세스 등 많은 과정을 거치는 것이며, 작은 프 로젝트라도 그런 스텝들을 다 거쳐야 하는 것이기 때문이다. 그리고 원래 1-to-1 마케팅이란, 시도해 본 테스트에 대한 대 상들의 반응들도 수집 및 분석하여 전체적으로 점차 나아지게 하는 것이 기본이다. 작은 성공이 큰 성공으로 간다는 태도를 가지면 시작도 수월해지고, 스텝마다 중간 보고를 통한 점차적 예산 확보도 가능해진다. 반면에 꼭 대박이 나야만 본전을 뽑 을 수 있을 정도의 무리한 투자는 아무리 예산이 확보되었더라 도 심각하게 재고해야 한다.

▶“도움이 되는 것은 알겠는데 그 모델링이란 것이 너무 어렵고 복잡하다”
사실 이것은 쉬운 일이 아니며 전문가의 도움도 필요하다. 일이 잘못되면 정말 장시간의 노력을 들이고도 원하는 결과를 얻지 못하는 수가 많다. 그런데 왜 이런 일을 오랫동안 해 온 회사들도 그것이 어렵다고 하는 것일까 마지막 이유와 관련해서, 마치 의사가 환자를 진료할 때 증 상부터 보는 것처럼, 이런 경우 전문 컨설턴트들은 왜 애널리 틱스(analytics)의 과정이나 통계적 모델(statistical model)이 복잡하고 어렵게 되는지를 당사자들이 털어놓는 증상을 통해 알 수 있다.

▶ 데이터가 있어도 타깃을 정하기가 어렵다.

▶ 애널리스트(analyst)들이 대부분의 시간을 데이터를 고 치는데 쓰고 있다.

▶ 모델이나 룰을 짜놓은 것을 보면 단 몇 가지 변수만 반 복적으로 등장한다.

▶ 모델을 만드는 사람들이 늘 더 많은 데이터와 변수를 요 구한다.

▶ 모델을 짜고 그것을 적용해서 사용하는데 과도하게 많 은 시간이 걸린다.

▶ 모델을 만들어 놓고 그것을 실제 데이터베이스에 적용 해보면 어긋나는 부분이 많다.

▶ 많은 노력을 들였는데 그 결과가 신통치 않다.
여러 가지 데이터와 통계적 모델을 사용한 결과가 실망스럽 다고 해서 상담을 하러 가보면 첫마디가“모델이 잘못된 것 같 다”는 소리를 듣는 경우가 많다. 그런데 위의 예에서 볼 수 있 듯이 그 전체를 잘 들여다 보면 십중팔구는 모델만 제대로 되 어있고 오히려 그 나머지 과정이 다 틀려있는 것인 경우가 허 다하다.



데이터 잘 정리 못하면 고치느라 시간낭비 불가피

일이 잘못되는 경우 많은 부분은 그 통계를 다루는 자체의 문제가 아니라 데이터나 그 주변 환경이 잘못되어 있기 때문이 다. 즉 통계를 사용하기 이전에 데이터베이스 구조 자체에 문 제가 있거나 많은 변수(variable)들이 제대로 정리가 되어 있지 않은 것이며, 혹은 모델을 짠 이후 그것을 적용할 때 뭔가가 잘 못된 것이다.

그 모델링의“Before”단계에는 data hygiene, conver sion, categorization, summarization등이 정확하고 일관되 게 이루어져야 하며, “After”단계에는 score application, validation, selection등이 빠르고 정확하게 돌아가야 한다. 그 런 것이 제대로 안되면 미국에서 흔히 쓰는 Garbage-ingarbage- out이란 표현이 딱 어울리게 된다. 쓰레기가 들어가 면 쓰레기가 나온다는 말인데, 쓰레기 같이 지저분한 데이터도 공정을 제대로 거치면 재활용품처럼 재탄생 되는 법이다. 필자가 컨퍼런스나 웨비나를 통해“분석을 위해 최적화된 데이터베이스”에 관한 강연을 할 때에 청중 중에 애널리스트 (analyst), 데이터 사이언티스트(data scientist), 혹은 통계 전 문가(statistician)가 있는지 꼭 물어본다. 그 다음 질문은 그들 이“통계나 수학과 전혀 관계가 없는 일에 어느 정도 시간을 소 요하고 있는가”인데, 불행하게도 그들 대부분은 시간의 80~90%를 데이터를 고치고 가공하는데 쓰고 있다는 대답을 하곤 한다. 그건 누가 봐도 정상적인 상황이 아닌 것인데, 현실 은 그런 것이다 오류까지 다 책임지고 고쳐야 하는 것이 옳은 것이긴 하지만, 통계학 석사 나 박사들이 온 종일 남의 실수만 고치려고 그 어려운 공부를 마친 게 아닌 것은 분명하다. 게다가 통계 전문가들은 그런 데 이터 일에 능숙하지도 않고 그 방면에 트레이닝을 받은 사람들 도 아니다. 상황이 이러니 미국에서도 데이터 사이언티스(data scientist)나 애널리스트(analyst)란 타이틀을 가지려면 데이 터를 잘 고칠 줄도 알아야 한다는 말도 나온다. 그건 마치 자동 차 경주하는 사람이 자동차 수리 능력도 뛰어나야만 성공할 수 있다는 말과 비슷하다.

성실한 애널리스트에게 구조적으로 불안하고(unstructure d) 불완전한(incomplete) 데이터를 샘플이라고 주면 그들은 어 떻게든 그걸 사용해보려고 온갖 노력을 할 것이다. 실제로 필 자도 애널리스트나 통계 전문가를 트레이닝 할 때 모델링을 포 함한 데이터 일은“Making the best of what you’ve got”, 즉 주어진 데이터를 가장 효율적으로 사용하도록 하는 것이란 말을 한다. 왜냐하면 이 세상에는 완벽한 데이터란 없기 때문 이다. 그렇다고 통계하는 사람에게 아무런 데이터나 던져주라 는 말은 아니다. 게다가 아무리 비싼 툴셋(toolset)을 그들에게 제공한다 하여도, 위에 예시한 모든 처리과정을 사람의 의도까 지 알아내서 자동으로 정리해주는 소프트웨어는 존재하지 않 는다. 그런 분석 전용 소프트웨어들은 통계적 분석이 주 목적 이며, 데이터 수정 작업을 쉽게 만들어줄 수는 있어도 알아서 고쳐주지는 않는다.



데이터베이스는 통계적 모델에 최적화 되어있어야

이런 경우 그 일을 담당한 애널리스트, 데이터 사이언티스 트, 혹은 통계 전문가가 그야말로 기지를 발휘해서 그 불완전 한 샘플을 완벽하게 고쳐놓고 많은 창조적인 변수(variable)까 지 만들었다고 치자. 더 큰 문제는 그런 노력의 결과인 모델을 전체 데이터베이스에 적용시킬 때 일어난다. 샘플이 아무리 커 봤자 수만 줄, 더 크면 수십만 줄일 수는 있지만, 그게 전부는 아닌 것이다(통계적 작업은 전체가 필요 없고 샘플로 하게 된 다). 미국같이 인구가 많고 비즈니스도 많은 나라에서는 개인 별로 점수를 하나씩만 매겨도 억 단위가 넘어가는 경우가 많 다. 그것이 개인별로 정리되어 있지 않고, Transaction, 즉 사 건이나 기록 별로 수집되어 있으면 그 크기는 우리가 부르는 빅 데이터 범주에 쉽게 들어간다. 거기에 그런 통계적 모델을 위한 준비 과정을 샘플에서 했듯이 전체에 반복해 적용시키는 것은 그 자체가 큰 프로젝트가 된다. 애널리스트가 만든 모델 뿐 아니라, 그가 그 모델을 짜기 위해 만든 많은 고쳐지고 창조 된 변수들을 모두 다시 만들어야 하는 것이니 그렇다. 물론 불 가능한 일은 아니지만, 시간도 엄청나게 걸리고 또 거의 모든 에러는 그런 과정에서 나온다고 봐도 무방할 정도다.

그래서 데이터베이스는 이러한 애널리틱스(analytics), 특히 통계적 모델(statistical model)에 최적화가 되어 있어야 한다. 그런 환경이 제대로 이루어져 있으면 sampling과 scoring은 그야말로 일상적인 일이 될 것이며, 통계 전문가들은 늘 데이 터나 고치고 있는 대신에 타깃과 방법론에 대해 대부분의 시간 을 보낼 수 있게 될 것이다. 그리고 그런 환경이 이루어지면 더 기본적인 query나 reporting도 훨씬 수월하게 되는 데 예외가 없으며, 리포트들도 더 일관된 정보를 더 효율적으로 포함하게 될 것이다.



고등 분석에 최적화된 데이터베이스의 조건

앞으로의 연재에서 더 자세히 다루겠지만 모델 등 고등 분석 (advanced analytics)에 최적화된 데이터베이스라고 불리우 려면 최소한 다음 조건들이 갖추어져 있어야 한다.

▶ 모든 테이블들이 제대로 연결이 되어 있고 match key 가 일관성이 있어야 한다. 특히 개인이나 사업체 등을 표현하는 ID들이 제대로 관리되어야 그러한 대상을 타 깃으로 삼을 수 있게 된다.

▶ 타깃 대상 혹은 사용 목적에 따라 데이터가 개인, 가구, 이메일, 사업체, 혹은 제품별로 요약(summarize)되어 있 어야 한다. 매번 요약(summary)과 집적 과정을 반복해 가면서 일을 진행하다 보면 시간도 낭비하게 되고 일관 성도 눈에 보이게 떨어진다.

▶ 숫자로 표현된 데이터, 즉 가격, 지불액, 구매건수, 날짜, 구매간 시간간격 등이 표준화되고 결여된 데이터 (missing data)가 제대로 처리되어 단순한“0”과 구별되 어 관리되어야 한다. 알 수 없는 숫자는 0이 아니다.

▶ 숫자가 아닌 범주적 데이터(categorical data), 혹은 문 자적 데이터(character data)도 편집 수정되고 미리 정 해진 카테고리(category)별로 구분 관리되어야 한다. 예를 들어 상품의 종류나 마케팅에 사용된 offer code(e.g., 10% off, buy-one-get-one-free, free shipping, free coupon 등)가 자유분방하게 기록되어 있 는 경우가 많은데, 그렇게 해서는 그런 노력에 대한 반응 을 수학적으로 사용하기가 아주 곤란하게 된다.

▶ 결여된 데이터, 즉 Missing Data는 데이터베이스를 요 약(summarize)하다 보면 필연적으로 생기는 부산물인 데, 그것도 정해진 룰에 따라 채워지던지 수학적으로 새 로 impute, 즉 가치가 매겨져야 한다. 많은 오류는 없는 데이터를 보완해 채워 넣는 과정에서 일어난다.

▶ 외부의 데이터도 제대로 맞추어져서 기존 기록들에 연 결이 되어야 한다. 소스가 다른 데이터를 합치는 과정에 서도 많은 오류가 발생한다. 아예 합쳐져 있지 않으면 통계적으로 사용하는 것이 불가능해지는데, 그런 데이터 베이스도 허다하다.

한마디로 이런 요구사항들을 정리하자면, 데이터베이스 자 체가 통계 전문가가 샘플을 완벽하게 만들듯이 그런 형태를 미 리 갖추고 있어야 한다는 말이다. 데이터가 커지면서 그 많은 데이터를 전부 보관하기도 힘든 시대이지만, 그럴수록 분석과 통계를 하는 사람들을 위해 따로 분석전용 테이블(analytical table)을 만들어 관리해야 한다. 분량이 너무 많아서 여의치 않 으면 따로 Data Mart의 개념으로 관리할 수도 있다. 그런 과 정 자체가 데이터를 줄여나가는 길이며, 그 모든 공정의 끝에 는 정책 결정자나 마케터들의 질문에 대한 간단한 대답의 형태 만이 남게 되는 것이다.
그러한 과정이 계획대로 돌아가면 과거에 몇 주일씩 걸리던 일이 며칠도 아니고 몇 시간 만에 끝나는 놀라운 경험을 하게 될 것이다. 필자는 실제로 무려 2,000이 넘는 데이터 소스를 한 곳에 모아놓고 그것을 온갖 종류의 마케팅에 사용하는 종합 데이터베이스, 즉 co-op database 회사를 운영하면서 여기서 강조하는 분석을 위한 데이터베이스의 최적화를 실현하여, 소 수 인원으로 하루에서 백여 개의 모델을 만들고 그 모든 모델 이 밤사이에 억 단위 개체에 적용되는 공정을 실현한 바 있다. 대부분 회사들은 그런 과정까지는 필요가 없겠지만, 모델 하나 짜서 돌리는데 몇 달씩 허비하는 상황은 결코 바람직하지 않으 며 또 그런 상황을 탈피하는 방법이 엄연히 존재한다는 것을 말하고 싶은 것이다. 그리고 그것은 데이터베이스의 최적화로 가능한 것이지 단지 모아놓은 데이터를 분석하는 사람들에게 떠넘겨서는 꿈도 꿀 수 없는 일이다.



빅 데이터의 끝은 작은 조각의 대답들이다

이 모든 일의 시작은 비즈니스를 위한 데이터 사용의 목적을 분명히 하고, 그러한 목적에 도달하기 위한 질문을 수학적으로 대답할 수 있도록 구체적으로 표현하며, 그에 대한 대답을 주 기 위해 통계를 이용한 분석을 적극적으로 활용하고, 그런 애 널리틱스(analytics)를 위해 데이터베이스와 주변 환경이 최적 화 되어 있어야 한다. 그것이 올 오류와 시간낭비가 있게 된다.

즉 구성원과 도구는 같아도 무엇이 우선이냐를 제대로 정리 하면 일의 진행이 수월해진다는 것인데, 그런 것이 바로 데이 터 사이언티스트(data scientist)나 또 그 위로 새로 생기고 있 는 Chief Data Officer등의 직책을 가진 사람들이 해야만 하 는 일이다.

그래서 CDO란 기술적인 지식으로 무장하고 비즈니스를 대 변하는 사람이어야 하는 것이고, 그들은 요즘 유행하는 빅 데 이터를 제대로 된 공정을 통해 작게 만들어 의사결정을 하는 사람들이 수학이나 통계에 대한 지식이 없더라도 쉽게 사용할 수 있게 해줘야 하는 것이다.

데이터를 사용하는 사람의 입장에서는 그것이 요구사항인 것이다. 누가 데이터의 크기를 내세우면 거기에 대해“우리는 더 작은 데이터를 원한다”라고 말할 수 있어야 한다. 곡창지대 의 논 한가운데에 서있다고 배가 불러지는 것이 아니니, 밥상 위에 놓인 김이 모락모락 나는 쌀밥 한 공기가 더 간절한 법이 다. 그 논과 밥상을 이어주는 과정이 있어온 것처럼, 데이터를 수집해서 가공하고, 또 해답의 전달까지 빈틈없이 하는 것이 데이터를 다루는 사람들이 해야 할 일이다.

데이터의 크기와 처리 속도만을 강조하는 것은 마치 논의 평 수와 거기서 나오는 수확량을 단순 나열하는 것과 같으며, 이 모든 과정의 첫 단계에 머물고 있다는 자인하는 것 밖에 안 된 다. 빅 데이터의 끝은 작은 조각의 대답들이다. 그리고 그것이 데이터를 인간적으로 만드는 길이다.