데이터 인사이트

데이터 전문가 칼럼
데이터 전문가가 전하는 데이터 노하우

[빅데이터 분석] 좋은 데이터, 나쁜 데이터(상) : 선조들의 풍년을 위한 지혜에서 배우다

작성자
관리자
작성일
2020-10-23 15:46
조회
45

좋은 데이터, 나쁜 데이터(상)

선조들의 풍년을 위한 지혜에서 배우다

 

고태영 | 이노지에스 고문, 빅데이터 컨설팅 그룹 아이디얼메쏘드 연구전문위원, 한국스플렁크 에반젤리스트

 

• 나쁜 데이터?

시중에 출간된 <나쁜 데이터>라는 책을 놓고 주변 분과 얘기를 주고 받을 일이 있었습니다. 필자도 관심이 있던 타라 그 책을 사서 보았고요. 소감을 간단하게 정리하자면 ‘결과로서의 나쁜 데이터는 존재하지만 데이터 자체가 나쁜 것은 없다. 단지 나쁜 데이터를 만들어 내는 인간의 오류가 있을 뿐이다’입니다.

좋은 데이터와 나쁜 데이터를 놓고 고민을 했습니다. 더불어 이 글이 전문가를 위한 글인지 아니면 빅데이터 분석을 알고 싶고, 관심을 가진 일반 독자들을 위한 것인지를 파악해야만 했습니다. 나름 결론을 지었고 본문에서는 복잡한 수식이나 이론을 이야기하지 않고 이해를 돕는 방향으로 접근하기로 했습니다.

 

• '정보'란 결과를 통해 얻을 수 있는 '가치'

아마도 대부분의 독자께서 수많은 전문가의 글이나 책을 통해 '데이터란 무엇인가?'에 대해 접했을 거라고 생각합니다. 이에 따라 필자는 이 글에서 데이터에 대한 정의를 따로 내리지 않겠습니다. 그러나 이것 하나만은 정리하고 시작했으면 합니다. 여러분뿐 아니라 정보를 다루는 전문 직종에 계시는 분들조차도 혹시나 가지고 계실지도 모르는 혼용의 예입니다.

데이터(Data) = 자료
인포메이션(Information) = 정보

사람들은 데이터와 정보를 종종 혼용합니다. 필자는 '데이터'에 대해 다음과 같이 정리해 봅니다.

1. 설계되지 않은 어떠한 현상과 사물의 인과적 관계로 발생한 결과
2. 목적을 염두에 두고 인위적 설계에 의해 발생한 결과

그렇다면 '정보'는 무엇일까요? 이에 대해 필자는 '정보'란 결과를 통해 얻을 수 있는 '가치'라고 생각합니다. 필자가 '정보'를 '가치'에 대입했다는 사실에 주목할 필요가 있습니다. 우리는 종종 무의식중에 ‘이 정보는 가치가 있어!’ 혹은 ‘의미 있는 정보!’라고 말하거나 듣곤 합니다. '정보'가 쓸모 있기 위해서는 '가치' 있어야 한다는 얘기입니다. 그렇다면 이 '가치'를 어떻게 산정할까요?

 

• 나쁜 데이터가 등장한 이유

필자가 생각하는 정보의 가치산정 기준은 '정보의 양'과 '정보의 질'이라고 봅니다. '정보의 양'은 ‘데이터 원심 분리기’에 들어갔다가 걸러진 데이터의 나머지라고 생각하면 쉽습니다. 혹은 참깨와 참기름으로 생각하셔도 됩니다. '정보의 질'은 '참기름의 맛'이라고 생각하면 이해가 빠를 것 같습니다. 그 맛을 좌우하는 비결은 여러 가지가 있을 것입니다. 우선 원재료에 해당하는 참깨의 질이 좋아야겠지요. 그리고 참기름을 짜기 위한 공정과 품질을 좌우하는 여러 요소가 존재함을 짐작할 수 있겠군요. 참기름을 짜는 달인의 오랜 경험과 설비, 볶는 방법, 가열 온도, 압축 방식 외에도 우리가 모르는 다양한 변수가 존재할 거라고 생각합니다.

우리는 이러한 과정을 통해 나온 참기름을 맛 혹은 브랜드를 보고 구매합니다. 즉, 검증된 '맛' 혹은 '브랜드'의 존립은 소비자의 '신뢰'를 통해 '가치'를 부여 받고 제품으로서의 생명력을 얻게 됩니다. 우리가 다루는 '데이터'도 이와 같지 않을까요? 데이터의 순도가 좋아야 얻어지는 정보의 양과 질도 좋아지겠지요. 그런데 다뤄야 할 데이터의 출처가 불순하거나 결과를 얻기 위한 과정이 잘못 설계되어 있다면 과연 우리는 그러한 데이터를 통해 얻은 정보를 신뢰하고 가치를 부여할 수 있을까요?

예를 들자면, 식용유에 참기름을 섞어 만든 유사 참기름이 그렇습니다. 현업에 들어가보면 이 유사 참기름과 같은 느낌을 주는 다음과 같은 것들이 꽤 있습니다.

1. 억지로 통합해 놓은 환경, 기계를 고려하지 않고 사람에게 보여주기 위한 결과로만 산출되게 만든 데이터, 쓰지도 못하게 형식적으로 만들어 놓은 자료 등과 같은 재료의 문제
2. 데이터 분석(과학)에 대한 내부적 거부감 혹은 불신
3. 패러다임과 트렌드를 역행하는 고립된 사고
4. 근거 없는 브랜드에 대한 맹신
5. 유연성 없는 운영정책

이와 같은 것들이 잘못된 정보를 추출하게 만드는 원인이 되곤 합니다. 위 리스트가 무엇을 말하고자 하는지 벌써 짐작한 독자도 계실 거라고 생각합니다. 앞서 말한 바와 같이 이 모든 문제의 환경과 원인을 제공하는 것은 역시 '사람'입니다.

기계는 거짓말을 하지 않는다고 합니다. 필자는 이 말에 공감하지 않으면서도 공감합니다. 공감 안 하는 부분은 애초에 잘못 설계되면 기계가 거짓된 결과를 돌려주기 때문이고, 공감하는 부분은 바로 그러한 논리적 오류의 결과를 만들어내는 것은 설계 주체인 사람이기 때문입니다.

 

• 풍년을 위한 선조들의 지혜

개발자들은 종종 이런 농담을 하곤 하지요. ‘최악의 버그 원인은 바로 개발자 자신’이라고요. 옛날 우리 선조들은 한 해 풍년을 좌우할 씨앗을 물에 띄워 부실한 것이나 쭉정이를 걸러냈습니다. 데이터 과학자들이 데이터를 분류-정제하는 일련의 과정을 수행하고 방법을 적용하는 과정이 이와 같습니다.

기업의 인프라 환경(토양)이 아무리 좋아도 △(목적을 갖고 산출하기 위해 설계한 환경으로부터 나온) 잘못된 데이터(종자) △목적도 불분명한 다른 환경에서 얻어온 외부 데이터(수입 종자)를 계획 없이 대입(모판)하거나 적용하는 것은 경제 원칙에도 부합되지 않을 만큼 비효율적인 결과(흉작)를 가져오기도 합니다.

 

• 발견·분석·해결하기 위해 창조된 인간

과학자는 현상을 분석하고 다루는 사람입니다. 이런 과학자의 기본적인 성향은 과학자만의 것일까요? 인류가 문명을 발전시켜올 수 있었던 가장 큰 이유는 '호기심' 때문이었다고 합니다. 그 '호기심'이 인류를 발전시킨 시작이라면 '도구'를 사용한 것은 발전의 원동력이었다고 할 수 있습니다.

흔히 우리는 도구의 발견을 이야기할 때마다 나무 막대기나 돌을 집어 든 유인원을 생각합니다. 뭐 그럴 만도 한 것이 인류 진화사 일러스트에 늘 막대기와 돌도끼가 등장하는 데다가 원시 인류가 도구를 사용하는 스탠리 큐브릭의 '스페이스 오디세이 2001' 같은 장면을 보고 살아온 우리들로서는 당연하다고 생각합니다. 하지만 우리가 착각하는 것이 있습니다. 인류가 최초로 발견한 도구는 막대기도 예리한 돌도 아닌 바로 자신의 몸이었습니다.

바르게 서서 걷고(오스트랄로 피테쿠스) 손을 사용하고(호모 에렉투스) 특이점을 관찰하고 기록(알타미라 동굴벽화)할 수 있었던 모든 인류사적 흔적들과 유산들이 말합니다. 인간은 세상의 현상을 이해하고 분석하기 위해 도구화된 스스로의 두뇌를 사용하기 시작했고, 도구로서의 두뇌는 '이해'를 했으며 이해는 '사고'를 낳고 '사고'는 '분석'을 가능하게 했습니다. 그 결정적 근거가 바로 '셈'을 한다는 것이었죠.

 

• 데이터 과학의 기원에 대한 짧은 이야기

수학이라는 학문은 데이터 과학자에게도 아주 중요한 소양일 뿐 아니라, 오늘 우리가 다루고 있는 주제의 근원이기도 합니다. 수학은 본시 수를 다루는 학문이지만, 사람이 수를 발명하기 전에 했던 행위가 있습니다. 바로 계산입니다. 수확물에 대한 계산, 무리에 대한 계산, 절기에 대한 계산 등 자연 현상을 이해하고 세상을 탐구하고자 하는 순수 지성의 산출물은 계산으로부터 나왔습니다. 계산이라는 'compute(어디서 많이 본 명사와 닮았죠?)’는 'com(with, together)'과 'putare(think)'라는 단어가 합쳐져 나온 단어입니다.

그냥?각한다는 거지?' 하는 생각 안 드시나요? 네, 원래 의미를 알고 계시는 분들은 제외하더라도 눈치 바른 분들은 자신의 손가락을 바라보고 계실지도 모르겠군요. 그렇습니다. 다섯 손가락을 이용해 '생각하면서' '셈'하는 것입니다.

그럼 셈을 한다는 것은 무엇을 의미할까요? 셈은 '연산'하는 것이기에 최초의 연산 도구는 손가락이었을 거라고 생각합니다. 그 손가락이 부족해 외부 도구가 필요했을 즈음에 고대 그리스인들은 다음의 '이것'을 이용했나 봅니다. 우리가 잘 사용하는 '계산기’의 어원인 'calculus'에서 그 답을 찾을 수 있습니다. 'calculus'는 강가에 흔한 '아주 작은 자갈'을 의미합니다. 그리스인들은 이러한 자갈을 이용해 셈, 즉 연산을 했던 겁니다.

위키피디아 같은 곳에서 더 친절하고 자세하게 나오는 얘기를 소개한 이유는 바로 우리가 하고자 하는 데이터 분석의 뿌리가 이미 내렸음을 알려드리기 위해서입니다. 셈은 세상을 이해하고 현상을 분석하려 했던 인류 최초의 노력이었습니다. 이것이 현대의 '데이터 분석'의 시초였다는 것을 이해한다면 '컴퓨터'의 출현은 인류 부흥의 분기점이며, 이전 시대와 이후 시대로 나뉘는 중요한 전환점일 것입니다. 동시에 계산의 복잡성과 데이터의 다양성, 대용량화에 따른 설계상의 오류를 범한다거나 분석 모형 도출 시 오류유발 가능성이 항상 내포된다는 뜻도 됩니다. 바로 이 글에서 다루려는 나쁜 데이터가 생겨나는 주된 원인이 되기도 합니다. 나쁜 데이터는 마치 공상과학 소설이나 만화에 등장하는, 예를 들자면 '에반게리온'에 나오는 '사도'처럼 등장합니다.

태초에 그렇게 나오라 창조한 인간의 설계대로 나쁘게(?) 나와준다거나 혹은 그러라고 나온 데이터는 아닌데, 받아들이는 인간이 잘못 해석해 나쁜 결과를 초래하는 형태로 말입니다. (계속)

 

출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net