데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

데이터품질 이야기

데이터 이야기
작성자
dataonair
작성일
2015-02-06 00:00
조회
9061


데이터품질 이야기



들어가기전에
이야기를 시작하기에 앞서 연재할 수 있는 기회를 주신 한국데이터베이스진흥원에 감사를 드립니다. 또한, 데이터품질에 관심을 가지고 읽어주시는 분들께도 깊숙이 감사드립니다. 이야기는 데이터품질에 대해 처음 접하시는 분들을 위해 실제 수행했던 관련 컨설팅, 프로젝트와 Value기반 DB품질마스터 과정 강의 경험을 중심으로 데이터품질을 시작으로 빅데이터 품질까지 진행하려 합니다. 이야기들이 데이터품질에 관심이 있으신 분들께 작은 도움이 되었으면 합니다.



품질은 전통적으로 여러 가지 분야에서 다루어지고 있는 부분입니다. 산업혁명 이후 제조업에서는 제품을 생산하고 판매하는데 있어 품질관리는 전통적으로 아주 중요시 여겨지고 있습니다. 서비스업에서도 서비스에 대한 품질에 대해 중점을 두고 있으며, 특히 IT산업에서 데이터에 대한 품질, 소프트웨어 품질, 구축한 시스템의 품질 등 품질에 대한 이슈가 있으며, 빅데이터 시대에서 데이터에 대한 품질의 중요성이 대두되고 있습니다. 다양한 분야에서 다양한 목적의 품질관리가 있지만, 여기에서는 데이터품질을 중심으로 이야기하려 합니다.

데이터품질에 관심이 있으신 분은 아시겠지만 지난 2010년 한국데이터베이스진흥원과 경희대 박주석 교수님이 ‘데이터 품질관리의 경제적 효과 분석 연구’에서 ‘저 품질 데이터로 인해 한 해 46조 9000억원에 달하는 국가적 비용이 낭비되고 있다’ 고 발표하셨습니다. 믿기지 않으시겠지만 위 내용이 과장된 것이 아니었다는 것을 실제 기관이나 기업을 만나보고, 관련 사업을 수행하다보니 실감할 수 있었습니다. 지난 2004년부터 데이터품질 관련 프로젝트를 수행하면서 엄청난 충격을 받았습니다. 일반적으로 금융권에서의 데이터는 절대적 믿음이 있었으나, 본연의 업무인 ‘돈’에 대해서는 맞았지만, 고객 기본정보뿐만 아니라 고객 부가정보는 정말이지 활용할 수 없는 수준이었습니다. 달력에 없는 일자, 예를 들어 2월30일, 4월31일이 존재하는 가하면 주민등록번호 7번째 자리와 성별이 다르고, 코드가 '0~9'까지만 정의되어 있는데 ‘Z'가 존재하는 등 황당한 데이터들이 많았습니다. (현재 금융권에서는 위와 같은 내용이 거의 발견되지 않습니다.)

데이터품질은 새로운 분야, 새로운 업무라기보다는 예전에도 나름대로 관리를 하고 개선을 하였던 것이지만 단위 업무의 일부나 깨어있는 설계자, 개발자, 그리고 운영자들이 처리하고 있었습니다. 다만, 처음에 한 번하거나 문제가 생길 때 확인하는 등 비정기적으로 수행을 했었습니다. 기관이나 기업에서 큰 돈을 투자하여 데이터 품질관리 시스템을 구축해도 데이터 품질관리 체계가 제대로 갖춰져 있지 않으면, 데이터품질은 개선이 될 수 없습니다. 협의의 데이터품질은 데이터 구조, 데이터 값, 데이터관리 절차에 해당하나, 광의의 데이터품질은 데이터거버넌스, 즉 요구사항 관리, 데이터 표준관리, 데이터 오너십 관리, 데이터 구조관리(데이터 모델관리), 데이터베이스 관리, 데이터 흐름관리, 데이터 활용관리, 그리고, 사용자 뷰 관리까지 이르는 데이터 통합관리를 의미합니다. 데이터품질에 대해 이야기를 하다보면 자연스럽게 데이터아키텍처나 데이터거버넌스까지 이야기하게 될 듯 합니다. 또한, 김민수님의 ‘DA이야기’와 일부는 중복될 수도 있고 일부는 다소 다른 시각을 보실 수 도 있습니다.


dbin_385.png

<데이터 관리체계 프레임워크>


감사합니다.



출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net