데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

제4차 데이터 품질 - 데이터 품질 컨설팅 방법

데이터 이야기
작성자
dataonair
작성일
2017-07-10 00:00
조회
6521


제4차 데이터 품질- 데이터 품질 컨설팅 방법



권위수
소속 CSLEE
경력사항 컴퓨터시스템응용기술사, 데이터품질인증심사원, 기술가치평가사
- 공공 및 민간 기업 데이터 개방 및 품질 컨설팅(25개 수행)
- 데이터 모델링 및 ISP / 수석 컨설팅 (19년)
- 아이리포 기술사회 컬럼리스트
- 한이음 ICT 멘토링 주멘토


1. 데이터 품질 컨설팅의 개요

데이터란 조직의 전략과 목적을 달성하기 위해 구축/운영되는 정보시스템의 전략/구현/운영 과정에서 생성된 산출물을 의미합니다. 여기서 의미하는 데이터란 데이터베이스 내에 저장되어 있는 데이터 값 뿐만 아니라, 데이터 모델 등의 데이터의 구조적 요인까지도 포함합니다.

데이터 품질이란 조직의 목적을 달성을 위해 관리되는 데이터 관리 조직 구성원, 고객 등 데이터 이용자 만족을 충족시킬 수 있는 수준을 의미합니다.

데이터 품질관리란 조직이 운영하는 정보시스템과 데이터베이스를 활용하는 이용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 활용을 의미합니다. 데이터는 생성, 처리, 저장, 활용, 폐기하는 하는 일련의 과정을 거치게 됩니다. 데이터를 통제 및 관리하는 활동 즉 데이터 품질 거버넌스 체계하에 데이터를 관리 및 운영 하는 것은 매우 중요 합니다.

정보화 시스템이 신규로 구축되고 운영하는 단계에서 체계적인 데이터품질 관리를 통하여 고객에게 정확한 데이터를 제공함으로써 고객 서비스 만족도를 향상시키고 데이터를 보유하고 관리하는 민간기업 및 공공기관이 실시간 경영활동에 신뢰성 있는 정보를 제공하여 올바른 의사결정을 할 수 있는 데이터의 품질을 지속적으로 유지하고 개선시키는 관리 행위를 ‘데이터 품질관리’ 라 말할 수 있습니다..

빅 데이터 시대에 정보가 폭발적으로 증가되고 있고 정보화 환경의 복잡화, 융합화, 다변화 속에 데이터 관리활동이 중요한 시대가 되었습니다. 우리는 이러한 빠른 변화에 대응할 필요가 있다고 할 수 있습니다.

데이터 품질 컨설팅이란 기업/기관이 데이터 품질활동을 함에 있어 데이터 관리체계, 데이터 값, 데이터 표준, 데이터 구조, 데이터 연계 등의 내용을 진단하고 개선과제를 도출하여 개선방향 제시 및 개선을 하는 일련의 활동을 의미 합니다.

데이터 품질진단 컨설팅은 다음과 같은 사항으로 품질진단 및 개선 컨설팅을 진행합니다. 데이터 관리체계 진단은 데이터 관리 조직 및 구성원이 정해진 역할에 따라 데이터 관리 정책, 지침, 가이드, 프로세스 등을 수행하고 데이터 관리 활동을 할 수 있도록 정의한 규칙사항을 점검 합니다.

데이터 값 진단은 데이터베이스의 테이블, 컬럼, 코드, 관계, 업무규칙 등을 기준으로 실제 데이터를 분석하여 데이터 품질을 진단하는 것을 의미 합니다.

데이터 구조 진단은 데이터 설계에 대한 구조 품질을 진단 합니다. 일반적으로 기업이 보유하고 하고 있는 논리/물리 데이터모델 산출물(ERD)을 기반으로 데이터 무결성, 정규화, 관리수준, 변경 관리, 현행화 등의 현황을 진단 합니다. 데이터 표준 진단은 데이터베이스 표준화 적용 수준, 표준 코드, 용어, 단어, 도메인 적용 여부 등을 진단 합니다.

본 내용에는 기업/기관 내부의 데이터를 관리하는 활동에 대해 외부 데이터 품질 전문가가 컨설팅을 수행하는 절차 및 방법을 간단한 예시 등을 통해서 컨설팅을 어떻게 수행하는 것인지 알아 보도록 하겠습니다.



2. 데이터 품질 컨설팅 수행 절차

데이터 품질진단 및 개선 컨설팅 수행 절차는 [그림 1] 같이 품질진단개요 영역, 품질진단 영역, 품질개선 영역으로 구분하여 품질 진단 컨설팅을 수행하게 됩니다. 단계별 중요한 사항에 대해서 알아 보도록 하겠습니다.

dbin_604.jpg

[그림1] 데이터 품질 컨설팅 절차

1) 품질진단 개요영역
품질진단개요 단계에서는 데이터 품질진단을 하는 목적, 진단대상DB의 명확한 범위, 데이터 품질 컨설팅의 절차 및 방법에 대한 내용을 기술하게 됩니다.

dbin_605.jpg

품질진단의 목적은 주로 품질 신뢰성 확보를 통한 기업/기관 업무 프로세스 강화, 품질 개선을 통한 제공 서비스 품질 향상, 데이터 품질개선을 통한 수익성 확보 등의 내용을 기술합니다. 품질진단 범위는 관리체계, 데이터 값, 데이터 표준, 데이터 구조에 대한 주요 과업 수행 내용을 전반적으로 기술합니다. 품질 컨설팅 기간 내에 수행 가능한 범위를 고객과 협의하여 확정하는 것이 중요 합니다. 다음 단계로 품질진단?개선에 대한 기간과 품질진단?개선 절차에 대한 내용을 기술하고 품질진단 방법을 기술하게 됩니다.

dbin_606.jpg

품질환경분석 단계에서는 요구사항분석, 진단대상DB환경분석, 진단계획수립, 데이터 관련자료수집에 대한 작업을 수행 합니다. 환경요구사항분석은 개요 단계에서의 품질진단 및 개선의 범위에 대해 고객의 주요 품질 요구사항을 수집 및 분석합니다. 대상DB환경분석은 대상 DB의 업무적 특성 및 데이터 처리 특성을 분석하고, 정보화 연혁, 조직 현황 조사, 데이터 연계 등에 대한 조사를 수행하게 됩니다. 진단계획수립에서는 DB환경분석 이해를 바탕으로 진단계획, 사업수행범위 및 추진일정을 수립 하고 진단?개선의 방향성을 확립 합니다. 자료수집은 데이터 품질진단을 수행하기 전 정보시스템 관련 산출, 데이터 관련 산출물 및 지침/가이드 라인 등을 수집 합니다.

? 2) 품질진단 영역
dbin_607.jpg

품질진단수행 단계에서는 진단을 수행하기 위한 사전준비, 진단대상 선정, 진단대상과 테이블/컬럼간의 매핑을 수행하고 실질적인 데이터 품질진단을 수행 합니다. 진단준비에서는 진단 도구를 설치 후 환경정보를 설정하고 진단대상DB의 메타정보를 수집 후 진단 하고자 하는 대상의 테이블 및 컬럼 정보를 선정 합니다. 컨설팅 진단 시 전체 DB 진단을 수행하는 것이 보통이나 컨설팅 기간에 따라 중요도 및 효과성이 높은 테이블/컬럼을 위주로 진단하는 것이 좋습니다.

테이블/컬럼 매핑 에서는 해당 업무의 정보항목과 테이블의 컬럼을 매핑 하는 단계를 수행 후 실제 데이터 품질 진단을 수행 합니다. 품질진단은 데이터 값, 구조, 표준화, 관리체계에 대해서 작업을 수행 합니다. 데이터 품질진단 및 오류분석 작업은 한번의 수행으로 끝나지 않으며, 분석과정에서 여러 번의 진단을 통해서 데이터 오류를 분석 합니다. 품질진단 상세 작업 내용은 다음 [표-1]의 내용을 참고 하십시오

dbin_608.jpg

[표-1] 데이터 품질 진단

품질개선계획수립 단계에서는 품질진단 결과에 대한 오류원인을 분석하고, 개선과제 정의, 개선계획 수립 후 진단결과에 대한 결과 보고서를 작성하여 고객과 협의 후 개선 작업을 수행 합니다.

dbin_609.jpg

오류원인 분석은 값, 구조, 표준화, 관리체계 관점의 진단 결과에 대한 오류원인을 분석하고, 해개선 사항을 그룹핑하여 개선 과제별 세부 개선 방안을 정의 합니다. 개선계획 수립에서는 개선 과제에 대한 전략 관점 중요도, 파급효과, 시급성을 기준으로 개선 우선순위를 결정하고 수행 과제에 대한 최우선, 단기, 중기, 장기 과제를 분류 합니다. 개선계획 수립 후 품질진단 결과보고서를 작성 하여 고객과 함께 협의 검토 후 데이터 품질 개선을 수행하는 것이 중요합니다.

3) 품질진단 개선영역

dbin_610.jpg

품질개선수행 단계에서는 품질진단 오류에 대해 실제 개선 작업을 수행 합니다. 개선 작업은 데이터 값, 데이터 구조, 데이터 표준, 관리체계 등이 존재 합니다. 개선 작업은 데이터의 안정성을 보장하기 위해 정보시스템 운영 담당자와 협의 후 진행하는 것이 바람 직 합니다. 품질 개선에서는 값, 구조, 표준, 연계, 성능, 관리체계 개선 작업을 수행 합니다. 데이터 값 개선에서는 실제 데이터 오류 보정, 프로그램 수정, 사용자 입력을 통한 수정 작업을 통해 데이터 정제를 수행할 수 있습니다.

데이터 구조 개선에서는 기본키(PK) 및 관계 재정의, 미사용 테이블 정의, 데이터 중복성 제거 방안, 데이터 무결성 오류방안 등에 대한 데이터 모델 개선 방안을 제시 합니다. 컨설팅 수행 단계에서는 실제 모델을 수정하는 것은 어려우며 시스템 고도화 작업 시 수행하는 것이 바람 직 합니다.

데이터 표준 개선에서는 용어, 단어. 도메인의 오류에 대한 데이터 표준화 가이드 및 표준화 사전을 제공하여 향후 사용할 수 있도록 합니다. 데이터 관리체계에서는 데이터 정책, 조직, 인력, 프로세스 개선에 대한 지침 및 가이드를 제공 합니다.

dbin_611.jpg

품질결과분석 단계에서는 기업/기관이 지속적인 품질개선을 수행하기 위한 품질개선 추진전략을 수립하고, 소요예산 비용 산출, 개선결과 보고를 수행 합니다.

추진전략수립에서는 수행과제에 대해서 연차별 추진전략을 마련하고, 연차별 추진전략에 대한 소요예산 비용을 산출 합니다. 그리고 데이터 품질개선 이후의 정량적 및 정성적 기대효과를 작성 합니다.개선 결과에 대해서 고객과 함께 검토 후 품질진단 결과 보고를 진행 합니다. 컨설팅 진행 시 주?월간 보고를 통해 진행사항을 고객과 공유하고, 계획단계에서 착수보고, 단계별 중간보고, 개선수행 완료 후 완료보고를 진행 합니다. ?



3. 데이터 품질 컨설팅 예시

위 단락에서는 품질 진단 전반적인 절차에 알아 보았으며, 다음은 실제 ㅇㅇ 기관에서 수행한 품질진단 및 개선 예시를 통해서 어떻게 품질 진단 컨설팅 보고서를 작성하는지 간단하게 알아 보겠습니다.

■ 코드 도메인 진단
○ (공통코드 누락 오류) 코드 테이블에 등록하지 않고 사용하는 코드 데이터 발생(V-01)

dbin_612.jpg

품질진단 보고서 작성 시 문제 부문에 대해 오류사례를 기술하고 원인 분석, 영향 분석, 개선 기회에 대한 사항에 대해 내용을 작성 합니다.

■ 코드 도메인 개선
○ (코드도메인) 유효하지 않은 기준 코드 정제(V-01)
dbin_613.jpg

품질 개선에 대해서는 문제점과 개선한 내용을 기술하고 앞으로 수행해야 할 사항이나 추가적인 개선사항을 제시 합니다. 데이터 값 진단은 데이터 품질 도구를 통해 진단 수행한 내용을 엑셀 파일등으로 오류 결과를 정리하고, 오류 분석 작업을 통해 오류 여부를 판별하고, 오류라고 판단되는 데이터에 대해서는 운영(유지보수) 담당자와 함께 개선작업을 수행 합니다.



4. 데이터 품질 컨설팅 시 고려사항

‘기간을 고려한 컨설팅 진행‘,
컨설팅이 짧은 기간이 될 수도 있고, 6개월 이상의 긴 기간이 될 수 도 있습니다. 기간이 짧은 경우에는 구체적인 개선을 수행할 수 없으면 개선 방안 수립 정도 하는 것이 적당하며, DB 테이블이 많은 경우 핵심 업무 테이블 위주로 진단하는 것이 진단의 효과성이 좋습니다.

‘고객과 함께 하라’
컨설팅에 진행 시 주간 보고서 현재 오류에 대한 내용을 공유할 수 있도록 간단한 보고서 형태 작성하여 보고 하는 것이 좋습니다. 품질진단 결과 보고회 때 전체를 발표하는 경우 고객이 이해하지 못하는 경우가 존재할 수 있습니다.

‘유지보수담당자와 함께 진단 및 개선 진행’
데이터 품질진단 결과에 대한 내용을 정확하게 알고 있는 사람은 정보시스템을 담당하고 있는 실무자(유지보수 담당자, 운영자) 입니다. 진단 및 개선 작업 수행 시 항상 유지보수 담당자와 협의 후에 진행하는 것이 바람직 합니다. 유지보수 담당자가 없는 경우에는 개선사항 반영 시 명확하지 않은 값에 대해 개선 작업을 수행하지 않은 것이 바람직 합니다.

‘기업/기관 수준에 맞는 품질 진단 컨설팅’
정보화시스템을 운영하는 조직이 거의 없거나, 운영 인력이 있더라고 정보시스템 개발 유지 보수 담당자만 존재하는 경우에는 아무리 좋은 지침과 가이드를 제공 하더라도 제대로 관리하지 못하는 경우가 대부분입니다. 기업/기관 수준에 맞는 개선 방안을 수립하는 것이 바람직 합니다.

‘지속적인 품질 개선’
데이터 품질을 한번 진단 후 개선 한다고 해서 데이터 품질이 좋아 질 수는 없으며 지속적으로 데이터 관리 활동을 할 수 있는 연차별로 계획을 수립하고, 품질 전담 담당자를 지정하여 지속적인 품질 개선을 진행하는 것이 바람 직 합니다.



[ 참고 문헌 ]
[1] 한국데이터베이스진흥원의 데이터 품질 가이드라인



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net