DA 가이드

DA, SQL, DB보안 등 실무자를 위한 위한 DB기술 바이블!

표준 데이터

데이터 품질관리 이해
데이터 이해
표준 데이터
작성자
admin
작성일
2021-02-10 16:32
조회
3646

정의 및 관리 목적

표준 데이터란 정보시스템에서 사용되는 용어 및 도메인, 코드, 기타 데이터 관련 요소에 대해 공통된 형식과 내용으로 정의하여 사용하는 표준 관련 데이터를 의미한다. 표준 데이터는 정보시스템과 정보시스템 데이터의 품질 확보와 직결되는 요소로, 표준 데이터를 관리함으로써 기관이나 기업 전사 차원에서 단일화하고 표준화된 정보 시스템을 구현할 수 있다. 또한 데이터의 불일치나 데이터 오류를 방지하며, 표준화 되지 않은 데이터로 인해 야기되는 산출물 보정 작업 등을 최소화 함으로써 정보 시스템의 생산성을 향상시킬 수 있다. 표준 데이터를 관리함으로써 데이터에 대한 이해도를 높이고 의사소통을 원활하게 하며 데이터 통합을 효율적으로 수행할 수 있도록 한다.

현재 많은 기관 및 기업의 표준화 정도를 보면 대부분의 경우 단위 시스템별 표준화는 많은 부분에서 지켜지고 있지만 전사적인 표준화를 통해 통합 관리하는 경우는 매우 드물다. 그래서 전사 데이터 웨어하우스(EDW, Enterprise Data Warehouse)와 같은 통합 시스템을 구축할 경우 표준에 대한 재정비 및 재정비된 표준에 따른 기존 시스템에 대한 변경 작업을 위해 많은 인력 및 비용을 지불해야 한다. 표준 데이터는 관리 시스템 및 메타 관리 시스템을 도입하면 지속적이고 정량화된 관리가 가능하다.


세부 관리 대상

표준 단어(Word) 사전

일반적으로 단어란 문법상 일정한 뜻과 구실을 가지는 말의 최소 단위를 의미하며, 정보 시스템에서 사용되는 표준 단어 사전이란 기업이나 기관에서 업무상 사용되며 일정한 의미를 갖고 있는 최소단위의 단어를 정의한 사전을 말한다. 표준 단어를 정의함으로써 업무상 편의나 관습에 따라 동일한 단어를 서로 다른 의미로 사용하는 경우(예, 자산 이관 시‘인수자’,‘ 이관자’를 주는 곳과 받는 곳에서 서로 상반되는 의미로 사용하는 경우가 있음), 혹은 하나의 단어에 다양한 의미를 부여(예, 처리자)하여 사용하는 등의 문제를 방지할 수 있다. 표준 단어 사전은 다음과 같은 기준에 따라 관리되어야 한다.


표준성

표준 단어는 정보시스템 구축 대상 업무 범위에서 사용하고 있거나 일반적으로 사용되는 사전적 의미의 단어 가운데에서 추출해야 하며, 지나치게 업무에 의존적이거나 방언을 사용해서는 안되며 약어의 사용도 최소화해야 한다.


참조 가능성

표준 단어는 기업이나 기관에서 새로운 업무를 정의할 때 참조할 수 있어야 한다.


일반성

표준 단어는 일상적으로 사용하고 있는 사전적 의미의 단어와 의미상 크게 다르지 않아 일반인도 해당 단어의 의미를 이해할 수 있어야 한다.


대표성

표준 단어는 동의어를 가질 수 있으나 표준 단어로 선언된 단어는 비슷한 의미의 동의어들을 대표할 수 있어야 한다.

표준 단어는 전사적으로 관리하고 있는 엔터티와 속성을 개별 단위로 하여 추출하며 추출된 단어는 동음이의어와 이음동의어를 정비한 후 논리명(한글명)을 기준으로 물리명(영문명, 영문 약어명), 유사 용어까지 함께 정리하여 관리한다. 표준 단어 사전에는 개별 단어 외에도 동의어, 유의어, 반의어 등과 같은 단어 간의 구조도 함께 정의해야 한다.


표준 도메인(Domain) 사전

도메인이란 속성에 정의된 조건을 만족시키는 값의 범위를 의미하며, 표준 도메인은 전사적으로 사용되고 있는 데이터 중에서 논리적, 물리적으로 유사한 유형의 데이터를 그룹화하여 해당 그룹에 속하는 데이터의 유형과 길이를 정의한 것을 말한다. 도메인은 여러 개의 하위 도메인(복합 도메인)으로 구성되거나 하나의 도메인이 여러 개의 도메인에 중복적으로 사용될 수 있다. 표준 도메인은 다음과 같은 기준에 따라 관리되어야 한다.


표준성

표준 도메인은 전사 차원에서 공통적으로 사용되는 속성을 대상으로 정의한다. 예를 들어 은행의 계좌번호는 은행 하위 업무나 상품에 따라 다르지 않으므로 표준 도메인을 정의하여 사용해야 한다.


유일성

동일한 내용의 중복 도메인이 서로 다른 이름으로 선언되지 않도록 관리해야 한다.


업무지향성

도메인은 지나치게 일반화하여 정의하기 보다는 업무의 특성을 충분히 반영할 수 있도록 선언하여 관리한다. 예를 들어 계좌번호의 도메인은'-'가 없이 정의하는 것 보다 적절한 의미를 나타내도록 '-'를 이용하여 표현한다.

전사적으로 관리하고 있는 모든 데이터 속성 혹은 대표 속성 가운데에 DBMS(DatabaseManagement System)에 동일한 형태로 구현되는 속성들을 추출하여 그룹화한다. 모든 속성은 임의의 도메인에 할당되어야 하며, 하나 이상의 도메인에 복수로 할당되어서는 안 된다. 속성과 도메인은 상호 매핑하여 관리해야 하며 새로운 속성이 추가될 경우 해당 속성의 도메인을 선정, 등록할 것을 권장한다. 또한 도메인의 삭제는 해당 도메인을 사용하고 있는 속성이 없을 경우에만 가능하도록 해야 한다.


표준 용어(Terms) 사전

용어는 업무에서 자주 사용하는 단어의 조합을 의미하며, 표준 용어는 전사적으로 사용하는 엔터티와 속성을 대상으로 표준 단어 사전에 정의된 단어를 조합하여 정의한다. 단어는 개별적이나 용어는 업무와 조직의 성격에 따라 그 조합이 달라질 수 있다. 표준 용어를 정의함으로써 기업 내부에서 서로 상이한 업무 간에 의사소통이 필요한 경우 용어에 대한 이해 부족으로 유발되는 문제점을 최소화 할 수 있다. 표준 용어 사전은 다음과 같은 기준에 따라 관리되어야 한다.


표준성

같은 기업 내부라도 업무별로 동일한 의미를 서로 다른 용어를 사용하여 표현하는 경우가 매우 많다. 따라서 표준 용어 사전은 용어의 표준화를 통해 용어 사용의 차이에 따라 발생되는 전사 차원의 혼란을 최소화 할 수 있어야 한다.


일반성

용어가 지나치게 업무 관점에서만 정의되어 일반적으로 이해하기 힘들거나 의미상 혼란을 초래해서는 안 된다. 일반적인 의미와 전혀 다르게 사용된 용어는 적절한 다른 용어로 대체하고, 새로운 용어 개발 또한 자제해야 한다.


업무지향성

용어는 기업의 업무 범위 내에서 약어를 사용하거나 내부에서 별도로 정의하여 사용할 수 있다. 단 지나친 약어의 사용은 업무에 대한 이해도를 떨어뜨릴 수 있으므로 주의한다.

표준 용어는 전사적으로 보유하고 있는 엔터티와 속성을 대상으로 추출된 표준 단어를 조합하여 생성되며, 용어 사전은 엔터티 용어 사전과 속성 용어 사전으로 구분하여 정의 관리한다. 정의된 각각의 용어는 논리명(한글명)과 물리명(영문명)을 가지며, 용어 범위 및 자격 형식 등이 설명되어야 한다.


표준 코드

표준 코드에는 각 산업별로 법적, 제도적으로 부여하여 공통적으로 사용되는 코드뿐만 아니라 기관이나 기업 내부에서 정의하여 사용하는 코드가 대상이 된다. 표준 코드는 다음과 같은 기준에 따라 관리되어야 한다.


재사용성

표준 코드는 기관이나 기업에서 자체적으로 정의하여 사용하는 것보다 표준화 기구나 정부, 공공 기관에서 정의한 코드를 재??드 관리를 용이하게 하는 데 더 효과적이다.


일관성

코드는 업무 범위 내에서 가능한 한 유일하게 정의해야 한다. 동일한 내용의 코드를 사용 형태나 업무 범위에 따라 중복 정의하여 사용할 경우 전사 차원의 코드 데이터의 중복은 물론 코드 데이터 의 불일치(Inconsistency)라는 보다 심각한 문제를 야기할 수 있다.


정보 분석성

가능한 범위의 데이터는 모두 코드화하여 관리한다. 즉 사용자가 텍스트로 직접 입력하는 값을 최소화하고 정의된 범위 안에서 선택하도록 함으로써 정보 분석 시에 데이터는 있으나 분석 가치가없는 데이터가 양산되지 않도록 한다.

전사적으로 사용하고 있는 코드를 추출하여 법·제도적으로 부여된 코드와 동일한지를 확인하고, 동일한 값을 가지는 코드를 통합하여 단일화 작업을 수행한다. 코드는 표준화 팀에서 엄격한 기준에 따라 관리해야 하며, 사용자 임의대로 코드 체계를 생성하거나 수정해서는 안 된다. 코드는 도메인과 밀접하게 연관되어 관리해야 하나 도메인에 값의 범위가 명확히 정의되어 있는 경우(예를 들어‘여부’는‘Y/N’으로 표기)에는 특별히 코드화하여 관리하지 않아도 된다.


데이터 표준 요소

데이터 표준 요소란 시스템을 설계하고 구축하는데 필요한 데이터 관련 요소의 표준이다. 데이터 관련 요소 표준 대상은 논리 데이터 모델의 주제 영역, 엔터티, 속성, 관계명을 포함하여 물리적 객체 대상인 Subject Areas, Relationships, Database & Instance, Indexes, Constraints, Sequences, 사용자 정의 Procedures & Functions, Synonyms, Views, Rollback Segments, Tablespaces, File Names, Script Names 등의 명명 규칙을 포함한다.

시스템 운영에는 시스템 운영에만 필요한 본질적 요소와 시스템 운영자가 필요에 의해 생성한 요소들이 존재할 수 있다. 예를 들어 프로그램 수행 결과를 단순 적재하는 요소들은 문제 발생시 역추적에 필요하지만 시스템 운영의 필수 요소라고는 할 수 없다. 데이터 관련 요소 중 관리 대상의 선별 기준은 시스템 운영에 필수적인 요소가 1차 대상이 될 수 있어야 한다.

데이터 표준 요소는 시스템 운영에 필요한 요소를 정확히 선별하여 관리해야 한다. 설계 및 구축에 필요한 요소를 추출하여 표준이 필요한 요소를 정의하고 그 요소에 대해 업무적 표준을 정의한다.

데이터 표준 요소는 다음과 같은 기준에 따라 관리되어야 한다.


통합성

데이터 표준 요소의 각 요소는 전사적으로 통합하여 관리 및 적용해야 한다.


일관성

정의된 표준 데이터가 데이터 모델 및 데이터베이스 스키마의 전 영역에 걸쳐 일관되게 적용되고 있는지 정기적으로 검토 확인한다.


표준 데이터 상관도

표준 데이터 간의 상관 관계를 도식화하면 [그림 6-1-1]과 같다.

[그림 6-1-1] 표준 데이터 상관도