2. 데이터 소스


2. 데이터 소스

 

데이터 분석에 사용되는 대상 데이터 소스를 선정하는 단계입니다.

데이터 분석의 주제가 정해지고 나면 일반적으로 데이터 수집, 데이터 분석, 서비스 운영의 3단계를 거쳐서 분석 작업이 이루어지게 됩니다. 이 3단계를 수행하기 위해서는 사전에 어떤 데이터 소스들이 수집 될 것인지 정의하는 것이 필요합니다.

분석에 적합한 데이터 원천들을 잘 조사하고 정리해 두는 작업은 데이터 분석의 선순환 구조를 완성하기 위해 꼭 필요한 절차라 하겠습니다.

데이터 소스 확인 프로세스

데이터 소스를 확인하는 작업은 “가용한 내부 데이터의 확인 →외부 데이터 조사 → 이슈 사항 확인 및 해결 방안” 이라는 3단계로 이루어지게 됩니다.

① 첫번째 단계에서는 내부(조직)에서 사용 가능한 데이터를 분석 소스 후보 군으로 선정하여 목록을 작성합니다. 분석 주제와 관련이 있는 모든 데이터 항목들을 조사하고 해당 항목들이 포함된 원천 데이터를 정리합니다.

② 두번째 단계는 외부 데이터의 필요성을 확인하고 조사하는 단계입니다. 첫번째 단계에서 확인된 내부 데이터 이 외에 분석의 성과 측면에서 활용 가능한 외부 데이터가 있을 경우, 해당 데이터 목록을 분석 소스 후보 군에 추가로 포함시킵니다.

③ 세번째 단계에서는 데이터 소스 목록을 분석 주제에 맞게 분류하고, 활용 시에 예상되는 이슈 사항과 해결 방안을 찾습니다.

데이터 소스 정리 방법

데이터 소스 정리 방법은 활용 가능한 데이터 소스의 주체 및 이를 활용하는데 요구되는 고려 사항을 기술하는 방법입니다. 아래 표를 참조해서 작성하면 됩니다.

원천 활용 목적 이슈 사항 해결 방안
내부 데이터 Transaction Data
Human generated Data
Mobile Data
Machine Data
IoT Data
데이터 제공자 공공기관
연구기관
민간기업
플랫폼 운영자
데이터 브로커
<블록 체크리스트>

ㆍ데이터 분석 주제의 목적을 달성 할 수 있는 대상 데이터소스 목록을 파악
ㆍ데이터 유형과 특성을 고려 한 대상 데이터 소스 리스트 별 해당 항목을 파악
ㆍ데이터 소스 분류체계, 데이터 항목, 데이터 발생 기간 및 단위, 공급처를 정리
ㆍ내부 데이터 외 사용 가능한 외부 데이터(공공/포털/GitHub 등)를 파악하고 정리

ㆍ외부 데이터 활용 시 기대되는 분석의 효과를 제시 (외부데이터는 데이터 품질, 수집 문제점, 비용 등의 요소가 고려되어야
 하므로 외부 데이터 사용에 대한 기대효과에 대한 조사가 필요)

데이터 소스 블록 활용법

데이터 소스 블록 활용법

데이터 소스

데이터 소스 대상 선정
데이터 소스 목록 별 공급처를 명시 합니다.

데이터 분류 체계
대상 데이터의 내/외부 업무시스템 분류체계, 코드 체계와 해당 데이터의 유형(정형, 반 정형, 비정형)과 특성(관계형데이터베이
스, 파일, 텍스트, 센서 등)을 고려하여 데이터 소스 분류 체계를 구성하여야 합니다.

데이터 소스 연계 구조
데이터 소스의 행 결합, 열 결합, 동일 키 값 결합의 기준이 되는 연결 값에 대한 데이터 항목을 확인합니다.

데이터 소스 유효성 검증
데이터 유형 및 특성 상 제약사항이 있는지를 사전 검토 합니다.
대상 데이터의 시작 값과 끝 값이 데이터 소스 별로 일치하는 지에 대한 검토가 필요합니다.
데이터 3법 기준 등 개인정보, 정보통신망, 신용거래정보 등의 데이터 소스 내 법ㆍ정책적인 규제 요소를 확인합니다. 또한 데
이터 소스의 재 가공에 따른 라이선스 소유 여부도 정의 합니다.
데이터 거래에 따른 비용 발생을 확인 합니다. 또는 해당 데이터를 대체 할 수 있는 방안을 모색 합니다.

 

출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스
지은이 ㈜ 베가스 R&D Center

2

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다