2. 데이터 소스 |
데이터 분석에 사용되는 대상 데이터 소스를 선정하는 단계입니다.
데이터 분석의 주제가 정해지고 나면 일반적으로 데이터 수집, 데이터 분석, 서비스 운영의 3단계를 거쳐서 분석 작업이 이루어지게 됩니다. 이 3단계를 수행하기 위해서는 사전에 어떤 데이터 소스들이 수집 될 것인지 정의하는 것이 필요합니다. 분석에 적합한 데이터 원천들을 잘 조사하고 정리해 두는 작업은 데이터 분석의 선순환 구조를 완성하기 위해 꼭 필요한 절차라 하겠습니다. 데이터 소스 확인 프로세스 데이터 소스를 확인하는 작업은 “가용한 내부 데이터의 확인 →외부 데이터 조사 → 이슈 사항 확인 및 해결 방안” 이라는 3단계로 이루어지게 됩니다. ① 첫번째 단계에서는 내부(조직)에서 사용 가능한 데이터를 분석 소스 후보 군으로 선정하여 목록을 작성합니다. 분석 주제와 관련이 있는 모든 데이터 항목들을 조사하고 해당 항목들이 포함된 원천 데이터를 정리합니다. ② 두번째 단계는 외부 데이터의 필요성을 확인하고 조사하는 단계입니다. 첫번째 단계에서 확인된 내부 데이터 이 외에 분석의 성과 측면에서 활용 가능한 외부 데이터가 있을 경우, 해당 데이터 목록을 분석 소스 후보 군에 추가로 포함시킵니다. ③ 세번째 단계에서는 데이터 소스 목록을 분석 주제에 맞게 분류하고, 활용 시에 예상되는 이슈 사항과 해결 방안을 찾습니다. 데이터 소스 정리 방법 데이터 소스 정리 방법은 활용 가능한 데이터 소스의 주체 및 이를 활용하는데 요구되는 고려 사항을 기술하는 방법입니다. 아래 표를 참조해서 작성하면 됩니다. |
원천 | 활용 목적 | 이슈 사항 | 해결 방안 | |
---|---|---|---|---|
내부 데이터 | Transaction Data | |||
Human generated Data | ||||
Mobile Data | ||||
Machine Data | ||||
IoT Data | ||||
데이터 제공자 | 공공기관 | |||
연구기관 | ||||
민간기업 | ||||
플랫폼 운영자 | ||||
데이터 브로커 |
<블록 체크리스트>
ㆍ데이터 분석 주제의 목적을 달성 할 수 있는 대상 데이터소스 목록을 파악 ㆍ외부 데이터 활용 시 기대되는 분석의 효과를 제시 (외부데이터는 데이터 품질, 수집 문제점, 비용 등의 요소가 고려되어야
하므로 외부 데이터 사용에 대한 기대효과에 대한 조사가 필요)
|
|
데이터 소스 블록 활용법 |
데이터 소스
데이터 소스 대상 선정 데이터 분류 체계 데이터 소스 연계 구조 데이터 소스 유효성 검증 |
|
출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스 |