3.데이터 수집


3. 데이터 수집
데이터 소스에 대한 확인이 끝나면 데이터 수집 계획을 수립합니다. 데이터 소스로부터 분석용 데이터 마트③로의 데이터 적재 및 저장 흐름을 고려하여 단계별 필수 작업 요소를 파악해서정리 합니다. 데이터 수집 계획의 수립은 ICT 기술과 기능에 기반을 두고 있으나 분석 과제를 해결하기 위한 데이터 수집이므로 데이터 분석가 관점에서의 이해와 수집 계획이 필요 합니다.
2 단계인 데이터 소스 단계의 블록들이 업무 측면에서 진행해야하는 것들을 나타낸 것이라면 3 단계인 데이터 수집 단계의 블록들은 기술 측면에서 진행해야 하는 것들을 나타낸다고 할 수 있습니다.
수집된 데이터로부터 4 단계인 데이터 전처리/데이터 탐색 단계를 곧바로 진행 할 수도 있으나, 현대 데이터 분석에서는 데이터 소스 관리, 데이터 수집 등의 중요도가 점점 높은 비중을 차지 하므로 데이터 수집 단계에서도 데이터 과학자의 적극적인 참여가 필요 합니다. 데이터 수집 단계에서 수행 할 블록들의 요소 기술에 대한 이해 및 수행을 위해서는 데이터 엔지니어와의 협업과 멘토링이 요구 됩니다.
데이터 수집 검토 사항 5가지

데이터 수집 단계에서는 수집 가능 여부, 수집 주기, 개인 정보 보호, 데이터 보안, 데이터 품질, 비용 등 관련 사항들을 사전에 검토하게 됩니다.
데이터 수집의 이슈 사항

데이터 분석가는 작업의 효율을 위해 가급적이면 이미 가지고 있는 데이터로 분석을 하고, 아니면 바로 사용할 수 있는 데이터가 있는지 확인하는 것이 우선 필요 합니다.
데이터를 취득하는데 시간과 비용이 많이 들긴 하지만, 데이터를 새로 취득해서 얻는 분석 결과가 현장에 미치는 효과가 크다고 판단되면 새로 취득하는 것을 검토해 보아야 합니다.
데이터를 새로 취득하게 되면 수집되는 시점부터 데이터가 쌓이기 시작하기 때문에 과거의 현상과 비교할 수 없다는 문제점도 있습니다. 그리고 충분히 데이터가 쌓일 때까지는 데이터 분석을 시작할 수 없는 등 작업에 장애 요인이 생기게 됩니다.
③분석용 데이터 마트의 구성은 수집된 데이터의 전/후 처리 데이터, 분석(예측)결과 데이터 부문으로 구분 됩니다. (데이터 소스및 수집 영역의 데이터 저장/관리 부문과는 구분합니다.)
데이터 수집 세부 사항

데이터 수집을 위한 세부 절차는 다음과 같은 3 단계로 구성 됩니다.
① 수집 대상 데이터 선정 단계 : 분석에 필요한 수집 대상 데이터를 선정하되 수집 가능성 여부 등을 파악하고 세부 목록 및 항목을 작성하는 단계
② 수집 세부 계획 작성 단계 : 수집 데이터 유형을 분류하고 관련 수집 기술 및 수집 주기, 주요 업무 등을 담은 세부 계획을 작성하는 단계
③ 데이터 수집 실행 단계 : 수집 계획서에 따라 사전 테스트를 진행하여 관련 시스템을 점검한 후 수집 활동을 진행하는 단계
<블록 체크리스트>

ㆍ수집 또는 샘플 데이터를 통해 데이터의 속성/양/라벨링을 파악
ㆍ대상 데이터 목록에는 데이터 셋의 수집 방법(DB, API, FTP, http, static files, web scraping 등 )을 기술

ㆍ수집 방법에 따라 샘플 데이터 셋을 수집하는 테스트를 진행
ㆍ수집 데이터의 저장 및 관리 방법을 설계
 

데이터 수집 블록 활용법

데이터 수집 블록 활용법
데이터 수집 계획

데이터 수집 활동은 데이터 분석 시 분석 결과의 품질에 영향을 미치는 매우 중요한 과정입니다. 특정 업무 영역의 데이터에 대한 분석 노하우가 있는 전문가의 의견을 수렴하여 분석 목적에 맞는 데이터를 도출해야 합니다.

또한 다음의 사항을 고려하여 데이터 수집 목록을 작성합니다.
ㆍ해당 데이터의 사용 가능성 및 수집 가능성
ㆍ수집 시 개인 정보 포함 여부 및 유출 문제
ㆍ활용 목적에 따른 세부 항목의 적절성
ㆍ데이터 수집에 드는 비용

데이터 수집 계획 시에는 데이터 소유자의 데이터 개발 현황, 조건, 적용 기술, 보안 사항 등을 파악하고 필요한 협의를 진행하며 이를 위한 고려 사항은 다음과 같습니다.
ㆍ내부 시스템간 데이터 연계 가능 여부
ㆍ개방 데이터 종류, 데이터 양, 수집 시스템 연계 방식, 절차, 수집 주기 등 관련 기술 정책
ㆍ데이터 유형(정형, 반정형, 비정형) 및 데이터 포맷

수집 데이터 종류/양/주기

수집 계획이 정립되면 데이터 유형 및 포맷에 적합한 수집 기술과 수집 주기를 정합니다. 수집 기술은 데이터 소스로부터 다양한 유형의 데이터를 수집하기 위해 확장성, 안정성, 실시간성 및 유연성의 확보가 필요합니다. 수집 기술 선정시 정제ㆍ변환 과정, 전처리 및 저장 프로세스의 필요성 유무를 우선 점검해야 합니다.

수집 주기의 결정을 위한 고려 사항은 다음과 같습니다.

ㆍ데이터의 종류와 크기
ㆍ데이터 발생 빈도 및 주기
ㆍ분석 주기
ㆍ시스템 및 네트워크 부하 수준
ㆍ적용 가능 수집 기술

분석 시점에서 필요한 충분한 데이터 양을 확보할 수 있도록 최소한의 수집 기간을 설정합니다. 수집 기간이 설정되고 나면 데이터 포맷에 적합한 수집 기술을 정의하여야 합니다.

데이터 수집 기술 검토


DB, API, FTP, http, static files, web scraping데이터의 출처와 유형 및 포맷에 따라 달라질 수 있는 수집 기술을 고려해야 합니다.

데이터 유형 분류

유형 특징 데이터 종류
정형 데이터
(Structured)
-RDBSM의 고정된 필드에 저장
-데이터 스키마 지원
RDB, 스프레트 시트
반정형 데이터
(Semi-structured)
-데이터 속성인 메타데이터를 가지며, 일반적으로 스토리지에 저장되는 데이터 파일 HTML, XML, JSON, 웹문서, 웹로그, 센서 데이터
-XML 형태의 데이터로 값과 형식이 다소 일관성이 없음
비정형 데이터
(Unstructured)
-언어 분석이 가능한 텍스트 데이터 소셜 데이터, 문서, 이미지, 오디오, 비디오
-형태와 구조가 복잡한 이미지, 동영상 같은 멀티미디어 데이터

데이터 유형에 따른 수집 기술

데이터 유형 데이터 종류 수집 기술
정형 데이터 RDB, 스프레드 시트 ETL, FTP, Open API
반정형 데이터 HTML, XML, JSON, 웹문서, 웹로그, 센서 데이터 Crawling, RSS, Open API, FTP
비정형 데이터 소셜 데이터, 문서(워드, 아래한글), 이미지, 오디오, 비이도, IoT Crawling, RSS, Open API, Streaming, FTP

수집 데이터 테이블 설계

데이터 전송의 구조는 벌크 형과 스트리밍 형의 두 가지 종류가 있습니다. 전통적인 데이터 수집 방식에서 사용되는 전송 구조는 벌크 형식으로 데이터베이스나 파일 서버 등에서 SQL, API 등으로 정리해 데이터를 추출합니다.

스트리밍 형은 수집과 분석이 동시에 이루어지므로 이벤트 기반 분석 체계 구축이 요구됩니다. 따라서 데이터 테이블도 이벤트기반의 처리를 고려하여 설계되어야 합니다.
동적 수집 기간에 대한 설정은 사전에 일정 기간 샘플 데이터를 수집한 후 데이터 양 등을 점검한 후 적절하게 테이블을 사용하는 주기를 조정해야 합니다.

데이터 수집 테스트

데이터 수집을 실행하기 전에 수집 계획에 따라 수집 주기, 적용 기술 등 관련 수집 환경에 대해 사전 테스트를 실시합니다.
사전 테스트에서는 다음 사항들을 점검합니다.
ㆍ네트워크 트래픽 문제
ㆍ데이터 누락 여부
ㆍ정확성(원본 데이터와 샘플 데이터 비교)
ㆍ보안성 점검(개인 정보 포함 여부 등) 테스트 수행 결과에 따라 수집 방법을 보완하거나 변경해야 합니다.


데이터 수집 연계 방식 절차

데이터 소스와 타겟 간 수집 또는 적재 방법을 정리 합니다. 또한 데이터 수집을 한 후에 장애 점검 등을 위하여 관련 로그
기록을 확보합니다. 이는 수집 데이터의 출처, 수집 방식, 장애 발생, 로그, 시간 등 수집 당시 상황 등을 시스템적으로 기록하는 것입니다.

출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스
지은이 ㈜ 베가스 R&D Center

2

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다