3.데이터 수집

3. 데이터 수집

 

데이터 소스에 대한 확인이 끝나면 데이터 수집 계획을 수립합니다.  데이터 소스로부터 분석용 데이터 마트③ 로의 데이터 적재 및 저장 흐름을 고려하여 단계별 필수 작업 요소를 파악해서 정리 합니다.  데이터 수집 계획의 수립은 ICT 기술과 기능에 기반을 두고 있으나 분석 과제를 해결하기 위한 데이터 수집이므로 데이터 분석가 관점에서의 이해와 수집 계획이 필요 합니다.
2 단계인 데이터 소스 단계의 블록들이 업무 측면에서 진행해야 하는 것들을 나타낸 것이라면 3 단계인 데이터 수집 단계의 블록들은 기술 측면에서 진행해야 하는 것들을 나타낸다고 할 수 있습니다.
수집된 데이터로부터 4 단계인 데이터 전처리/데이터 탐색 단계를 곧바로 진행 할 수도 있으나, 현대 데이터 분석에서는 데이터 소스 관리, 데이터 수집 등의 중요도가 점점 높은 비중을 차지 하므로 데이터 수집 단계에서도 데이터 과학자의 적극적인 참여가 필요 합니다.  데이터 수집 단계에서 수행 할 블록들의 요소 기술에 대한 이해 및 수행을 위해서는 데이터 엔지니어와의 협업과 멘토링이 요구 됩니다.
데이터 수집 검토 사항 5가지

데이터 수집 단계에서는 수집 가능 여부, 수집 주기, 개인 정보 보호, 데이터 보안, 데이터 품질, 비용 등 관련 사항들을 사전에 검토하게 됩니다.
데이터 수집의 이슈 사항

데이터 분석가는 작업의 효율을 위해 가급적이면 이미 가지고 있는 데이터로 분석을 하고, 아니면 바로 사용할 수 있는 데이터가 있는지 확인하는 것이 우선 필요 합니다.
데이터를 취득하는데 시간과 비용이 많이 들긴 하지만, 데이터를 새로 취득해서 얻는 분석 결과가 현장에 미치는 효과가 크다고 판단되면 새로 취득하는 것을 검토해 보아야 합니다.
데이터를 새로 취득하게 되면 수집되는 시점부터 데이터가 쌓이기 시작하기 때문에 과거의 현상과 비교할 수 없다는 문제점도 있습니다. 그리고 충분히 데이터가 쌓일 때까지는 데이터 분석을 시작할 수 없는 등 작업에 장애 요인이 생기게 됩니다.
③분석용 데이터 마트의 구성은 수집된 데이터의 전/후 처리 데이터, 분석(예측)결과 데이터 부문으로 구분 됩니다.  (데이터 소스및 수집 영역의 데이터 저장/관리 부문과는 구분합니다.)
데이터 수집 세부 사항

데이터 수집을 위한 세부 절차는 다음과 같은 3 단계로 구성 됩니다.
① 수집 대상 데이터 선정 단계 : 분석에 필요한 수집 대상 데이터를 선정하되 수집 가능성 여부 등을 파악하고 세부 목록 및 항목을 작성하는 단계
② 수집 세부 계획 작성 단계 : 수집 데이터 유형을 분류하고 관련 수집 기술 및 수집 주기, 주요 업무 등을 담은 세부 계획을 작성하는 단계
③ 데이터 수집 실행 단계 : 수집 계획서에 따라 사전 테스트를 진행하여 관련 시스템을 점검한 후 수집 활동을 진행하는 단계
<블록 체크리스트>

ㆍ수집 또는 샘플 데이터를 통해 데이터의 속성/양/라벨링을 파악
ㆍ대상 데이터 목록에는 데이터 셋의 수집 방법(DB, API, FTP, http, static files, web scraping 등 )을 기술

ㆍ수집 방법에 따라 샘플 데이터 셋을 수집하는 테스트를 진행
ㆍ수집 데이터의 저장 및 관리 방법을 설계

 

  데이터 수집 블록 활용법

 

 

데이터 수집 계획

데이터 수집 활동은 데이터 분석 시 분석 결과의 품질에 영향을 미치는 매우 중요한 과정입니다. 특정 업무 영역의 데이터에 대한 분석 노하우가 있는 전문가의 의견을 수렴하여 분석 목적에 맞는 데이터를 도출해야 합니다.

또한 다음의 사항을 고려하여 데이터 수집 목록을 작성합니다.
ㆍ해당 데이터의 사용 가능성 및 수집 가능성
ㆍ수집 시 개인 정보 포함 여부 및 유출 문제
ㆍ활용 목적에 따른 세부 항목의 적절성
ㆍ데이터 수집에 드는 비용

데이터 수집 계획 시에는 데이터 소유자의 데이터 개발 현황, 조건, 적용 기술, 보안 사항 등을 파악하고 필요한 협의를 진행하며 이를 위한 고려 사항은 다음과 같습니다.
ㆍ내부 시스템간 데이터 연계 가능 여부
ㆍ개방 데이터 종류, 데이터 양, 수집 시스템 연계 방식, 절차, 수집 주기 등 관련 기술 정책
ㆍ데이터 유형(정형, 반정형, 비정형) 및 데이터 포맷

수집 데이터 종류/양/주기

수집 계획이 정립되면 데이터 유형 및 포맷에 적합한 수집 기술과 수집 주기를 정합니다.  수집 기술은  데이터 소스로부터 다양한 유형의 데이터를 수집하기 위해 확장성, 안정성, 실시간성 및  유연성의  확보가  필요합니다. 수집 기술 선정시  정제ㆍ변환 과정, 전처리 및 저장 프로세스의 필요성 유무를 우선 점검해야 합니다.

수집 주기의 결정을 위한 고려 사항은 다음과 같습니다.

ㆍ데이터의 종류와 크기
ㆍ데이터 발생 빈도 및 주기
ㆍ분석 주기
ㆍ시스템 및 네트워크 부하 수준
ㆍ적용 가능 수집 기술

분석 시점에서 필요한 충분한 데이터 양을 확보할 수 있도록 최소한의 수집 기간을 설정합니다.  수집 기간이 설정되고 나면 데이터 포맷에 적합한 수집 기술을 정의하여야 합니다.

데이터 수집 기술 검토


DB, API, FTP, http, static files, web scraping 데이터의 출처와 유형 및 포맷에 따라 달라질 수 있는 수집 기술을 고려해야 합니다.

데이터 유형 분류

 

 

데이터 유형에 따른 수집 기술

 

수집 데이터 테이블 설계

데이터 전송의 구조는 벌크 형과 스트리밍 형의 두 가지 종류가 있습니다.  전통적인 데이터 수집 방식에서 사용되는 전송 구조는 벌크 형식으로 데이터베이스나 파일 서버 등에서 SQL, API 등으로 정리해 데이터를 추출합니다.

스트리밍 형은 수집과 분석이 동시에 이루어지므로 이벤트 기반 분석 체계 구축이 요구됩니다.  따라서 데이터 테이블도 이벤트 기반의 처리를 고려하여 설계되어야 합니다.
동적 수집 기간에 대한 설정은 사전에 일정 기간 샘플 데이터를 수집한 후 데이터 양 등을 점검한 후 적절하게 테이블을 사용하는 주기를 조정해야 합니다.

데이터 수집 테스트

데이터 수집을 실행하기 전에 수집 계획에 따라  수집 주기, 적용 기술 등 관련 수집 환경에 대해 사전 테스트를 실시합니다.
사전 테스트에서는 다음 사항들을 점검합니다.
ㆍ네트워크 트래픽 문제
ㆍ데이터 누락 여부
ㆍ정확성(원본 데이터와 샘플 데이터 비교)
ㆍ보안성 점검(개인 정보 포함 여부 등) 테스트 수행 결과에 따라 수집 방법을 보완하거나 변경해야 합니다.


데이터 수집 연계 방식• 절차

데이터 소스와 타겟 간 수집 또는 적재 방법을 정리 합니다. 또한 데이터 수집을 한 후에 장애 점검 등을 위하여 관련 로그
기록을 확보합니다.  이는 수집 데이터의 출처, 수집 방식, 장애 발생, 로그, 시간 등 수집 당시 상황 등을 시스템적으로 기록하는 것입니다.

출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스
지은이 ㈜ 베가스 R&D Center

1

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

데이터산업 관련 최신 뉴스를 추천받아보세요.

매주 온라인 데이터산업 주요 이슈를 한번에 파악할 수 있도록 정리하여 제공해드립니다.


개인정보 처리방침 보기