6. 데이터 분석 워크플로우


6. 데이터 분석 워크플로우

 

데이터 분석 워크플로우④는 데이터 분석 프로세스 상의 데이터 흐름을 중심으로 수립 합니다. 선정된 데이터 소스로부터 데이터 유형 및 특성에 따라 정제 및 적재 과정을 거친 후 전처리 와 탐색적 데이터 분석을 통해 데이터 정합성과 분석 모델의 입력변수로
서 유효 한지를 검토 후 추가 데이터 정제 및 가공 작업을 합니다.분석 모델의 입력 변수 후보로 확정되면 분석용데이터마트의 전 처리 전 · 후 데이터를 적재· 저장 관리하며 분석 모델의 학습 ·검증 · 평가 과정을 반복하는 과정을 거쳐 분석 모델의 정교화 작업을 진행합니다. 분석 모델이 확정되면 분석 모델을 통해 생성된 분석(예측)결과를 분석용 데이터마트에 적재 ·저장 관리하며 데이터 분석 활용 시나리오에 따라 분석(예측)결과의 재 가공 여부도 추가적으로 판단합니다.데이터 분석 프로세스 상의 데이터 흐름을 추적하면 데이터 소스로부터 분석(예측)결과의 활용까지 데이터의 정제 ·변환 · 가공의 과정과 적재 저장을 위한 복잡한 시스템적인 연계도 고려 할 수 있습니다.이에 데이터 분석 워크플로우 수립은 데이터 분석 비즈니스 뿐만 아니라 시스템 운영까지를 염두해 해당 시스템 도구에 대한 검토 및 선정에도 데이터 사이언스의 일부 관여가 필요 할 수 있습니다.④ 워크플로우의 원래 개념은 작업 절차를 통한 정보 또는 업무의 이동을 의미하며, 작업 흐름 이라고도 부릅니다. 워크플로우는 작업 절차의 운영적 측면입니다. 업무들이 어떻게 구성되고, 누가 수행하며, 순서가 어떻게 되며, 어떻게 동기화를 시킬지, 업무를 지원하기 위한 정보가 어떻게 흐르는지 그리고 업무가 어떻게 추적되는지 입니다. 출처, 위키백과 –

<블록 체크리스트>

· 데이터 분석 프로세스 상 데이터 흐름 중심으로 워크플로우를 수립
· 분석 모델의 적정한 학습 주기(예: 정기, 비정기)를 고려하여 워크플로우 수립에 반영
· 데이터 소스 생성 주기에 따른 영향도가 있는지를 파악하여 워크플로우 수립에 반영
· 데이터 분석 워크플로우를 자동 또는 반자동화 할 수 있는 솔루션 도입을 검토
· 검토가 완료된 솔루션에 대해 테스트

데이터 분석 워크플로우 블록 활용법

 
#6 데이터분석 워크플로우 > 1. 데이터 소스-수집-저장 > 2. 데이터 전처리-파생변수 생성(분석모델 대상 데이터 선정-수집-저장) > 3. 분석 모델링(전처리/EDA/변수선택)(모델 학습-검증-평가) > 4. 데이터 분석 활용 > #7 데이터분석 활용시나리오
 

워크플로우 수립

데이터 흐름 관점에서 워크플로우는 “데이터 소스 → 데이터 수집 → 데이터 정제 및 적재 → 전처리/탐색적 데이터 분석/주
요 변수 선택 → 모델 학습/검증/평가 → 분석(예측)결과 생성 → 분석(예측)결과 활용 입니다.

“모델 학습/검증/평가” 단계에서 분석 모델의 정교화 작업을 위한 앙상블 과정과 “분석(예측)결과 활용” 단계에서 시각화 도구 또는 기존/신규 시스템과의 연계 과정의 데이터 흐름이 워크플로우에 포함 될 수 있습니다

데이터 소스-수집-저장

수집하기로 결정된 데이터의 유형(정형, 반정형, 비정형), 양, 데이터 발생 주기(시간/일, 월/년) 등을 정의합니다.

데이터 전처리/파생변수 생성

수집된 데이터에 대해 확정된 데이터 전처리 방법을 적용하는 절차를 정의하고 파생변수를 생성 시킨 경우 파생변수 생성 로직을 정립합니다.

분석 모델링

모델 검증/평가 단계를 거쳐 확정된 최종 모델에 대해 정의합니다.

분석용 데이터 마트
수집 대상 데이터 소스 중에서 사용하기로 확정된 데이터 소스를 이용하여 분석용 데이터 마트를 정의합니다. 이 데이터 마트를 구성한 후에는 워크플로우에 적용해보고 최종 모델 결과가 잘 나오는지 테스트를 거쳐 확정합니다.

분석결과 생성주기 수립
분석결과 생성주기를 일배치, 정기/비정기 학습을 구분하여 정리 합니다.

워크플로우 도구
수립된 워크플로우를 시스템화 할 도구를 검토하고 선택 합니다.
(Apache OOZIE, Jenkins)

출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스
지은이 ㈜ 베가스 R&D Center

1

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다