데이터 사이언스 캔버스

데이터 분석은 비지니스의 문제를 해결하거나 유용한 정보의 발굴을 통한 새로운 가치를 창출하기 위해 데이터에 대한 과학적 분석을 수행하는 일련의 과정으로 정의할 수 있습니다. 이를 위해서는 수학 ·통계학 ·컴퓨터과학· 산업공학 등의 기술 습득 뿐만 아니라 각 비즈니스 영역의 업무 경험과 데이터 분석 역량이 필요 합니다.

데이터 분석은 이제 산업과 기업의 주요 의사결정의 핵심 요소로 자리잡고 있습니다. 데이터 과학 기술을 습득하는 과정은 쉽지 않을 뿐만 아니라 시간이 걸리는 과정이지만, IT기술과 업무 노하우를 최대한 활용하여 융합 하면 보다 효율적이고 신속하게 데이터 과학 과정에 입문 할 수 있을 것입니다.

데이터 사이언스 캔버스는 10여년 동안 제조· 공공· 금융 등 다양한 산업 현장과 시민 데이터 과학자(Citizen Data Scientist) 양성 교육 과정을 통해 획득한 자산을 체계화하고 비즈니스 모델 캔버스①와 다산 정약용 선생님의 치학(治學) 전략②을 접목하여 개발한 데이터 과학을 위한 도구입니다.

데이터 사이언스 캔버스는 시티즌 데이터 과학자들이 사용자의 수준에 맞는 분석 가이던스와 분석 결과를 활용 할 수 있는 분석 주제별 분석 참조 모델을 제공하여 기업 현장의 업무 전문가 또는 엔지니어가 빠르고 쉽게 데이터 분석 프로젝트에 참여 할 수 있도록 합니다.

① 2005년 알렉산더 오스터왈더의 비즈니스 모델 캔버스 및 루이스 도라드의 머신러닝 캔버스 참조
② 2006년 정민(한양대 인문과학대학)의 다산 선생 지식 경영법(김영사) 참조

베가스 데이터사이언스 캔버스 - 데이터 분석 가치 제안(분석주제 정의 - 과제목표+대상데이터/알고리즘+활용) - 데이터 소스(대상 데이터 선정 - 정형, 비정형 데이터 소스 선정) - 데이터 수집(데이터 수집/저장 - 데이터 유형, 특성) - 데이터 전처리/데이터 탐색(Input DataSet - 이상치/결즉 처리, 기초 통계량, 유도 변수 생성) - 모델 학습/평가(모델 생성 - 모델 학습, 검증, 평가) - 데이터분석 워크 플로우(실행 계획 - 배치주기, 정기학습) - 데이터분석 활용 시나리오(인사이트 - 의사 결정 반영, 인사이트 확장) - 운영평가/모니터링(모델 성능 평가 - 모델 안정성, 성능 측정)1. 데이터 분석 가치 제안(- 데이터 분석 결과의 활용을 통해 창출하려는 제안 가치를 도출합니다. ※데이터 분석을 통해 현장의 문제점을 해결하기 위한 활동 계획을 분석 주제로 정의합니다.) 2. 데이터 소스(- 데이터 분석에 사용되는 데이터 소스를 정의합니다. ※데이터 소스목록별 사용 가능한 데이터 항목을 정의합니다.) 3. 데이터 수집(- 필요 데이터 수집을 위한 기술적인 검토 및 수집 대상 데이터를 선정합니다. ※ 수집 방법/수집주기 등을 파악합니다. ※ 수집ㄷ제이터의 저장/관리 방안에 대해 정의합니다.) 4. 데이터 전처리/데이터 탐색(- 분석결과의 신뢰성 확보를 위한 오류 데이터의 파악과 전처리 방안을 마련합니다. - 데이터 탐색을 통해 데이타에 대한 통찰을 얻습니다.) 5. 모델 학습/평가(- 최선의 모델 선택을 위한 모델학습 → 모델 검증 → 모델평가 과정을 최적화합니다.) 6. 데이터 분석 워크플로우(- 분석모델 생성과정과 예측결과 중심으로 입력 → 분석모델링(알고리즘) → 앙상블(필요 시) → 출력 이미지 등 프로세스 별 각 타스크를 정의하고 설계합니다. - 데이터 분석 프로세스를 통해 운영단계에 적응할 워크플로우를 수집하여 적용될 도구를 선정합니다.) 7. 데이터 분석 활용 시나리오(- 예측 결과를 통해 최종 사용자에게 제공될 제안가치의 활용 시나리오를 수립합니다. ※가치제안에서 정의된 제안가치 외 예측결과를 통한 추가 활용 방안을 탐색합니다.) 8. 운영 평가/모니터링(- 지속적인 분석모델의 성능 관리와 새로운 데이터 유입 또는 환경 변화 요인으로 인한 분석모델의 관리 방안을 수립합니다.)1. 목차를 세우고 체재를 선정하라.(선정문목 先定門目) 2. 껍질을 벗겨내듯 문제를 드러내라.(여박총피 如剝蔥皮) 3. 묶어서 생각하고 미루어 확장하라.(촉류방통 觸類芳通) 4. 기초를 확립하고 바탕을 다져라.(축기견초 築基堅礎) 5. 종합하고 분석하여 꼼꼼히 정리하라.(종핵파즐 綜覈派櫛) 6. 되풀이해 검토하고 따져서 점검하라. (반복참정 反覆參訂) 7. 읽은 것을 초록하여 가늠하고 따져보라.(초서권형 秒書權衡) 8. 쓸모를 따지고 실용에 바탕하라. (강구실용 講究實用)

 

① 데이터 분석 가치 제안

데이터 분석 결과의 활용을 통해 창출 하려는 가치를 제안합니다.

※ 데이터 분석을 통해 현장의 문제점을 해결하기 위한 활동 계획을 분석 주제로 정의 합니다.

② 데이터 소스

업무현황 파악을 통해 데이터 분석에 사용 가능한 대상 데이터를 선정합니다.

③ 데이터 수집

데이터 소스로부터 분석 모델의 필요 데이터 수집을 위한 기술적인 검토와 수집 데이터를 확정합니다. 데이터 수집 방법을 파악하고 데이터의 속성/수집 주기 등에 대해서 파악을 해두어야 합니다. 이 과정에서는 수집된 데이터를 저장/관리하는 방안에 대해서도 선정해 두어야 합니다.

④ 데이터 전처리 / 데이터 탐색

분석결과의 신뢰성 확보를 위해서는 분석 모델에 입력 할 데이터의 오류와 결측값 등을 파악하여 안정적인 데이터 확보 방안을 마련해야 합니다.

수집데이터의 기초 통계량과 시각화, 상관 분석 등을 통해 데이터에 대한 통찰을 얻도록 합니다.

⑤ 모델 학습/평가

적합한 통계적 방법, 데이터 마이닝, 머신 러닝 등의 분석 방법을 선정하며 모델 생성을 위한 학습검증평가 과정을 수행합니다.

⑥ 데이터분석 워크플로우

분석에 사용된 데이터를 중심으로 데이터 분석 작업의 시작과 끝을 설계합니다. “데이터 소스수집 저장데이터 전처리/데이터 탐색분석 모델링분석 결과의 단계별 데이터 입출력 관계와 작업 주기를 정리하여, 그 동안의 분석 과정을 현장에 적용하기 쉽도록 기술하는 과정 입니다.

⑦ 데이터 분석 활용 시나리오

분석 결과로부터 인사이트를 발굴하고 의사결정에 반영하는 방법을 선택합니다. 분석 결과에 활용된 데이터들의 특성에 적합한 다양한 차트와 시각화 도구를 이용하여 분석 결과를 비즈니스에 활용하는 시나리오를 개발합니다.

⑧ 운영 평가/모니터링

분석 결과를 안정적으로 활용하기 위해서는 운영 시스템에 적용한 후 분석 모델을 관리하고, 모델의 성능을 모니터링 하는 작업을 지속해야 합니다. 또한 정기적으로 학습 모델의 성능을 관리하기 위한 모니터링 지표 값을 정립해야 합니다.

 

 

출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스
지은이 ㈜ 베가스 R&D Center

3

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다