5. 모델 학습 / 평가


5. 모델 학습 / 평가

 

모델링이란 분석용 데이터를 이용한 가설 설정을 통하여 통계모형을 만들거나 기계학습(Machine Learning)을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모형을 만드는 과정입니다.

기계학습은 지도학습(Supervised Learning)과 비지도학습(Un-supervised Learning) 등으로 나뉘어 다양한 알고리즘을 적용할 수 있습니다. 모델링을 효과적으로 진행하기 위해서는 모델링 전에 데이터셋을 Training과 Testing으로 분할함으로써 모형의
과적합(Overfitting)을 방지하거나 모형의 일반화(Generalization)에 이용됩니다.

기계학습 등을 이용한 데이터 모델링은 Training 데이터를 활용하여 분류, 예측, 군집 등의 모형을 만들어 가동중인 운영 시스템에 적용합니다. 또한 필요시 비정형 데이터 분석결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행합니다.

<블록 체크리스트>
· 데이터 셋 분할 방법 선택
· 분석 주제에 맞는 분석 모델 방법론과 알고리즘을 검토
· 해당 모델 학습을 위한 변수 변환 방법론을 검토

모델 학습 / 평가 블럭 활용법

 
모델 학습 평가 블럭 활용법
 

데이터 정규화

· Training Data : 모델을 생성하기 위한 데이터
· Validation Data : 최소 예측 오차를 갖는 모델을 결정하기 위한 데이터
· Test Data : 생성한 모델을 평가하기 위한 데이터 (최근 데이터)

모든 데이터를 사용하여 모델을 생성하는 경우, 사용된 데이터에 과적합 되는 문제가 발생하기 때문에 향후 모델을 사용하는 경우,
예측력이 매우 떨어지는 현상이 발생할 수 있습니다.

그렇기 때문에 모델의 안정성과 예측력의 비교를 위해서 데이터를 Training / Validation data로 구분하여 사용하며, Test data
로 평가합니다. Training / Validation은 보통 7 : 3의 비율로 사용합니다.

모델 학습
데이터 세트에서 설명변수를 이용하여 다양한 알고리즘을 거쳐 모델링을 진행하게 됩니다. 모델링의 결과 중 가장 우수한 알고
리즘을 선정하고, 일부 변수를 제외한 최적의 모델 선정 과정을 거치게 됩니다. 데이터에 대해 모델을 학습한다는 것은 데이터
에 기반해 최적화된 모델 파라미터를 알아내는 것을 말합니다.

예측 모델을 만드는 일은 여러 속성 변수들을 이용해 목표 변수에 대한 모델을 알아내는 과정으로서 데이터를 분석해 모델 구조
와 모델의 수치형 파라미터를 찾는 과정입니다.

수치형 파라미터를 지정하지 않고 모델의 구조만으로도 데이터 세트에 대한 예측 모델을 학습할 수 있습니다. 그런 다음 데이
터 분석 기법을 적용해 주어진 훈련 데이터 세트에 최적화된 파라미터를 계산할 수 있습니다. 일반적으로 모델 구조는 여러 수
치형 속성에 대해 파라미터화된 수학 함수나 방정식으로 정의됩니다. 모델에 사용될 변수를 선택할 때는 어떤 설명변수가 목표
변수를 예측하는데 적합한 정보를 제공하는지를 찾아가는 과정입니다. 이때 해당 영역의 지식을 통해서 선택하거나 변수 선택
절차와 같은 분석 기법을 통해 찾아 내게 됩니다.

데이터 분석에서 모델링의 목표는 모델이 가능한 한 데이터에 잘 맞도록 파라미터를 찾는 것인데 이를 튜닝이라 부르기도 합
니다. 이런 방법을 parameter learning, parametric modeling 이라고 부릅니다.

모델 검증/테스트

데이터 분석의 마지막 단계인 검증을 살펴보겠습니다. 프로젝트 정의서의 모형 평가 기준에 따라 모형을 객관적으로 평가하
고 품질관리 차원에서 모형 평가 프로세스를 진행합니다. 모형 평가를 위해서는 모형 결과 내의 알고리즘을 파악하고 테스
트용 데이터나 필요시 모형 검증을 위한 별도의 데이터를 활용할 수 있습니다.

모델 평가 단계에서 하는 작업은 분석 모델링 결과를 평가하고 다음 단계로 진행하기 위해 모델의 안정성과 신뢰성을 확인하
는 것들입니다.

분석 결과를 활용해야 하는 쪽에서는 데이터 분석을 통해 만든 모델을 이용하여 작업을 지원하거나 의사 결정을 하는데 사용하
게 됩니다. 그렇기 때문에 분석 모델이 신뢰할 수 있을 뿐만 아니라, 이를 통한 의사 결정의 결과도 만족스러워야 모델을 실전
에 배치하게 될 것입니다.

모델 평가 단계에서는 모델과 데이터에서 추출한 패턴이 규칙이라고 할 수 있는지, 아니면 특정 데이터에서만 볼 수 있는 성질은
아닌지 등을 확인해야 합니다. 평가 단계에서는 모델이 원래 비즈니스 목적에 부합하는지를 보장해야 합니다.

실전에 배치하기로 결정 할 때는 모델로 인해 중대한 문제가 발생될 여지가 있는지를 반드시 확인해야 합니다. 이런 평가를 원
활히 수행하려면 데이터 분석가는 반드시 모델 사용자들 모두가 이해할 수 있는 모델을 만들어야 합니다.

모델의 성능에 대해서는 평가 체계가 있어야 합니다. 대부분은 실제 운용할 환경에는 접근이 제한되므로 운용 단계에서는 평가
를 하기가 매우 어려울 수 있습니다. 또한 분석 모델이 시스템에배치된 후에는 여러 부분이 연결되어 함께 작동되므로 어느 한 부
분이 미치는 영향을 평가하기도 어렵습니다. 여력이 되는 환경이라면 실제 운용 환경과 비슷한 테스트베드를 구축해 놓고 평가하
는 것이 바람직하다 하겠습니다.

평가를 하는 이유 중 하나는 외부 환경이 바뀔 때 모델의 의사 결정 성능이 저하되지는 않았는지 확인하려는 것과 입력 데이터의
구조나 내용이 데이터 분석가가 모르는 상태에서 바뀔 수도 있다는 것입니다.

모델 평가 지표 선정

예측정확도는 적합도(goodness-of-fit)와 같지 않습니다.

전통적인 통계적 성능 측도는 학습시킨 데이터에 잘 적합하는 모델을 찾는 것을 지향합니다.

데이터마이닝에서는 ‘새로운‘ 관측값들이 적용되었을 때 높은 예측 정확도를 내는 모델에 관심이 있습니다.

출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스
지은이 ㈜ 베가스 R&D Center

1

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다