4. 데이터 전처리 / 데이터 탐색


4. 데이터 전처리 / 데이터 탐색

 

모델을 작성하기 전 데이터가 어떤 특징을 가지고 있는지 파악하면 모델링에 대한 많은 생각을 얻을 수 있습니다. 탐색적 자료 분석(EDA) 과정에서는 데이터의 특징을 이해합니다. 분석 대상 데이터를 탐색함으로써 데이터의 특징을 파악하는 과정으로서 주로 변수 파악, 통계량 산출, 상관 분석 등을 수행하며, 시각화를 통해 데이터에 대한인사이트를 얻습니다.

데이터 특징을 파악한 후에는 분석 기본 가정 부합 여부에 따라 신뢰할 수 있는 분석 결과를 얻을 수 있도록 데이터를 가공해 주는 과정을 거치게 됩니다. 반응변수, 설명변수 파악 / 통계량 산출 / 데이터 시각화 등의 방법으로 EDA 가 이루어지게 됩니다.

<블록 체크리스트>
ㆍ데이터에 대한 전처리 작업을 통해 이상값과 결측값을 선별하고 보정할 수 있는

방법을 선택
ㆍ설명 변수 중 동일한 의미를 가지는 변수를 탐색
ㆍ분석에 사용할 수 있는 형태로 변수를 변환하여 파생 변수를 생성
ㆍ업무 경험과 지식, 통계 기법(Filter Method, Wrapper Method, Embedded Method) 등을 사용하여 분석에 사용될 주요 변수를 선택

 

데이터 전처리 / 탐색블록 활용법

데이터 전처리 탐색블록 활용법
데이터 구조 파악
데이터 정제 및 전처리 과정을 수행하기 위해서는 먼저 데이터 구조의 정량적/정성적 파악이 필요합니다. 데이터에 대한 전반
적인 이해를 통해 수집된 데이터가 분석 가능한 형태의 데이터인지 확인하고 만약, 분석이 불가능한 상태라면 분석 가능한 데
이터로 만들기 위해서 해야 하는 작업이 무엇인지 파악하는 단계입니다.

분석 가능한 데이터인지 확인하기 위해서는

1. 변수 유형 확인
2. 표준화의 필요성
3. 데이터량 확인

등의 3 가지 작업을 해야 합니다.

변수 유형 확인

데이터가 수집되고 나면, 분석을 하기 전에 변수의 유형을 확인하는 것이 필요합니다. 변수 유형은 다음과 같이 구분할 수 있
습니다.
ㆍ Character : 문자형 (예 : SB66885)
ㆍ Numeric : 숫자형 (예 : 34.6)
ㆍ Factor : 범주형 (예 : M/F)
ㆍ Integer : 정수형 (예 : 5)

예를 들어, 속도라는 숫자형 데이터에 ‘M’ 과 같은 변수의 유형에 맞지 않는 데이터가 포함되어 있을 경우, 확인하여 수정해
야 합니다. 그리고 각 변수들의 도메인을 확인하고 범위를 벗어나는 숫자나 (예를 들어, 나이가 999이거나 길이가 음수값 등) 범
주가 아닌 값(예를 들어, 중학생 학년 값에 1, 2, 3 이 외에 5학년 등) 이 있는 경우들을 확인해야 합니다.

표준화의 필요성

두 변수의 데이터를 비교하고자 하는 경우, 두 데이터의 단위가 달라서 비교하기 힘든 경우가 있습니다. 이러한 경우, 단위가 주
는 영향을 줄이고 데이터가 주는 크기 만으로 분석을 진행 하기위해 데이터를 표준화할 필요가 있습니다. 표준화는 다음과 같
은 방법을 이용합니다. 표준화 데이터는 (원 데이터  데이터의 평균) / 데이터의 표준 편차 값이며, 이는 평균을 기준으로 값이
얼마나 떨어져 있는지를 나타내는 값입니다.

 

데이터량 확인

데이터는 분석 결과의 신뢰성을 위해 최소한으로 요구되는 개수가 존재합니다. 주로 설명변수 개수의 3배 이상 정도가 되어

야 합니다.
데이터 가공
데이터 수집 후에는 데이터 가공을 실시합니다. 데이터 가공은 데이터 분석의 목적, 데이터 보존 상태, 데이터 형태 등에 따라
달라집니다.
① 데이터 결합, ② 목표 변수 생성, ③ 이산화 변수 생성 등의 방법으로 데이터 가공을 살펴보겠습니다.
1. 데이터 결합
데이터 분석에서는 분석하고자 하는 정보를 하나의 데이터 셋에 포함하는 것이 좋습니다. 즉, 분석하고자 하는 여러 데이터를 하
나의 데이터 셋으로 모으는 작업이 필요합니다. SQL, 엑셀이나 R 등을 사용하여 데이터를 결합하는 작업을 하게 됩니다.
2. 목표 변수 생성
분석의 목적에 따라 파생변수를 이용하여 목표변수를 생성할 필요가 있습니다.
예를 들어 사용자 데이터와 과금 데이터를 결합할 경우, 특정한 날에 과금이 되지 않은 사용자는 과금 데이터가 없기 때문에 결합
데이터에 포함되지 않는데, 이런 경우 ‘과금됨(1)/과금안됨(0)’을 나타내는 플래그를 지닌 변수를 새로 생성합니다.
3. 이산화 변수 생성
연속형 변수는 일반적으로 변환없이 사용하지만, 범주형 변수로변환하였을 경우 더 많은 인사이트를 얻는 경우들이 있습니다.
예를 들어 특정한 날의 사용자별 과금 데이터를 가지고 ‘많이 과금된 사용자, 보통 과금된 사용자, 조금 과금된 사용자, 전혀 과금
되지 않은 사용자’ 등 데이터로부터 사용자를 분류해서 분석할 경우, 분석 후의 행동에 대해 좀더 많은 정보를 얻을 수 있습니다.

데이터 전처리

이상값 처리
이상값이란, 변수의 분포에서 비정상적으로 벗어난 값으로 대표적으로는 Boxplot을 통해 분포 및 이상값을 확인할 수 있습니다.
이상값은 측정하거나 관찰할 때 잘못 기록하거나 다른 자료에 관찰값이 섞여서 발생하는 데이터의 오염, 원래 가지고 있던 자료의
고유 변동성 등의 이유로 생기는데 이를 제거하기 위해 검출하는 과정이 필요합니다. 이상값 검출 방법은 대표적으로

1. 3-Sigma 규칙
2. Box Plot 방법 등이 있습니다.

이상값 정제
이상값 검출 후 제거방법과 대체방법으로 이상값을 처리할 수 있습니다. 먼저 제거방법으로는 이상값을 제거한 후 양질의 자료
로 분석과 해석을 합니다. 그러나 가능하면 원인을 찾아내고 제거하도록 하며 잘못을 다시 반복하지 않게 하는 것이 중요합니
다. 다음으로 대체방법은 자료의 하한 또는 상한값을 산출하여 이상값을 대체합니다.

결측값 처리
데이터 포맷(관계형데이터베이스, 파일), 라벨링(유, 무)결측값이란, 값이 관측되지 않은 자료 또는 이상값으로 판단되어 제거된 자료입니다. 해당 칸이 비어 있는 경우 알기 쉬우며 보기에는 값이 관측된 듯 보이나 사실상 Default값이 기록된 경우도 있습니다.

결측값 정제
결측값 판정 후 1. 제거, 2. 평균 대치, 3. 단순 확률 대치, 4. KNN대치, 5. 다중 대치의 방법으로 결측값을 보정 처리합니다.

출처) Citizen Data Scientist를 위한 데이터 사이언스 캔버스
지은이 ㈜ 베가스 R&D Center

1

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다