데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[분석18기] 자동차 엔진오일 교환유형 분석을 통한 고객 이탈방지 및 서비스 개선

데이터 이야기
작성자
dataonair
작성일
2018-02-23 00:00
조회
4585


빅데이터 분석 전문가 18기

자동차 엔진오일 교환유형 분석을 통한 고객 이탈방지 및 서비스 개선



THE CHALLENGES

책이나 강연 등으로 접했던 빅데이터가 아니었다. 빅데이터 분석 전문가 교육 과정에 등록해 집체교육과 파일럿 프로젝트를 수행하면서 빅데이터를 몸으로 이해하게 됐다.

엔진오일 교환 패턴은 차주의 성향에 따라 매우 다양하다는 것을 알게 됐 다. 그래서 이 분석의 끝을 보고자 파일럿 프로젝트의 주제를 ‘자동차 엔진오 일 교환유형 분석을 통한 고객 이탈방지 및 서비스 개선’으로 정했다. 처음으 로 100만 건 이상의 데이터를 R과 오라클로 다루면서 파생변수 도출을 위해 많은 시간을 보냈다.

‘할 수 있다. 지금 이 시간을 함께하고 있음에 의미를 갖자’는 문구를 새기 며 분석에 들어갔다. 5가지의 분류 알고리즘의 5가지 기법(트리·랜덤포레스트· 로지스틱·신경망·딥러닝)을 통해 오분류율을 구할 수 있었다. 주성분분석(PCA 분 석)을 진행해 의미 있는 요인을 도출할 수 있었고, K평균 군집분석(k-means clustering)을 수행해 군집별 이탈결과를 확인할 수 있었다. 분석을 통해 얻은 결과를 스폿파이어(SpotPire)로 시각화해 결과를 더 쉽게 바라볼 수 있었다.



THE APPROACH

엔진오일 교환은 자동차 관리의 기본 사항이다. 엔진오일 교환 고객 유형 분석 을 위해 △지정 네트워크에 주기적 방문 고객 △외부 정비소 방문 고객 △관리하 지 않는 고객으로 구분해 특성 파악 및 이탈 고객 예측 모형을 개발하고자 했다.



데이터 수집

총 6년간의 출고 차량을 대상으로 지정 네트워크에 방문한 고객의 엔진오일 교환이력 데이터를 확보했다. 고객 정비소, 접근성, 차량정보 데이터만 수집 가 능하다고 정의했다. 총 150만 건의 엔진오일 교환 이력을 수집했다. 5년 간의 데이터로 모델을 생성하고, 1년간의 데이터로 모델 검증기간을 정의했다. 개인 정보, 수리정보, 행사정보 등 추가정보를 확보할 수 없어서 제한된 데이터로 분 석했다.



데이터 탐색

데이터 현황 파악 및 이상치 제거 분석집단 정의를 위해 엔진 교환 이력에 대 한 시각화 분석을 했다.



엔진오일 교환 이탈률 분석

엔진오일 교환 시 직영 네트워크 이탈이 많은 집단을 개인속성, 차량속성 등으 로 일차적으로 살펴보았다. 차량·차량 스타일·차량 크기별로 이탈률과 비중이 달랐으므로 사전 데이터 분석을 하여 분석 차량을 정의했다.



차령에 따른 오일 교환주기와 주행거리의 차이 분석

차령(車齡)이 증가할수록 평균 엔진오일 교환 주기가 길어지는 것으로 나타났 다. 차량 이용 빈도가 낮아지면서 엔진오일 교환 주기도 길어지는 것이다. 하지 만 평균 주행거리는 일정하게 유지되는 패턴을 보였다.

성별에 따른 교환 특성을 비교해 보았다. 여성 오너의 엔진오일 교환 패턴 이 남성 오너에 비해 상대적으로 불규칙했다. 이는 차량에 대한 관심도가 남성 에 비해 상대적으로 낮아서 발생하는 현상이 아닐까 하는 결론을 내렸다.



column_img_3286.jpg

[그림 1] 엔진오일 교환 이탈률 분석

column_img_3287.jpg

[표 1] 파생변수 리스트

고객 이탈에 영향을 줄 것으로 예상되는 파생변수 생성

수집된 데이터만 갖고는 이탈고객을 예측하는 데 한계가 있었다. 수집한 데이 터 안에서 이탈과 관련이 높은 파생변수가 어떤 것인지를 고민했다. 외부정보 중 활용 가능한 정보를 추가로 수집해 모델의 예측력을 높이기로 했다. 교환이 력 정보를 활용해 교환주기, 교환횟수 등의 변수를 생성했다. 외부정보로는 지 역별(정비) 네트워크 영업소 수를 확인해 네트워크 접근성이라는 파생변수를 확보했다.



분석 목표 정의

분석 목표는 크게 이탈을 예측하는 모형을 생성하고, 세그먼트별로 고객의 특 성을 정의해보는 것으로 잡았다. 이탈고객 예측을 위해 일반적으로 널리 사용 되는 트리, 로지스틱, 신경망, 랜덤포레스트, 딥러닝 예측 알고리즘을 적용했 다. 최근 많이 사용된 딥러닝 알고리즘을 특별히 예측 알고리즘으로 사용해 기 존 머신러닝 성능과 비교했다.

타깃 마케팅 분석은 수집 데이터를 주성분 분석으로 데이터의 개념을 파 악하는 것을 목표로 했다. 추가적인 비즈니스 도출을 위해 군집분석으로 특성 을 분석하기로 했다. 도출된 결과는 시각화 툴을 이용하여 지역별·군집별 특성 이 존재하는지 탐색하기로 했다.



예측 모델링

이탈 정의

2년 후 고객 이탈유무를 예측하는 모형을 생성하기 위해 직전 방문 이력이 18 개월 이상이면서 직전 방문 시 교환거리 1만 5000킬로미터 이상이라는 두 조 건을 만족하는 차량을 이탈로 정의했다. 우리나라는 도로가 좁고 짧으며, 신호 가 많아서 급정거·급제동이 빈번하게 발생한다. 이에 따라 이탈을 정의하는 부 분에서 어려움을 많이 겪었다. 또한 운전자의 성격에 따라 많게는 6개월에 2번 교환하는 소유주도 있었다. 반면 24개월이 지나도 한 번도 교환하지 않는 경우 도 있었다. 이 부분을 어떻게 정의해야 할지 고민에 빠졌다. 하지만 데이터를 탐색하던 중, 18개월 이내에 교환 거리 1만 5000킬로미터 이내에 교환하는 경 우가 약 70%를 차지하고 있음을 알게 됐다. 이에 따라 우리 조는 18개월 이상 에 1만 5000킬로미터 이상인 차량들을 이탈로 정의하기로 결정했다.



데이터 기간 정의

이탈모형을 생성·테스트하기 위해 2006년에서 2010년까지 5년 간 출고된 차량들의 출고 시점으로부터 2년 도달 시 이탈 여부를 타깃으로 정의했다. 총 150만 건의 교환 이력을 차량별로 집계해서 약 20만 대의 차량정보를 얻을 수 있었다. 이탈모형 검증을 위해 테스트 기간을 2011년 1년으로 정의했다. 가장 우수한 모델로 테스트 데이터를 검증해 모델 적합도를 평가했다.



column_img_3288.jpg

[그림 2] 자동차 엔진오일 교환 데이터 분석 프로세스

데이터 전처리

20대의 이탈률은 66%로 매우 높았다. 이탈모형 생성 시 적합력을 떨어트릴 수 있는 출고 후 5년 동안 4회 이내 방문 이력을 가진 차량을 제외했다. 성별· 연령 등의 변수 중 오류 데이터를 제외해 총 10만 대의 차량을 분석 대상으로 정의해 이탈모형을 생성했다. 최종 분석 대상인 10만 대의 이탈률은 약 33%로 관측됐다.



모델 성능

모형 적합 결과 오분류율로 모델의 성능을 평가했으며, 리프트로 효율성을 검 증했다. 그 결과 ▷딥러닝 0.18 ▷랜덤포레스트 0.20 ▷로지스틱 0.28 ▷트리 0.29 ▷신경망 0.30 순으로 나타났으며, 딥러닝을 적용했을 때 가장 뛰어난 성 능을 보였다. 최근에 나온 랜덤포레스트와 딥러닝이 높은 적합도를 갖고 있음 을 확인할 수 있었다. 가장 높은 성능을 보였던 딥러닝 알고리즘을 데스트 데이 터에 적용해 보았다. 그 결과 오분류율은 0.25로 모형적합 결과 테스트를 했을 때보다 다소 높아졌다. 하지만 큰 차이를 보이지 않아 이탈모형을 적는 랜덤포레스트가 높은 성능을 보였다.



중요 변수

각 알고리즘을 통해 나온 중요변수를 정리했다. 교환패턴 속성과 차량속성 변 수가 많이 도출됐으며, 각각 변수의 중요도는 트리분석을 통해 살펴보았다.

- 교환 패턴 속성: 교환거리, 교환횟수, 교환개월로 꾸준히 관리하는 군집의 이탈률이 낮음
- 차량 속성: 차종, 배기량 속성을 기준으로 대형 차종이 이탈률이 높음



트리모형 결과

가장 높은 영향력을 갖는 변수를 트리모형으로 살펴보았다. 트리모형의 결과 는 높은 적합도를 보이지 못했다. 두 가지 변수만 도출되어, 가지치기 옵션을 조정해 추가적으로 유의한 변수를 조금 더 도출했다. 결과는 평균 교환거리, 교 환횟수, 차종 등의 변수가 유의했다.



고객 분석과 시각화 분석

데이터의 속성을 파악하기 위해 PCA 요인분석을 했다. 의미 있는 요인으로는 4~5년 교환주기, 이탈여부, 꾸준한 관리, 개인속성이라는 4개가 도출돼 데이 터의 속성을 파악하는 데 도움을 얻을 수 있었다.

K평균 군집 분석의 결과로는 1)꾸준한 관리·교환거리는 증가 2)2년~5년 차에 반짝 방문 3)꾸준히 교환 안 함 4)3년부터 꾸준히 관리하는 교환패턴이 발견되었으며, 개인속성은 큰 영향을 주지 않는 것으로 분석됐다.

생성된 데이터는 최근 많은 분야에서 활용되고 있는 시각화툴인 스폿파이 어를 활용했다. 30일 무료 버전을 이용해 군집별로 엔진오일 교환패턴이 지역 에 따라 다른지를 살펴보았으며, 데이터의 드릴다운을 통해 추가적인 비즈니 스를 도출했다.



분석결과 활용방안

연령대별 엔진오일 교환패턴을 분석해 활용하고, 차량 등록 대수가 적은 지역 의 교환 패턴을 분석해 맞춤 서비스 등에 활용할 계획이다.

본 프로젝트를 통해 연령별도 마케팅 계획을 세워보았다. ~20대, ~50대, ~시니어층으로 구분하고 각각의 프로모션 활동을 정의했다. 호기심이 많은 20 대에게는 마일리지별 교환쿠폰(1만 마일리지 운행기념)을, 차에 대해 자세히 모르 지만 아끼는 ~50대에게는 마일리지별 자가 정비용품을, 방문이 힘든 시니어 층에게는 찾아가는 서비스 또는 우선 예약제 등의 프로모션 안을 도출했다.



column_img_3289.jpg

[그림 3] 군집별(K-Means) 차량 선호도 및 평균 교환거리

THE OUTCOME

2주 간의 집체교육을 받고 파일럿 프로젝트를 시작할 때 과연 우리가 잘해낼 수 있을까 하는 막연한 두려움과 설렘이 교차했다. 다행히 파일럿 프로젝트 시 작 전에 많은 얘기들을 나누었고 조원들의 열정이 높아 분석 주제를 빠르게 정 해서 진행할 수 있었다.

자동차 엔진오일 교환 패턴 데이터로 고객이탈을 예측하기 위해 중요변수 를 도출하여 트리, 랜덤포레스트, 로지스틱, 신경망, 딥러닝의 알고리즘을 적용 하고 마케팅 방안 도출을 위해 주성분분석과 K평균 군집분석 기법을 적용했 다. 데이터를 분석한 결과, 고객 이탈 예측에서는 차주변경 여부와 차량 연식이 고객 이탈과 관련이 높았다. 차량 타입, 성별, 접근성에 주안점을 두고 마케팅 계획을 도출해야 할 것으로 나타났다. 특히 여성 자동차 소유주가 남성에 비해 오일교환 주기가 덜 규칙적이므로 여성 운전자에 특화한 생활 정보와 결합된 알림 서비스 등으로 타깃 마케팅 등을 기획하면 충성 고객 유치에 도움이 되지 않을까 하는 결론을 내렸다.

데이터 수집에 한계가 있어 다양한 분석을 하지 못한 점은 아쉬웠지만 향 후 수집하지 못했던 데이터를 확보해 분석한다면 좀 더 다양한 결과를 도출할 수 있을 것이다.

분석 프로젝트를 경험해 본 사람이라면 공감할 것이다. 실제 데이터 수집 과 분석에 들어가는 시간보다 고민하고 뭔가를 결정하는 데 더 많은 에너지와 시간을 투입할 수밖에 없다는 것을 말이다. 물론 쓸모없이 보낸 시간은 아니다. 그 시간은 오리가 물에 떠 있기 위해서 수면 아래에서 물갈퀴를 열심히 젓는 순간이 아닐까 한다. 우리가 그랬듯이 후배들도 고민의 시간이 필요할 것이다. 그 시간이 앞으로 나아가는 힘을 비축하게 할 것이라고 믿는다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net