데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[분석19기] 기계학습 방법을 활용한 신도시 아파트 가격변동 요인 분석

데이터 이야기
작성자
dataonair
작성일
2018-04-05 00:00
조회
14916


빅데이터 분석 전문가 19기

기계학습 방법을 활용한 신도시 아파트 가격변동 요인 분석



THE CHALLENGES

데이터를 잘 다뤄보고 싶다는 목표를 갖고 모인 교육생들이 2주 동안 하루 8시 간 넘게 수업을 받았다. 정보기술 업계에서 일하는 사람이 한 달의 절반을 일 터가 아닌 교육장으로 나가는 경우는 흔한 일은 아니다. 이 귀중한 시간을 어 떻게 활용해야 할까 우선 재미가 있어야 뭔가 몰입할 수 있지 않을까 하는 생 각에 이르렀다.

흥미로워야 한다는 기준에 맞춰 신도시 아파트 가격 변동요인 분석을 주 제로 잡았다. 남의 얘기가 아닌 우리들의 얘기이자 관심거리이기에 프로젝트 과정 중에 배우는 것도 적지 않을 것이라는 기대도 했다. 그래서 서울 근교 신 도시를 중심으로 아파트 매매가격 변동에 영향을 미치는 주요 환경요인들이 무엇인지 기계학습 기법을 이용하여 분석해 보았다. 분석 과정은 해당 아파트 단지에 대한 평판분석을 위해 신문기사, SNS 등에서 추출된 긍정 또는 부정적 인 단어 횟수 추이와 실매매가 추이 간 연관성 분석 및 주변 환경요인과의 연 관성을 중심으로 진행되었다.



주택가격 변동요인

주택가격에 관한 이론 또는 연구의 기본방향은 주택가격에 영향을 미치는 요 인에 대한 분석(주택가격 형성)과 주택가격의 변동 및 상승 및 하락에 영향을 미 치는 요인에 관한 연구(주택가격 변동) 등으로 나눌 수 있다.

주택가격 형성은 크게 사회적 요인, 경제적 요인, 행정적 또는 규제 요인, 그리고 토지 자체적 요인 등에 영향을 받는 것으로 알려져 있다.1 사회적 요인 이란 인구, 가구 구성 등을 의미하며 경제적 요인은 저축, 소비성향 수준 및 물 가, 임금수준, 고용환경 등이 주된 요인으로 꼽힌다.

반면 주택가격 변동에 영향을 미치는 요인은 수없이 많을 수 있다. 주택 수 요자가 거주 형태 선택 시 선호하는 환경은 각각 다를 수밖에 없기 때문이다. 예를 들어 아파트 브랜드, 단지 규모, 전용 면적, 건축 년도, 층수 등 주택 자체 에 대한 선호도와 학군 및 미래교육 여건 변화 가능성, 교통으로 대변되는 거 주지 주변 접근 용이성과 개선 가능성(지하철 개통 예정 등), 주변 관공서 존재 여 부, 생활편의 시설 등을 들 수 있다.



분석 목표

주택가격 변동 요인 분석에 초점을 맞췄다. 주택가격 변동은 실제 매매가격 변 동률을 기준으로 했다. 변동 요인으로는 앞서 소개한 변동 요인 전체를 고려할 수도 있지만, 데이터 접근이 용이한 공개 데이터 위주로 선택했다. 분석 목표는 크게 두 가지로 1)특정 지역에 대한 부동산(아파트) 관련 기사와 커뮤니티에서 그 지역에 대한 긍정 또는 부정적 평가 정도(횟수)가 실제 매매가격 변동 패턴 과 유의미한 상관관계가 있는지 여부, 2)매매가격 상승률을 상위/하위 등 일정 구간으로 구분한 뒤 군집분석을 통해 상승률 구분에 영향을 미치는 주요 환경 요인이 무엇인지 알아보는 것으로 목표를 수립했다.



THE APPROACH

기초 데이터의 분류

본 프로젝트 분석 목표에 필요한 기초 데이터는 크게 세 가지로 분류된다.

① 아파트 실거래가 데이터: 국토교통부 실거래가 공개 시스템 월별 자료
(http://rtdown.molit.go.kr/download/downloadMainList.do)
② 아파트 단지 주변 환경에 대한 정형 및 비정형 데이터: 공동주택관리정보시스템
(K-apt, http://www.k-apt.go.kr)
③ 특정 지역 아파트에 대한 기사, 의견 등 비정형 텍스트 데이터: 신문기사



기초 데이터 수집

기초 데이터 수집방법으로 채택한 크롤링(Crawling) 기법은 웹 페이지를 그대 로 가져와 내재 데이터를 추출해 내는 방법이다. 먼저 국토교통부 실거래가 공 개시스템(http://rt.molit.go.kr)에서 X 및 Y 아파트 실거래가에 대해 크롤링 작 업을 실시했다. 실거래가 정보를 JSON 포맷으로 가져와 파싱 후 MariaDB에 저장하는 방식을 택했다.

한편 국토부 실거래가 공개시스템은 크롤링을 중간에 차단하므로 완벽하 게 데이터를 수집할 수 없다. 아파트 단지에 관한 기사, 의견, 댓글 등에 대한 정보 수집은 아래와 같은 순서로 진행하였다.

① 신도시(X, Y)에 기사 데이터는 조선일보 사이트에서 크롤링으로 수집(10년 치 기사)
② 의견과 댓글 데이터는 네이버 ‘지식in’과 ‘82cook.com’에서 수집
③ 각각의 기사 및 의견·댓글에 대해서 월 단위로 데이터를 통합 분류해 감성분류기로 분석

기사 및 댓글 내용의 긍정적/부정적 요소를 도출하기 위한 감성 분석은 부 동산 관련 평가 데이터를 구할 수 없었으므로 영화의 평가 데이터를 기준으로 실시했다. KoNLPy로 데이터 전처리 작업을 수행했고 NLTK로 데이터 탐색, 형태소로 tokenizing 과정을 거쳐 Naive Bayes Classifiers를 적용했다. 테 스트 데이터에 대한 정확도는 0.80 정도였다.



특징 추출과 분석모델 설정

감성 분석 분석대상 아파트 단지는 경기지역 신도시 중 거래량이 상대적으로 많고 감성 분석 데이터가 많은 A지역 X단지, B지역 Y단지를 선택했다. 주요인 및 분석 방법론은 다음과 같다.

column_img_3331.jpg

각 단어출현 횟수 증가율과 실매매가 변동률 간 상관관계 분석을 위하여 파이썬에 내재된 통계모듈과 디시전트리 알고리즘을 이용했다. 일반적인 교차 상관관계 분석과 비교해 디시전트리 방법의 성능분석에 초점을 맞추고자 했다.

환경요인 분석
특정 단지 주변환경 요인이 실매매 가 변동률에 미치는 영향을 분석하기 위해서는 먼저 변동률 자체를 구분할 필요가 있다. 어느 지역 전체 아파트 가격이 올랐을 경우, 특정 단지를 둘 러싼 환경적 요인에 의해 그 단지의 오름세가 더 크게 나타날 수 있고 이 때 그 요인이 무엇인지 알고자 하기 때문이다. 실매매가 변동률 및 분석 에 이용한 feature 정의를 했다. 분 석기간은 2012년부터 2016년까지 총 6개 데이터세트를 마련했다.

column_img_3332.jpg

각 요인들이 변동률 구간을 효과적으로 구분하는지 여부를 알기 위하여 본 프로젝트에서는 SVM(Support Vector Machine) 학습법을 적용시켜 보았다. 먼저 감성분석 결과를 살펴보자. 상기 데이터세트에 대한 디시전트리 학습 결 과 Y지역의 경우 모델학습 정밀도(precision)는 99%를 보였으나 모델 유효성 (validation) 결과는 76%로 감소했다. 이는 특정 지역에 대한 긍정 및 부정 출 현 횟수 증가율 데이터가 부족하고, 과거 기간 또한 짧기 때문인 것으로 판단 된다. X 지역 역시 비슷한 양상을 보였다.

아파트 거래량과 매매가격 사이의 관계를 알아보기 위해 Y지역 데이터를 이용한 SVM 분석을 해보았다. 통상적으로 뚜렷한 분류가 가능할 것으로 예상 했으나 데이터 부족으로 만족할 만한 성과는 내지 못했다.

다음으로 주요 요인 간 상관분석을 실시했다. X지역 아파트 단지에 대 해 아파트 가격과 브랜드 가치는 상관관계가 있으나(대립가설 성립), 설명력은 43%로 산출됐다. 가격 상승률과 브랜드 가치 역시 상관관계가 있으나(대립가설 성립), 설명력은 56% 정도였다.



column_img_3333.jpg

THE OUTCOME

파일럿 프로젝트에서 수도권, 특히 신도시 중심으로 아파트 매매가격 변동에 영향을 미치는 주요 환경요인들이 무엇인지 분석했다. 프로젝트의 첫 번째 목 표는 집체교육 과정에서 습득한 기계학습 방법론을 실제로 적용해 보면서 분 명하게 이해하는 것이었다.

진행 과정 및 결과 분석에서 도출된 시사점은 예상 외로 국내 주택관련 데 이터의 정리와 체계가 매우 허술하다는 점이다. 주소 체계가 다른 점부터 시작 해 같은 아파트 단지에 대한 환경적 요인이 데이터 제공 주체에 따라 다른 경 우가 많아 어떤 기관의 데이터를 사용할지를 놓고 혼란스러웠다.

기계학습을 통한 감성분석과 환경요인을 분석해 주택가격 변동에 대한 민 감도 분석을 할 수 있다. 이를 위해서는 요인 변동 이벤트, 예를 들어 지하철 개 통예정 발표 이후 주택가격 변화 추이에 대한 데이터가 축적돼야 분석할 수 있 다. 본 프로젝트 데이터세트에서는 방금 소개한 이벤트가 포함되지는 않았다.

요인분석의 또 다른 응용으로 관심지역의 환경요인 구조와 같은 구조를 가진 계산된 모델결과를 이용해 관심지역 주택가격 변동에 대한 확률적 추론 을 생각해 볼 수 있다. 더 나아가 지역별 특성을 더 세분화해 분석함으로써 지 역별 적정 주택가격 수준에 대한 지도(map)를 작성하고 실거래가 추이로부터 안정적인가, 과열인가, 투기 상태인가 등을 판정하는 보조 도구로 활용할 수 있 을 것이다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net