데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[분석12기] 아파트 가격에 영향을 미치는 요인 찾기

데이터 이야기
작성자
dataonair
작성일
2016-12-08 00:00
조회
4108


소음이 될뻔한 결과를 신호로! 위기극복의 자세를 배우다

아파트 가격에 영향을 미치는 요인 찾기



최근 전세 값이 많이 상승하면서 아파트 구매를 고려하는 사람들이 늘고 있다. 하지만 구매할 아 파트의 가격이 오를지 내릴지 확신이 서지 않아 고민도 덩달아 커진다. 워낙 큰 금액을 투자해야 하기 때문에 신중을 기할 수밖에 없기 때문이다. 분석전문가 과정 12기는 아파트 가격에 영향을 미치는 요인을 파악해 아파트를 구매하는 데 도움을 주고자 했다.



The Challenges

재태크에 대한 관심으로 촉발되다

빅데이터 아카데미 첫날 자기소개를 하고 프로젝트 조를 구성해 함께 식사하는 자리에서 조장으로 선출됐다. 프로젝트는 2주간의 이론 교육이 끝난 후 6주간 이어지는데 주제 선정과 데이터 수집에 시간이 너무 많이 걸린다고 했다. 첫날부터 조 를 배정한 이유도 부족한 시간을 보충하기 위한 것이었고, 점심식사 때마다 논의를 해야 한다는 것이다. 점심시간에 증권 회사 출신의 조장인 나는 펀드수익률 예측을 주제로 해보자는 아이디어를 냈고 다른 조원들 모두 이에 동의했다.

주제가 정해지고 데이터도 준비된 상태에서 마음 편하게 식사를 하면서 주식, 펀드, 부동산 등 재테크와 관련된 얘기가 계 속 이어졌다. 특히 조원 중 박신명 씨가 재테크와 관련해 다방면에 지식을 가지고 있어 안심이 됐다. 최근에 아파트 전세값 이 너무 많이 올라 전세를 구할 수 없어서 결국 아파트를 구입했다는 조원도 있었다.

매일 점심시간마다 주식, 아파트 가격에 대해 이야기를 나누다가 최근 김포에 아파트 가격이 많이 올랐다는 내용이 화제 에 오르면서 새로운 주제에 대한 논의가 시작됐다. 아파트 가격에 영향을 미치는 요인을 찾을 수 있다면 엄청난 금액이 투 자되는 아파트를 구매할 때 도움이 될 수 있을 것이라는 기대감도 있었다. 일명 ‘아파트 가격에 영향을 미치는 요인 찾기’ 로 프로젝트 주제가 결정되는 순간이었다.



The Approach

손품 팔아 부천지역 아파트 관련 데이터 수집

인터넷으로 검색을 하면 ‘아파트 고르기 10계명’이란 글이 나온다. 단지 규모가 큰 곳, 동간 거리, 녹지 공간, 용적률, 역세 권, 평형, 학군 등 고려할 요소가 다양하다. 먼저 이러한 다양한 변수들에 대한 데이터 수집이 필요했다.

우선 아파트 가격은 2006년부터 국토교통부 실거래가가 제공되고 있어 쉽게 구할 수 있었다. 출발이 순조로웠다. 하지만 순조로운 일은 딱 거기까지였다. 아파트 인근 초·중·고등학교의 학업성취도 자료, 아파트 인근 지하철(버스)의 거리, 아파 트 인근 녹지공원까지의 거리 등의 자료를 수집하고자 다방면으로 시도했으나 전국의 아파트별로 해당 데이터를 제공하 는 곳은 한군데도 없었다.

그렇다고 여기서 멈출 수는 없었다. 조원들과의 지속적인 토의 끝에 전국의 아파트 정보를 전부 수집할 수는 없지만 특정 지역으로 한정한다면 데이터 수집이 가능할 수도 있다는데 생각이 미쳤다. 그래서 조원들 중 2명이 거주하는 부천으로 지 역을 정하고 데이터를 수집하기로 했다.

부천에는 아파트 단지가 2,713개가 있었다. 부천시 통계청에서 동별 상권, 소득, 교육비 등을 추출했고, 다음부동산에서 세 대 수, 준공 연월, 용적률, 면적 등을 아파트별로 검색해서 찾아냈다. 교육 수준 데이터를 얻기 위한 기초자료 중 학업성취 도를 찾아내기 위해 00개 초등학교, 32개 중학교, 28개 고등학교 홈페이지에 접속해 해당 데이터를 수집했다. 데이터를 수집하는 과정이 힘들고 어려워서 포기할까 하고 망설였던 순간도 적지 않았다. “이건 그냥 빼고 해도 될 것 같다”는 조장 의 의견에 조원들은 “역세권, 학업 성취도, 공원 정보 등은 포기할 수 없다”며 끝까지 데이터를 수집했다. 분석을 위해서 반 드시 필요한 변수라면 힘들더라도 끝까지 포기하지 않는 분석가의 열정을 보여준 것이다.

교육 전에 R 코드로 분석을 해본 경험을 가진 조원은 한 명도 없었다. 조장인 나는 조원들이 데이터를 수집하는 동안 2주 간 교육받은 내용과 교재를 바탕으로 R을 이용해 EDA(Exploratory Data Analysis; 탐색적 자료 분석) 및 상관분석을 수 행했다. 회귀분석을 이용해 아파트 가격 예측 모델을 만들면 아파트 가격에 영향을 미치는 요인을 파악할 수 있다는 판단 때문이다.



> fit < - lm(price ~ area+year_of_construct+yyyy+floor, data=db_data_01)
> summary(fit)
Call:
lm(formula = price ~ area + year_of_construct + yyyy + floor,
data = db_data_01)
Residuals:
Min 1Q Median 3Q Max
-30612 -3266 -40 3115 65077
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.232e+06 2.480e+04 -49.66 < 2e-16 ***
area 3.771e+02 1.320e+00 285.62 < 2e-16 ***
year_of_construct 2.494e+02 5.050e+00 49.38 < 2e-16 ***
yyyy 3.626e+02 1.188e+01 30.53 < 2e-16 ***
floor 2.821e+02 5.733e+00 49.22 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5866 on 33012 degrees of freedom
Multiple R-squared: 0.7885, Adjusted R-squared: 0.7884
F-statistic: 3.076e+04 on 4 and 33012 DF, p-value: < 2.2e-16<그림 2> 데이터 수집 전 국토거래부 실거래가 자료만으로 한 회귀분석



db_data_02 < - sqldf("select dangi, area, floor
, max(year_of_construct) as year_of_construct
, MAX(B.V9) as sede_su
, MAX(B.V15) as high_class2
, MAX(B.V21) as nanbang_fuel_code
, MAX(B.V22) as youngjuk_rate
, MAX(B.V33) as hyunguan_gujo_code
, MAX(B.V35) as washroom_cnt
from DT A, DT_APT B
where A.dangi = B.V5
AND A.area = B.V6
AND yyyy>= 2006 AND YYYY< =2014
AND B.V14 > 0
AND B.V15 > 0
group by dangi, area, floor
" )
for(i in 1:NROW(db_data_02)){
if(i==1){
predict2 < - predict(fit,newdata = data.frame(year_of_construct=db_data_02$year_of_construct[i]
,yyyy=2015
,area=db_data_02$area[i]
,floor=db_data_02$floor[i]
,sede_su=db_data_02$sede_su[i]
,high_class2=db_data_02$high_class2[i]
,nanbang_fuel_code=db_data_02$nanbang_fuel_code[i]
,youngjuk_rate=db_data_02$youngjuk_rate[i]
,hyunguan_gujo_code=db_data_02$hyunguan_gujo_code[i]
,washroom_cnt =db_data_02$washroom_cnt[i]
), interval = "prediction")
predict < - cbind(db_data_02[i,1:10],predict2)
}else{
predict2 < - predict(fit,newdata = data.frame(year_of_construct=db_data_02$year_of_construct[i]
,yyyy=2015
,area=db_data_02$area[i]
,floor=db_data_02$floor[i]
,sede_su=db_data_02$sede_su[i]
,high_class2=db_data_02$high_class2[i]
,nanbang_fuel_code=db_data_02$nanbang_fuel_code[i]
,youngjuk_rate=db_data_02$youngjuk_rate[i]
,hyunguan_gujo_code=db_data_02$hyunguan_gujo_code[i]
,washroom_cnt =db_data_02$washroom_cnt[i]
), interval = "prediction")
predict_col< - cbind(db_data_02[i,1:10],predict2)
predict < - rbind(predict, predict_col)
}
}
<그림 3> 회귀분석을 통한 단지, 평형, 층별로 아파트가격 예측 프로그램 완료



dbin_553.jpg

<그림 4> 로지스틱 회귀분석 방법

추석 휴가도 있고 조원들이 현업으로 복귀하면서 데이터 수집이 생각보다 오래 걸려 발표 2주를 남겨두고 완료할 수 있었 다. 그런데 막상 분석을 하려고 보니 데이터는 ‘2호선 700m, 7호선 300m’ 이런 식으로 되어 있었으며, 아파트별로 초등 학교, 중학교, 고등학교가 여러 개 존재하는 상황이었다. 해당 데이터를 점수화 하는 작업으로 1주일이 더 소요됐다. 발표 를 1주일 앞두고서야 비로소 회귀분석을 통해 모든 아파트 단지와 층별 가격을 예측할 수 있는 준비를 마칠 수 있었다



멘토의 극적인 도움으로 로지스틱 회귀분석 시작

발표 1주일을 남겨두고 해냈다는 자신감을 안고 멘토인 오원기 강사와 만남을 가졌다. 자신만만하던 우리에게 멘토는 “수 집한 데이터로는 회귀분석으로 예측할 수 없다”는 청천벽력과 같은 답변을 건넸다. 회귀분석은 종속변수에 연도별 가격이 들어가는 것은 맞지만 변수 또한 연도별로 변하는 값이여야 향후 아파트 가격을 예측할 수 있다는 것이었다. 처음에는 무 슨 말인지도 몰랐고 듣고 싶지도 않았다. 그냥 이대로 프로젝트를 마무리 하고 싶은 생각뿐이었다.

멘토가 솔루션을 제시했다. 로지스틱 회귀분석을 통해 아파트 가격 상승률에 영향을 미치는 요인을 파악할 수 있다는 것 이었다. 아파트 가격이 상승한 것은 1, 상승하지 않은 것은 0으로 종속변수를 가져가면 2014년 대비 2015년에 가격이 상 승한 요인을 파악할 수 있다는 얘기다.

그러나 로지스틱 회귀분석을 해본 사람은 조원 중에 아무도 없었다. 여기서 또 멘토는 아파트를 그룹화해 해당 그룹별로 예측 모델을 만들면 가격 예측이 가능하다는 해 결책을 내놓았다. 그래서 우선은 아파트 규모별 (대·중·소), 교육수준별(상·중·하), 역세권(상·중· 하)별로 27개의 그룹으로 분류해 예측모델을 만 들기로 했다. 27개의 그룹을 재정비하는 동안 조 장은 교재를 보고 교육기간중에 들었던 내용을 떠올리며 R을 이용해 로지스틱 회귀분석을 하기 로 했다. 저녁 6시가 되서 교육실을 비워주어야 했다. 우리는 다시 모일 수 있는 시간이 없다는 생 각에 종각 근처에 카페에서 10시까지 로지스틱 회귀분석과 발표자료를 수정하고 나서야 집으로 돌아갈 수 있었다.



dbin_554.jpg

<그림 5> 분석결과 화면

The Outcome

합리적인 아파트 선택을 돕는 프로그램으로 개선

빅데이터 분석을 통해 아파트는 최근에 건축하고 거래 건수가 많으며, 인근에 버스정류장이 많고, 최고층이 높고, 아파 트 평수가 작고, 세대가 작고, 난방 방식이 안좋을수록, 건폐율이 낮을수록 가격이 상승한다는 결론을 도출할 수 있었다. 2015년에 아파트 가격 상승폭이 높은 아파트는 평수가 작고, 세대수가 작은 아파트로 추론할 수 있지만 연도별, 지역별로 아파트 가격 상승에 영향을 미치는 요인은 달라질 수 있을 것이다.

향후에 기회가 된다면 아파트와 관련된 교육 정보, 공원 정보, 지하철, 버스 정보를 DB화 하고 최근 거래 가격의 추이를 반 영해 아파트 가격에 영향을 미치는 요인을 분석해 일반인들에게 제공하고 싶다. 잠재적인 아파트 구매자들 모두가 쉽게 정보를 이용해 현명한 선택을 할 수 있도록 도와주고 싶다는 마음이다.

이제 빅데이터 아카데미 프로젝트는 모두 끝났다. 집체교육이 끝나고 프로젝트가 시작되면서 일주일이 너무 빨리 지나갔 다. 그 기간 동안 우리는 업무 분장 및 진행 현황에 대해서는 밴드로, 수집된 데이터와 R코드를 공유하는 채널로는 에버노 트를 사용해가며 최종 결과물을 만들어낼 수 있었다. 없는 시간을 쪼개고 쪼개면서 통계 분석과 관련된 전반적인 흐름을 파악할 수 있는 성과를 얻었다. 노력하고 인내하는 자만이 결실을 맺을 수 있다는 평범한 진리를 되새긴 것도 또 다른 성과 일 것이다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net