데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

R이야기 #1

데이터 이야기
작성자
dataonair
작성일
2015-01-30 00:00
조회
5630


R이야기 #1

2015년 1월 기준 R package수가 6천개를 훌쩍 넘었다. 몇 년전만 해도 4천개 수준이던 기능들이 활발하게 추가된 덕분이다. 그리고 최근 Revolution Analytics사가 MS의 품에 안기었다. 예상된 결과지만 분석솔루션이 합병되고 나면 국내에서는 조용해지는 성향이 있어서 아쉽기도 하다.

2015년은 특히 빅데이터 분석관련 R교육이 활발하게 확산되고 있는 점에서 매우 고무적이고 빅데이터 아카데미 분석가 과정을 나온 분들이 진행하는 강의도 많아지고 있는 점도 매우 기쁘다. 그만큼 빅데이터 아카데미가 국내 분석업계에 큰 기여를 하고 있다는 점이다. 특히 경기도 빅데이터 교육도 80시간 과정으로 설계되는 등 벤치마킹의 대상이 된점은 더욱 고무적이나 경기도민으로 제한한 것은 아쉬움이 남는다.

2013년에는 tm, KoNLP 등의 Text Mining의 소개와 관련 페키지들을 많이 알리는데 노력했다면 2014년은 Quandl, quantmod, TTR 등의 주식투자 관련 패키지들과 비정형 데이터인 음성과 사운드 관련 패키지들인 tuneR, seewave, raster 등을 확산시키고, Discrete Event Simulation에 사용할 수 있는 simmer를 소개했고 또한 다양한 모델들을 시도했다. 2015년에는 python과의 연동 및 Deep Learning관련 기능들로 더 다양화를 시도해 보고자 한다.

R관련 재미 있는 시도는 작은 컴퓨터인 라즈베리 파이에 R을 설치해서 사용해본 경험이다. 원래 목적은 강아지에게 부착을 해서 짖는 소리를 식별해서 음성으로 변환해서 들려주는게 목적이었는데 꽤 잘 돌아가는 것을 보고 다양한 응용을 생각하고 있으며 2015년 교육에서는 다양한 시도를 교육시간에 시도해 보고자 한다. 그리고 모델링은 지난 분석6기 5조에서 다룬 내용으로 아쉬움이 있는 메이저리그 승부 예측을 다루어 보고자 한다. 관련 내용은 R이야기에서 지속적으로 데이터 획득에서 모델링과 예측에 이르기 까지 다루어 보겠다. 메이저리그를 선택한 이유는 국내 프로야구 데이터는 획득이 어렵기 때문이고 메이저리그 데이터는 획득 및 다양한 통계 데이터가 풍부하다. 특히 게임수가 많기 때문에 예측을 하고 검증하는데 짧은 주기로 할수 있어서 유리한 점이 있다.

데이터 획득은 www.retrosheet.org에서 획득이 가능하다. 이곳에 들어가 보면 단순한 페이지 내용에 링크가 잘 정리되어 있는점이 매우 인상적이다. 쓸데 없이 화려한 우리나라 페이지에 비해 웹싸이트의 주 기능에 집중한 점이 보인다. 연도별로 클릭을 하면 zip파일로 다운되고 압축도 깔끔하게 풀리며, 정보를 보고 싶은때는 링크에 별도로 제공되는 EXE실행파일을 이용해서 정보를 추출할 수 있다. 내용을 보면 경기별 선수명단과 홈런/안타/실책/득점 등의 정보가 제공되고 있다. 따라서 이러한 내용을 이용해서 데이터 마트를 만들어서 모델링에 사용가능하게 해야 할 것이다. 따라서, 경기별 데이터를 시간의 흐름에 따라 Windowing을 해서 추가변수를 개발해 이를 이용한 경기에 대한 설명변수와 타겟변수를 50개 정도 개발하는데 기존에 의미가 있는 변수들 중심으로 보다 이전 모델링 보다 더 많은 데이터를 활용해서 개발하는 것을 우선시도하고 기존에 시도하지 않았던 방법으로 모델링을 접근하고자 한다. 특히 경기 결과를 이용해서 지표를 만들 때 투수와 타자의 관계나 팀간의 승율은 매우 상대적인 값이므로 어떻게 보다 정확한 지표를 만들 수 있을지를 시도해 보겠다.



출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net