데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

4회 - 다양한 분야에서 남이 이미 만들어 놓은 있는것 잘 활용하기

데이터 이야기
작성자
dataonair
작성일
2014-10-07 00:00
조회
6123


4회 - 다양한 분야에서 남이 이미 만들어 놓은 있는것 잘 활용하기



2014년 10월 기준으로 R에는 5800개 이상의 패키지가 있습니다. 이걸 모두 학습한다는것은 불가능에 가까운 일이고 매우 비효율적입니다. 그러나 분석업계에서 가장 많이 사용되는 데이터 처리 및 데이터 마이닝 패키지 몇개만 사용하면 수억하는 상업용 솔루션에 버금가는 기능을 활용할 수 있습니다.

때로는 알고리즘을 개발한다는 분들을 보게됩니다. 저는 개발보다는 활용에 중점을 두는 편이라 이렇게 좋은 알고리즘을 패키지화 한 내용을 잘 활용하는걸 대부분의 사람들에게 권합니다. 다른 분들이 만들어 놓은 패키지들 몇개를 골라 데이터 마이닝 솔루션 1개를 여러분것으로 사용할 수 있는 방법을 알려드립니다.

R에는 core기능이 있고 추가 기능이 package로 사용이 가능해 집니다. 데이터 마이닝 솔루션에 들어가 있는 대부분의 기능은 병렬처리, 분석용 마트 만들기, 분류예측, 클러스터링, 연관성분석, 시계열, 텍스트마이닝, 소셜네트워크 분석으로 크게 구성되고 관련된 페키지분야는 8개 분야면 됩니다.

먼저 전체적으로 속도향상을 위한 병렬처리를 위해서는 doParallel, foreach가 필요합니다. 분성용 마트 만들기에 필요한 패키지로는 sqldf, reshape,dplyr 정도면 충분합니다. 시각화를 위해서는 ggplot2 그리고 본격적으로 데이터마이닝을 위해서, 분류예측을 위해서는 caret하나면 종속되어 있는 패키지들을 알아서 처리해주시 충분합니다. 연관성 분석은 arules, arulesViz입니다. 시계열분석에는 forecast면 기본적인것은 처리가 되고 데이터 포맷관련되어 zoo, xts 등이 필요합니다. 텍스트마이닝을 위해서는 tm, KoNLP 정도면 한글까지 처리하는데 문제가 없습니다. 클러스터링을 위해서는 kmeans는 기본으로 제공되므로 굳이 다른 패키지를 선택할 일은 매우 제한적일것입니다. 소셜 네트웍 분석을 위해서는 sna, igraph면 대부분 커버되니 총 여기에 언급한 16개 패키지면 여러분은 대부분의 분석업무를 수행할 수 있습니다. 트위터나 페이스북에서 데이터를 가져오고 웹페이지에서 가져오는 패키지들 및 문자처리를 위한 패키지등을 모두 생각하면 아무리 많아도 여러분들이 명식적으로 설치해야 하는 패키지는 50개가 넘지 않을것입니다. 따라서 하루에 1개 정도를 깊이있게 공부하지 않아도 2개월 정도를 노력하시면 왠만큼 사용하실 수 있습니다.

남이 만들어 놓은것, 그렇지만 많은 시간과 노력이 누적되며 Open Source로 공개되어 있는 황금같은 분석환경을 적극 활용해보지 않으시렵니까






출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net