데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

소셜 웹 빅 데이터 #1

데이터 이야기

작성자

dataonair

작성일

2014-06-18 00:00

조회

8658

소셜 웹 빅 데이터 #1

빅 데이터 (Big Data)라는 용어는 이제 IT업계에서 흔히 들을 수 있는 용어가 되었습니다. 빅 데이터는 크게 기업 혹은 기관의 보유 여부를 기준으로 내부 데이터와 외부 데이터로 구분하기도 합니다. 이 중 외부 데이터는 접근 방법 상으로는 인터넷을 통해 접근할 수 있는 데이터들과 개방형 인터페이스를 통해 접근할 수 있는 데이터들이 주 대상이 됩니다. 이렇게 접근할 수 있는 데이터는 일반적인 웹 페이지들과 함께, 블로그, 인터넷 뉴스, SNS 등 다양한 웹 기반 소셜 미디어 서비스들이 생산하는 데이터가 포함됩니다. 이러한 데이터들을 소셜 웹 빅 데이터라고 할 수 있습니다.

이번 호와 다음 호에서는 소셜 웹 빅 데이터에 대해서 자세히 살펴 보고, 소셜 웹 빅데이터를 통해 어떤 정보를 발견하고 활용할 수 있을 지 살펴 보겠습니다.

소셜 웹 빅 데이터를 통해서 살펴볼 수 있는 가장 중요한 것은 사람들의 이야기입니다. 사람들의 이야기들을 관찰함으로써 어떤 내용의 이야기가, 어떤 상황에서, 어떤 경로로, 얼마나 많이 자주 언급되었는 지를 살펴 볼 수가 있습니다.

누군가가 소셜 미디어 서비스에 글을 게시하면, 또 다른 누군가는 이 글에 댓글을 달거나, ‘좋아요’를 누르거나, 주변의 사람들에게 공유하거나 혹은 해당 글에 대한 의견을 제시하는 새로운 글을 게시하는 등의 다양한 행위를 하게 됩니다. 이러한 사용자 참여형 활동은 처음 게시된 글에 대한 피드백 활동의 가치를 가지므로 소셜 미디어를 피드백 미디어라고 하기도 합니다. 이는 통상적인 미디어(TV, 라디오, 뉴스 등과 같은)가 정보를 푸쉬하는 역할을 하기 때문에 푸쉬 미디어라고 하는 것과 대비됩니다.

그럼 소셜 미디어 분석을 위해 소셜 미디어 서비스에 대한 이해를 조금 더 해 보도록 하겠습니다. 아래 표는 소셜 미디어 서비스에 어떤 종류의 데이터가 있는지 설명한 표입니다.

우선 이름, 나이와 같이 소셜 미디어 서비스의 사용자 프로파일에 표현된 정보는 서비스 데이터로 분류됩니다. 서비스 데이터는 사용자가 직접 입력하고 제공을 동의한 데이터들입니다. 그리고 블로그의 콘텐츠, 사진, 메시지, 댓글 등은 공개된 데이터로 분류됩니다. 통상적으로 소셜 미디어를 통해 공유되는 대부분의 데이터는 이에 해당합니다.

그런데 위탁된 데이터라는 것이 있습니다. 위탁된 데이터는 사용자가 다른 사용자의 페이지를 통해 게시하는 정보입니다. 위탁된 데이터는 게시된 그 순간부터는 게시자에게 통제권한이 없이 해당 페이지의 주인에게 모든 공유 및 삭제 권한이 맡겨지게 됩니다. 또한, 부차적 데이터가 있습니다. 사용자 자신에 대해 혹은 사용자가 비밀을 지켜내고자 하는 어떤 사실에 대해 타인이 제공하는 데이터입니다. 타인의 행위에 대해서는 역시 통제권이 없으므로 이를 방지할 수가 없습니다. 그리고, 행위 데이터라는 것이 있습니다. 사용자의 행동을 관찰할 수 있는 데이터로 사용자의 암묵적인 관심이나 의도를 관찰할 수 있습니다. 마지막으로 유도된 데이터가 있습니다. 앞서 말한 모든 데이터를 통해 유도된 데이터입니다.

소셜 미디어 분석을 위해서는 바로 이러한 소셜 미디어 데이터의 특징을 잘 이해하여야 합니다. (물론 이러한 특징들을 잘 이해하시는 것은 여러분들이 블로그, 트위터, 페이스북 같은 소셜 미디어를 사용하실 때도 매우 유용할 것입니다.)

자 그럼 이제부터 본격적으로 소셜 미디어 서비스의 데이터를 분석하는 방법을 알아보도록 할까요

트위터를 중심으로 살펴보도록 하겠습니다. 트위터는 잘 알려진 것 처럼140자의 문자로 된 의견을 공유하는 서비스입니다. 하지만 일반적인 사용자들이 볼 때는 140자의 텍스트만 보이지만, 오픈API (https://dev.twitter.com)를 이용하면 훨씬 더 많은 데이터를 얻을 수 있습니다.

위 그림에서 보는 것처럼 트위터는 140자의 텍스트 외에 다양한 메타데이터를 제공합니다. 이러한 메타데이터에는 사용자에 대한 메타데이터, 내용에 대한 메타데이터, 네트워크 구성에 대한 메타데이터 등이 포함된 약 40여 개의 메타데이터들이 포함되어 있습니다.

트위터 분석은 바로 140자의 텍스트와 메타데이터들을 이용하여 이루어 지게 됩니다. 140자의 텍스트의 경우에는 언어분석기술을 통해 분석되며, 때로는 언급된 URL의 콘텐츠 내용도 수집(웹크롤링이라는 기술을 사용)하여 분석하기도 합니다. 한편 게시 일시, 게시 위치 등은 트위터에 언급의 시간적 경향성을 분석한다던 지, 지역별 분포를 분석할 때 사용합니다. 또한, 네트워크 구성과 관계된 메타데이터를 이용하여 특정 사용자의 소셜 네트워크를 분석하기도 합니다. 물론 항상 모든 메타데이터가 제공되는 것은 아닙니다. 사용자가 입력하지 않은 메타데이터나 사용자가 공개를 허용하지 않은 메타데이터는 제공되지 않습니다.

이번 호에서는 소셜 미디어 서비스를 통해 관찰되고, 수집될 수 있는 소셜 웹 빅데이터와 이러한 데이터들의 특징 및 트위터를 통해 획득할 수 있는 각종 데이터들을 자세히 살펴 보았습니다. 다음 호에서는 구체적으로 어떻게, 어떤 기술을 이용해서 소셜 웹 빅데이터 즉 소셜 미디어 서비스의 데이터를 분석할 수 있는지를 소개하도록 하겠습니다.

출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net

« Apache Flume를 활용한 데이터 수집(2)

의료정보에서 데이터의 의미가 변하기 시작했다 »

목록보기