3강 빅데이터의 이해

빅데이터 청년인재 양성 프로그램 데이터 청년 캠퍼스 데이터 청년캠퍼스는 빅데이터 기술을 선도하는 국내 최고의 대학이 기업 수요에 부응하는 실무 중심의 교육을 실시하고, 한국데이터산업진흥원과 관련 기업이 빅데이터 직무 취업을 지원하는 빅데이터 청년인재 양성프로그램입니다.

[데이터의 가치과 분석]

예 이번 그 과정은 그 빅데이터의 대한 올바른 이해입니다

어 빅데이터 분석과 기존의 데이터 분석과 는 무엇이 다른지 요기서 이제 많이들 어떻게 보면 좀 혼돈하는 그런 부분이 있습니다

그 다음에 빅데이터 분석이 어 이렇게 큰 어떤 의미를 갖게 된 이유가 어떤건지 이런 것들에 대한 이야기를 해보려고 합니다

우리가 그 기업에서 우리는 데이터 분석을 전혀 안 했어, 한 적이 없어 이렇게 말하는 기업은 제가 보질 못했습니다

결론은 했다는거죠 데이터분석을.

그렇다면 기존에 했던 데이터 분석과 지금 우리가 말하려고 하는 빅데이터 분석 이라고 하는 것은 분명 어떤 차이는 있습니다

그래서 고 차이에 대한 정확한 이해가 먼저 좀 선행돼야 되지 않나 이렇게 생각을 해봅니다

최근 빅데이터와 더불어 나타난 많은 전문 기술들이 있습니다

비정형 데이터 분석과 관련된 뭐 sns 분석 감성 분석 영감 분석 형태 분석

뭐 텍스트 마이닝 뭐 이런 것들이죠 이건 뭐 아 최근에 나타난 것만은

아닙니다 만 애들은 이런 어 기술들이 상당 이렇게 스포트라이트를 받고 있고요 그 다음에 고급 분석을 위한 뭐 데이터 마이닝 어드벤티스트 머신러닝

그 다음에 뭐 딥러닝 또 딥러닝을 구체적으로 구현하는 c 에는 아래 낸

뭐 데이터 시각화 이런 것들이죠 뭐 또 어 텐서 플로우 라던지 머시 아노 라던지 카페

뭐 이런 것들 이제 지금 나타나고 있는 그런 그 딥러닝 기술들 즉 패키지가 될 수가 있습니다

어 그리고 또 그 빅데이터의 어떤 에코 시스템 이라고 말하는 그 생태계

쪽이 줘 어이 프레스토럭처를 이제 그렇게 많이들 부르고 있는데 어 하둡 이라던지 쥬키퍼 어 타조 그 다음에 뭐 cap 관련된 여러가지 그 기술 그 스팍 그다음 nosql 뭐 이런 것들이 이제 그 인프라스트럭처 즉 에코 시스템 으로 나타난 기술이 될 것 같습니다

어 그 외에도 모아 iot 나 인더스트리 4.0 이런 것들도 이제 같이 어우러 서 지금 나타나고 있구요

보시면 아시겠습니다만 너무나 많은 새로운 기술들과 용어가 나타나고 있고요

이로 인해서 빅데이터에 대한 접근과 활용을 어렵게 하고 있는 것도 사실입니다

빅데이터라고 하니 단어 자체는 쉬운데 그것을 구현하기 위한 여러가지 기술들은

대단히 많이 오픈 소스로서 역할을 하고 있구요

오픈 소스가 갖는 장점도 있습니다

오픈 소스가 갖는 이러한 다양성은 빅데이터 라고 하는 것에 구현에 어떻게 보면 허들을 작용하고 있다 이렇게 말씀드릴 수가 있습니다

이와 같은 기술들이 연결 된 혹은 관련된 기술들을 구현할 수 있는 이런 전문가들을 뭐 데이터 사이언티스트 다 일단 사이언티스트 역할이다

이렇게 말하죠 참 쉽지 않거든요

뭐 에코 시스템 과 관련된 부분 빅데이터 에코 시스템과 관련된 부분을 데이터 사이언티스트 한다 이건 약간 좀 그 다른 얘기가 될 수가 있습니다

그렇다면 기존의 it 전문가 컴퓨터 전문가 어서 소프트웨어 전문가 이런 분들과의 어떤 협업 이런 것들이 이제 데이터 사이언티스트 들이 해야될 역할이다 이렇게 말씀드릴 수가 있습니다 하여튼 많은 신조어 들이 나오고 있고 그런 신조어 들의 결합과 연결이 빅데이터 분석 이라고 하는 것에 어떤 인프라 를 형성 한다는 측면에서 지금 상당히 그 좀 어려워들 하고 있는 그런 상황이다 라고 말씀드릴 수가 있습니다

앞부분 에서도 잠깐 말씀드렸던 것처럼 지금까지의 어떤 그 데이터 분석은 대량의 어떤 데이터 처리에 대한 비용 및 기술적인 어떤 한계가 존재를 했던 거죠

그래서 분석하려고 하는 걷던 모 집단에서 표본을 추출하고 이를 분석하여 가설을 검정하고 통계량 으로 증명하는 절차를 거칠 수밖에 없었습니다

즉 모 집단 전체를 분석한다 라고 하는 그 접근 자체가 원천적으로 어려웠던거죠

지금은 다 되냐 결코 이렇게 말할 수가 없습니다

모 집단 이라고 하는 것은 뭐 좀 전에 말씀드렸던 거죠

유한 모 집단도 있습니다만 뭐 한 모집단의 경우는 지금도

전체를 대상으로 데이터 분석을 한다 이거는 뭐 어려운 얘기입니다

그렇지만 빅데이터 분석은 조금 전에 말씀드렸던 샘플링 에 의해서 전체 데이터를 이 인포런스 하는 그런 과정이 라기보다는 전체 데이터를 대상으로 어 이 어드벤스 된 분석기법을 적용함으로써 일반적으로는 우리가 볼 수 없었던 어떻게 보면 뭐 기존의 그 분석 방법으로는 볼수가 없었다는 거죠

새로운 사실이나 패턴 또는 법칙을 이렇게 발견함으로써 비즈니스의 가치를 창출하는 데 그 목적이 있다 이렇게 말씀드릴 수가 있습니다

따라서 빅데이터 분석은 빅데이터 분석은 기존의 분석 절차 방법들 통계 기반의 어떤 방법들을 다 포함하는 거죠

그렇지만 모 집단 이라고 하는 것을 분석할 수 있는 기술과 방법이 안정적으로 활용될 수 있는 시점이 됐기 때문에 샘플을 안쓰고 전체를 대상으로 분석하는 것도 활용할 수 있는거구요

그 다음에 그 통계 기반의 어떤 분석이 아닌 어드밴스 된 분석 방법들을 이용해서 모 집단 전체를 분석하는 요런 것들이 이제 가능하게 됐다라고 말씀드릴 수가 있습니다

그래서 지금의 빅데이터 분석 과거의 빅데이터 분석과 분석과 지금의 빅데이터 분석을 전체를 어우르는 단어다 이렇게 보는 것이 타당하다 라고 볼 수가 있습니다

그럼 기존의 데이터 분석과 빅데이터 분석은 그 용어나 혹은 내용 측면에서 어떤 차이가 있는지를 조금 깊게 들어가서 이야기를 해보려고 합니다

먼저 어떤 그 조직이죠 단위 조직이죠 단위 조직의 정형 기반의 데이터를 취합하고 분석하는 겁니다

그리고 리포팅해서 하인사이트를 찾는것

여기까지가 바로 기존에 우리가 했던 그 디스크 립 티브 애널리시스 가 될 수가 있습니다

어 데이터가 갖고 있는 어떤 그 사실들 이거를 기술하는 거죠 디스크립트의 의미 그대로 입니다

그래서 우리는 여기서 숨어 있는 어떤 인 사이트를 찾아 내는 그래서 뭐 하인 사이트 라고 지금 얘기하고 있는 부분이죠

요게 이제 첫번째 단계 어떤 데이터 분석이었다 라고 한다면

이 두 번째 단계는 아까 단위 조직이 아니라 전사를 확대시켜 버리는 거죠

전사로 그리고 어 정형 데이터를 그냥 분석만 하는 것이 아니라 그 분석 플러스 마이닝 과정을 거치 이렇게 되구요

이 때 사용하는 것이 이제 통계 분석이 라든지 뭐 기존에 우리가 사용했던 것들을 이용해서 리포팅도 하구요 그것이 비즈니스 의사 결정 으로 연결해서 우리가 어떤 비즈니스 데이터를 이용해서 비즈니스의 해당되는 인사이트를 찾아 내는 그런 과정을 우리가 두 번째 단계인 다이거너스틱 애널리시스다 이렇게 말씀드릴 수가 있습니다

그래서 기존의 분석 이 두가지 디스크립티브 애널리시스 혹은 다이거너스틱스 애널리시스 혹은 둘다 를 해 왔던 겁니다 해왔던

그래도 지금 얘기하고 있는 이 빅데이터 분석은 바로 그런 것들을 포함한 즉 지금 그 화면상에 는 맨 우측 해당 되는 거죠

foresight 라고 얘기하는 부분입니다 어 어떤 단위 조직이 나 어 전사 차원에서의 데이터 뿐만 아니라 그 데이터의 분석 영역을 엄청날 펴 버리는 거죠

사내외 복음 공공데이터 혹은 보험 어떤 조직을 대상으로 한다면 그 조직뿐만아니라 그 조직과 연결된 앞뒤에 모든 조직 뜰에서 생산된 데이터를 전부 다 분석의 대상으로 활용하여 하자는 겁니다

여기서 우리가 좀 오해해야 되는게 그럴 필요 없는 것도 전부 다 분석해야 됩니까 이렇게 만약 전제로 한다면 그건 아니죠 부모의 필요한 건데 우리가 그동안 그 데이터를 보려는 노력을 하지 않았던 거구요

또 보려고 하는 노력을 했다 하더라도 이 취득 과정에 많은 어려움이 있었다는 겁니다

그래서 못 봤다는 거죠 그래서 그걸 이제 봄으로써 이 지금 그 세 번째 단계인 여기가 foresight가 된거죠

미래를 예측해 보자 그렇게 이제 볼 수가 있습니다

그래서 했던 그렇게 뇌의 모든 데이터를 활용해서 이 분석을 할때 우리가 통계적 적은 의 어떤 그 단순한 분석으로는 이 문제를 처음 풀기가 쉽지 않다 라고 하는 겁니다 그건 그런 문제들은 그런 그 방법들을 위해서 풀어 왔던 거구요

그래서 어드벤스트 애널리시스 뭐 여기 않은 인공 지능도 들어가고 들어가고 멋있는 있는 뭐 그런 것들입니다

그런것들이 들어가서 데이터 분석을 해서 우리는 어떤 것을 하고 싶냐

예측과 최적화 모델을 만들고 싶다 라고 하는 거죠 그래서 그렇게 만들어진 예측 모형 혹은 최적화 모형이 비즈니스 의사결정에 아주 중요하게 활용될 수 있다

이런 단계가 바로 세 번째 단계인 predictive analysis가 됩니다

그래서 혹자는 빅데이터 분석의 닉네임으로 이렇게도 이제 얘기하는거죠
예측 분석 이다 라고 이제 부르고 있는 이유가 바로 여기에 있습니다

빅데이터의 특징을 설명하기 위해서는 어여 역시 같은 에서 얘기하고 있는 이 3v 이야기가 좀 필요합니다

어 데이터의 어떤 다양성이 많은 데이터 혹은 뭐 빠른 분석

그러나 기업에서 빅데이터 분석을 추진은 진짜 이유는 무엇일까요 저는 그건 가치라고 봅니다

뭐 데이터와 많다 다양하다 빠른 분석을 요구한다 이런 것들은 기업에서 추구하려고 하는 그 가치를 창출하기 위한 수단 중의 하나였던거죠

그래서 기업에서 추구하고 있는 이 가치를 창출하기 위해서 다양한 데이터들이 필요할 텐데 그 다양한 데이터들을 우리는 3V(다양한-Variety, 대용량-Volume, 빠르게-Velocity)로 이제 설명할 수가 있다 이렇게 말씀드릴 수가 있네요

빅데이터 분석을 통해서 기업은 그들이 갖고 있었던 어떤 고질적인 문제를 해결하려고 합니다

어떻게 보면 그동안 발견되지 않은 문제를 찾으려고 하고요

그동안 못 풀었던 문제를 입이 데이터를 통해서 해결하려고 하는 시도들을 하고 있다 이렇게 말씀드릴 수가 있습니다

따라서 어떻게 뭐 대기업의 해당될 수가 있습니다만 어 빅데이터가 그 과제 자체의 난이도가 대단히 높을 수가 있겠죠

물론 중소기업이나 중견기업 1호 내려오게 되면 어 과거의 데이터 분석도 지금 빅데이터 분석으로 이렇게 서로 왔다갔다하면서 설명을 하다 보니까 난이도가 조금 낮을 순 있습니다만 어 대기업들은 기존의 데이터 분석이라고 하는 것을 많이 해왔기 때문에 그것으로 풀지 못했던 어떤 고질적인 문제 해결하기 어려웠던 그런 문제점들을 이제 빅데이터 를 이용해서 풀어 보려고 시도한 다 이렇게 말씀드릴 수가 있습니다

자 그럼 이제 빅데이터 분석 이라고 하는 것이 우리에게 대단히 중요한 어떻게 보면 혁신의 도구일 수도 있고요

어떤 방법론을 수도 있고요 기업문화 할 수도 있는데 이것이 이렇게 다가온 원인이 무엇이냐 라고 하는 것을 잠깐 살펴 볼 필요는 좀 있습니다

그 첫번째가 바로 이 분산 병렬 처리 기술이 됩니다

뭐 mapreduce라고 하는 기술을 얘기할 수도 있습니다만 이 분산 병렬 처리가 만약 어떤 그 기술적인 완성도가 높지 못하다 고 한다면 지금의 빅데이터를 모으고 분석하는 것은 어려운 일이었죠

그렇지만 분산 병렬 처리를 통해서 그런것들이 가능 하게 됐구요

우리는 이제 그런 것들을 이제 또 하둡 이라고 하는 오픈 소스를 이용해서 구현할 수 있었기 때문에 갑자기 큰 바람이 불게 되는 도움이 되었다 이렇게 말씀드릴 수가 있습니다

두 번째는 그 오픈 소스 소프트웨어로서 이 분석도구를 활용할 수 있게 되었다 라고 하는 신 겁니다

어 지금 슬라이드에 나와있는 것처럼 또 여러분과 제가 같이 하게 될 R이라고 하는 언어가 있구요 또 이제 최근에 딘 러닝이 나오면서 상당히 많은 주목을 받고 있는 이 파이썬 이라고 하는 언어가 있습니다

이 두 가지 언어 뿐만이 아니라 다 다양한 언어들이 지원을 하고 있구요

뒤에서 살펴보게 될 씨티즌데이터 사이언티스트 도구들도 제한된 범위 내에 무료 라던지 혹은 오픈소스 소프트웨어로 제공을 하고 있다라고 하는 것이 어 이렇게 큰 의미를 주고 있는 겁니다

세번째는 이 텍스트 데이터를 분석할 수 있는 방법들이 보편화 되었다 라고 하는 거죠 뭐 여러분도 알다시피 또 여러분 스스로가 갖고 있는 데이터들을 보면 뭐 액셀 처럼 혹은 데이터베이스 처럼 깔끔하게 정리되어 있는 데이터들은 보통 본인이 소유하고 있는 데이터에 20% 미만 입니다

뭐 저도 it 를 하고 있습니다만 뭐 저 같은 경우 10% 도 안되는 것 같습니다 거의 다가 비정형 이거든요

파워포인트로 되어 있고 pdf 로 되어 있고 아래 한글로 되어있고 워드로 되어있고 이런 것들입니다

이런 것들을 과거의 분석한다 고 하는 것은 상당히 많은 노력이 필요했습니다만 이제는 이게 쉽게 도구를 이용해서 처리할 수 있게 되었다 라고 하는 것이 빅데이터 분석을 지금의 있게 했던 중요한 동인이다 라고 말씀드릴 수가 있습니다

자 그럼 그 빅데이타라고 하는 단어가 어 우리에게 이렇게 다가오게 된 어여 여러가지 그 원인들 중에 첫번째 이 분산 병렬 처리 우리 후버 많이 회자되고 있는 하둡 이제 얘기 했던 부분인데 이 부분에 대해서 좀 얘기를 해 잠깐 해보려고 합니다

먼저 많은 데이터를 저장하고 처리하기 위해서는 기존과 같이 정보 시스템의 그 크기를 올리는 이런 방식이 우리가 스케일업 방식이라고 얘기 하는데요
이 증가하는 데이터를 처리 하기에는 어려움이 큽니다

또한 그 시스템의 가용성 이라고 하는 어벨러벨리티 라고 하는 부분인데요

이걸 확보하기 위해서는 기존의 이 모놀리틱 방식 즉 어떤 그 시스템을 치워 나가는 방식으로 는 한계가 있다라고 하는 거죠

따라서 이제 구글 처럼 엄청난 데이터들을 이제 이렇게 핸들링 하고 저장하는 이런 비즈니스를 갖고 있는 기업들은 이러한 문제를 해결하기 위해서 새로운 방법을 시도하게 됩니다

그중에 하나가 구글에서 낸 후 그 발표했던 주요 s 즉 굴 파일 시스템

이라고 하는 거구요 아키텍처가 이제 공개됐고

이런 것들을 이제 그 더글라스 겉에 이라고 하는 화이트해커죠

이걸 자바를 이용해서 이제 앞 아치를 만들고 이걸 이제 오픈 소스 제단이 아파치 재단의 이제 그 공개함으로써 이 분산 병렬 처리 기술을 누구나 쉽게 사용할수 있게 되었습니다

하둡이 시스템의 어떤 가용성과 기능성 그리고 관리의 편의성을 구현한 에코시스템 으로 이제 점점 확대가 되구요

빅데이터의 그 실험 가능성을 보여준 것이 지금의 빅데이터를 있게 한 중요한 이벤트였다 라고 생각이 듭니다

그래서 당시 이런 말도 좀 있었습니다 빅데이터의 반대말은 스몰 데이터다 뭐 이런 것이 아니라 익스펜시스브 데이터 그니깐 빅데이터를 모으려고 하면 대단히 많은 정보 시스템 규모가 큰 정보시스템을 요구했기 때문에 나타나는 현상이 거죠

그렇지만 이 하둡과 같은 이런 그 아키텍처는 중저가의 서버를 이용해서 스케일 아웃 방식으로 시스템을 확대해 나가면서 비용 효율적인 그런 아키텍처 링을 할 수 있게 되었다라고 보시면 될 것 같습니다

뭐 이거는 참 기술적인 내용 인데요

많이 이제 하둡을 이용해서 빅데이터 인프라스트럭처를 이렇게 만들었다고 한다면 그것이 이제 이렇게 특정한 어떤 그 노드 라고 얘기하지만 뭐 컴퓨터라고 보시면 될 것 같습니다만 거기에 집중적으로 들어가게 되면 만약 그 노드 그 컴퓨터에 문제가 생기면 서비스가 안 되잖아요 아까 앞에서 말씀드렸던 것처럼 그 어벨러빌리티 라고 하는 것에 이제 문제가 되기 때문에 이것을 작은 단위로 쪼개서 여러 컴퓨터 이제 분산 저장을 하게 되는 거죠

또 이렇게 저장된 데이터들을 이렇게 그 애귤리에이션 위해 써머리 하기 위해서는 또 관련된 기술들이 또 필요하게 됩니다

우리는 이러한 기술 이를 이러한 기술들을 이 아파치에 하드웨어 에코 시스템에서 쉽게 다운로드 받아서 처리할 수 있게 되었던 거죠

근데 이제 요런 것들이 이제 오픈 소스로 도 존재 합니다만 뭐 클라우드의 라든지 뭐 매 발이 라든지 이런 이제 그 상업용 배포판도 있다라고 하는 거구요 그래서 많은 기업에서 이런 그 상업용 배포판 도 쓰고 있습니다

하둡에 그 저장 기술 분산 병렬 처리 라고 하는 부분을 좀 더 살펴볼 필요가 있습니다

어 대량의 데이터는 어떤 그 작은 단위로 먼저 좀 나누어 지니까 대량의 데이터가 이렇게 시스템으로 들어왔을 때 요 어떤 작은 단위로 나뉘어 있구요

이런 다시 한 컴퓨터에 저장되는 것이 아니라 분산 되서 여러 컴퓨터 한 노드 라고 얘기하는데 그 여러 모두의 분산되어 저장되게 된다 는 겁니다

데이터의 그 가용성과 어떤 그 빽 엎친 면에서 기존의 그 방식보다 이 스케일 아웃 방식이 월등히 뛰어나다고 할 수가 있습니다

그 hdfs 기반의 그 하둡 에코 시스템은 데이터 수집을 위한 플럼이나 스쿠프 버튼 어 그런 그 모듈과 어 전체 그 기능을 코디네이션 해주는 뭐 주키퍼 라든지 워크플로우 지원을 위한 뭐 우지 이런 것들도 포함되어 있고요 그 다음에 모니터링을 위한 뭐 안 발이 그 다음에 데이터 핸들링을 위한 피그나 하이브 어 그다음 nosql 을 위한 뭐 h 베이스 이런 것들이 이제 체계적으로 생태계를 형성하고 있죠 이러한 그 시스템들은 아파치의 접속해서 오픈 소스 라이센스 정책에 따라 다운로드 받아 편리하게 그 설치할 수가 있습니다

우리가 여기서 약간 좀 짚어 봐야 될 게 이 오픈 소스 라이센스 라고 하는 것과 요 이 프리 소프트웨어는 조금 차이가 있습니다

요건 이제 그 기업에서 시스템 의 오픈소스 소프트웨어 를 도입하는 시점에 검토를 해야 됩니다

그러니까 프리 소프트웨어 라고 생각하고 이렇게 사용을 하고 또 그 판매하고 또 재판매 하고 이런 과정 속에 법적인 그 문제가 좀 다를 수도 있기 때문에 gpl 이라든지 이런 오픈소스 라이선스에 대한 부분을 충분히 따질 필요는 분명히 있습니다

그리고 이제 그 아파치 하둡 에 그 어떤 편리성과 보안을 이제 보강한 클라우드의 라 나 이제 맵R 과 같은 상업용 배포판을 이제 사용할 수가 있구요 어 이런 것들이 이제 이렇게 구성되는 그런 어 하둡의 생태계를 우린 하두 에코시스템 이다 라고 부르고 있구요 이런 전체적인 구성과 성을 이용해서 이제 분산 병렬 처리가 가능하게 되었다 이렇게 볼 수가 있습니다

빅데이터의 어떤 본질적 의미는 데이터 통화료 이라고 생각이 됩니다

빅데이터가 다양하고 많은 양의 데이터 저장을 집안으로 하지만 저장된 데이터 좀 작아도 빅데이터 분석 기법을 이용해서 인 사이트를 발견하고 활용될 수 있다면 그것이 바로 빅데이터의 가치일 것입니다

이러한 그 빅데이터 분석을 위한 도구는 그 더 오랫동안 써왔던 엑셀 거 같으니 스프레드시트 도 있고요 상업용 분석도구 인세 스와 spss 평도 있습니다

그리고 프로그램 언어 기반의 뭐 자바나 스칼라 동도 또 한번 생각해 볼 수가 있구요

최근에는 이제 그 딥러닝 기반으로 주목을 받고 있는 파이썬 도 있습니다

그런 빅데이터 분석의 많이 사용되고 있는 도구로는 역시 R을 둘 수가 있습니다

R은 그 통계 처리용 언어 이고요 분석용 플랫폼이다 뭐 이렇게 부르기도 하구요

통합 개발 환경이다 이렇게 부르기도 하고 시거 카드보다 참 그 성격이 다양하게 불려지고 있습니다

이러한 R은 오픈 시스템 이 갖는 어떤 그 한계와 문제점을 분명히 갖고 있습니다만

상업용 그 분석도구에 비하여 비교가 안될 만큼 수많은 패키지를 갖고 있어 그 활용성이 점점 증가되고 있는 것이 사실입니다

또 여기서 우리가 주목해야 될 분석 도구는 씨티즌 데이터 사이언티스트 혹은 셀프서비스 nt x 도구라고 분은 요런 도구입니다

요건 뒤에 가서 다시 한번 정리를 하도록 하겠습니다

아 제가 앞에 그 섹션 설명할 때 좀 말씀드렸던 것처럼 어 이 비정형 데이터를 개별적으로 조직적으로 상당히 많이 갖고 있구요

이러한 그 비정형 데이터를 분석하기 위해서는 기존의 사람이 한다던지 혹은 어떤 그 컴퓨터를 이용해서 적정하게 활용하는 그 정도 수준 갖고는 좀 한계가 있는 거죠

또한 그 인터넷이나 혹은 그 소셜네트워크 sns 라고 부르는 이런 류의 증가는 비정형 데이터의 어떤 폭발이 라고 이제 얘기할 수가 있습니다

어 텍스트 분석은 그 비정형 자료수집 명사 형용사 등 품사 와 의미를 분리하는 것 형태 분석 그 다음에 감성 분석 뭐 빈도분석 주제 분석 등의 순수한 어떤 비정형 분석이 있구요

또 이제 비정형 은 비정형으로의 분석 의미도 있습니다만 정형화 시킨 이후에 그 정형 데이터와의 그 연결된 분석 이런 것들도 대단히 의미 있게 사용될 수가 있습니다

근데 이제 우리가 사용하는 이 한글은 교착어라고 이제 언어학자들이 얘기하고 있는데

교착어는 약간 조금 그 형태에서 분석이나 아 이런 그 비정 데이터 처리에 어려움을 좀 갖고있다 언어적 태생이죠
어려움을 좀 갖고 있습니다

그래서 이제 최근에 이제 많은 연구를 통해서

어 극복을 할 하고 있구요 거기에 비해서 이제 영혼을 우리가 이제 굴절어다

이렇게 얘기하는데 이런 것들은 뭐 대단히 쉽습니다

어 비정형 데이터 처리하기에 그래서 어 언어적 어떤 차이가 뭐 있는 것은 사실입니다만 그래도 비정형 데이터 분석에서 활용될 수 있는 다양한 기법들을 적용할 수 있다고 한다면 비정형 데이터도 정형 데이터 만큼 분석 대상으로 보는데 크게 어려움은 없을 것이다 이렇게 생각해 볼 수가 있습니다

기업에서 그 데이터 분석을 위해서는 소스 데이터의 직접적인 접근이 아닌 거버넌스 의 근거한 어떤 관리체계가 필요하다고 볼 수 있습니다

먼저 그 어떤 원천 데이터 로우 데이터 라고 이제 얘기하죠 거기에는 정형도 있고 비정형도 있을수가 있는데요 이런 원천 데이터를 저장하기 위한 기능이 있어야 되고요

그 다음에 그 저장된 데이타의 추출과 정제를 위한 기능 그 다음에 데이터를 정형화 하는데요 그 다음에 분석과 를 위한 어떤 데이터 저장소의 긴 어 그리고 이제 분석된 결과를 뭐 olap 또는 이제 기간 시스템과 연결하기 위한 데이터 웨어 흡수 기능 이런 것들이 이제 기업의 안에선 서로 연결되어 있다 이렇게 볼 수가 있을 것 같습니다

그러면 어 데이터 관리체계를 그 선행하여 구축하고 분석에 필요한 데이터를 축적한 후에 데이터 분석 프로젝트를 수행하는 것이 어떻게보면 가장 일반적인 전형적인 어떤 방법이라고 할 수 있습니다만

빅데이터 인프라 구축에 들어가는 그 비용이나 기간 뭐 여러가지 리소스들에 대한 이슈가 상당히 큽니다

그래서 기업의 경영 여건에 따라서는 원천 데이터 소스를 직접 분석할 수도 있는 거죠 그 다음에 뭐 EDW 와 같은 어떤 이런 시스템을 구축해 놓고 그걸 이용해서 데이터 분석을 할 수 있는 요런 그 아키텍처 링도 한번 생각해 볼 수가 있습니다

하여튼 우리가 어떤 데이터를 분석한다 라고 했을 때 그 데이터를 직접 분석하기 보다는 좀 되는 말씀 드렸던 어떤 그런 거버넌스측에 의해서 데이터가 수집되고 정제되고 분석될 수 있는 그런 그 기준을 만들어 놓는 것이 무엇보다 중요하다 이렇게 말씀드릴 수가 있습니다

Author: stanley

데이터 기초

3강 빅데이터의 이해

Author: stanley

답글 남기기 응답 취소