1강 데이터 가치의 재발견

안녕하세요 데이터의 가치와 분석 이라는 과목을 강의할 윤석용 입니다
21세기 원유 또는 기업 생존의 전략으로 비유될 만큼 데이터의 가치가

중요시되고 있지만 아직도 빅데이터에 대한 올바른 이해와 실무에 대한

어려움이 있는 것도 사실입니다

최근에는 인공 지능 이라고 하는 키워드가 많이 회자되고 있는데 이 또한

빅데이터를 기반하고 있다 라고 하는 사실을 잘 이해 못하는 경우도 많습니다.

따라서 본 강좌는 데이터의 가치를 재인식하고 데이터 분석에 대한 이해를 높이는 목적으로 강의가 진행될 예정입니다

자 그럼 강의를 한번 시작해보고 보도록 하겠습니다

본 강좌에서 말씀드릴 순서는 첫 번째 줄에서는 데이터의 가치와 그

가치 의 재발견 입니다.

기업의 어떤 생존과 그 기업의 미래 가치 해서 데이터가 갖는 의미를 어 사례를 여러 들어서 설명해 보려고 합니다

두 번째 절에서는 빅데이터를 기반으로 제 4차 산업혁명을 이해해보려고 합니다

4차 산업혁명 그 자체를 이해하기 보다는 그 빅데이터와 산업혁명이

어떤 연관성을 갖고 있는지에 대한 관점으로 보시면 될 것 같습니다

이해적 관점의 그 산업혁명을 구분하는 것 보다는 어떤 생산의 3요소

로써 4차 산업 에어 혁명이 어떤 특징과 빅데이터가 서로 연결되어 있으므로 이는 설명으로 말씀드릴 수가 있습니다

세번째는 빅데이터에 대한 이해입니다

아직도 빅데이터를 사이즈로만 구분 하려고 하거나 통계 처리한 과정 또는 단순한 어 데이터 분석도 그 로 이해하는 부분이 있습니다만

빅데이터와 데이터 분석에 대한 정확한 정의와 이해가 필요한 시점이 충분히 되었습니다

네번째 줄에서는 의미 있는 데이터 분석을 위해서는 데이터 전문가 즉

데이타 사이언티스트가 그 중심에 있구요

그들의 역량을 높이는 것이 무엇보다 중요한데 이러한 전반적인 이야기를

바탕으로 데이터 분석가의 RnR 즉 역할이죠

이런 것들에 대해서 말씀을 드리고요

뭐 짧습니다 만 최근에 그 많은 관심을 갖고 있고

어족 개인적인 생각으론 앞으로 많이 회자 될 수 있는 이 씨티즌 데이터

사이언티스트 혹은 셀프서비스 애널리틱스 라고 하는

이 rnr에 대해서도 좀 말씀을 드리도록 하겠습니다

데이터 분석의 어떤 자동화 라던지 오토 머신 러닝을 자동으로 하겠다는 거죠 그 다음에 기계 학습과 인공지능의

구현 이런 것들이 자동화가 되고 또 이거 가속화 되면 더욱더 이런 cp

인 데이터 사이언티스트 혹은 셀프서비스 셀틱스 라고 하는 컨셉과 제품들이 많이 나올 것으로 예상을 하고 있습니다

다섯번째 구절에서는 데이터 분석 방법론 입니다.

이렇게 방법론이 라고 하는게 상당히 어떻게 보면 좀 무의미 하고요, 지루할 수가 분명히 있습니다 그럼 분석 방법론을 프레임 업을 이해한다는 것은 분석이 앞서서 대단히 중요한 내용이구요

어떤 분석 방법론 이라 이런 방법론은 it 이나 혹은 뭐 건설이 같은데 다양한 그 도메인에서 활용되고 있습니다.

빅데이터 분석 프로젝트에서도 관련된 모든 그 관계자들이 이 방법론 이라고 하는 것을 공유할 필요가 있구요

그래서 이번 모 줄에서는 단계별로 어떤 이슈들이 있는지에 대한 설명을 쭉 정리해 보도록 하겠습니다

여섯번째 모줄에서는 빅데이터 분석의 첫번째 단계인 기획과 데이터 수집 이라고 하는 것을 갖고 설명을 좀 드릴겁니다

기획은 빅데이터 에서 뿐만 아니라 모든 분야에서 중요하죠

특히나 아직도 이 빅데이터 분석 머신 논이 인공 진호 이런 것들을 아트

로 인식하는 경우가 있습니다

데이터 분석에서의 기획은 보다 구체적인 필요가 있고요

이런 것들을 실용적으로 구현될 수 있는 기획이 절대적으로 필요합니다

또한 기회가 더불어서 데이터 준비 단계 또한 대단히 중요하다고 말씀드릴 수가 있는데

데이터 준비가 성공되지 않는다고 한다면 결코 빅데이터 프로젝트는 성공할 수 없다 라고 하는 가비지 인 가비지 아웃이 라고 하는 절대 진리가 있습니다

데이터가 준비되지 않는 무리한 빅데이터 프로젝트는 성공을 확신할 수가 없습니다

일곱번째 모 줄에서는 분석 단계로 데이터 분석을 어떻게 하는지

데이터 시각화는 얼마나 중요한지 기계학습 이란 또 무엇인지에

대해서 차근차근 좀 설명해 보도록 하겠습니다

어 8번째 모 줄에서는 빅데이터 분석 결과에 대한 시스템화 혹은 만든 모형을 어떻게 평가하고 전개할 것에 대한 얘기를 간단하게 좀 정리를 해보고요

아홉번째 에서는 빅데이터 프로젝트가 과연 어떤 성공 요소가 준비 돼야지 가능한건지 이런 것들에 대한 내용을 짧게 정리해 보도록 하겠습니다

끝으로 데이터 분석을 위한 도구 중에서 최근에 많이 사용되고 있는 r

언어의 설치와 기본 문법을 알아보려고 합니다

뭐 r 말고 파이썬이나 다른 그 오픈소스 도구들이 많이 있습니다만 r은 1만 4천 개가 넘는 방대한 패키지로 구성되어 있고요

R을 잘 이해한다는 의미는 바로 패키지를 적절하게 쓸 수 있고 그 도구를

통해서 분석하고 시각화하고 모형화 하는 과정이라고 말씀드릴 수가 있습니다

따라서 본 과정에서 그 말씀 드릴 기본 문법으로 빅데이터 분석을 위한 도구를 다 배웠다 이렇게 말씀 드리긴 조금 어렵구요

시간을 갖고 혹은 다른 모듈이나 다른 과목에서 이 패키지 활용 데이터 분석할 수 있는 그 실질적인 내용들을 좀더 터득할 필요가 있습니다

예 첫번째 그 섹션입니다.
데이터의 가치의 제 인식과 데이터 가치의 재발견이라고 하는 내용인데요

모듈명에서 이야기하는 것처럼 가치가 없던 데이터에서 가치를 찾는 다가

아닙니다

가치가 있는데 그것을 우리는 잘 알지 못했구요

그래서 찾아보자는 그런 의미로 해석한 것이 맞습니다

목차에서도 말씀드렸던 것처럼 가비지 인 가비지 아웃이 라고 하는 절대적 진리는 변화는 진리가 아닌 것 같습니다

이제 데이터는 부산물이 아닌 기업의 가치 척도가 되구요

생존의 방향타 역할을 할 수 있다 라고 하는 것을 이해할 필요가 있습니다

여기 에덴 이라고 하는 작은 스타트업 컴퍼니가 있습니다

화면에 보고 있는 바와 같이 가든에 센서를 설치하고요

토양이 어떤 영양분 습도 온도 등을 이렇게 측정해서요

이 데이터를 스마트폰 앱이나 pc로 전달하는 뭐 아주 전형적인 iot 디바이스를 판매하는 그런 에딘의 비즈니스 모델은 너무나 평범해 보입니다

사용된 기술도 보시게 되면 뭐 아이 파이 통신 정도 들어가 있을 것 같고요

iot 센서 뭐 태양광 밧데리 모바일앱 뭐 이 정도가 전부로 보입니다

어이 기업의 기술적 진입 장벽은 크게 높지 못하고요

비즈니스 모델 또한 그렇게 특별해 보이지는 않습니다

그런데 만약 이 기업의 비즈니스 모델을 다음과 같이 바꾸면 이거 이야기가 달라질 수 있다라는 거죠

디바이스를 전략적인 가격으로 판매를 합니다

상당히 낮은 가격으로 판매하겠다는 그런 의미겠죠

iot 디바이스 에서 측정된 그 토양 정보를 에딘이 운영하는 혹은 뭐 클라우드 시스템의 수년간 모으게 됩니다

그리고 이 데이터를 활용할 수 있는 서비스를 개발한다면 이걸 어떻게 될지 어 상당히 그 상상이 안되는 부분이 좀 있을 수가 있습니다

만약 단순히 센서와 앱을 공급하는 그 제품 판매가 아닌 상상하기 쉽지 않은 부가가치가 높은 데이터 서비스 회사가 될 수 있다라고 하는 가능성을 충분히 갖고 있는 그런 기업의 비즈니스 모델이 될 수가 있다 라고 하는거죠

앞부분에서 말씀드렸던 것처럼 데이터와 갖는 그 가치에 대해서 우리는 한번 생각해 볼 수 있었습니다

자 두번째 사례는 구글입니다

직원이 한 300명 정도 되는 그 네스트 라고 하는 역시 작은 스타터 컴퍼니를

당시 3조 2천억 달러에 mna 를 하게 되죠

그러면 우리나라 연도 국가예산이 407, 80조 뭐 추경하면 500조가 될지 모르겠습니다만

어 1% 에 가까운 엄청난 금액이 고요

당시 그 유튜브에 인수 가격에 두 배 정도 되는 상당히 큰 금액입니다

이 네스트의 온도 이 조절 장치와 화재감지기 기술은 역시 에디에서 와 보는 바와 같이 와이파이 정도 들어가 있을 것 같고요

어 칼라 스크린 그 다음에 클라우드 시스템 그 다음에 뭐 머신러닝과 관련된 조금 알고리즘

이런 것들이 들어가 보이는 그렇게 특기에 보이지 않는

디바이스 입니다

구글이 무모해 보이는 이러한 내면의 이를 당시 국내 언론에서는 향후 큰 시장이 형성될 것으로 예상되는 어 가정의 iot 허브와 관련된 기술 확보로 해석을 하고 있습니다

물론 그럴수 충분히 있죠

그런데 실내의 온도 조절 장치를 집에 iot 허브로 생각하기에는 요즘 많은 그 경쟁자들이 존재합니다

예를들어서 냉장고도 생각해 볼 수가 있구요
tv, 세탑박스 최근에 또 인기를 끌고 있는 ai 스피커 등 전부 다 가정의 iot 허브가 될 수 있다 라고 하는 거죠

그래서 구글의 mna 를 설명하기에는 뭔가 부족해 보인다

그렇다면 이러한 과정 도 가능할 수가 있을 것 같은데요

구글은 이 온도조절 장치가 설치돼 여인은 이 모든 가정의 실내 온도에 대한 변화 이런 것들 데이터로 다 확보하고요 이를 응용할 서비스를 기획한다

그런 차원에서 MNA다 라고 가정한다면 이건 충분히 가능성이 있습니다 데이터의 가치를 중요하게 생각하고 있었던 구글의 기업 전략과 크게 다르지 않다 라고 하는 거죠

자 세 번째는 국내 사례가 될 것 같습니다

2017년말 과 2018년 초에 신문에 크게 나왔던 내용인데요

이 네이버 라고 하는 기업이 리멤버 라고 하는 작은 회사를 mna를 합니다

내부는 뭐 자란 국내 it 기업이죠.

리멤버는 병원 관리를 하는 뭐 조금 알려질 수도 있고 그렇지도 않은 그런 작은 스타 더 컴퍼니입니다

근데 네이버는 100억 에 투자를 하게 됩니다

국내 스타트업 환경에서 백업은 되고 작은 돈이 아니거든요

그렇다면 네이버에 투자 목적은

무엇으로 생각할 수 있을까요

네이버는 리멤버에 기술도 어벽이 갖는 어떤 그 가치보다는 리멤버가 갖고 있는 그 비즈니스 카드

즉 우리가 명함이죠 이 명함 데이터에 있다고 생각해 볼 수가 있습니다

우리가 무심코 주고받는 명함 그곳에 있는 정보는 뭐 대단히 많이 있습니다

뭐 혹자는 명함 하나의 50개 정도의 정보를 갖고 있다라고 얘기를 하고 있는데요

근데 여기서 중요한 정보 하나 더 있습니다

바로 이 명함 자체의 갖고 있는 그 속성 정보로 중요하지만 명함과 명함을 주고 받았던 그 커넥션 정보입니다

즉 네트워크 정보의 정보라고 할 수 있는데

네트워크 정보의 완성은 각 엔터키 즉 노드의 정보 만큼 중요한 것이

노드를 연결하는 방향성을 갖고 있는 엣지 라고 하는 정보입니다

이러한 정보를 갖고 있는 리멤버 라면 네이버가 투자하는게 결코 잘못된 의사 결정 이라고 말하긴 어려울 것 같습니다

역시 네이버도 데이터의 가치를 충분히 알고 있는 국내의 굴지의 it 회사라고 볼 수가 있기 때문입니다

어 네 번째는 네따모라고 하는 기업입니다

뭐 기업의 혹은 가정의 기상청 이라고 하는 닉네임을 좀 갖고 있는 iot 제품이죠

가정주부의 그 폐암 사망률이 남성보다 남성과 큰 차이가 없다 라고 하는 그 신문 기사가 아마 어 몇 차례 나왔습니다

이유는 뭐 담배는 아니죠 분명 주방에서 요리할 때 발생하는 그 뭐 가스라던지 음식 조리와 관련된 이런 미세먼지가 여성 폐암 사망률 1위를 하고 있는 원인이 됩니다.

뭐 주 원인이겠죠 어 네따모를 주방이 간단하게 설치 하게 되면요

그 주방에 온도 습도 공기 오염 정도로 이게 측정을 해서 스마트폰으로 알려주는 뭐 대표적인 iot 제품이죠

그런데 이러한 기능만을 내세운 그 네따모라고 한다면

어 뭐 다음 페이지에 나오는 뭐 삼성이나 다이슨이나 이런 경제 경쟁 제품과는 이 브랜드의 어떤 인지도 측면 혹은 제품의 성능 측면에서 뭐 유리할 측면이 하나도 없다고 볼 수가 있습니다

실내공기 정화 과학과 관련 된 국내외 가전제품의 홈페이지를 들어가보면요

뭐 슬라이드에 나와 있는 것은 다이슨 같은 경우에 99.9% 의 성능을 자랑하고 있구요 다양한 디자인의 제품들이 소개되고 있습니다

어쩌면 기능면에서는 네따모 보다 훨씬 뛰어나구요

어 가격 경쟁도 있습니다

네따모에 비해서 비교우위가 있음을 우리는 분명히 알 수가 있는데 여기서 우리는 내 땀 우의 미래가치를 예단할 수 있는 경쟁 회사 제품에는 찾기 힘든 그런 웹페이지가 있음을 발견할 수가 있습니다

바로 이 페이지 입니다

네따모를 설치한 가정에서 어 측정된 여러가지 온도 습도 강수량 풍수 공기 오염 정도를 웹에 이렇게 표시를 해주고 있죠

뭐 측정된 정보를 보여주는 것이 it 측면에서는 그렇게 대단하다고 보긴 어렵습니다만

우측에 나와있는 그 내용이 일정 부분이 예측이 된다는 거죠 온도를 예측한다는 겁니다

어 뭐 예를 들어서 기상 예측 선진국들도 아무리 그 정확한 일기예보를 한다고 하더라도 그 가정 마다 설치되어 있는 그런 그 측정 된 정보 기상정보죠 이런 것들을 이용해서 일기예보 하려 하는 것은 살상 어려울 수가 있습니다

근데 만약 넷다모가 이러한 정보를 뭐 1년 5년 10년 후 20년

이렇게 다 모아놓게 된다 고 한다면 어이 회사 갈 수 있는 것은 이건 상상을 초월할 수가 있습니다

지금까지는 쉽게 상상하기 어려운 엄청난 부가 가치 있는 그런 서비스를 만들 수 있다 이렇게 말씀드릴 수가 있습니다

10년전 글로벌 시가 총의 상위 기업은 엑손모빌 쥐 공상냉 어 주로 그 금융과 제조 기업이 그 중심에 있었습니다

근데 10년이 지난 총 1919년 현재 어 지금의 10 대 어 상위 기업을 살펴보면요

애플 구글 아마존 페이스북 텐센트 등 모두 플랫폼과 컨텐츠 즉 데이터를 갖고 있는 기업들이 그 중심에 있음을 알 수 있습니다

기업의 가치와 순위가 그 기업이 갖고 있는 데이터의 질과 양의 있다고 한다면 이건 너무 확대된 해석이라고 할 수 있을까요

어 물론 그렇게 말을 할 수도 있습니다만 저는 그 말에 동의가 쉽지가 않습니다

이제는 제조업도 제품을 생산하고 판매하는 것으로만 사업영역을 한정 한다면 결코 글로발 컴퍼니 가 될 수 없고 프로덕트와 데이터를 같이 서비스할 수 있는 기업만이 생존할 수 있음을 이해할 필요가 있습니다

우리가 뒷부분에 4차 산업혁명과 빅데이터를 연결해서 설명할 때도 이 서버 타이즈 에디션인 앞으로 더 타이즈 이션 이라고 하는 단어가 좀 나오게 되는데 그 컨셉 또한 데이터 프로덕과 데이터가 하나의 서비스 라고 하는 개념입니다

그동안 우리는 고품질 저가격에 프로덕을 만드는 것을 목적으로 했구요 그 목적 중에 만들어지는 혹은 부산물로 나오는 데이터는 그 가치를 그렇게 중요시 하지 않았습니다 이제는

프로덕트와 데이터가 하나의 서비스 라고 하는 사실을 우리는 분명히 이해할 필요가 있습니다

지금까지 그 여러 기업에서 말씀 드렸던 그 iot 라고 하는 요소기술 일텐데요

이 iot 를 위키피디아에서 그거 찾아보면 다음과 같이 정의를

내리고 있습니다

이 iot 어 인터넷 오브 띵스(internet of things) 라고 하는건데요

전자제품 으로서 소프트웨어 나 센서 연결 장치로 구성된 사물의 인베 리들의

디바이스 라고 하면서 iot 의 궁극적인 목적은 사랑과 사물 사물과 사물간의 데이터 교환을 통해서 가치를 증대하는 것이 그 목적이다 라고 위키피디아에서 정의를 내리고 있습니다

어떤가요 이 iot 를 데이타 활용과 응용 보다는 센서 아 임베디드 시스템으로 가 만약 한

정한다면 우린 iot 를 정확하게 이해하고

적용하고 있다고 보기 어렵습니다

iot 를 이용해서 나오는 데이터를 얼마나 활용할 수 있느냐 얼마나 응용할 수 있느냐가 대단히 중요한 iot 의 기술이다 라고 말씀드릴 수가 있습니다

같은 매년 그 10대 전략 기술과 하이퍼사이클 이라고 하는 것을 발표하고 있습니다

최근에 언어 수 된 자료를 보게 되면요 이 빅데이터 라는 키워드는 하이프 사이클 상에 나타나지 않고 있습니다

가트너가 2012년 부터 2014년까지 이 빅데이터 라고 하는 키워드를 요소 기술인 기술이 겠죠

어 같은 입장에서 보면

어 하이프 사이클 항목의 포함을 하고 있습니다

그 이후에는 이제 제외를 했구요

그러면서 이런 그 멘트를 하나 남깁니다

이제 빅데이터는 기업의 기반 기수이지 하이프 사이클의 존재하는 요소 기술이 아니다 라고 하는 겁니다

그러면서 그 iot 와 머신 러닝 등 빅데이터와 관련된 주요 항목이 계속해서 10대 전략 기술의 나오고 있습니다

디지털 트윈스 ai 파스 딥러닝 머신러닝 등이 수 년대 시험 가능한 기술로 보고 또또 있습니다

많은 it 관련된 기술 뒤 하이프 사이클에 어떤 캐짐의 상태에서 사라지고 있으나 iot 와 빅데이터 관련 된 기술들은 실현되고 응용 되서 어찌 4차 산업 혁명 이라고 부르는 현재 중요한 요소 기술로 자리를 잡고 있다고 하는 사실을 가트너에 하이프 사이클을 통해서 우리는 읽어 볼 수가 있습니다

얼마전 우리나라에서 개최했던 그 아시안 리더스 컨퍼런스 에서 알리바바의 마윈 회장이

어 이런 이야기를 했습니다

지난 20년간의 it 시대는 이제 끝났고 앞으로 30년 간 의 dt 시대를 준비하자 라고 하는 것을 때 단 힘줘서 이야기를 했습니다

마빈 회장이 이야기하고 있는 이 dt 는 바로 그 빅데이터 인공지능을 이야기 하는 것이구요

어 이 부분에 대해서는 뭐 데이터 테크놀러지 다 혹은 디지털 트랜스포메이션 이다 라고 다양하게 해석은 하고 있습니다만 역시 그 기반은 빅데이터 라고 하는 것은 뭐 우리가 충분히 읽어 낼 수가 있습니다

어 우리는 이 마윈회장 의 이 it 와 dt 이런 관계 속에서 참 중국의 어 it 에 대한 이미래 자신감을 충분히 읽어 낼 수가 있구요

어떻게 보면 it 강국이라고 했던 우리 입장에서는 부러움의 대상이 될 수도 있습니다

어차피 빅데이터에서 데이터의 크기를 표현하는 어떤 그 수식어로

보아서는 빅데이터와 빅데이터 분석 빅데이터 기술

이런 것들을 정확하게 설명하기가 어렵습니다

이제는 그 빅데이터 라고 하는 이 단어를 근데 하나의 단어 뭐 우리가

보통 명사니 고유 명사니 말하는 것처럼 하나의 바로 단어로 인식할 필요가

있는 거죠 니까 많다 라고 하는 이 빅에 너무 큰 의미 성을 두지 않아도 된다는 것 같습니다

최근에는 빅데이터 를 넘어서 뭐 스마트 데이터 웨스트 데이터 뚱뚱보 이런 얘기도 많이 하고 있고요

뭐 아 부근에서 얘기했던 것처럼 dt 도 뭐 어 데이 파티 클러치 혹은 뭐 디지털 트랜스포메이션 이다 라고 하면서 상당히 많은 그 해석들을 해야 되고 있습니다

어느 학자는 이 페타바이트 이상의 데이터를 빅데이터로 보고 있는데요

이 페타 바이트라고 하는것은 엄청난겁니다.
뭐 우리나라의 굴지의 대기업들도 그 데이터를 뭐 수십 년간 잊어 그동안 그걸 다 모아 봤자 페타가 안되는 이렇게 말해 말할 정도로 상당히 큰 규모의 데이터가 되는데요

어떠한 그 1를 한 30% c 데이터가 증가하고 있는 현실에서 그 오래지 않아 이제 그 전산실에 뭐 자체 데이터도 여러분이 그 항상 들고 다니고 있는 usb 메모리 스틱 안에 다 담을 수도 있습니다

그렇다면 그 일단 크기로 소만 완역 빅데이터를 자꾸 이해하려고 하고 그걸

그거 기반에 의한 빅데이터 분석 빅데이터 기술을 이렇게 나누기 시작한다고 한다면 이것은 현재 기준으로 보면 약간 음 뭐 이미 하다고 말씀 드릴 수가 있습니다

아 그래서 제가 앞서 말씀드렸던 것처럼 빅데이터 라고 하는 이 빅을 어떤 크기를 나타내는 수식어 즉 형용사로 보지 말고 저희 빅데이터 하는 그 어떤 일반적인 그냥 명사로 인식하고 그거 안에서 우리가 데이터 분석을 하고 있다라고 오는 것이 가장 그 보편적인 어 정 의 다라고 말씀드릴 수가 있습니다

조금 전 앞에서 얘기했던 그 뭐 10페타 정도가 되어야 빅데이터다 이렇게 말하는 그 학자가 제가 있다고 말씀드렸는데 어 지금이 슬라이드에서 나와있는 것처럼 어 머 킬로바이트 메가바이트 기가바이트 뭐 테라바이트 까지 이제 우리가 많이 들어갔는데요

이런 것들을 컴퓨터에서 얘기하고 있는 바이너리 프리픽스로 표현하게 되면 아주 작은 당이 해당됩니다 지금이 그래 부상이 줘 상단에 있는 거거든요

어 또 이 증상이 있는 모든 디지털 데이터를 다 합치면 제타 바이트 라고 하는 학자도 있습니다

어 계산이 쉽지 않습니다 만 하여튼 그 학자의 그 이야기를 그대로 믿는다 하더라도 이 바이너리 프리픽스 로 보면 결코 이게 큰 단위가 아닙니다

따라서 그 데이터의 그 어떤 크기로서만 즉 사이즈로서만 빅데이터를 구분하는 것은 어 옳지 않고요

현재 있는 데이터를 이용해서 우리는 빅데이터 분석 방법들로 데이터를 분석하겠다. 라고 이런 식의 어 접근이 더 타당하다 라고 말씀드릴 수가 있습니다

어 경영정보 시스템 이라고 해서요 우리가 mis 라고 하는 부분도 상당히 이삼십 년 전에 크게 바람이 불었고 한 10여년적만 하더라도 뭐 지식관리시스템 하면서 kms 라고 하는 것도 이제 상당히 기업들에서 큰 바람이 불었던 그런 시스템 드립니다 컴퓨터시스템 되죠 어 그거 이런 그 정보 시스템 들이

어 핫 이슈로 떠올랐고 요 우리는 그 시스템에서 필요로 하는 그 인포메이션 날리지 들의 대단히 주목을 했습니다

지금도 그 인포메이션이나 날리지는 아주 중요한 정제된 데이터로서 데이터 분석의 어 일부 활용되고 있습니다

그러나 지금 빅데이터를 분석하고 예측 모델을 만들어 내기 위해서는 이러한 써머리 된 즉 에듀케이션 된 정보 보다는 그것을 만들었던 원천 데이터 즉 우리가 로우 데이터라고 이제 얘기도 하고 있습니다만 이게 더 훨씬 중에 졌다는 거죠

어 정제대고, 요약된 데이터는 데이터 갖고 있는 그 원래 속성들을 상당부분 잃어버립니다

이제 우리가 지금 분석하려고 하는 것은 그 잃어버렸던 그 데이터의 어떤 기본적인 속성들을 다 활용하자는것 같아요

그러니까 지금까지 우리는 이 인포메이션과 날리지 라고 하는 뭐 지금 이슬라이드에서 나와 나와 있는 뭐 위즈덤 까지도 우리가 생각해 볼 수 있습니다만 그건 그거 나름대로 다 가치를 갖는 겁니다

그렇지만 이제 우리가 인포메이션과 날리지를 만들어내기 위해 사용했던 로우 데이터 즉 데이터를 다시 봐야 된다는 거죠

거기에 상당히 많은 가치가 있다

이렇게 말씀드릴 수가 있습니다

Author: stanley

데이터 기초

1강 데이터 가치의 재발견

Author: stanley

3 thoughts on “1강 데이터 가치의 재발견”

김영신에 답글 남기기 응답 취소