데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

Big Data 전문가에게 듣는다. - SK C&C Cloud Computing 기술본부 성기준 상무

DATA 인터뷰
작성자
dataonair
작성일
2011-11-16 00:00
조회
5809





111116_inter.gif

Big Data 전문가 성기준 상무님에게 듣는다.

 

최근 빅 데이터(Big Data) 처리 기술이 IT 분야에서 화두로 떠오르고 있습니다. 페이스북, 트위터 등 소셜 서비스가 폭발적인 인기를 끌면서 빅 데이터에 대한 관심이 더욱 증가되었으며, 이와 더불어 빅 데이터 처리 기술이 각광을 받게 되었습니다. 이에 빅데이터 처리기술 및 향후 국내 IT시장의 변화와 대응 전략에 관해 알아보는 시간을 마련하였습니다.


1. Big Data란 무엇인지 간단히 정의해 주시기 바랍니다.

- 현재 주로 쓰이는 관계형 데이터베이스등의 소프트웨어나 시스템으로는 용인할 수 있는 시간 내에 처리하기 힘들 정도로 큰 데이터 셋을 의미합니다. 얼마나 커야 Big Data라고 부를 수 있는가에 대한 정의는 계속해서 변화하고 있지만, 현재는 수 테라바이트(TB)에서 수 페타바이트(PB)정도 크기의 데이터를 보통 Big Data라고 부릅니다. 빅 데이터의 유형으로는 웹 서비스 회사의 웹 로그, SNS의 소셜 데이터, 모바일 서비스 이용자들의 위치 정보, 검색 서비스를 위한 인덱스, 통신 회사의 CDR(Call Detail Record), 천문학이나 지리학, 의학 같은 과학 연구 데이터, 사진이나 동영상 같은 멀티 미디어 데이터 등이 있습니다. 가트너에서는 데이터 크기가 커짐에 따라 해결해야 하는 문제를 볼륨(volume), 속도(velocity), 다양성(variety) 이렇게 3가지 차원에서 정의했습니다. 빅 데이터를 이야기 할 때, 단순히 데이터의 양 만을 생각할 게 아니라, 엄청난 규모의 데이터를 어떻게 빠르게 실시간으로 처리할지, 다양한 데이터 소스로부터 생성되는 다양한 포맷의 데이터를 전부 수용하고 처리 할 수 있는 지를 같이 고민 해야 합니다.

2. 최근 Big Data가 화두가 되고 있습니다. 그 이유가 무엇이라고 생각하십니까?

- 2010년 우리는 이미 제타바이트(ZB) 시대에 들어섰습니다. 컴퓨팅 기술의 급격한 발전으로 인류가 생산하고 소비하는 정보의 양은 해마다 8배씩 매우 빠른 속도 급속히 증가하고 있습니다. 이렇게 축척된 엄청난 양의 데이터를 빠르고 효율적으로 분석하기 위해서는 Big Data 처리 기술이 필수적입니다. 또한 이러한 데이터를 어떻게 바라보고 대응하느냐에 따라 새로운 비즈니스 가치를 만들어 낼 수가 있게 되었습니다. 실제로 다양한 분야에서 Big Data 성공 사례가 나오고 있습니다. 일부 글로벌 업체의 경우만 살펴보더라도 아마존, 구글, 페이스북 같은 업체는 Big Data를 잘 활용해서 성공한 대표적인 글로벌 업체들입니다. 구글은 Big Data를 정교하게 처리하고 분석할 수 있는 분산 컴퓨팅 기술을 통해서 최고의 검색 서비스를 제공하고 있습니다. 페이스북 역시 Big Data 기술을 기반으로 최고의 소셜 서비스 회사가 되었으며, 현재 구글과 치열한 경쟁관계에 있다고 할 수 있습니다. 한편 애플은 iCloud 스토리지 서비스를 통하여 Big Data를 확보하기 위한 많은 노력을 하고 있습니다. 이처럼 Big Data는 우리에게는 선택이 아닌 반드시 해결해야 할 과제이자 새로운 가치와 기회로써 이미 다가온 상황입니다.

3. 이러한 Big Data 시대의 도래로 인한 국내 IT시장은 어떻게 변화될 지, 그리고 어떻게 대응해야 할 지 말씀해 주실 수 있나요?

- IT 기업이 다루어야 하는 정보의 규모와 형태가 빠르게 변화하고 있기 때문에, IT는 매 순간 쏟아지는 다양한 포맷의 방대한 데이터를 실시간으로’ 수집하고, 저장하고, 관리하는 ‘방법과 전략에 관해 고민해야 합니다. 단순히 운영을 위한 데이터 관리뿐만이 아니라, 데이터에서 인사이트를 찾을 수 있는 가공/분석 프레임워크도 고객들에게 제공해야 합니다. 전통적인 OLTP나 OLAP기술이 구조화, 정형화된 데이터를 처리하는 데 집중해 왔습니다. 운영 기간 동안 쌓인 데이터를 가공해서 다시 모델링하고 분석하는 방식이었습니다. 하지만 이제는 엄청난 데이터를 실 시간으로 수집/분석 할 필요가 있습니다. 정형화된 데이터뿐만 아니리 비정형 데이터에서도 유용한 패턴을 찾아내야 합니다. 이는 예전과 다른 좀 더 유연한 데이터 관리/분석 기술과 접근방식을 필요로 합니다. 또한 데이터 운영 관점에서도 변할 필요가 있습니다. 전통적인 비즈니스 관리시스템에서는 데이터의 강한 정합성이 핵심 속성이었지만, 페이스북이나 트위터 같은 웹서비스는 데이터 정합성 보다는 가용성, 응답성 등이 더욱 중요합니다. 이제는 기존의 데이터베이스와 마이닝 기술에 머무르지 않아야 하며, 새로운 관점의 데이터 모델링과 트랜잭션 방식을 생각해고 준비해야 합니다. 또한 상황에 따라 유연하게 데이터를 바라볼 수 있는 시각을 갖고 있어야 Big Data 시대에 변할 수 있어야 할 것입니다.

4.Big Data 처리 기술이 각광을 받고 있는 것 같습니다. Big Data 처리 기술에 어떤 것들이 있는지 말씀해 주세요.

- Big Data를 위한 주요 기술은 다음과 같이 분류해 볼 수 있습니다.
(1) 분석 기술: 데이터를 분석하는 기술과 방법론을 의미하며 통계, 데이터마이닝, 기계학습, 자연어처리, 패턴 인식, 예측 모델링 등
(2) 표현 기술: 일반적으로 데이터 시각화로 알려져 있으며, 분석된 결과를 잘 표현해주는 기술
(3) 인프라(수집, 처리, 관리) 기술: 비즈니스인텔리전스, 데이터웨어하우징, 클라우드 컴퓨팅, 분산 데이터베이스(NoSQL), 분산 병렬처리(하둡 맵리듀스), 분산파일시스템 등

먼저 Big Data를 위한 인프라 기술에서는 아파치 하둡 프로젝트가 큰 관심을 끌고 있습니다. 하둡은 분산 파일시스템(HDFS)과 데이터 처리 프레임워크인 맵리듀스(MapReduce)를 제공하고 있으며, 서브 프로젝트로 데이터 수집 시스템인 척와(Chukwa)나 플룸(Flume), 그리고 기계 학습 라이브러리인 마하웃(Mahout) 등 Big Data 처리에 필수적인 솔루션들을 제공해 줍니다. 또한 전통적인 관계형 데이터베이스의 저장 한계를 보임에 따라, 분산된 노드에 키와 값의 쌍의 형태로 데이터를 저장 관리하는 NoSQL 솔루션들이 주목 받고 있습니다. 구글의 빅테이블(Bigtable)이나 아마존의 다이나모(Dynamo)가 선구적인 성공사례입니다. 구글은 플랫폼 서비스인 구글 앱엔진의 데이터 저장소로 빅테이블을 사용하고 있고요. 아마존에서는 NoSQL 방식으로 데이터를 저장 관리해주는 서비스인 SimpleDB를 제공하고 있습니다. 대표적인 오픈소스 NoSQL 솔루션으로는 HBase, Cassandra, MongoDB 등이 있으며, 이러한 솔루션들이 주류를 형성해가고 있습니다.

이러한 분석 인프라 기술을 기반으로 수집, 저장된 데이터를 가공해서 유의미한 지식을 추출해 내기 위한 분석 기술과 데이터 시각화 기술이 Big Data 주요 기술들이라고 할 수 있습니다. 이러한 분석 기술로 R같은 오픈소스 통계 처리 패키지, 쿠다(CUDA)같은 행렬 곱 연산 기술 등이 최근 주목 받고 있습니다.

5. Big Data의 급속한 성장으로 이 분야에 많은 인력이 필요할 것 같은데, 현재 Big Data 분야의 국내 인력 수준은 어떤가요?

- 국내의 경우 2008년부터 시작된 클라우드 컴퓨팅 기술의 보급과 활성화로 인하여 Big Data 분야의 소트프웨어 전문 인력이 다수 양성되어 있어서 국제적인 경쟁력을 보유하고 있습니다. 이러한 기존의 전문 인력들을 중심으로 새로운 전문 인력들이 양성되기 위한 기반 확보가 필요합니다.

또한 국내의 경우 Big Data 관련해서는 시스템개발자, 알고리즘 개발자, 업종 전문가 정도로 영역 언급된 직종 외에도 데이터 사이??문가들이 생기고 있습니다. 이는 Big Data의 기술 및 시장의 활성화 가는 과정에서 필연적으로 생기는 직종들로 생각 됩니다. 대한민국이 Big Data 분야에서도 최고의 경쟁력을 갖기 위해서는 Big Data를 위한 세부 필요 기술과 분야를 구체화시키고 각 분야별로 전문성을 확보하기 위한 노력도 필요할 것으로 보입니다.

6. Big Data 분야의 전문가로 성장하려면 어떻게 준비해야 할까요?

- Big Data와 클라우드컴퓨팅 분야는 상대적으로 공개소프트웨어 기술이 두각을 나타내는 분야입니다. Big Data를 통해서 성공한 글로벌기업인 구글, 페이스북, 아마존, 야후는 자사에서 개발한 Big Data 인프라 기술을 공개SW로 만들어서 일반에게 공개를 했습니다. 이러한 글로벌 기업들이 어떠한 솔루션과 방법론을 이용해서 Big Data를 처리하고 있는지는 논문 등을 통해서 공부하고 분석 해 볼 수 있습니다. 검증된 공개SW 솔루션들을 선별해서 조사도 해보고, 공부하고 분석하는 것도 필요합니다. 다양한 Big Data 관련 커뮤니티나 행사에 참석해서 최신 트랜드를 파악하고 업계 전문가들과의 교류를 강화하는 것도 권해드립니다.

7. Big Data 전문가로서 국내 IT 종사자들에게 조언해 주실 말씀이 있으신지요?

- 한국은 IT 서비스 산업 구조상, 신기술 적용이 해외보다 많이 늦어지는 경향이 있습니다. 국내IT 종사자들이 Big Data 와 같은 신기술의 큰 흐름에 관심을 갖고, 실제 업무에 단계적으로 적용할 수 있는 방법을 모색하는 데에 좀 더 적극적인 태도를 갖게 되기를 바랍니다.

출처 : 한국DB진흥원

제공 : DB포탈사이트 DBguide.net