데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

대용량 데이터 처리 플랫폼의 차세대 주자, 스파크를 아시나요? - 이상훈 한국스파크사용자모임운영자 / SK C&C / 빅데이터 아카데미기술 전문가 과정 멘토

DATA 인터뷰
작성자
dataonair
작성일
2014-12-24 00:00
조회
7795




대용량 데이터 처리 플랫폼의 차세대 주자, 스파크를 아시나요?

하둡의 느린 속도와 불편함 개선... 미국과 중국 중심으로 각광

지난 10월 말 서울 강남의 한 사무실, 데이터 처리 플랫폼에 관심을 가진 20여 명의 사람들이 모였다. 이곳에서는 으레 나오게 마련인 ‘하둡’ 대신 ‘스파크(Apache Spark)’라는 낯선 용어가 자주 오갔다. 지난 몇 년간 (빅)데이터와 거의 동의어로 쓰이던 하둡을 대체할 차세대 데이터 처리 플랫폼으로 스파크에 대한 정보를 주고 받는 스파크 사용자 모임(이하 스사모)의 첫 모임이 열린 것이다. 스사모를 탄생시킨 주역 가운데 한 명이자 운영자로 활동하는 이상훈 씨를 만나 스파크에 대한 얘기를 나눴다.

in_141224_01.jpg

▲ 이상훈 한국스파크사용자모임(https://www.facebook.com/groups/sparkkoreauser) 운영자. SK C&C에서 일하며, 빅데이터 아카데미에서 기술 전문가 과정 멘토로 활동하고 있다.

스사모를 소개하면.

10월 말에 스파크(Apache Spark)를 사용하고 있는 두 명의 데이터 분야의 전문가를 우연히 만났는데 뜻이 맞아 모임을 만들기에 이르렀다. 외국에서는 스파크가 매우 이슈가 되고 있는데도 국내에서는 조용해 스파크를 함께 공부하고 널리 알리자는 취지에서 시작했다.

스파크를 소개해 달라.

하둡과 비교해 보면 스파크의 특징이 분명히 드러난다. 하둡에서 SQL을 사용하려면 하이브를, 스트리밍 데이터를 처리하려면 스톰을, 머신러닝을 하려면 머하웃을 각각 운영해야 한다. 하지만 스파크는 SQL과 스트리밍 데이터, 머신 러닝을 한 곳으로 통합?운영할 수 있는 솔루션이다. 메모리를 많이 활용하고, 맵리듀스를 벗어나 다양한 작업을 더 빠르고 효율적으로 처리할 수 있다. 물론 오픈소스 소프트웨어(OSS)다.

하둡을 대체할 수도 있다고 보는가.

하둡이나 기존 RDBMS를 대체한다고 보기는 아직 이르다. 하둡에서 운영되는 맵리듀스의 느린 속도의 단점을 개선하는 데 초점이 맞춰진 OSS라고 볼 수 있다. 파일 시스템인 HDFS는 그대로 활용하고, 별도로 떨어져 있던 하이브(SQL)나 스톰(스트리밍 데이터), 머하웃(머신러닝)을 통합하는 쪽으로 발전할 것이라고 전망하다. 하둡2가 나오면서 조금 달라졌지만, 하둡은 크게 저장기능과 처리기능으로 양분할 수 있다. 스토리지는 스파크가 대중화되더라도 HDFS가 어느 정도 유지될 것이라고 생각한다. 스파크에서 HDFS가 아닌 다른 파일 시스템을 사용할 수 있지만, 이미 하둡으로 빅데이터 클러스터를 구성해 놓은 곳에서는 HDFS를 바꿀 수 없기 때문이다. 맵리듀스와 스톰, 하이브는 스파크로 대체될 가능성이 높다. 분명한 것은, 하둡도 기존 RDBMS와 비교하면 그 사용률이 미미한 수준이다. 스파크가 국내에 소개된 지 얼마 안된 상황에서 스파크로 대체된다고 말하기는 아직 이르다.

스파크가 떠오른 분명한 이유가 있을 것 같다.

해외를 중심으로 스파크가 매우 빠르고 편리해서 하둡을 대체하기에 매우 좋은 오픈소스라는 의견이 속속 나오고 있다. 그래서 하이브나 머하웃처럼 하둡에서 돌아가던 오픈소스 소프트웨어들도 엔진을 스파크로 바꾸려는 움직임이 일고 있다. 앞서 머신러닝을 위한 머하웃을 소개했는데, 현재도 (머하웃에서) 자바 등의 언어로 코딩하면 맵리듀스로 자동으로 전환해 머신러닝을 할 수 있다. 물론 여기서 말하는 자동이란 클릭 한 번으로 뚝딱 전환된다는 말은 아니다. 기존에는 머하웃에서 머신러닝을 맵리듀스 기반으로 처리했다면, 아직 초기 단계지만 스파크 엔진에서 처리할 수 있도록 전환중에 있다. 더불어 하이브도 스파크 엔진이 호환 가능하도록 개발중이다. Spark SQL도 하이브 라이브러리를 최대한 수용하고, 엔진 부분만 스파크로 대체하는 쪽으로 바뀔 전망이다. 따라서 기존 하이브 사용자가 Spark SQL로 이전하는 데 큰 무리는 없을 것이다. 문제가 되는 것이라면, Spark SQL의 역사가 짧다는 점이다. 기존에 샤크(Shark)라는 이름으로 유지되다 얼마 전에 Spark SQL로 넘어왔다. Spark Streaming이나 Spark MLlib도 마찬가지로 역사가 짧다. 이런 상황에서는 매우 중요한 실시간 로그 데이터를 스파크로 안정적으로 처리할 수 있을지는 검증이 더 필요하다.

스파크의 탄생 배경은.

2009년 미국 UC버클리대학 AMPLab에서 시작된 것으로, 맵리듀스가 속도 등에서 너무 불편해서 시작됐다고 한다. 이곳에서 본격적으로 스파크 API를 내놓으면서 눈길을 끌기 시작했다. 스파크는 프로그램 언어로 스칼라(Scala)와 자바, 파이썬 등을 지원한다. 이 중에서도 스칼라가 가장 주목을 받고 있다. 스파크가 스칼라 언어의 장점을 적극 반영한 도구이기 때문이기도 하다. 스칼라는 객체지향성과 함수형 언어로서 특성을 갖고 있으며, 코드가 매우 간결하다. 따라서 스파크에서 스칼라를 사용하면, 기존 맵리듀스로 짰던 코드를 크게 줄일 수 있다. 국내에서는 스칼라 언어 사용자가 적어서 스파크를 제대로 사용하기 위해 새로운 언어까지 배워야 한다는 부담이 따를 거 같다.

in_141224_02.jpg

스사모가 하는 활동은.

아직 스파크와 관련한 국내 자료가 많지 않으므로 한글 자료의 기반이 될 스파크와 관련된 토론을 많이 할 계획이다. 스파크를 처음 접하는 사람이 외국어가 아닌 한글로 된 자료로 접했을 때는 훨씬 빨리 적응할 수 있을 것이다.

외국 자료는 많은 편인가.

영어로 된 자료가 많고, 특이하게도 중국어로 된 자료가 눈에 띄게 많다는 것에 놀라고 있다. 특히 오는 12월(이 글의 인터뷰 시점은 2014년 11월 중순 _편집자 주), 중국 상하이에서 800여 명의 스파크 사용자들이 모여 ‘Spark Summit’을 개최한다는 소식을 들었다. 공인된 행사인지는 모르지만, 가까운 중국에서 이미 800명 규모로 스파크 전문 행사를 치른다는 것만으로도 놀랍다. 최근의 내용이 반영된 책은 아직 없고, 오는 12월과 내년 2월에 해외에서 출간될 예정이다. 한국어 번역도 조만간 진행된다고 들었다.

현재 몇 명 정도의 회원이 활동하고 있나.

150여 명의 회원이 활동하고 있다. 온라인 회원 수보다 오프라인 모임 참석자들의 수에 더 의미를 두고 있다. 원래는 회원들이 돌아가면서 주제 발표와 토론을 하기 위해 모였다. 첫 모임 때, 발표를 했는데 별로 반응이 없을 것이라는 우려와 달리 매우 열띤 토론이 이뤄졌다. 온라인에서 이뤄지는 토론과는 차원이 다르므로 오프라인 모임을 월 1회 또는 격월로 진행할 계획이다.

오프라인 모임 참석자들의 구성이 궁금하다.

IT 분야에서 일하는 사람이 대부분이다. 빅데이터 분석 시스템 도입을 준비중인 회사 또는 기관에서 스파크를 검토하는 차원에서 매우 적극적이었다. 글로벌 IT 벤더에 소속된 사람도 있고, 빅데이터 처리를 잘 모르지만, 스파크라는게 요즘 각광 받고 있다는 소식을 듣고 참여한 사람까지 매우 다양하다. <끝>

출처 : 한국데이터베이스진흥원

제공 : 데이터전문가 지식포털 DBguide.net