데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“하둡 시작은 누군가에 작은 도움을 주려했던 마음” - 더크 커팅 클라우데라 아키텍트

DATA 인터뷰

작성자

dataonair

작성일

2016-04-29 00:00

조회

2833

더그 커팅, “하둡 시작은 누군가에 작은 도움을 주려했던 마음”

- “나만의 좋아하는 프로젝트를 찾아 기술을 습득하라”
- “속도와 편리성 측면에서 ‘스파크’의 가능성 높아”

지난 4월 14일, 하둡과 루신의 창시자이자 클라우데라의 최고 아키텍트인 더크 커팅(Doug Cutting)이 한국을 방문했다. 방문 당일, ‘빅데이터의 시작과 미래, 하둡과 스파크’라는 주제로 개최된 한국 스파크 사용자 모임(운영자: 이상훈 SK C&C 대리) 세미나에서 개발자 및 데이터 엔지니어들과 만남의 자리를 가졌다. 이 자리에서 더그 커팅은 오픈소스 소프트웨어(OSS)의 미래에 대해 참석자와 의견을 주고 받는 시간을 가졌다. 그는 “나만이 좋아하는 프로젝트를 찾아 기술을 습득했다”면서 참석자들에게 자신의 기술습득 경험과 하둡과 스파크의 미래에 대한 자신의 의견을 전달했다.

▲ 더그 커팅은 하둡과 루신의 창시자이자 아파치 재단의 의장이다. 현재 클라우데라에서 최고 아키텍트로서 하둡 프로젝트를 지휘하고 있다.

한국을 방문한 목적은 무엇인가?

하둡에 관심을 가진 사람들과 의견을 나눠보기 위해서다. 이들의 우려에 대해서도 들어보고 하둡 오픈소스 에코시스템을 파악하고자 왔다.

하둡을 만든 결정적인 계기를 소개해 달라.

하둡을 내놓기 전에 넛지(Nudge)를 통해 확장성 높은 웹 서치 엔진 프로젝트를 했었다. 이때 한 대의 컴퓨터가 아닌 다수의 컴퓨터를 활용해야 했다. 이즈음 구글이 내놓은 GFS(Google File System)와 맵리듀스(MapReduce)와 관련된 리포트를 보았는데 이 방식이 방대한 데이터를 잘 처리할 수 있을 거라는 생각이 들었다. 맵리듀스 이전에도 비슷한 기술들이 있었는데, 매뉴얼로 해줘야 했다. 이걸 맵리듀스가 자동화함으로써 획기적인 발전이 있었다. 하둡은 기술 혁신을 가져온 소프트웨어이지만, 그 아이디어는 구글에서 얻은 것이다. 공개된 아이디어를 코드로 구현한 것이 바로 하둡이다.

하둡을 내놓았을 때 이 정도로 각광받을 것이라고 생각하였는가?

전혀 예상하지 못했다. 하둡 프로젝트를 시작했을 때는 계속해서 살아남아서 누군가에게 도움이 되기를 바랐다. 대량의 데이터를 다뤄야 하는 연구원이나 서치 엔진을 구축하려는 사람들에게 도움을 주고자 시작했던 일이다. 오늘날처럼 은행이나 보험사, 통신사와 같은 대기업에서 하둡을 사용할 것이라고는 전혀 예상하지 못했기에 이러한 하둡의 성공에 놀랍고 기쁘다. 앞으로 어떻게 될지 많은 사람들이 기대를 하고 있다. 오픈소스이므로 많은 사람들이 새로운 것을 시도하고 계속하여 추가할 수 있기 때문이다. 오픈소스 소프트웨어는 소셜 엔지니어링을 통해 사용자의 동기를 이해하고 이에 맞춰 개발해 나가면서 발전할 것이다.

루신을 만들기 위하여 자바를 배웠다고 들었는데, 자바를 선호하는 이유가 있나?

질문과 같이 루신(Lucene, 자바로 개발된 오픈소스 정보검색 라이브러리)을 만들기 위해 자바를 배운 것이 사실이다. 그래서 루신은 자바로 만든 나의 최초 작품이다. 루신을 시작하기 전에 최소 5년 이상은 C++를 이용했다. 자바는 여러 장점을 잘 결합해 놓은 언어이다. 배우기 쉽고 안정성 높고 성능도 좋다. 런타임과 성능 면에서 (C++보다) 좋았고 개발의 용이성이 높아 사용했다. 개인적인 취향 때문에 C++보다는 조금 더 하이레벨 언어인 자바를 쓰고 싶었다.

하둡은 크게 맵리듀스와 HDFS(Hadoop Distributed File System)로 구성됐다고 볼 수 있다. 하지만 스파크가 등장하면서 맵리듀스가 상대적으로 밀리는 모습이다. 스파크에 대항에 맵리듀스를 보강할 계획을 갖고 있는가?

스파크 API는 하이레벨 기술이면서 사용하기 쉽고 훨씬 빠르기 때문에 맵리듀스를 대체하고 있다. 특히 스트리밍 데이터 처리 부분은 스파크가 맵리듀스보다 매우 우수하다고 생각한다. 스파크에 대항해 뭘 만든다는 것은 글쎄다. 우리는 (스파크 같은) 새로운 기술을 수용하면서 개선하는 오픈소스 정신에 전적으로 동의하고 있다. 아파치 커뮤니티는 강력하고 진보적인 운영 프로세스를 갖고 있다. 그래서 새로운 프로젝트가 끊임 없이 등장하고 있으며 (기존 아이디어와) 경쟁 속에서 생존해 간다. (내가 몸담고 있는) 클라우데라는 산업군에서 발전하는 여러 프로젝트를 기업 환경에 맞게 인증하여, 기술을 공급하는 비즈니스를 하고 있다. 클라우데라는 스파크 외에도 여러 프로젝트를 주시하면서 기업 환경에 맞게 패키지화해 공급하는 회사이므로 특정 프로젝트에 편중하지 않는다. 여러 프로젝트들 중에서 필요한 것을 고르는 기준은 고객 니즈이다. 요즘 가장 인기 있는 스파크에 대한 기술지원도 클라우데라에서 가장 먼저 시작했다. 이 때문에 클라우데라는 스파크와 관련된 오픈소스 정신을 존중하면서 함께 발전하기 위해 노력하고 있다.

스파크의 미래에 대해 어떻게 생각하는가?

스파크가 빠르게 발전해 나가고 있으므로 그 미래에 대해서는 어떻게 될 것이라고 예측할 수 없다. 우리 모두가 함께 발전시켜 나아가야 한다고 생각할 뿐이다.

현재 오픈소스 소프트웨어 기술이 빠르게 발전하고 있다. 오라클이나 IBM 같은 상용 DB 벤더는 어떤 방향으로 나아가야 할 것으로 보는가, 과연 그들이 살아남을 수 있을 것이라고 보는가, 트랜잭션 영역에서도 오픈소스의 힘이 발휘될 것으로 예상하는가?

오라클 같은 대형 업체는 30~40년을 거쳐 발전을 거듭해왔으므로 오프소스 소프트웨어인 하둡 에코시스템이 그 아성을 어느 한순간에 깨기는 쉽지 않을 것이다. 현재의 컴퓨팅 환경은 오라클 같은 상용 벤더의 제품과 오픈소스 제품을 동시에 사용하는 하이브리드 형태라고 볼 수 있다. 분명한 것은 매우 작지만 오픈소스 소프트웨어 기업들이 빠르게 발전해 나가고 있으므로, 이러한 기술들이 상용 벤더의 일부 영역을 대체해 나갈 것이라는 점이다. 트랜잭션 영역은 이미 새로운 기술이 필요하지 않을 만큼 성숙한 영역이다. 그러므로 트랜잭션 외의 영역에서 더 많은 오픈소스 소프트웨어 기술이 필요할 것이다. 물론 오픈소스 트랜잭션 엔진이 이미 있다.

하둡은 향후에 어떤 변화가 있을 것으로 예상하는가?

인메모리 기술, 프로세서, 네트워킹, DRAM 등이 빨라지고 저렴해지고 있으므로 하둡 2.0은 기업 환경에 맞게 최적화가 이뤄지면서 얀과 스파크로 대체되고 있다. 하둡 3.0 계획은 아직 없다.

자신만의 프로그래밍 기술 습득 노하우가 궁금하다.

좋아하는 프로젝트를 먼저 찾았다. 그 다음 어떤 기술로 그 프로젝트를 효과적으로 진행할 수 있는지를 알아봤다. 프로젝트가 엉뚱한 방향으로 진행되면 적극적으로 개입했다. 별로 재미 있을 거 같지 않은 장난감으로 논다고 생각해 보자. 마음이 끌리지 않을 거고 그걸로 뭘 해야 할지도 생각하지 않게 될 것이다. 당연하게도 결과물도 좋지 않을 것이다. 그래서 좋아하는 것을 먼저 하라고 조언하고 싶다.

출처 : 한국데이터베이스진흥원

제공 : 데이터 전문가 지식포털 DBguide.net

« 세대를 뛰어넘는 전자소송시스템 구축에 최선을 다 하겠다 - 송충근 대법원 정보화지원과장

“데이터 기반 연구시대의 도래,과학연구 분야에서도 이슈는 데이터!” - 김선태 박사, 한국과학기술정보연구원 과학데이터전략연구실 »

목록보기