데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“다루는 모든 데이터가 빅 데이터” - 기상청 정보통신기술과 이봉수

DATA 인터뷰
작성자
dataonair
작성일
2012-02-28 00:00
조회
3141




“다루는 모든 데이터가 빅 데이터”

기상청 정보통신기술과 이봉수

 

기상청에서 다루는 모든 데이터를 빅 데이터라고 할 수 있
다. 기상청에서 주로 하는 일은 세계 기상자료와 같은 데이
터를 슈퍼컴퓨터의 수치연산 작업을 통해 예측할 수 있는
자료를 뽑아내는 것이다.


기상청의 빅 데이터는.

기상청에서 다루는 모든 데이터를 빅 데이터라고 할 수 있
다. 기상청에서 주로 하는 일은 세계 기상자료와 같은 데이
터를 슈퍼컴퓨터의 수치연산 작업을 통해 예측할 수 있는
자료를 뽑아내는 것이다. 예측모델로 사용되는 데이터의
범위는 지구 전체, 동북아시아, 한반도 등 각 지역별로 나
눠지며, 지역이 작아질수록 데이터의 크기 또한 작아진다.
하지만 아무리 작은 한반도의 데이터라고 해도 일반 기업
이나 기관에서 사용되는 데이터의 크기와는 비교할 수 없
다.

기상청의 데이터는 기관이나 사기업에도 제공되며, 이 때
전송되는 데이터의 크기는 GB에서 TB로 대용량 데이터이
다. 그리고 이런 데이터의 전송은 실시간으로 이뤄지고 있
으며, 국내에서 TB단위의 데이터를 실시간으로 전송하는
곳은 기상청이 유일할 것이다.

하루에 쌓이는 데이터의 양은 얼마나 되는지.

2011년 기준 연 단위로 약 250TB의 데이터가 쌓인다. 발
생 증가율로 보면 해마다 50% 가량 증가한다고 할 수 있
다. 하지만 이 데이터는 전체 데이터가 아니라 서비스를 위
한 데이터다. 즉, 내부 업무용으로만 사용되는 데이터의 양
이 이 정도다.

위성데이터 중 수치모델(아침 뉴스에 나오는 일기예보에
사용되는 데이터)로 사용되는 데이터는 하루에 만들어지는
것이 2만장 정도다. 물론 모두 사용되는 것은 아니고 일부
는 예보관이 활용하지만, 이들 수치모델 데이터들로부터
새로운 것을 만들어내기도 한다.
특히 수치모델을 통해 예측할 수 있는 일기는 12일 정도다.
이 정도를 예측하는데 사용되는 데이터의 양은 몇GB에서
몇 십GB 정도다. 이것은 국내에 한정된 데이터의 크기고,
동북아시아, 아시아 등 범위를 넓혀갈수록 데이터의 크기
는 더욱 커진다.

기상청이 IT시스템에서 가장 중요시 생각하는 것은.

IO와 퍼포먼스, 관리·운영의 편리성, 그리고 안정성이 무
엇보다 중요하다. 때문에 메이저 업체들의 제품을 주로 도
입하는데, 그 이유는 이들의 제품들이 시장에서 검증이 되
어있기 때문이다. IDC나 가트너와 같은 세계적으로 인정받
는 시장조사기관들이 발표하는 자료를 참고하기도 한다.

스토리지의 확보는 어떻게 하는지.

기본적으로 2~3년 전에 예산을 미리 잡아두지만, 보통 5
년 주기로 스토리지를 도입하고 있다. 하지만 기상청에서
사용하는 데이터의 증가 속도는 매우 빠른 편이고, 5년에
10배씩 증가하고 있어 예측치를 넘어서는 부분이 많아 중
간 중간 추가 구매를 하고 있다.

기상청에서는 EMC, 후지쯔, 넷앱 등의 스토리지를 주로
사용하고 있으며 IBM의 제품도 일부 사용 중이지만 스토
리지 전문 업체의 제품을 선호하는 편이다. 이들 업체의 제
품은 기상청에서 공식적으로 구매하는 목록이고, 연구소나
개별 부서에서 사용하기 위해 소량으로 구매하는 스토리지
도 있다.

스토리지 업체들에게 바라는 점이 있다면.

각 기관의 데이터 특성에 맞는 스토리지를 제안해 줬으면 한
다. 스토리지를 필요로 하는 기관들은 각기 다루는 데이터의
특성이 다르다. 그렇다면 이런 기관의 데이터 특성에 맞는
솔루션을 제공해 주는 것이 합리적인 제안 방법이라고 생각
한다. 예를 들어 작은 데이터를 하루에 굉장히 많은 양을 유
통시키는 특성이 있는 곳이라면 IO의 성능이 뛰어난 스토리
지를 제안해야 할 것이다.

이렇게 각 기관에 맞는 솔루션을 업체에서 제안해 줬으면 하
는 이유는 현장 실무자들은 제품의 특성에 대해 업체의 직원
들만큼 파악하고 있지 못하기 때문이다. 보통 제품 도입 시
A장비와 B장비의 특성을 비교하고 그에 따른 운영관리 측면
에서의 잠정적인 수치를 계산하기는 하지만, 예측일 뿐이다.
하지만 업체가 기관들의 데이터 특성을 파악하고 그에 가장
적합한 모델을 제시한다면 선정 될 수 있는 확률은 더욱 높
을 것이다. 물론 100% 각 기관에 맞는 제품을 제시할 수는
없을 것이다. 하지만, 좀 더 최적의 장비를 제안해 줬으면 좋
겠다.



출처 : 컴퓨터월드2월호




제공 : DB포탈사이트 DBguide.net