전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

데이터센터 기반 설비 사고 사례

전문가칼럼
DBMS별 분류
Etc
작성자
dataonair
작성일
2014-07-07 00:00
조회
4546





데이터센터 기반 설비 사고 사례

실패에서 배운다... 사고 사례 교훈삼아야



우리는 한 분야에서 오랜 기간 일하면서 많은 경험을 습득 하는데, 이 경험은 지식으로 남게 된다. 이러한 지식 혹은 지 혜를 혼자만 알고 있는 것은 사회적으로 매우 큰 손실이라 할 수 있다.

필자 또한 25년간 데이터센터 기반설비 분야에서 직간접적 으로 성공은 물론 실패를 경험했다. 대부분 시스템을 구축할 때 성공 사례를 참조하고 있으나, 프로젝트 성공을 위해서는 성공보다는 오히려 실패 사례가 도움이 되는 경우가 많다. 실 패 사례는 그러나 여러 가지 현실적인 이유로 공유하기가 힘 든 것이 사실이다. 여기에서는 데이터센터 기반설비에 대한 실패 사례를 알아본다.



실패 사례도 소중한 자산

어떤 일을 진행하면서 성공한 케이스와 실패한 케이스 중 어느 것이 더 많을까 프로젝트이든 관리부분이든 일반적으 로 계획 단계에서 목표를 높게 설정하기 때문에 완벽하게 성 공한 케이스를 만나는 것은 쉽지 않다.

실제 어떤 일을 진행하면서 계획 단계에서는 미처 예상하지 못한 일들이 의외로 많이 발생하고 있으며, 그러한 것을 예측 할 수 있는 높은 수준의 전문가를 찾기도 어렵다. 또한 예산 등의 문제 때문에 그런 전문가를 투입하기도 어려운 것이 우 리 현실이다.

우리 주변에는 실패 사례가 우리가 생각하는 것보다 훨씬 많지만, 그러한 사례를 정확하게 공유하는 것은 쉽지 않다. 또 사고 사례를 얘기할 때도 실제적인 원인을 지적하기 보다는 부차적인 원인을 지적하는 경우가 많다. 필자는 그것이 문화 와 관련이 있다고 생각한다. 사고의 책임자를 가리는 것에 우 리가 매우 관대한 문화를 가지고 있기 때문이라는 생각을 해 본다. 필자는 앞으로 여러 가지 실패 사례가 소개돼 다시는 같 은 실패가 반복되지 않기를 바라며, 이런 이유로 기반설비 완 성 후 관리적인 측면에서의 실패 사례를 우선 소개한다. 첫 번째로 소개하고 싶은 것은 사고 분류이다. 데이터센터 기반설비에서는 어떠한 유형의 사고들이 일어나고 있는 것일 까 옆의 그림을 보면 쉽게 알 수가 있다. 이 그림은 외국의 데이터로 이머슨 네트웍 파워(Emerson network power)사 의 홈페이지에서 인용한 것이다.

column_img_1268.jpg

이 그림은 정전사고에 초점을 맞춰 정리한 것인데 15가지 경우로 사고를 분류하고 있다. 그러나 이러한 사고 유형은 경 우에 따라서 더 세분화 할 수 있으며, 정전사고 외에도 다른 유형의 사고를 더 추가할 수도 있을 것이다.

이 그림이 시사하는 점은,
1) 매우 다양한 원인에 의해서 데이터센터(Data center)의 전원이 다운될 수 있다는 것을 보여주고 있다.
2) 특이한 점은 센터의 정전을 막기 위해 설치한 UPS와 배 터리(BATTERY) 그리고 발전기를 포함한 전원 설비에 의한 정전이 꽤 많은 포지션을 차지하고 있으며,
3) 이러한 여러 원인을 사전에 막지 못하는 것이 가장 큰 문 제점이라는 것을 인식해야 한다는 것이다.

필자가 이번 기고에서 가장 강조하고 싶은 점은“이러한 여 러 원인들을 사전에 막을 방법은 없는가”하는 것이다. 데이 터센터 책임자라면 우선 이 문제에 대해 고민해야 할 것이다. “내가 관리하는 센터는 과연 그림에서 보여준 여러 정전 원인 을 모두 막을 수 있을 것인가 또한 이러한 판단은 누가 할 수 있을까 만약 이 같은 원인들이 센터에 존재 한다면 어떻게 막을 것인가”위 질문들에 대해 우선 스스로 답을 해야 하며, 또한 관련 분야의 최고 전문가에게 진단을 받는 것이 가장 중 요하다.

최근 사고사례를 한번 살펴보자. 대형 데이터센터에 화재 가 발생해 서비스가 중단되고 복구하는데 많은 시간이 걸렸 다. 이 사고는 과연 예측할 수 없었으며 막을 수 없었을까 자 세한 사고의 원인은 발표되지 않았지만, 이 사고 또한 불가항 력적인 사고는 아닐 것이라 추측해본다.

먼저 설계단계에서 사고의 가능성에 대한 분석이 부족했을 가능성이 가장 높아 보인다. 통상적으로 시공은 설계에 따라 진행되기 때문에 시공을 설계대로 했다면 필히 설계 단계의 오류가 있었을 것으로 예상된다.



테스트와 실제 운영에는 차이가 있다

필자도 모 센터를 관리한 경험이 있다. 이 센터에도 대형 발 전기가 있었으며, 발전기 엔진의 폭발 연기를 배출하는 연도 가 시공되어 있었다. 필자가 관리하기 전에는 발전기 테스트 를 무부하 운전으로 하거나 짧은 시간만 했기 때문에 연도의 온도가 우려할만한 수준은 아니었다.

그러나 실제 장시간의 운전을 해보니 연도의 온도가 급상승 했으며, 이로 인해 연도 주변 물체에서 화재가 발생하기 일보 직전의 상태까지 이르렀다. 연도 주변(연도와 약 1m 이격 되 어 설치됨)에 수많은 전선이 지나가고 있었는데, 이들 전선은 연도 설치 이후에 설치된 것들이었다.

다행인 것은 발전기 테스트를 실시한 감독이 혹시나 모를 화재에 대비하기 위해 연도와 인화성 물질이 가까운 곳에 모 두 임시 방화벽을 설치했다는 점이었다. 이후 연도와 인접한 모든 인화성 물질은 다른 곳으로 이설되었고, 그 후에는 어떠 한 테스트에도 연도에 의한 화재를 막을 수 있는 환경을 구축 할 수 있었다.

또 한 번은 소형 발전기를 테스트 하던 중에 연도 주변의 인 화성 물질에 의해 실제 화재가 발생한 적이 있었다. 현장 감독 관이 미처 인화성 물질을 모두 정리하지 못한데다 임시 방화 장치를 하지 않아 발생한 화재였다. 이 인화성 물질은 시공 단 계에서는 없었던 것으로 발전기 설치 이후에 연도에 의한 화 재의 위험성을 인지하지 못한 설계/시공자의 오류와 테스트 시 이를 미처 발견하지 못한 감독관의 감독 잘못이 결합돼 발 생한 화재로 기록됐다. 다행히 화재를 신속히 진화함으로써 별 문제없이 지나갔지만 큰 사고로 이어질 뻔한 순간이었다.



스스로에게 묻고 답하라

현재 대부분의 데이터센터에는 비상용 발전기가 설치돼 있 으며 정기적으로 테스트를 하고 있다. 이때 중요한 것은 잠깐 의 테스트로는 연도 주변에 인화성 물질이 있어도 별다른 문 제가 없으나 실제 테스트나 사용 시에는 화재가 발생할 수 있 다는 점을 인지하고 있어야 한다는 점이다.

항상 발전기 연도는 그냥 불덩어리라고 생각해야 한다. 이 러한 불덩어리 옆에 작은 인화성 물질이 있으면 화재는 피할 길이 없다는 것을 알아야 한다. 현재 발전기를 사용하고 있는 모든 사용자는 전문가의 조언을 얻어서 연도에 의한 화재 가 능성이 없는지를 반드시 점검해야 할 것이다.

화재 및 사고는 모두 근본적인 원인이 있다. 그 원인의 대부 분은 천재지변이 아니고 사고를 인지하고 관리하는 관리적 오 류에서 나타나는 것들이다. ‘우리 스스로에게 질문을 던지는 것’과‘그 질문에 가장 정확한 답을 줄 전문가를 찾는 것’, 이 것이야 말로 사고를 막는 첫 걸음이 아닐까 생각한다.

그렇다면 스스로에게 질문을 던져 보자
1) 우리 센터는 정전의 위험이 얼마나 있나
2) 우리 센터는 화재의 위험이 얼마나 있나
3) 그 대답을 정확하게 해 줄 전문가는 누구인가
4) 그 전문가를 우리회사는 채용하고 있는가
5) 이러한 위험을 인지하고 관리/통제 하는 체계를 갖고 있 는가

이 외에도 무수히 많은 질문을 계속해서 스스로에게 던지는 것이 제일 중요하다.