데이터실무

DA, SQL, DB보안 등 실무자를 위한 위한 DB기술 바이블!

분석 시스템 성능, 장애분석 및 운영

데이터 운영관리
분석시스템관리
분석 시스템 성능, 장애분석 및 운영
작성자
admin
작성일
2021-02-15 15:15
조회
7029

개요

빅데이터 기반의 환경을 구축하기 위해서는 전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성 등 다양한 기준을 고려해 적용 우선순위를 설정해야 한다. 적용 우선순위뿐 아니라 분석을 업무에 포함시킬 것인지, 별도의 분석화면으로 따로 적용할 것인지 등 분석의 적용 범위 및 방식에 대해서도 종합적으로 고려해 우수한 성능의 데이터 분석을 구현하기 위한 로드맵을 수립해야 한다. 흔히 빅데이터의 핵심적인 특징은 데이터 크기(Volume), 다양한 데이터 형태(Variety), 데이터의 빠른 생성속도(Velocity)라는 3V로 설명할 수 있다.
빅데이터의 대부분은 비정형 데이터로 구성돼 있으며, 이러한 비정형 데이터와 기존의 정형 데이터가 결합(Mesh-Up)돼 분석됨으로써 새로운 가치(Value)가 창출된다는 점에서 빅데이터를 4V로 정의하기도 한다. 빅데이터의 4V를 ROI 관점으로 살펴보면, 크기(Volume), 다양성(Variety), 속도(Velocity) 등 3V는 투자비용(Investment) 측면의 요소라고 볼 수 있다.
크기는 데이터의 규모 및 양을 의미한다. 이런 대용량 데이터를 저장·처리하고 관리하기 위해서는 새로운 투자가 따라야 한다. 다양성은 데이터의 유형에 따라 정형·반정형·비정형 데이터, 소스에 따라 내부·외부·소셜 데이터 등으로 구분하는 등 다양한 종류와 형태를 띤다. 이러한 데이터를 입수하는 데 있어서도 투자가 필요하다. 마지막으로 속도는 데이터 생성 속도 또는 데이터 처리 속도를 의미하는데, 이를 위해 데이터를 빠르게 가공·분석하는 기술이 요구된다. 속도에 대한 고려는 현 시스템에 미치는 부하 여부에 따라 기존 아키텍처에 영향을 미치게 될 것이고, 궁극적으로 업무상 변경되거나 새롭게 추가됨에 따라 아키텍처의 변형을 일으키고, 결과적으로 투자비용을 발생시키는 요소가 된다. 반면 가치는 분석 결과를 활용하거나 실질적인 실행을 통해 얻게 되는 비즈니스 효과(Return) 측면의 요소라고 볼 수 있다. 이는 기업이 데이터 분석을 통해 추구하거나 달성하고자 하는 목표 가치라고 정의할 수 있다.

빅데이터의 특징을 고려한 분석 ROI 요소

[그림 Ⅴ-1-1] 빅데이터의 특징을 고려한 분석 ROI 요소


우선순위 평가

우선순위 평가는 정의된 데이터 과제에 대한 실행 순서를 정하는 것으로, 업무 영역별로 도출된 분석 과제에 대해 우선순위 평가 기준으로 평가하고, 과제 수행의 선후관계를 고려해 적용 순위를 조정해 최종적으로 확정한다.

우선순위 평가 방법 및 절차

[그림 Ⅴ-1-2] 우선순위 평가 방법 및 절차

정보전략계획과 같은 일반적인 IT 프로젝트는 과제의 우선순위 평가를 위해 전략적 중요도, 실행 용이성 등 기업에서 고려하는 중요 가치수준에 따라 다양한 관점에서의 우선순위 기준을 수립해 평가하고 있다. 하지만 데이터 분석 과제의 우선순위 선정을 위한 평가기준은 그 기업이 당면한 상황에 따라서도 차이가 있겠지만, 기존의 IT 프로젝트에서의 우선순위 평가 기준과는 다른 관점에서 접근해 볼 필요가 있다.

분석 우선순위 평가기준

[그림 Ⅴ-1-3] 분석 우선순위 평가기준

[그림 V-1-3]에서 설명하는 ROI 요소를 고려해 데이터 과제에 대한 우선순위 평가 기준을 정의하면, 데이터 분석 과제를 추진할 때 우선적으로 고려해야 하는 요소는 전략적 중요도에 따른 시급성이다. 데이터를 생성, 저장, 가공, 분석하는 비용과 현재 기업의 분석 수준을 고려한 난이도 역시 적용 우선순위를 선정하는 데 중요한 기준이 된다. 시급성의 판단 기준은 전략적 중요도가 핵심이며, 이는 현재의 관점에 전략적 가치를 둘 것인지 미래의 중장기적 관점에 전략적 가치를 둘 것인지 등 적정 시기를 고려할 수 있다. 더불어 분석 과제의 목표가치(KPI)를 함께 고려해 시급성 여부를 판단할 수 있다. 난이도는 현 시점에서 과제를 추진하는 것이 적용 비용과 범위 측면에서 바로 적용하기 쉬운(Easy) 것인지 또는 어려운(Difficult) 것인지의 판단 기준으로서, 데이터 분석의 적합성 여부를 본다.
다시 정리하면 과제의 범위를 시범 과제(Pilot) 형태로 일부 수행할 것인지, 아니면 처음부터 크게 가지고 갈 것인지, 또 데이터 소스는 기업 내부의 데이터부터 우선 활용하고 외부 데이터까지 확대해 나갈 것인지에 대한 난이도를 고려해 볼 수 있다. 난이도는 해당 기업의 현 상황에 따라 조율된다. [그림 V-1-4]는 포트폴리오 사분면(Quadrant) 분석을 통해 과제 우선순위를 선정하는 기법이다. 우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려해 우선 추진해야 하는 분석 과제와 제한된 자원을 고려해 단기적 또는 중장기적으로 추진해야 하는 분석 과제 등 4가지 유형으로 구분해 분석 과제의 적용 우선순위를 결정한다.

분석 과제 우선순위 선정 매트릭스

[그림 Ⅴ-1-4] 분석 과제 우선순위 선정 매트릭스

사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면(III 영역)이다. 또한 전략적 중요도가 현재 시점에는 상대적으로 낮은 편이지만 중장기적으로는 경영에 미치는 영향도가 높고, 분석 과제를 바로 적용하기 어려워 우선순위가 낮은 영역은 2사분면(II 영역)이다. 이런 측면에서 분석 과제의 적용 우선순위 기준을 ‘시급성’에 둔다면 III -> IV -> II 영역 순이며, 우선순위 기준을 ‘난이도’에 둔다면 III -> I -> II 영역 순으로 의사결정을 할 수 있다. 여기에서 특히 시급성과 난이도가 높은 1사분면(I 영역)은 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위를 조정할 수 있다. 또한 분석을 위한 기술적 요소에 따라서도 적용 우선순위를 조정할 수 있다. 기본적으로 대용량 데이터 분석은 데이터 저장·처리·분석을 위한 새로운 기술 요소들로 인해 기존의 처리계 시스템에 영향을 미친다. 이때 기존 처리계 시스템에 미치는 영향을 최소화해 적용하거나 처리계 시스템과 별도 분리해 우선적으로 시행하여 난이도를 조율하고 적용 우선순위를 조정할 수 있다. 마지막으로 분석범위에 따라서도 우선순위를 조정할 수 있다. 분석 과제의 전체 범위를 한 번에 일괄적으로 적용해 추진할 것인지, 일부 범위로 한정해 시범과제(Pilot) 형태로 우선 추진하고, 이 과정을 통해 과제에 대한 검증 이후 전체 분석 범위로 확대 추진할 것인지에 대한 의사 결정을 통해 분석 과제 적용 우선순위를 판단할 수 있다.

분석 과제 우선순위 선정 및 조정 결과

[그림 Ⅴ-1-5] 분석 과제 우선순위 선정 및 조정 결과


단계적 구현 로드맵 수립

분석 과제에 대한 포트폴리오 사분면(Quadrant) 분석을 통해 과제의 1차적 우선순위를 결정하고, 분석 과제별 적용범위 및 방식을 고려해 최종적인 실행 우선순위를 결정한 후 단계적 구현 로드맵을 수립한다. 단계별로 추진하고자 하는 목표를 명확히 정의하고, 추진 과제별 선후행 관계를 고려해 단계별 추진 내용을 정렬한다.

단계적 구현 로드맵

[그림 Ⅴ-1-6] 단계적 구현 로드맵


일정계획 수립

반복적 정련 특성을 고려한 일정계획 수립

[그림 Ⅴ-1-7] 반복적 정련 특성을 고려한 일정계획 수립

세부 추진 일정계획 예시

[그림 Ⅴ-1-8] 세부 추진 일정계획 예시


장애의 요인과 유형

장애의 범위 및 유형 분석

시스템 장애는 재해와 마찬가지로 몇 가지 기준(발생원인, 발생과정의 시간적 차이, 발생장소, 장애대상, 피해의 직간접성 등)에 의해서 분류할 수가 있다.

[표 V-1-1] 재해 및 장애 분류


통제 재해 및 장애 재해 및 장애의 요인 장애 대응방안
통제
불가능
요인
자연 재해 화재(전산실, 사무실), 지진 및 지반침하, 장마 및 폭우 등의 수재, 태풍 등 재해복구센터 구축을 통한 기기 및 프로그램의 이중화, 데이터 백업 및 소산 철저
인적 재해 노조파업, 시민폭동, 폭탄테러 등 백업 또는 대체요원 확보
통제
가능
요인
인적 장애 운영장애 시스템 운영실수, 단말기 및 스토리지 등의 파손 및 절취, 해커의 침입, 컴퓨터 바이러스의 피해, 자료 누출 등
기술적 장애 시스템 장애 운영체제 결함, 응용프로그램의 결함, 통신 프로토콜의 결함, 통신 소프트웨어의 결함, 하드웨어의 손상 등 전산기기 이중화 및 프로그램 변경 통제 강화, 재해복구 센터 구축을 통한 기기 및 프로그램의 이중화, 통신망 이중화, 전력공급 중단에 대비한 무정전설비(UPS) 및 발전 설비 구축
기반구조 장애 정전사고, 단수, 설비 장애(항온항습, 공기 정화시설, 통신시설, 발전기, 공조기 등), 건물의 손상 등
발생원인 관점에서 장애의 분류

자연장애, 인적 장애, 기술적 장애(시스템 장애, 기반구조 장애)로 분류된다.


프로세스 관점에서 장애의 분류

장애(Incident), 문제(Problem), 알려진 오류(Known Error)로 분류된다.


위협요인 관점에서 장애의 분류

위협요인(Threat Agents)은 사람이 원인이 아닌 경우와 사람이 원인인 경우로 크게 두 가지로 구분할 수 있다. 사람이 원인이 아닌 요인으로 발생하는 장애는 불규칙적인 경우와 규칙적인 경우 두 가지로 구분할 수 있다. 불규칙적 장애는 시스템에서 발생(소프트웨어 자체 결함, 컴퓨터 구성요소의 결함, 네트워크 결함, 하드웨어 결함), 자연에서 발생(지진, 강의 범람, 제방의 범람, 댐의 범람, 홍수, 번개로 제1장 분석시스템관리 빅데이터 실무 기술 가이드 669 인한 정전과 화재, 태풍), 물리적인 환경에서 발생(전기 합선으로 인한 화재, 정전, 절전, 예고되지 않은 전기합선, 지역의 정전), 자연 발생(화재), 물(스프링쿨러의 오작동, 상수도 파괴, 상수도 동파)·공기(먼지로 인한 오염, 위해 물질)로 인해 발생한다.
규칙적 장애(예상된 사고)는 악성 프로그램 및 코드(해킹 프로그램, 바이러스, 매크로 바이러스, 응용프로그램의 오류), 폭발 위험물(폭탄, 지뢰), 통신(전파) 방해, 방화(화재), 경보기 고장으로 인해 발생한다. 사람이 원인이 돼 발생하는 장애는 크게 조직 내부인과 조직 외부인으로 인해 발생한다. 조직 내부인의 장애는 관리(기업 관리자, 운영자 등의 문제), 기술부분(컴퓨터 운영자, 시스템 분석가, 소프트웨어 개발자, 소프트웨어 유지보수자, C/S 기술자, 하드웨어 유지보수자, 네트워크 관리자 등의 장애), 비기술부분(비서실, 인사부, 자금부, 회계부 등의 문제), 정보보호(정보보호부서, 정보보호 관리자, 보안경비 등의 장애), 업무 담당자(법률 업무자, 감사자, 회계 업무자 등의 장애), 환경통제 부문(전기 기술자, 상수도 담당자, 공기 정화 담당자, 소방 담당자 등의 장애), 건물관리(청소원, 전기담당자, 상수도 담당자, 공기정화 담당자, 집기 담당자, 보일러 담당자, 건물 관리인, 통신 담당자 등의 장애)로 인해 발생한다. 조직 외부인의 장애는 외국 정부요원, 산업·협회 요원, 해커, 범죄자 혹은 범죄단체, 테러리스트, 언론 매체(기자 등)와 같은 사유로 발생한다.


장애발생 위치(시스템 자산) 관점에서 장애의 분류

정보는 소프트웨어, 사람, 시스템 사용자, 재무, 법률, 연구, 계획, 보안, 서류, 이메일, 데이터 등과 관련돼 전자적으로 저장되는 자산을 의미한다. 운영 시스템 프로그램, 응용 프로그램, 통신 프로그램, 관리 프로그램, 사용자, 관리, 계획, 보안 등 정보자산의 기본적인 처리절차와 관련된 자산이 그 대상이다. 플랫폼은 처리장치, 통신(네트워크) 기기 등을 의미한다. 인터페이스는 네트워크 연결장치, 디스크 및 테이프, 종이 등을 의미한다. 사람은 조직 구성원과 계약직원, 환경은 건물과 데이터 센터, 사무실 등을 의미한다. 기타 유형자산에는 상기 유형자산 분류체계 이외의 유형자산을 포함하고, 무형자산은 공공신뢰, 사용자 서비스, 사용자의 충성심, 상품권, 생산성, 경쟁적 우위, 윤리 등을 의미한다.


장애등급의 분류
장애등급의 측정절차

장애등급은 업무 프로세스를 지원하는 시스템의 장애복구의 우선순위를 의미한다. 이러한 장애 등급은 장애의 영향도(Impact)와 긴급도(Urgency)에 따라서 측정된다. 장애발생 시점 이후에 위험의 크기는 장애해결 시간에 비례해서 지수적으로 증가하는 경향이 있으므로 영향도와 긴급도를 동시에 고려해야 한다.
장애등급 측정절차는 장애의 식별, 영향도의 측정, 긴급도의 측정, 장애복구 우선순위 결정과 같은 순서로 이뤄진다. 이러한 장애 등급은 시스템의 구성, 업무 프로세스, 조직 시스템의 상황 등에 따라서 여러 가지로 측정·적용될 수 있다. 궁극적으로는 장애등급의 측정을 더 엄밀하게 적용하기 위해서는 업무영향분석(BIA: Business Impact Analysis)과 목표복구시간(RTO)에 관한 자료들이 분석될 필요가 있다.
여기서 업무영향분석의 목적은 중요한 업무 프로세스를 파악해 장애 때문에 발생하는 잠재적인 손실(혹은 손해)을 파악하는 것이다. 여기서 업무 프로세스는 특정 조직에서의 업무활동의 집합으로서, 업무기능(예: 과 혹은 부)과 업무지원기능(정보기술, 인력자원, 사무서비스 등)에 의존하고 있다.


장애의 식별

장애는 시스템 운영상 발생하는 사건으로서, 미약하더라도 업무 프로세스에 영향을 줄 수 있으므로, 형태(type)와 서비스 두 가지 관점에서 식별해야 한다. 식별한 장애는 분류체계상 어떤 분류 영역(예: 하드웨어에 관련이 있는지, 소프트웨어에 관련이 있는지 혹은 문서와 관련이 있는지 등)에 속하는지 파악해야 한다. 또한 장애와 관련된 어떤 서비스 영역(예: 기술에 대한 요청, 시스템 환경에 대한 구성변경, 혹은 업무서비스 복구 등)에 속하는지 파악해야 한다. 여기서 기술에 대한 요청이란 기술서비스에 대한 일반적인 문의, 비밀번호 변경, 시스템 상태에 대한 질문 등이 포함된다. 구성변경에 대한 요청은 하드웨어, 소프트웨어, 절차 등의 변경을 포함한 업무환경에 대한 어떤 변경을 의미한다. 업무서비스 복구에 대한 요청은 하드웨어, 소프트웨어, 네트워크, 절차 등의 기능저하, 오류, 고장 때문에 발생한 서비스를 정상상태로 복구하는 것을 의미한다.
서비스 데스크에서는 발생에 대해 기록할 때, 이와 같은 장애의 형태와 서비스 영역을 기록해야 한다. 하나의 예로서 작동되지 않는 프린터에 대한 고장수리 요청이 들어왔을 때에, 형태의 영역은 ‘하드웨어’, 서비스의 영역은 ‘서비스 복구’로 분류할 수 있다. 서비스 데스크에서 장애의 형태와 서비스를 더 정확하게 식별할수록, 장애에 대한 해결대책을 더 효과적으로 강구할 수 있다.


영향도의 측정

장애의 영향도는 조직의 중요한 업무 프로세스를 지원하는 시스템 장애 때문에 발생되는 위험이 가져오는 잠재적 영향으로 정의된다. 장애에 대한 잠재적 영향의 영역에는 화폐가치로 측정되는 재무적 영역(매출감소, 영업권 혹은 신용 손실, 이자 증가, 계약위약금 등)과 화폐가치로 측정할 수 없는 비재무적 영역(기관에 대한 공공의 부정적 이미지, 외부 사용자들의 신뢰감 추락, 내부 종업원들의 사기 저하, 법규위반 등)이 있다.
장애가 업무 프로세스에 미치는 영향을 즉각적으로 평가하기 위해서는 단위 업무 및 이를 지원하는 시스템에 관한 기존 장애 데이터베이스로부터 장애 관련 데이터의 양, 영향을 받은 업무 프로세스 및 시스템의 구성부분, 영향을 받은 시스템의 수, 영향을 받은 사용자들의 수, 영향을 받은 사이트의 수와 같은 척도들을 통해 분석된다. 특정 장애는 업무 프로세스의 시스템에 미치는 영향을 3점 혹은 4점 등간척도(interval scale)로 측정할 수 있다. 예를 들면, 4점 등간척도로 측정하는 경우 조직 내 업무 프로세스에 대한 영향의 범위 관점에서, 개인적인 업무-> 일반 업무 프로세스의 기능-> 특정 부서의 특정 업무-> 전체 조직과 관련된 업무 프로세스로 영향도가 증가하는 것과 같이 분류할 수 있다.
어떤 사용자가 새로운 컴퓨터 모뎀이 필요한 경우, 특정 ‘개인적인 업무’에 부분적인 영향을 미치는 것이므로, 단순한 조치로 해결이 가능한 장애가 발생한 경우에는 ‘낮음’으로 한다. 특정 사용자 집단이 일부 데이터베이스를 연결해서 사용할 수 없는 경우와 전체 네트워크 장비와는 관련은 없지만, 데이터베이스와 개인 PC의 연결장애 때문에 ‘일반 업무 프로세스의 기능’이 부분적으로 중단되거나 혹은 처리가 지연되는 경우에는 ‘중간’으로 한다. 전체 조직 중 특정 부서에서 LAN에 연결되지 않는 경우, 조직의 ‘특정 부서의 특정 업무’ 기능이 부분적으로 중단되거나 혹은 처리가 지연이 되는 경우 ‘높음’이 된다. 전체 조직의 이메일 송·수신에 이상이 생긴 경우, 장애가 ‘전체 조직과 관련된 업무 프로세스’의 광범위한 영역에 걸쳐 비교적 심각한 영향을 미치는 경우에는 ‘매우 높음’으로 나타낸다.


긴급도의 측정

장애의 긴급도란 정상적인 업무로 복구시키기 위해 시스템의 장애를 해결해야 하는 시간의 중요성이다. 긴급도는 조직의 업무 프로세스에 미치는 영향을 최소화하기 위해 장애를 얼마나 빨리 해결해야 하는지를 나타낸 것이다. 이는 장애의 발생 시점에서 주요 업무에 미치는 영향 및 업무 프로세스 상의 중요성에 따라 결정된다. 영향도는 영향을 받은 시스템 및 사용자의 수(즉 장애관련 데이터의 양)를 분석하지만, 이와 같은 장애가 조직의 업무 프로세스에 어떻게 영향을 미치는지에 대해서는 고려하지 않는다.
그러나 긴급도는 업무 프로세스에 미치는 부작용을 최소화기 위해 장애를 얼마나 빠르게 해결해야 하는지를 나타내는 시간적 척도를 나타낸다. 영향도의 측정과 마찬가지로 특정 장애가 업무 프로세스의 시스템에 미치는 장애의 긴급도는 3점 혹은 4점 등간척도로 측정할 수 있다. 예를 들면, 4점 등간척도로 측정하는 경우 다음과 같이 분류할 수 있다. 조직 내 업무 프로세스에 대한 긴급도의 관점에서, 단순한 관리적 조치-> 어느 정도 대응시간을 가지고 해결-> 가능한 신속한 해결→ 즉각적인 해결로 정상 업무에 대한 허용된 복구 시간에 따라 긴급도를 결정하며, 세부 내용은 큰 차이가 없다. 이러한 분류체계에서 영향도 혹은 긴급도는 상황에 따라서 측정치가 바뀔 수 있다. 예를 들어, 어떤 사용자가 작업 집단 디렉터리에 접근할 수 없어서 ‘일상’ 업무가 아닌, ‘매우 중요한’ 업무를 수행할 수 없다면, 긴급도는 한 단계 상향조정돼서 ‘높음’에서 ‘매우 높음’으로 측정될 수 있다. 이와 같이 긴급도는 일반적으로 장애를 해결해야 하는 시간의 중요성을 의미한다. 어떤 장애가 아주 긴급한 것으로 분류됐으나, SLA에 설정된 날짜까지 장애가 해결되지 않은 경우에는, 이 장애는 매우 긴급한 문제로 상향 조정돼서 상향 조정된 수준에서 처리되도록 한다. 이러한 상향조정 과정은 자동적으로 진행되도록 해야 한다.


장애복구 우선순위 결정

장애의 우선순위를 결정하는 중요한 두 가지 요소는 장애가 주요 업무 프로세스에 미치는 잠재적 손실의 영향과 장애해결 시간의 중요성이다. 즉 장애복구의 우선순위는 영향도와 긴급도의 척도에 의해 결정된다. 장애의 영향도와 긴급도를 각각 3등급(높음, 중간, 낮음)으로 측정해 3x3 표로 작성하는 경우 (영향도 2, 긴급도 1)과 (영향도 1, 긴급도 2)를 동일한 우선순위로 부여한다면, 장애등급을 우선순위 1부터 우선순위 5까지 5등급으로 구분할 수 있다. 이와 같이 정상업무 복귀를 위한 장애복구 우선순위는 영향도와 긴급도를 모두 절충해서 결정하는 것이 합리적이다. 또한 장애의 영향도와 긴급도를 각각 4등급(매우 높음, 높음, 중간, 낮음)으로 측정해 4x4 표로 작성하는 경우, 위와 같은 방법으로 우선순위를 부여한다. 장애등급을 우선순위 1부터 우선순위 7까지 7등급으로 구분할 수도 있다.

장애등급을 5등급으로 구분하는 경우

[그림 Ⅴ-1-9] 장애등급을 5등급으로 구분하는 경우

[표 V-1-2] 장애 5등급의 영향도와 긴급도


영향도 긴급도 보고체계
우선순위 1 전체 조직과 관련된 중요한 업무 프로세스에 심각한 영향 즉각적으로 해결 장애발생 즉시 또는 10분 이내 상부 보고
우선순위 2 중요한 업무 프로세스의 부분적인 영역에 비교적 심각한 영향 가능한 신속히 해결 장애발생 20분 이내 상부 보고
우선순위 3 조직의 중간규모 부서의 특정 업무에 심각한 영향 어느 정도 대응시간을 가지고 해결 장애발생 1시간 이내 상부 보고
우선순위 4 조직의 소규모 부서의 특정 업무 에 미미한 영향 관리적 조치로 해결 가능 장애처리 조직에서 별도 관리
우선순위 5 특징의 개인적인 업무에 부분적 으로 아주 미미한 영향 관리적 해결이 거의 필요 없음 보고 필요 없음