데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

4차산업혁명현장! 스마트팩토리 빅데이터분석 사례1

데이터 이야기
작성자
dataonair
작성일
2018-02-07 00:00
조회
4810


4차산업혁명현장! 스마트팩토리 빅데이터분석 사례1

빅데이터 분석방법론 기반의 도메인 및 데이터 이해



조경미

소속 씨에스리
경력사항 정보관리기술사, 정보시스템수석감리원
빅데이터분석, R&D, IT컨설팅
기술기획-신기술조사/분석, IT역량체계 및 KPI 수립/평가
기술전략-개발FW/프로세스 표준화/ITSM 구축 PM
포털 검색 서비스 개발, 데이터 마이닝, 검색엔진최적화 컨설팅



1. 서론

미국, 독일 등 세계 제조 시장을 리딩하고 있는 국가들은 ICT와 제조의 융합으로 4차산업혁명을 실현하고, 스마트팩토리 구축을 통해 혁신적으로 비용을 절감하고 이익을 극대화하기 위해 노력하고 있습니다. 대표적인 사례로 GE는 2011년 ‘GE글로벌소프트웨어’설립하였고, 제조사에서 SW기업으로 성장하고 있습니다. 2012년에는 컨설팅회사인 엑센츄어와 조인트벤처인 탈레리스(Taleris)를 설립하고 다수의 항공기 부품과, 부속품 및 시스템의 모든 센서에서 확보된 빅데이터를 모니터링하여 항공 정비 문제 예측, 출발 지연, 취소를 사전에 예방하고 운영을 최적화 하는 지능형 운영(Intelligent Operations)시스템을 개발하여 5년간 9천만 달러의 비용을 절약했다고 보고되었습니다.

창업한지 100년이 넘은 GE가 소프트웨어업체로의 변신을 선언하고, Predix라는 소프트웨어 개발 플랫폼을 구축하고 이를 통해 공장 설비를 모니터링하고 장애를 예측하고, 보다 정확한 예방정비 시행으로 4차산업혁명을 실현하고 있다고 말씀드릴 수 있습니다. 국내는 어떨까요 국내 제조업에서도 스마트팩토리 구축을 통해 제조 설비의 안전성과 강건성을 높이기 위해 노력하고 있습니다. 이러한 거대한 흐름이 있는 가운데, 운이 좋게도 국내 에너지분야 제조업에서 추진하고 있는 빅데이터 분석 프로젝트에 참여하고 되어, 그 사례를 기반으로 빅데이터 분석 방법론과 빅데이터 라이프사이클에 따라 수행한 프로젝트의 경험을 공유하고자 합니다.



2. 빅데이터 분석 방법론

데이터 중심의 혁신(Data Driven Innovation)의 성과를 일부 경험하면서 데이터 분석에 대한 관심이 어느 때보다 높은 시기입니다. 빅데이터 분석 인프라 구축, 빅데이터 분석을 통한 예측 등의 프로젝트들이 많이 진행되고 있습니다. 아키텍처 측면에서는 빅데이터 분석을 위한 HDFS(Hadoop Distributed File System)기반의 하둡 아키텍처를 많이 도입하고 있고, 분석 측면에서는 통계 개념을 기반으로 하는 통계적 분석과 머신러닝, 딥러닝까지 데이터 분석이 인공지능과 만나고 있습니다. 분석을 위한 R, Python 등의 언어를 공부하고 계신 분들도 많으실 것 같습니다.

그런데 제조업 분야의 빅데이터 분석 프로젝트에 들어가니 처음엔 막막하기도 했습니다. 우선 사용하는 용어가 생소하였고, 데이터를 이해하기 위해서는 데이터의 흐름 파악이 필요했는데, 이는 해당 제조업의 공정 흐름 파악이 반드시 선행되어야 했습니다. 에너지 분야의 제조라는 비즈니스에 대해 이해가 필요했고, 그 분야에서 사용되는 용어들을 파악해야 데이터를 볼 수 있겠구나 싶었습니다. 이렇게 해당 분야의 비즈니스 도메인을 이해하고, 데이터를 이해하는 것을 시작으로 하는 빅데이터 분석 방법론이 CRISP-DM(Cross Domain Industry Standard Process-Data Mining)이라고 생각합니다.

column_img_3274.jpg

[그림1] CRISP-DM 방법론 개요

CRISP-DM은 데이터 마이닝 프로젝트를 수행하는 표준적인 프로세스 모델을 정의하기 위한 프로젝트로 SPSS, NCR, DaimlerChrysler, OHRA 이 함께 정의한 데이터 마이닝 방법론입니다. 비즈니스 이해(Business Understanding)를 시작으로 데이터 이해(Data Understanding), 데이터 준비(Data Preparation), 모델링(Modeling), 평가(Evaluation), 배포(Deployment)의 6단계로 수행이 됩니다.

column_img_3275.jpg

[표1] CRISP-DM 단계 설명

CRISP-DM은 첫번째 단계인 비즈니스 이해 단계를 데이터 마이닝의 목적과 프로젝트의 목적을 수립하는 단계로 정의하고 있습니다. 다만 목적과 프로젝트 범위를 명확히 하기 위해 CRISP-DM에는 명시적으로 거론되지는 않았지만 우선적으로 해당 제조 공정과 용어를 이해하는 것도 반드시 필요한 과정이라고 할 수 있습니다.



3. 비즈니스 도메인 및 데이터 이해

3.1 비즈니스 도메인 이해

분석 프로젝트의 목표를 명확히 하기 위해서는 해당 비즈니스 분야의 업무 전문가와의 협업이 중요하며, 업무 전문가와의 밀접한 지식 공유를 통해서 빠르게 비즈니스 및 공정을 이해하는 것이 프로젝트의 목적을 명확히 할 수 있는 기본이 됩니다. 에너지 분야에서는 플랜트 설비의 파이핑(Piping)과 기계(기기, Instrument)들의 연결, 프로세스의 흐름과 제어의 관계를 도식화한 그림인 P&ID(Piping & Instrument Diagram)를 이용합니다. Piping은 물, 연료 등이 흘러가는 일종의 배관구조이고, Instrument는 각 배관을 연결하는 기기들이라고 이해하시면 되겠습니다. 에너지 분야는 화력발전소, 가스발전소, 열병합발전소 등이 있는데 구글링으로도 쉽게 에너지 분야의 P&ID를 확인해 볼 수 있습니다.

column_img_3276.jpg

[그림2] P&ID 예시 (발췌: www.EnggCyclopedia.com)

자세히 보시면, Gas Turbine, Steam Turbine, Generator 등의 용어가 보이시고, 각 기기들의 연결은 방향이 있어 화살표로 표시됩니다. 이 화살표는 물 또는 에너지 연료의 흐름이 있고, 그 흐름의 전후 단계에는 상관관계가 있겠구나 가정을 하게 됩니다. 이렇게 P&ID의 구성과 흐름을 분석해서 공정의 흐름을 이해해야 데이터의 상관관계를 파악할 수 있고, 해당 공정에서 빅데이터 분석을 통해 얻고자 하는 목표를 명확히 이해할 수 있습니다.

에너지 분야의 제조시설에서는 출력(power, energy)을 최대화 하기 위한 목적으로 모든 시설을 운행하기에 각 1)시설별 운영을 최적화 하거나, 2)고장을 사전에 예측할 수 있거나, 3)장비의 수명을 예측하거나, 4)장애 이전에 정비로 시설을 안전하게 운행할 수 있는 예비공정의 최적의 시점을 파악하기 위해 빅데이터 분석을 적용합니다. 참고로, SW기업으로 거듭나고 있는 GE는 이러한 제조, 항공 등의 빅데이터 분석을 통해 예산 절감과 운영 최적화를 실현하고, 아울러 빅데이터 분석 모델을 다른 제조기업에 고가에 판매도 한다고 합니다. P&ID를 이해하고 데이터를 파악하기 위해서는 아까도 말씀드린 Gas Turbine, Steam Turbine, Generator 등 에너지 분야의 용어를 미리 파악하면 이해가 쉽겠지요 P&ID를 기반으로 업무 전문가와의 협업이 진행될 텐데, 용어를 이해하고 있다면 업무 전문가와 원활한 커뮤니케이션이 될 것입니다.

아래 에너지 분야 빅데이터 분석에서 이해한 용어를 공유 드립니다. 상세어 및 약어” 등으로 검색하시면 관련 용어를 쉽게 확인하실 수도 있습니다.

column_img_3277.jpg

[표2] 가스 발전소 용어 예시



3.2 데이터 이해

이렇게 분석 대상 비즈니스 도메인을 이해하고, 용어를 파악했다면 데이터를 확인해 볼 수 있겠지요 이때 CRISP-DM의 두번째 단계인 데이터 이해의 단계로 들어가게 되며, 공정을 기반으로 데이터의 특성을 이해하게 됩니다. 데이터의 특성이라고 하면, 데이터가 수집되는 주기, 데이터의 단위, 서로 상관관계가 있는 데이터의 분류, 분석하고자 하는 대상 데이터의 파악과 분석하고자 하는 데이터에 영향을 주는 데이터를 파악하는 것이 중요합니다.

제조 공정에서 주로 파악하는 데이터는 온도, 진동, 전압, 전류 등이 대표적인 지표입니다. 온도는 상온의 영향을 받고, 여러 위치에서 측정되는 진동 값은 일정한 패턴을 유지합니다. 그 패턴이 변화하게 된다면 설비에 문제가 있거나 있을 거라는 추측을 할 수 있습니다. 압력은 임의의 설비의 앞과 뒤에서 각각 측정하여 압력의 차이가 큰 경우 해당 설비가 문제가 있다고 예측할 수 있으며, 전류는 일정한 수준으로 유지 되어 운영되거나 주변 상황에 따라 가변적으로 운영되기도 하는데, 전류가 높게 투입되는데 출력이 낮은지, 전류를 일정 수준으로 유지하면서 출력을 높일 수 있는지를 데이터 분석을 통해 분석하고 예측할 수 있습니다.

이렇게 온도, 진동, 전압, 전류를 분석해서 최종 품질에 영향을 미치는 핵심 요소들을 모니터링 하고 관리할 수 있습니다. 실제로 CWP(Circulating Water Pump)을 분석할 때 현업 전문가와 데이터를 확인하면서 아래와 같은 특징을 파악할 수 있었습니다. 해수 온도가 유량과 온도, 진동에 영향을 미치므로, 분석 대상으로는 온도, 진동, 전압, 전류라고 하더라고 해수온도, 외기온도/습도/대기압 등의 정보가 추가로 필요할 수 있습니다.

column_img_3278.jpg

이와 같이 데이터 이해 과정을 통해 상관관계가 있는 데이터를 분류하고, 분석하고자 하는 대상 데이터의 파악과 분석하고자 하는 데이터에 영향을 주는 데이터를 파악하여 데이터 준비 단계로 진행하게 됩니다.



4. 결론

지금까지 4차산업혁명의 현장! 스마트팩토리 빅데이터 분석 과정에서 첫 두 단계를 함께 내용을 확인해보았습니다. 첫번째 단계인 비즈니스 이해 단계에서는 프로젝트 계획과 목표를 세우지만, 반드시 해당 제조 공정의 이해와 용어의 학습이 필요합니다. 빠르게 비즈니스 도메인을 이해하는 것이 필요한 것입니다. 두번째 단계인 데이터 이해 과정에서는 전체적인 제조 공정의 흐름에 따른 데이터의 특성을 이해하는 것이 중요합니다. 이 과정을 통해서 가설을 세우게 되고, 실제 데이터 전처리, 분석과정을 수행하면서 가설을 모델로 검증할 수 있습니다. 다음 번 스마트팩토리 빅데이터 분석 사례2에서는 비즈니스 이해, 데이터 이해의 다음단계인 데이터 준비, 모델링, 평가, 전개 단계를 이어서 확인해 보도록 하겠습니다. 39



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net