전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

[데이터 전문가에게 듣는다] 빅데이터 품질 확보를 위한 인공지능과의 결합

전문가칼럼
DBMS별 분류
Etc
작성자
admin
작성일
2021-02-22 15:59
조회
1951
161229_2017data.jpg

1. [데이터 전문가에게 듣는다] 2017 데이터 비즈니스 전망 바로가기▶ 2. [데이터 전문가에게 듣는다] 2017년 데이터산업을 말하다! 국가데이터방향과 데이터산업 바로가기▶
3.[데이터 전문가에게 듣는다] 4차 산업혁명을 위한 데이터산업 바로가기▶
4. [데이터 전문가에게 듣는다] 2017년은 ‘4차 산업혁명’에 대한 철저한 대비가 필요하다 바로가기▶

[데이터 전문가에게 듣는다] 빅데이터 품질 확보를 위한 인공지능과의 결합

김종현 - 위세아이텍 대표 / 한국데이터산업협의회 회장

2016년 1월에 다보스 포럼에서 제4차 산업혁명에 대해서 이야기 한 이후로 올 한해 제4차 산업혁명에 대비한 포럼과 컨퍼런스들이 개최되었습니다. 제4차 산업혁명은 지능정보기술이 핵심이며, 이러한 지능정보기술은 지능과 정보로 구성됩니다. 미래창조과학부가 『제4차 산업혁명에 대응한 지능정보사회 추진 민관 컨퍼런스』에서 발표한 제4차 산업에 대한 정부의 정책방향 및 추진과제에서도 기술 부분에서 ①미래 경쟁력 원천인 데이터 자원의 가치 창출, ②지능정보기술 기반 확보, ③데이터 서비스 중심의 초연결 네트워크 환경 구축을 포함시켰습니다. 이에 따라 데이터 자원의 중요성이 높아지고 있으며, 어떻게 데이터를 사용할 수 있게 할 것인지, 어떻게 데이터로부터 부가가치를 창출할 것인지에 중점을 두고 있습니다. 이러한 시대의 변화에 따라 데이터 산업 또한 빅데이터와 인공지능이 결합된 형태로 성장할 것입니다.
IDC가 발표한 『디지털 유니버스 보고서(Digital Universe Study)』에 따르면 2011년 전 세계 디지털 정보량은 약 1.8 제타바이트에 달하고 2020년에 관리해야 할 정보의 양은 50배 이상 증가할 것으로 예상하고 있습니다. 또한 Gartner의 2015년도 보고서에 따르면 전체 빅데이터 분석 개발 과정 중 데이터 준비와 가공에 최대 80%의 시간이 소요된다고 하였습니다. 이렇듯 데이터의 중요성이 점점 높아지고 있습니다. 또한 빅데이터 분석은 단순히 분석에서만 머무르는 것이 아니라 인공지능 기반의 예측을 위해 데이터를 수집하고 가공하고 있습니다. 즉, 기계가 학습할 수 있는 데이터로 가공하는 것이 중요합니다.
빅데이터 분석은 수집된 데이터의 품질로부터 분석결과가 도출되기 때문에, 데이터 가공과 분석 기술이 탁월하더라도 데이터가 정확하지 못하다면 부정확한 분석으로 연결되어 잘못된 분석 결과를 도출할 수 있습니다. 이에 따라 수집된 빅데이터의 품질을 확보하는 것이 무엇보다도 가장 중요한 이슈라고 생각됩니다. 그러나 데이터의 양은 지난 10년간 무어의 법칙에 상응하는 비율로 폭발적으로 증가되었기 때문에 데이터 엔지니어의 경험과 노력으로 데이터의 품질을 측정하기에는 어려움이 있습니다.
해외에서는 이미 부정확한 데이터를 식별하고 이를 자동으로 추적할 수 있는 인공지능 기반의 데이터 품질 측정 기법에 대한 연구가 시작되었습니다. 미국 NASA의 백서에서는 빅데이터의 경우 증가하는 데이터양에 부합하는 데이터 품질요구사항을 만족하기 위해서는 인공지능 기반의 자동화된 데이터품질을 측정하기 위한 도구가 필요하다고 언급하였으며, UST Global에서 발표한 Case Study 연구에서 머신러닝은 데이터의 품질을 높이고 새로운 데이터 품질 규칙을 설정하여 데이터 오류의 탐지 및 수정을 용이하게 해준다고 하였습니다. 이 외에도 데이터품질 알고리즘 확장을 위한 기계학습 기술에 대한 연구들이 진행되고 있습니다. 데이터품질에 인공지능을 적용하는 연구는 아직 필요성 인식 및 초기 연구 수준에 머물러 있지만, 조만간 데이터품질에 인공지능을 적용한 SW가 시장에 나오리라고 예상합니다.
또한 기존에 개발된 데이터품질 관리 SW를 대폭적으로 업그레이드하기 위해 인공지능으로 데이터 정확성을 판별하고, 오류 데이터를 색출하는 연구를 진행하고 있습니다. 마지막으로 필자는 향후 지속적으로 증가될 데이터에 대한 품질을 확보하기 위해서는 데이터 엔지니어의 추측과 경험에 의존하지 않고, 데이터에 근거한 판단을 기반으로 하는 정밀 데이터공학을 실현해야 한다고 생각합니다. 인공지능에 필요한 데이터의 정확도를 높이는 데에 인공지능의 알고리즘이 적용될 수 있습니다.