데이터실무

DA, SQL, DB보안 등 실무자를 위한 위한 DB기술 바이블!

데이터 수집 개요

데이터 수집
데이터 수집의 이해
데이터 수집 개요
작성자
admin
작성일
2021-02-15 13:13
조회
4628

데이터의 특징

데이터를 사전적으로 정의하면 재료, 자료, 논거라는 뜻인 datum의 복수형이라고 정의할 수 있다. 데이터의 수집기술에 사용되는 데이터를 사전적으로 정의하다 보면 너무 포괄적이므로 데이터라고 부를 수 있는 정의를 좀더 현실적으로 축소해 정의하면 ‘모든 분석 혹은 활용 가능한 디지털화된 자료, 정보’로 정의할 수 있다. 이러한 데이터에는 어떤 특징이 있을까? 데이터가 갖고 있는 특징을 명확히 인지할 때, 데이터를 처리할 수 있는 기술적 사항을 고려한 처리 과정 설계가 가능할 수 있을 것이다. 디지털화된 데이터는 그 자체의 형식을 결정하는 존재론적 특징과 데이터의 활용목적에 합목적성을 갖는 목적론적 특징을 가지고 있다. 이 둘을 명확히 숙지하는 것이 데이터를 수집하는 과정의 시작점이 될 것이다.


일반적인 데이터의 특징
존재론적 특징

데이터가 갖고 있는 존재적 특징으로 데이터를 구분하면 정성적 데이터(qualitative data)와 정량적 데이터(quantitative data)로 구분할 수 있다.
정성적 데이터는 데이터 자체가 하나의 텍스트(“환율이 내리고 있어 올해 목표한 수출 목표의 조기 달성이 가능해 보인다.”)를 이루고 있기 때문에 데이터 하나 하나가 함축된 정보를 갖고 있다. 반면 정량적 데이터는 여러 속성(이름, 나이, 성별, 주소 등)이 모여 하나의 객체를 형성하고, 각 속성은 속성 하나 혹은 여러 개의 속성이 결합해 측정이나 설명이 가능하도록 구성돼 있다.

[표-1-1] 정성적 데이터와 정량적 데이터의 비교


구분 정성적 데이터 정량적 데이터
형태 비정형 데이터 정형ㆍ반정형 데이터
특징 객체 하나에 함의된 정보를 갖고 있다. 속성이 모여 객체를 이룬다.
구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
저장 형태 파일, 웹 데이터베이스, 스프레드시트
소스위치 외부 시스템(주로 소셜 데이터) 내부 시스템(주로 DBMS)
목적론적 특징

데이터의 목적론적 특징에 대해 정의하면 인식체계에서 어떤 사실에 대해 ‘데이터’라고 인식하게 되는 객체가 갖고 있는 인식주체에게 필요한 존재 목적이다. 즉 하나의 서비스 혹은 활용(데이터 분석)을 위해 데이터가 존재하고 있다는 인식에서부터 출발하며, 인식의 주체가 데이터에서 목적에 맞는 특징을 찾아내는 것이다. 따라서 데이터는 인식 주체의 관점에 따라 여러 종류의 데이터로 인식될 수 있으며, 그 과정에서 원본 데이터의 속성분리, 다른 데이터와의 병합이 발생해 하나의 새로운 데이터 객체가 생성된다.


수집활동에서 데이터의 특징 정의

수집활동에서 데이터의 특징은 한마디로 재생산이라 할 수 있다. 수집 활동에서 일어나는 모든 과정은 데이터를 활용하기 위한 재생산 과정이다. 재생산은 원천 데이터를 탐색ㆍ수집ㆍ정제ㆍ저장하는 과정을 거처 새로운 데이터를 생산하는 것을 의미한다. 따라서 수집활동에서의 데이터는 원본 데이터와의 재생산 데이터의 관계를 고려할 필요가 있다. 재생산된 데이터는 가역적 데이터와 불가역적 데이터로 구분할 수 있다.


가역적 데이터

가역적 데이터는 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터다. 가역적 데이터의 특징은 데이터 원본의 내용이 변경되었을 경우 변경 이력에 대한 추적이 가능하고, 원본 데이터의 흔적이 재생산된 데이터에도 남아 있다.


불가역적 데이터

불가역적 데이터는 생산된 데이터의 원본으로 환원이 불가능한 데이터다. 불가역적 데이터의 특징은 원본 데이터와는 전혀 다른 형태로 재생산되기 때문에 재생산된 데이터의 원본 데이터에 대한 추적이 불가능하다. 이에 따라 원본 데이터의 내용이 변경되었더라도 재생산된 데이터에는 아무런 영향을 미치지 않는다.

[표Ⅰ-1-2] 가역적 데이터와 불가역적 데이터의 비교


구분 가역적 데이터 불가역적 데이터
환원 가능성 가능하다 불가능하다
의존성 원본 데이터에 의존적 원본 데이터에 독립적
원본 데이터와의 관계 1:1 관계 1:N 혹은 N:1
처리 과정 탐색 병합
활용 분야 데이터 웨어하우징, 로그 수집 소셜 분석, 텍스트 마이닝
빅데이터 처리에서의 수집과정의 역할

전형적인 프로젝트는 제안요청(정보화전략수립 및 그 외 제안요청이 나오기 전까지 과정을 모두 마쳤다고 가정한다)에 따른 분석→ 설계→ 구현→ 테스트→ 이행 과정에 따라 진행된다. 빅데이터 관련 프로젝트와 전형적인 프로젝트의 차이점은 무엇일까? 그것은 데이터의 생산 방식과 데이터의 생산 주체일 것이다. 빅데이터 관련 프로젝트는 데이터의 생산 주체와 방식이 데이터의 수집이라는 측면에서 이뤄진다. 따라서 이를 비교해 보면 빅데이터 처리에서 수집의 중요성을 알 수 있을 것이다. 전형적인 프로젝트에서 데이터 생산의 주체는 프로젝트의 요구사항에 이미 정의되어 있기 때문에 다른 주체로의 교체가 불가능하다. 하지만 빅데이터 프로젝트에서는 생산의 주체가 아닌 이미 생산된 데이터를 가져오는 것이 중요하기 때문에 데이터의 생산 과정과 생산의 주체는 크게 중요하지 않다. 대신 어떤 데이터를 가져올 것인가와 생산된 데이터를 수집하는 과정의 안정성이 가장 큰 고려사항이 될 것이다.


  • 수집 가능 여부, 수집된 데이터를 테스트하기 위해서는 사전에 원천 데이터를 탐색하는 과정이 필요하다.
  • 데이터의 생산주체와 재생산된 데이터의 관리 주체가 다르기 때문에 데이터의 안정적 수집을 위해서는 반드시 수집 대상에 대한 관리정책이 필요하다.

[표Ⅰ-1-3] 생산 관점에 따른 데이터의 비교


빅데이터 프로젝트 일반 프로젝트
생산주체의
결정
상대적으로 중요하지 않고 프로젝트 실행 단계에서 누가ㆍ무엇을 생산했는지에 대한 검토만 한다. 중요한 요소이며 프로젝트 실행 이전(정보화전략 수립시)에 먼저 결정된다.
생산주체의
종류
로그 데이터 같은 경우 머신이 데이터의 생산 주체이듯 다양한 생산주체가 있다. 일반적으로 생산주체는 정보 서비스를 사용하는 사용자다
구현형태 수집기술로 구현된다 입력 UI로 구현된다.
분석과정 기술검토 및 적용이 필요하다. 업무 프로세스 정립이 필요하다.
설계과정 다른 처리 과정의 아키텍처에 영향을 미친다. 다른 처리 과정의 아키텍처의 일부분이다.


[Note]

데이터 웨어하우스를 구축하는 프로젝트일 경우 형태상 비슷할 수도 있지만 빅데이터 프로젝트를 수행하는 것과 비교하면 수집이 미치는 영향의 차이가 너무 크다. 요즘 데이터 웨어하우스 구축 프로젝트에서 빅데이터 처리를 동시에 요구하고 있으므로 일반 프로젝트와 빅데이터 프로젝트의 차이점으로 이해해 주길 바란다.


데이터수집 정의

데이터 수집에 대해 함축적으로 정의하면 ‘서비스 활용에 필요한 데이터를 시스템의 내부 혹은 외부에서 주기성을 갖고 필요한 형태로 수집하는 활동’으로 정의할 수 있다.


서비스활용

서비스 활용에서 데이터 수집의 역할은 서비스의 품질을 결정할 뿐 아니라 서비스의 생명주기에도 영향을 미친다. 어떤 서비스를 할 것인지 결정했으면 먼저 수집할 원천 데이터를 탐색해야 한다. 데이터의 탐색하는 과정에서 고려해야 할 사항은 수집의 난이도적 측면과 비용적 측면, 데이터 수집의 안정성이다. 데이터 수집이 서비스 활용에 미치는 영향과 서비스 활용이 데이터 수집방법과 어떤 관계를 갖는지는 제4절 데이터 수집방법 및 기술에서 좀 더 자세히 설명하겠다.


데이터의 위치

수집 데이터의 위치에 따라 구축하려는 시스템 내부 혹은 외부의 데이터로 나눌 수 있다. 내부시스템에서 데이터를 가져올 경우, 대부분 정형 데이터일 경우가 많고 외부 데이터 수집과 비교하면 수집에 드는 비용이나 난이도 측면에서 훨씬 유리한 것이 사실이다. 또한 서비스의 생명주기 관리에도 용이하다. 반면 외부 데이터일 경우, 정형 데이터는 협약된 곳에서 수집하는 데이터를 제외하고는 대부분이 비정형 데이터이다. 따라서 수집에 드는 비용이나 난이도가 내부 데이터 수집과 비교하면 상대적으로 어렵다. 더욱 중요한 것은 외부 환경은 내부 시스템과는 다르게 통제가 불가능하기 때문에 서비스의 수명주기 관리가 원천 데이터에 의존할 경우 수집이 불가능하다. 따라서 원천 데이터를 수집할 수 없을 경우에 대비한 서비스 관리 정책이 별도로 필요하다.


주기성

데이터 수집의 주기성을 나눌 때 일반적으로 배치(일괄) 혹은 실시간이냐에 따라 주기를 결정한다. 하지만 이는 서비스의 활용적인 측면이지 원본 데이터의 생명주기에 관한 것이 아니다. 데이터의 수집은 다른 곳에서 데이터를 생성한 것을 복제하는 행위이기 때문에 주기를 갖고 계속 수집하는 행위인지 아니면 한 번의 수집으로 끝나는 과정인지를 먼저 고려해야 한다. 일회성 수집이 아니고 일정한 주기를 기준으로 수집 활동이 진행되어야 한다면, 서비스의 종류 및 환경에 따라 실시간으로 수집할 것인지 아니면 배치 작업을 통해 수집할 것인가를 결정해야 한다.


수집데이터의 저장형태

서비스 활용에 대해 수집 대상 데이터의 위치ㆍ주기ㆍ수집방법이 결정됐으면, 수집한 데이터를 어떠한 형태로 저장할 것인지를 고려해야 된다. 빅데이터 처리에서 일반적으로 사용되는 저장소는 분산 파일 시스템이지만, 수집된 데이터를 가공ㆍ처리하기 위해서 DBMS가 사용될 수도 있고 서비스를 DBMS를 통해 제공할 수도 있으므로 서비스 환경에 맞는 아키텍처를 설계해야 할 것이다. 원본 데이터의 형태에 따라 사용되는 수집 기술이 다르고 수집되는 형태도 다르기 때문에 데이터 저장소의 아키텍처 설계 시 파일 시스템, 관계형 데이터베이스, 분산처리 DBMS 등을 고려해야 한다.