데이터 인사이트

데이터 전문가 칼럼
데이터 전문가가 전하는 데이터 노하우

[빅데이터 분석] 김진영의 측정과 분석 이야기(6회) : 측정 목표달성 위한 실전! 데이터 분석

작성자
관리자
작성일
2020-10-26 10:13
조회
1656

김진영의 측정과 분석 이야기(6회)

측정 목표달성 위한 실전! 데이터 분석

 
데이터를 준비한 후 지표값까지 계산을 마쳤다면 이제 다양한 분석을 시도할 차례다. 이를 통해 데이터에서 나타나는 패턴을 발견하고, 데이터에 기반한 의사결정을 내릴 수 있다. 여기서는 측정을 위한 데이터 분석의 다양한 유형을 알아보고, 관련된 통계 이론을 바탕으로 분석의 방법을 설명하겠다.
“통계로 거짓말 하기는 쉬워도, 통계없이 진실을 말하기는 어렵다"
- 안드레예스 둥켈스

본 연재에서 주로 다루고자 하는 측정의 유형은 개인과 조직의 목표 달성을 위한 측정이다. 따라서 데이터 분석의 주요 과제는 과연 측정하고자 하는 목표가 달성되었는지를 판단하는 것이다. 좀 더 구체적으로 말하면 앞서 수집한 표본 간에 통계적으로 유의미한 변화가 관찰되었는지 판단하는 것이다. 또한, 지표값에 영향을 주는 주요 요인을 알아내는 것도 필요하다.
 

측정에 필요한 통계적 추론

앞에서도 밝혔듯이 통계에 대한 이해는 측정 전반에 걸쳐 필수다. 여기서는 분석의 방법을 구체적으로 알아보기 이전에 관련된 통계 이론을 되짚어 보겠다. 우선 통계 이론은 크게 주어진 현상을 묘사하고 요약하기 위한 통계적 묘사와, 관찰된 현상(표본)을 바탕으로 좀더 일반적인 결론을 유도하는 통계적 추론으로 나눌 수 있다. 측정을 위한 통계에는 현상을 요약하는 지표를 개발하는 통계적 묘사와 표본을 바탕으로 모집단에 대한 결론을 유도하는 통계적 추론이 모두 필요하다. 앞서 지표를 계산하는 과정에서 통계적 묘사를 설명했으니, 여기서는 통계적 추론을 좀더 자세히 알아보자.

통계적 '추론'은 문자 그대로 현상의 부분을 관찰한 후 이를 전체에 대해 일반화하는 과정이다. 대부분의 측정 문제에서 주어진 현상에 대해 수집할 수 있는 데이터의 양은 한정되어 있기에, 이러한 일반화는 필수적이다. 하지만 이런 통계적 추론은 주어진 현상에 대해 어떤 종류의 가정을 필요로 하기 마련이다. 주어진 현상에서 어떤 규칙성을 찾을 수 없다면 부분을 관찰하는 것이 그 외의 현상에 대해 어떤 정보도 줄 수 없을 것이기 때문이다.

통계학에서 이런 일반화의 문제를 풀기 위해 주로 사용하는 기법은 주어진 현상의 발생을 묘사하는 확률적인 모델을 만드는 것이다. 우리가 흔히 알고 있는 정규분포(Normal Distribution), 지수분포(Exponential Distribution) 등이 모두 여기에 속한다. 일단 주어진 현상을 설명할 수 있는 통계적 모델을 만들 수 있다면, 이를 바탕으로 모집단에 대한 다양한 결론을 유도할 수 있다.

 

평균에 대한 추론: 정규분포와 표준에러

문제는 우리가 다루고자 하는 문제와 데이터의 유형이 너무나 다양하며, 잘 알려진 현상이 아닌 이상 꼭 들어맞는 확률 모델을 찾기가 쉽지 않다는 점이다. 그렇다고 통계 이론이 쓸모없다는 말은 아니다. 다행히도 우리가 추론을 하고자 하는 대상 지표가 평균인 경우에는 ‘원래 값의 분포에 관계없이 평균값은 정규분포를 따른다’는 중심극한정리(Central Limit Theorem)라는 이론이 있다.

즉, 우리가 구하고자 하는 지표값이 충분한 표본으로부터 계산된 평균값인 경우, 원래 개별 측정값의 분포와 관계없이 이 지표값은 정규분포를 따른다는 것을 의미한다. 이때 분포의 평균값은 우리가 가진 표본의 평균값을, 그리고 분포의 분산은 우리가 가진 표본의 표준편차를 표본의 수로 나눈 것과 같다.

이를 수식으로 표현해 보자. 모집단 P에서 n개의 표본을 추출해서 평균값 E을 구해 지표값으로 사용하고, 이 표본 집합의 분산이 V라고 계산했다. 그러면 중심극한정리로부터 이렇게 n개의 표본으로 이루어진 지표값은 평균이 E이고 분산이 V/n인 정규분포를 가진다는 사실을 추론할 수 있다.

이처럼 작은 수의 표본 하나로부터 같은 크기의 표본 전체가 갖는 분포를 구할 수 있다는 결과는 지표로 평균값을 사용하는 이유를 뒷받침한다. 또한, 이 분포의 분산이 표본의 수에 반비례한다는 사실은 더 많은 표본을 모으는 것이 측정의 정확도를 높일 수 있다는 것을 보여준다.

이처럼 표본이 이루는 분포를 모집단의 분포와 구분해 ‘표본 분포’라고 부르며, 이 분포의 표준편차를 모집단의 표준편차와 구분해 ‘표준 에러(Standard Error)’라고 부른다. 표준편차는 주어진 값을 산포도를 요약하기 위한 묘사적인 지표이지만, 표준 에러는 표본 추출에 의한 추정치와 모집단의 평균 간의 거리를 나타내는 지표로 측정의 정확도를 나타낸다는 사실을 기억하자.

 

분석의 방법

이처럼 측정 대상 지표에 대해 표본 분포를 구하고 나면 이를 바탕으로 신뢰 구간을 구하거나 가설 검증을 하는 등의 다양한 추론을 할 수 있다. 위에서 구한 표본 분포를 바탕으로 여기서는 다양한 분석을 수행하는 방법을 알아보자.

1) 지표값의 추정치는 얼마나 정확한가?
우선 주어진 지표에 대한 분석 중 가장 기본적인 것이 신뢰구간의 계산이다. 신뢰구간은 모집단의 평균값이 어떤 특정한 신뢰도 (예: 95%) 이상의 확률로 위치할 것으로 추정되는 구간이다. 당연히 그 범위가 좁을수록 더 정확한 측정값으로 간주할 수 있는데, 신뢰구간을 구하는 공식은 다음과 같다.

신뢰구간 = 표본평균 ± 신뢰도상수 × 표준에러

즉, 신뢰구간의 크기는 신뢰도상수 및 표준에러의 크기에 비례하는 것을 알 수 있다. 그리고 신뢰도상수는 신뢰도가 높아질수록 커지며, 표준에러는 주어진 표본의 표준편차를 표본 크기의 제곱근으로 나눈 값이다. 따라서 결국은 표준편차가 작고 크기가 큰 표본을 사용할수록 더 정확한 측정을 할 수 있다는 해석이 가능하다.

2) 지표값에 유의미한 변화가 있는가?
앞서 언급한 현황 측정과 변화 측정을 마친 후에는 두 단계 사이의 측정값이 통계적으로 유의미한 변화를 보이는지 궁금할 것이다. 여기서 유의미한 변화는 단순히 변화의 폭을 가리키는 것이 아니라, 변화가 존재하는지에 대한 신뢰성을 가리킨다. 아무리 변화의 폭이 크다고 해도, 지표의 분산이 큰 경우에는 그 결과가 우연인지 필연인지 판단할 수 없기에, 변화의 유의미성을 따지는 것은 중요한 문제다.

변화의 유의미성을 판단하는 일에도 신뢰구간 계산을 활용할 수 있다. 단, 여기서는 현황 측정 단계에서의 지표값과 변화 측정 단계에서의 지표값의 차이에 대한 신뢰구간을 계산한다. 만약 그 지표값이 0을 포함하면 두 단계 사이의 차이가 유의미하다고 간주할 수 있다. 이는 통계학에서 말하는 가설 검증을 사용한 것과 같은 결과다.

3) 주어진 측정 목표를 달성했는가?
어떤 특정한 값으로 측정 목표를 설정한 경우, 측정값이 정확히 떨어지는 값이 아니라면 목표를 달성했는지를 정확히 판단하기가 어렵다. 이때 신뢰구간 계산을 활용하면 목표에 달성했는지의 여부를 확률적으로 표현할 수 있다. 다시 말하면, 목표로 한 값이 측정치의 95% 신뢰구간 안에 들어왔다면 목표에 근접했다고 말할 수 있고, 반대로 목표 값이 95% 신뢰구간을 벗어났다면 목표에 미달하거나 초과 달성했다고 할 수 있다.

“과거로부터 배우지 못한 사람은 똑같은 실수를 반복할 수밖에 없다.”
- 조지 산타야나

 

측정 평가하기

앞서 언급했듯 측정은 현황 파악에서 목표 달성 때까지의 전 단계가 반복적으로 이루어지며, 이 과정에서 측정 목표와 문제에 대해 좀더 나은 이해에 도달하려는 작업이다. 따라서 매번 측정이 끝날 때마다 측정 결과에 대해 제대로 평가해야 한다. 여기서는 다음 몇 가지 관점에서 측정을 평가하는 방법을 알아보자.

1) 목표와의 정합성
앞서 많은 측정 문제가 추상적인 목표를 구체적인 현상으로 치환하는 것에??서 필연적으로 측정 목표와 실제 측정 지표간의 차이가 생기게 마련이다. 이 정도를 측정 목표와 결과와의 정합성이라고 할 수 있을 것이다.

하지만 목표와의 정합성에 대한 평가는 목표를 완벽하게 규정할 수 있는 지표가 있다는 것을 전제로 한다. 하지만 만약 이런 지표가 있다면 측정을 위해 고민할 필요도 없을 테니, 이처럼 목표를 완벽하게 포착하는 지표가 있다고 가정할 수는 없다.

이런 모순을 해결하기 위해 사용하는 방법은 하나의 측정 목표를 위해 서로 다른 현상에 기반한 여러 지표를 동시에 수집해 그 결과를 비교하는 것이다. 예컨대, 온라인 서비스의 품질을 측정하기 위해 실제 사용자의 로그 데이터를 사용하는 것이 일반적이지만, 로그 데이터에서 얻을 수 있는 시그널은 제한적이기 때문에, 이를 보완하기 위해 유저 스터디를 별도로 수행하는 경우를 생각해볼 수 있다.

이처럼 여러 지표를 사용해서 측정을 수행하고, 만약 그 결과가 모두 같은 방향을 가리킨다면 측정 결과와 목표와의 정합성에 대한 믿음을 가질 수 있을 것이다.

2) 지표간의 일관성
앞에서 언급한대로 실제 의미 있는 측정 문제를 풀기 위해서는 여러 개의 지표를 동시에 사용하는 경우가 일반적이다. 이 경우 필연적으로 발생하게 되는 이슈가 지표간의 불일치이다. 같은 현상을 측정하는데 사용하는 지표간의 결과가 서로 현저히 다르다면 이는 분명 혼란을 야기할 수 있는 문제이다.

하지만 각각의 지표는 서로 다른 현상의 측면을 포착한다는 점을 기억한다면 오히려 지표간의 불일치를 자연스러운 결과로 받아들일 수 있을 것이다. 지표간의 불일치가 발생한 사례는 아래와 같이 정상적인 불일치와 비정상적인 불일치로 분류하고, 비정상적인 불일치는 다음 측정 이전에 해결할 수 있도록 해야 할 것이다.

정상적인 불일치: 지표간의 차이 때문에 자연스럽게 생기는 불일치
비정상적인 불일치: 한쪽 지표의 측정 결과에 오류가 있는 경우

3) 측정 비용과 노이즈
마지막으로 측정에 소요된 비용과 측정 결과에서 발생하는 노이즈 역시 측정 결과를 평가하는데 중요한 사항이다. 앞서 언급한대로 측정에서 발생하는 노이즈는 표본 크기를 늘림으로써 통제할 수 있으므로, 측정 비용과 노이즈는 대체로 반비례하는 경향을 보인다. 즉, 최고의 측정 품질을 원한다면 그만큼 더 많은 비용을 투자해야 하는 것이다. 따라서 여기서 결정해야 할 사항은 측정 목표를 달성하기 위해 요구되는 품질의 수준과 그에 소요되는 비용이다.

측정의 품질과 비용의 관계를 좀더 구체적으로 알아보자. 앞서 알아본 대로 통계적 추론의 정확도를 나타내는 신뢰구간의 넓이는 표본 량의 제곱근에 반비례하고, 추정하려는 지표의 표준편차에 비례한다. 아래 그림은 정규분포를 따르는 모집단의 평균에 대한 신뢰구간이 표본의 크기에 따라 어떻게 좁아지는지 나타낸다. 아래 그림에서 실선과 점선은 각각 표준편차가 각각 1과 2인 정규분포에 대한 결과다.

 



위 그림을 보면 우선 표본 크기가 커질수록, 그리고 모집단의 표준편차가 작아질수록 신뢰구간이 좁아지는 것을 알 수 있다. 위 차트에서 알 수 있는 또다른 점은 표본 크기 50까지는 신뢰구간이 현격히 좁아지지만, 그 이후부터는 표본 크기를 증가시켜도 그다지 신뢰구간에 변화가 없다는 사실이다. 이미 충분한 데이터가 있다면, 추가적인 데이터에서 얻어지는 가치는 그다지 크지 않다는 사실을 여기서도 알 수 있다.

맺음말

이번 장에서는 측정의 정확도를 계산하고 평가하는 방법을 알아보았다. 연재 처음에 밝힌 대로 측정값 자체가 100% 정확하지 않더라도 측정 목표를 달성할 수 있다는 점, 그리고 더 정확한 측정을 위해서 사용되는 비용의 가치는 데이터의 크기가 커질수록 줄어든다는 사실을 명심하자. 결국 효과적인 측정을 위해서는 그 정확도와 비용간의 균형점을 찾는 것이 요구된다. (다음 회에 계속)
간절한 바람
"자네가 무언가를 간절히 원할 때, 온 우주는 자네의 소망이 실현되도록 도와준다네." 파올로 코헬로의 『연금술사』에 나오는 글입니다. 여러분이 진정으로 바란다면 데이터 분석가로 나아가는 문은 열릴 것입니다. 필자의 온라인 나눔터(http://www.hellodatascience.com)와 트위터(twitter.com/lifidea)에서 데이터 분석가에 대한 정보를 더 주고 받을 수 있습니다.
 

출처 : 한국데이터베이스진흥원

제공 : 데이터 전문가 지식포털 DBguide.net