데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[분석16기] 미세먼지의 원인, 빅데이터로 찾는다

데이터 이야기
작성자
dataonair
작성일
2018-01-03 00:00
조회
7778


오염 원인별 지역선정을 통한 대기·기상자료의 미세먼지 인과관계 검증

미세먼지의 원인, 빅데이터로 찾는다



최근 우리나라의 미세먼지 농도가 갈수록 높아짐으로 인해 국민들 의 질병과 각종 경제적 부담이 커지면서 생활에 영향을 끼치고 있 다. 분석전문가 과정 16기 우수조는 빅데이터 분석을 통해 지역별, 계절별, 시간별, 산업별로 미세먼지의 오염 원인을 찾고 미세먼지 변화 패턴을 분석하여 미세먼지를 줄일 수 있는 방안을 도출하고자 하였다.



The Challenges

분석전문가 16기 우수조 구성원들은 교육기간 동안 미세먼지에 대한 정부의 정책들과 여 러 가지 비판들이 언론을 통해 나오면서 전 국민의 관심사가 된 ‘미세먼지의 변화에 대해 빅데이터 분석기법을 적용해 보는 것은 어떨까’ 하는 데 공통의 의견이 모아졌다. 그래서 구성원들은 대기오염의 원인별로 지역을 선정하여 대기와 기상자료에서 나타나는 미세먼 지의 인과관계를 검증하기로 하였다. 지역별, 산업별, 날씨별 미세먼지의 농도를 비교 분석 하는 것이다.
최근 사회적으로 문제가 되고 있는 미세먼지는 호흡기를 거쳐 폐 등에 침투하거나 혈관을 따라 체내로 들어가 건강에 나쁜 영향을 미칠 수 있는 것으로 알려져 있다. 일반적으로 대 기오염물질이 공기 중에서 반응하여 형성된 덩어리(황산염, 질산염)와 화석연료를 태우면 서 발생하는 탄소류와 검댕, 그리고 흙먼지 등에서 생기는 광물 등으로 구성된다. 발생원인 으로는 2가지 경우가 있다. 하나는 굴뚝이나 공장 등에서부터 고체 상태의 미세먼지로 나 오는 경우로 이를 1차 발생원이라 하는데, PM10(이하 미세먼지)의 원인이다. 다른 하나는 가스 상태로 나온 물질이 공기 중의 다른 물질과 화학반응을 일으켜 미세먼지가 되는 경우 로 이를 2차적 발생이라 하는데, PM2.5(이하 초미세먼지)의 원인이다.



column_img_3211.jpg

The Approach

1) 데이터 수집
미세먼지에 관한 자료는 에어코리아(https://www.airkorea.or.kr)에서 제공하는 2001년 1 월 1일부터 2016년 6월 27일까지 319개 관측소에서 측정한 19개 항목의 시간별 자료 약 4,331만 건을 수집하였다. 또 기상자료는 기상자료 개방포털(https://data.kma.go.kr)에서 제공하는 같은 기간 1,792개 관측소에서 측정한 18개 항목의 시간별 자료 약 2억 4,316만 건을 수집하였다.

먼저 지역을 선정하기 위해 샘플을 분석하였다. 2015년 1월부터 12월까지의 자료를 기준 으로 미세먼지와 초미세먼지의 농도가 ‘나쁨’(81~149)이거나 ‘매우 나쁨’(150~)인 곳을 대 상으로 하였으며, 4가지 오염원으로 구분하여 관련 오염지역을 선정하였다. 특히 각 오염 원별로 내부요인과 외부(중국)요인을 비교하기 위해 청정지역을 선정하였으며, 내부요인이 인근에 미치는 영향을 보기 위해 영향지역도 선정하였다.

그 다음으로 분석요소를 선정하였다. 미세먼지 자료 중 이산화황, 일산화탄소, 오존, 아질산 염, 미세먼지, 초미세먼지의 6개 요소를 선정하고, 기상자료 중에서는 기온, 강수, 풍속, 풍 향, 습도, 일조, 지면온도의 7개 요소를 선정하여 최종적으로 약 298만 건의 자료와 36건의 변수를 추려냈다.

column_img_3212.jpg

2) 지역, 계절별 기상 특성 분석
지역별 기온을 분석해본 결과, 같은 청정지역에서도 북쪽의 백령도보다 남쪽의 제주도가 따뜻한 날이 상대적으로 많았다. 강수량은 제주도와 백령도가 잦은 분포를 보인 반면, 청주 는 적었다. 습도는 주로 바닷가에 위치한 지역이 내륙보다 높은 습도를 보였다.

월별 풍향 패턴을 보면, 청정지역으로 지목한 백령도와 제주의 경우 섬 지역으로 풍향의 계 절적 패턴이 뚜렷하며 외부의 영향이 컸다. 10월에서 4월까지는 편서풍이 주로 불고, 5월 에서 8월까지는 남풍이 대세를 이룬다. 오염지역 중에서도 항만지역으로 선정한 인천은 일 반적으로 편서풍의 영향을 받으나, 분지의 산업도시로 선정한 청주는 바람의 영향을 받지 않는다. 또 도로가 많아 선정한 서울은 북악산과 남산 사이의 산곡풍이 불며, 제조업도시로 선정한 대구는 분지 형태이면서 청주보다는 약한 바람의 영향을 받는다. 2016년 1월~6월 의 풍속 및 풍향의 특성을 보면 전반적으로 해안과 가까운 지역은 강한 북서풍으로 해륙풍 이 부는데, 여기에는 서울도 포함된다. 반면 내륙지역은 약한 북서풍이 부는 정도다.

2001년부터 2016년까지 기상자료에서 나타나는 계절적 특성을 종합해보면, 온도는 8월이 가장 높고, 강수는 2월과 8월, 11월 순으로 많으며, 풍속은 2월부터 5월까지의 봄철이 가장 강하고 습도는 7월과 8월이 높다.

column_img_3213.jpg

3) 계절, 시간별 대기 특성 분석
우선 청정지역, 오염지역, 영향지역의 시간적인 미세먼지 농도의 차이를 보기 위해 시간차 분석을 진행하였다. 즉 각 지역마다 낮이나 밤에 서로 다른 패턴을 보이는지 확인하는 것이 다. 그러나 분석 결과 모두 시차에 대한 패턴의 차이는 없고, 같은 시간에 같은 패턴을 보였 다. 즉 미세먼지 농도는 세 지역 모두 낮에 높고 밤에 낮은 특성을 보였다. 따라서 자료 분 석에서 시간차는 배제하였다.

2001년부터 2016년까지 전체 관측소에서 측정한 계절별 평균농도를 분석한 결과, 미세먼 지는 3, 4, 12월이 가장 높고 8월이 가장 낮았으며, 초미세먼지는 계절적 규칙은 없지만 8 월이 가장 낮았다. 오존은 5월에 가장 높고 12월과 1월이 가장 낮았으며, 일산화탄소는 8 월이 가장 낮았다. 반면 아황산가스와 이산화질소는 계절적 패턴이 없었다. 전체적인 평균 농도는 정부 기준으로는 ‘보통’ 수준이었다.

시간별 평균농도는 미세먼지, 초미세먼지, 아황산가스가 오전 10시에 최고를 기록하고(초 미세먼지는 밤 12시에도 최고), 오존은 오후 4시, 일산화탄소와 이산화질소는 둘 다 오전 8 시와 오후 8시에 최고를 기록했다.

column_img_3214.jpg

산업별로 16년간의 전체 그룹별 평균농도를 보면, 오존만 증가추세이고 나머지 미세먼지, 초미세먼지, 일산화탄소, 이산화질소는 감소추세였다. 미세먼지는 발전소 영향지역에서 증 가하고 있으며, 초미세먼지는 산업>도로>항만>발전소 순으로 농도가 높았는데, 특히 청정지 역에서 급격한 증가추세를 보이고 있다. 일산화탄소와 이산화질소는 도로가 가장 높고 발 전소가 가장 낮았다. 또 시간별 평균농도를 보면, 미세먼지와 초미세먼지는 산업지역이 가 장 높고 발전소가 가장 낮았으며, 일산화탄소와 이산화질소는 도로가 가장 높고 발전소가 가장 낮았다. 특히 오존은 청정지역에선 전반적으로 높았으며, 발전소가 가장 높고 도로가 가장 낮았다.

4) 지역별 미세먼지 특성 분석
미세먼지와 초미세먼지의 지역별 특성을 분석해보았다. 미세먼지의 경우, 같은 청정지역이 지만 백령도는 농도가 낮은 반면 발생빈도가 낮고, 제주도는 농도와 빈도가 모두 낮다. 이 를 볼 때 백령도의 경우 외부(중국)의 영향을 받고 있음을 알 수 있다. 반면 대구는 제조산 업 지역으로 농도와 빈도가 모두 높아 국내의 영향을 받고 있는 것으로 보인다.

초미세먼지의 경우는 백령도와 제주도 모두 미세먼지와 같은농도가 보통이고 빈도가 높아 국내의 영향을 받고 있는 것으로 유추해볼 수 있다.

5) 기상과 대기의 상관성 분석
앞에서 미세먼지에 영향을 미치는 분석요소를 선정하였다. 그 중 대기변수(이산화황, 일산 화탄소, 오존, 이산화질소, 미세먼지, 초미세먼지)와 기상변수(온도, 강수량, 풍속, 풍향, 습 도)의 패턴을 보고 서로 어떤 상관관계가 있는지를 파악하기로 하였다.

column_img_3215.jpg

왼쪽은 대기변수들의 상관관계를 분석한 결과이고, 오른쪽은 기상변수들의 상관관계를 분 석한 결과다. 우선 대기변수 그래프 중 왼쪽에 나타나는 이산화황(SO2)와 이산화질소(NO2) 의 상관관계는 0.48의 수치를 보인다. 대체로 수치가 0.5 이상이면 상관성이 높다고 보는 데, 일산화탄소와 이산화질소, 이산화황은 상관성이 높게 나타난다. 특히 미세먼지(PM10) 과 초미세먼지(PM2.5) 간의 상관관계는 0.75로 매우 높게 나타나며, 일산화탄소와 초미세 먼지의 상관관계도 0.47로 나타난다. 일산화탄소가 초미세먼지와 상관관계가 있음을 보여 준다. 반면 오존의 경우는 다른 변수들과의 음의 상관관계를 가진다. 이는 오존이 빛에너지 (자외선)의 영향을 받아 화학반응을 일으켜 다른 물질로 바뀌는 것과 관계가 있다.

오른쪽 그래프를 보면 기상변수끼리는 상관성이 대개 0.5 미만으로 약함을 알 수 있다. 강 수와 습도의 경우도 마찬가지이다. 흔히 비가 오면 습도도 높아 서로 상관관계가 있을 것으 로 보기 쉬우나 이는 적도 지방에서 나타나는 현상이다. 반면 한반도에서는 오전과 오후의 시간대별 온도의 차이가 큰 편이어서 강수와 습도 간의 상관관계가 약한 편이다.

이외에도 관측소에서 측정한 모든 변수들 간의 상관관계를 분석한 결과, 대기오염물질은 서로 상관성을 갖지만 대기변수와 기상변수 간에는 상관성이 낮음을 알 수 있었다. 산업지 역에서는 전체적인 미세먼지 농도가 높은데 미세먼지와 초미세먼지의 상관성이 가장 크다. 항만지역도 미세먼지 농도가 높은데, 일산화탄소와 이산화황 간의 상관성은 산업지역보다 낮았다. 청정지역 중에서도 제주도와 백령도를 비교해보면, 제주도는 화학물질의 농도가 낮은 반면 백령도는 화학물질의 농도가 높다. 이는 중국에서 불어오는 편서풍의 영향을 백 령도가 제주도보다 더 받는 위치에 있기 때문으로 보인다.

이상의 분석 결과, 기후와 국내외의 요인이 미세먼지에 미치는 영향에 대해 다음과 같은 결 론을 얻을 수 있었다. 기후의 영향을 보면, 봄과 가을에 청정지역에서 풍속, 풍향, 온도 등의 변수가 미세먼지에 영향을 주고 있다.

또 지리적인 측면에서 볼 때 백령도는 제주도보다 중국의 미세먼지에 직접적으로 영향을 받고 있다. 한편 전북 부안, 익산 남중은 1년 총량으로 보면 매우 청정한 지역이지만, 서풍 이 부는 봄에는 산업단지의 미세먼지보다 농도가 높아 중국의 영향을 크게 받고 있음을 알 수 있다.

국내에서는 전반적으로 산업지역이 항만, 도로보다 미세먼지 농도가 높다. 또 도로는 미세 먼지보다 초미세먼지의 발생량이 높다. 미세먼지가 계절의 영향을 주로 받는 반면, 초미세 먼지는 국내와 해외(중국)의 영향을 같이 받고 있다.



The Outcome

향후 대기-기상요소 분석의 알고리즘을 개선하고 응용자료를 추가한 미세먼지의 영향분석 을 할 계획이다. 특히 기후, 주거, 산업 정보를 통합하여 사용자의 위치를 기반으로 한 미세 먼지 예측시스템을 구축하고자 한다.

아울러 지금까지의 분석 결과를 바탕으로 미세먼지 측정에 관해 세 가지를 제안한다. 첫째, 정확한 분석을 위해 미세먼지의 주범으로 거론되는 발전소 지역에 대기관측소를 설치하고 지속적으로 모니터링을 해야 한다. 둘째, 새로 산업단지를 구성할 때 기상특성을 고려하여 주거지역 영향분석을 거쳐 지역 선정을 해야 한다. 셋째, 한국환경공단에서 운영하는 대기 질 예보 시스템은 관측소 기준으로만 제공하고 있기에 지리정보를 결합한 주변 지역의 영 향분석을 제공한다면 더욱 유용할 것이다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net