데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[기술11기] 안심하고 자녀를 맡길 수 있는 어린이집을 찾아서

데이터 이야기
작성자
dataonair
작성일
2017-08-30 00:00
조회
3980


공공 데이터를 활용한 보육 수요 분석 시스템 구축

안심하고 자녀를 맡길 수 있는 어린이집을 찾아서



기술전문가 11기 우수조는 보육 수요를 분석하는 시스템을 구축하 는 프로젝트를 수행하였다. 안심하고 자녀를 맡길 수 있는 보육시 설에 대한 정보를 제공하고, 어느 지역에서 어떤 유형의 어린이집이 확충되어야 하는지 정책의 방향도 지속적으로 제시할 수 있는 이번 프로젝트는 향후 보완될 때 유용한 도구가 될 것으로 기대된다



The Challenges

최근 영·유아 보육시설은 양적으로 증가추세에 있으나, 어린이집에서 보육교사가 원생을 학 대하는 사건이 빈발하면서 보육시설에서의 아동학대에 대한 사회적 경각심도 커지고 있다.

이러한 가운데 최근 정부의 정보공개 정책은 공공데이터를 개방하여 각종 사회현상의 문제해 결에 활용하도록 돕는 방향으로 추진되고 있다. 이에 따라 보육과 관련된 공공데이터도 제공되 고 있는데, 이를 활용한 보육 수요 분석 시스템을 개발하여 안심하고 자녀를 맡길 수 있는 보육 시설에 대한 정보를 제공할 수 있는 가능성도 열렸다.

기술전문가 11기 우수조 구성원들은 Crawling, HDFS, Spark 등의 빅데이터 처리 기술을 활용하 여 보육 수요 분석 시스템을 구축하기로 하였다.



The Approach

1) 시스템 구축의 첫발을 내딛다
기술전문가 11기 우수조 구성원들은 데이터 처리 기술을 구현하는 방법을 여러 차례에 걸쳐 협의한 끝에 다음과 같은 로드맵을 최종적으로 구성하였다.

구성원들은 빅데이터 처리, DBA, JAVA 개발 등 IT 기술에 대한 역량을 나누어 가지고 있었으 비즈니스에 대한 이해가 있어 무엇을 할지 고민할 시간을 절약하고 빅데이터 기술 적용과 시스 템화에 집중할 수 있었다. 그러나, 로드맵을 구성하고 일정계획을 수립한 후 진행하는 과정에 서 예기치 못한 문제들이 발생하여 Trouble Shooting에 다소 많은 시간이 소요되었다.

또 구성 원의 회사 상황 변화나 사정으로 인해 일부 작업이 지연되었다. 결과적으로 처음 계획했던 시 스템 구축에 생각보다 많은 시간이 소모되고 있음을 절감하게 되었다. 그럴 때마다 구성원들은 일정계획을 수정하면서 마지막 시각화 단계까지 진행할 수 있도록 작업 범위를 조정해나갔다. 무엇보다 시간이 부족하여 미완성된 상태에서 프로젝트가 끝나는 사태를 막고, 최종 단계까지 완료하는 것을 최우선순위에 놓았다.

column_img_2956.jpg

2) 데이터 추출과 처리에서 시각화까지
어린이집정보공개포털(www.info.childcare.go.kr)에서 어린이집에 대한 상세정보를 Web Crawling을 통해 추출하였다. 또한 분산 처리를 위해 Kafka로 메시지 관리를 하였으며, Flume으 로 Kafka Topic의 메시지를 HDFS에 저장하였다. 국가통계포털의 주제별 통계 중 전국 시·군· 구의 각 연령별 이동자수를 CVS로 다운로드한 후 UTF-8로 저장한 뒤 HDFS로 파일을 업로드 하였다.

column_img_2957.jpg

수집한 데이터 처리를 할 때 파생 데이터를 생성하고 요약(Summary)하는 작업은 Spark SQL을 사용하고, Spark ML을 연관성 분석(FPGrowth)에 활용하였다. 연관성 분석을 할 때는 어린이집 충원률 90% 이상 여부를 종속변수로 두고, 전국 시·도 및 시·군·구의 이름, 어린이집 유형, ‘24시간’, ‘방과후 전담’, ‘방과후 통합’, ‘시간연장형’, ‘영아전담’, ‘일반’, ‘일시보육’, ‘장애아전문’, ‘장애아통합’, ‘휴일보육’ 서비스 여부를 독립변수로 두었다. 이렇게 처리한 데이터를 시각화하 기 위해 Zeppelin을 활용하였다.

column_img_2958.jpg

3) 보육 수요 분석 시스템의 활용
데이터 추출·처리·시각화 등 일련의 과정을 거친 데이터를 분석해 보육 수요와 공급을 파악 할 수 있는 시스템을 구축하기에 이르렀다. 수요의 경우 영유아 인구이동 통계를 활용하여 지 역별로 증감 추이를 파악할 수 있다. 매년 영유아 인구의 감소가 지속되고 있어 장기적으로는 보육수요도 감소되는 추세이고, 지역별로도 서울은 감소하고 경기도는 증가하는 등 지역별 이 동으로 수요의 변화가 감지되었다. 다만 시·군·구, 나이별 인구통계를 확보해 보완할 필요가 있다.

공급의 경우 어린이집 현황 통계를 활용하여 시·도 및 시·군·구별로 증감 추이를 파악할 수 있다. 월별, 연도별 장기 추이 분석은 지속적인 데이터를 확보할 때 가능하다. 전국적으로 어린 이집 수와 정원이 감소하는 추세를 보이고 있어 장기적으로 수집하면 구체적인 분석이 가능할 것이다. 따라서 보육수요의 변화와 공급의 차이를 분석한다면 어린이집 확충에 활용할 수 있을 것이다.

연관성 분석 Rule과 어린이집 현황 통계를 활용하여 지역별로 선호하는 어린이집 유형이나 보 육서비스를 확인할 수 있다. 가령 장애아전문 어린이집의 충원률이 90%대 이상으로 나타났다 면 장애아전문서비스를 제공하는 어린이집이 추가로 필요하다는 사실을 도출해낼 수 있는 것 이다. 다만 이것은 반드시 실제 검증 후 활용해야 한다.

column_img_2959.jpg

4) 어린이집 현황 분석 결과와 정책 방향 제시
전국의 어린이집 현황을 분석한 결과, 지역에 따라 어린이집의 유형 및 규모의 차이가 존재하 며, 이는 지역의 인구나 환경적 특성 등의 차이가 존재하는 것과 관련이 있는 것으로 보인다. 어린이집의 유형에 따라서도 공급의 차이가 존재한다. 전국 기준으로 정원 비율은 민간형이 가 장 많고, 가정형, 국공립형, 사회복지법인의 순으로 많았다. 보육서비스별로 보면, 전국 기준 정 원 비율은 일반이 73.11%로 가장 많고, 시간연장형이 23.44%, 장애아통합이 4.75%였다. 특히 장애아통합 내의 국공립 비율은 72.01%로 나타났다.

⊙ 어린이집 유형에 따른 공급의 차이(전국 기준 정원비율)
column_img_2960.jpg

어린이집의 충원률은 지역에 따라 달랐는데, 충원률 90% 이상인 곳은 서울시가 50.33%로 가 장 높았다. 어린이집의 유형에 따라서도 충원률 90% 이상인 곳은 국공립이 64.88%인 반면 부 모협동이 44.16%여서 국공립이 가장 선호하는 어린이집 유형임을 알 수 있다.

보육서비스에 따른 충원률을 보면, 장애아통합의 경우 87.77%로 가장 충원률이 높았고, 장애 아전문, 휴일보육, 방과후전담, 영아전담 모두 80% 초반대의 충원률을 보였다. 이와 같이 충원 률이 높은 휴일보육, 방과후전담, 영아전담 서비스는 맞벌이 부부에게 필요한 보육서비스로서 지속적인 확충이 필요함을 알 수 있다.

⊙ 보육서비스에 따른 충원률 차이
column_img_2961.jpg

전국 현황뿐만 아니라 서울과 인천의 현황을 별도로 분석해 보면, 비슷한 지역에 있음에도 다소 차이를 보였다. 서울의 경우 어린이집 유형 중 민간형이 정원의 44.18%, 국공립형이 26.84%, 가정이 19.44%, 직장이 5.7%를 보였는데, 전국의 국공립형이 정원의 10.89%를 차지 한 것에 비해 국공립형이 2.46배 많았다. 또 보육서비스에 따른 공급의 차이를 보면, 전국 기준 정원비율이 일반형 55.28%, 시간연장형 42.12%, 장애아통합 11.78%를 나타냈는데, 시간연장 형은 전국 23.44%보다 1.7배 높았다. 유형에 따라 충원률 90% 이상인 곳은 국공립이 72.61% 이고, 부모협동이 55.56%를 보였다. 보육서비스에 따른 충원률을 보면 장애아통합이 91.98% 의 충원률을 보였고, 시간연장형이 63.4%였으며, 휴일보육, 일시보육, 방과후전담, 영아전담은 대체로 82~83%의 충원률을 기록했다.

⊙ 어린이집 유형에 따른 공급의 차이(서울 기준 정원비율)
column_img_2962.jpg

인천의 어린이집 유형은 민간형이 정원의 60.19%, 가정이 23.31%, 국공립형이 10.11%, 직장이 3.49% 순으로 서울과 달리 국공립형보다 가정의 유형이 더 많았다. 보육서비스에 따른 공급도 인천은 전국보다 시간연장형이 약 7.2%포인트 낮았다. 장애아전담의 경우 인천의 10개 자치구 중 5개 구에만 존재하고, 영아전담은 국공립의 충원률이 높아 확충이 필요한 것으로 드러났다. 유형 중 충원률이 90% 이상인 비율은 국공립이 69.59%, 법인단체 45% 순으로 나타나 부모협 동이 2위인 서울과 달랐다. 보육서비스에 따른 충원률은 휴일보육이 100%, 장애아전문과 방과 후전담이 94%대를 보여 서울보다 10% 이상 높아 추가 공급이 절실한 실정이다.

⊙ 어린이집 유형에 따른 공급의 차이(인천 기준 정원비율)
column_img_2963.jpg



The Outcome

공공 데이터를 활용해 보육 수요 분석 시스템을 통해 정확한 수요분석에 따른 공공정책 제안이 가능하고, 수요자 중심의 다양한 수요분석 정보를 제공할 수 있으며, 정부의 대국민 서비스가 효 율적으로 운영되는 데 도움이 될 것으로 기대된다. 앞으로 데이터의 효율적인 수집 방법과 분석 알고리즘을 개선하고, 추가 데이터를 확보해 수요분석의 정확도를 개선해 나갈 계획이다



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net