전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

머신러닝 공정성 기술동향 - 소프트웨어정책연구소 강송희 연구원

전문가칼럼
작성자
dataonair
작성일
2021-09-28 13:59
조회
2294

공정한 머신러닝 구현을 위한 기술개발 동향과 시사점


들어가며

코로나19 대유행으로 비대면 기술의 활용이 일반화되면서 제4차 산업혁명이 더욱 심화되고 있다. 마이크로소프트 CEO인 사티아 나델라는 우리가 코로나19 대유행 이후 2개월 동안 2년간에 이루어질 디지털 전환을 겪었다고 말하기도 했다. 한편, 전 세계가 전염병의 창궐에 맞서면서 더 강조되고 있는 것은 ‘사람 중심’의 철학이다. 앞선 독일 ‘Industrie 4.0’과 ‘Arbeiten 4.0’, 일본 ‘재흥전략’과 Society 5.0, 중국 ‘제조 2025’등과 같은 정책적 드라이브의 기저에 있는 것 역시 인공지능 등 혁신 디지털 기술이 산업과 사회를 재편함으로써 인간에게 이롭게 활용되어야 한다는 철학이었다.

동시에 인공지능이 사회 광범위한 분야에 응용 및 확산되면서 관련된 위험요인, 역기능 등에 관한 우려가 제기되고 있다. 교통운송 분야의 자율주행 중 인지오류, 오동작 등으로 인한 사고, 의료 분야의 AI진단과 진료 정확성에 관한 이슈∙개인의료정보 오남용의 문제, 법률집행 분야의 데이터 편향성∙ 결론의 오류, 미디어 분야의 여론 조작∙가짜뉴스∙딥페이크∙편향적 기사 노출 이슈, 상거래 분야의 알고리즘 담합∙빅데이터 독점∙과도한 개인정보 수집 등의 이슈가 대표적이다.

우리가 인공지능을 의사결정 등을 지원하기 위해 보다 광범위하고 보편적으로 활용할 수 있으려면, 선제적으로 이 기술이 해당 분야에 응용될 때 어떤 요건을 만족해야 하는지 질문해볼 필요가 있다. 그 중에서도 가장 중요한 질문은 투명성과 설명 가능한 메커니즘을 바탕으로 하였는가, 그리고, 그 기술의 설계 및 구현 과정과 절차에 공정함과 정당성을 갖추었는가라고 할 수 있다. 이 글에서 특히 필자는 공정함이란 무엇인가, 머신러닝으로 공정한 의사결정을 내릴 수 있도록 지원하기 위한 기술 개발 수준은 어디까지 왔는가라는 질문을 토대로 관련 연구 및 기술 동향을 살펴볼까 한다.


편향에 관한 문제 제기와 공정성의 정의

알고리즘 편향성에 대한 문제 제기의 역사는 1960년대로 거슬러 올라가지만, 가장 최근에는 Propublica에서 2016년 발간한 편향된 기계라는 글에서 본격적인 논의가 시작되었다. 해당 논의에서 우리가 알 수 있는 것은 모델의 ‘정확도’만으로는 예측의 결과나 활용성, 혹은 파급 효과를 판단하는데 충분하지 않다는 것이다. 또한, 성이나 인종을 차별하도록 모델이 편향되어 있다는 것을 아는 것만으로는 근본적인 문제를 해결할 수 없다. 신시아 드워크라는 학자는 알고리즘은 자동으로 편향을 제거하지 않는다고 담담하게 말했다. 공정한 모델은 자연히 얻어지는 것이 아니라, 오히려 신중한 엔지니어링, 엄격한 수학적 접근, 윤리적 철학의 결합으로 가능한 것이다. 이는 공정함에는 비용이 따른다는 의미이다. 지금까지 학계에서 알려진 바에 따르면 머신러닝 모델의 공정성은 예측 결과의 정확도와 이율 배반적인 상충 관계를 갖는다. 지저분하고 복잡하며 얽히고 설킨 현실의 문제들을 조사, 평가하고 모델링의 가정과 결과에 대한 유효성을 검증하여 모델의 정확도와 어느 정도 절충안을 제시해야 하는 것이다.

그렇다면 머신러닝이 이해하는 공정성이란 무엇인가? 머신러닝 모델이 이해할 수 있는 공정성은 수학적으로 정의되어 정량평가가 가능해야 하는데, 이에 관한 공정성의 정의는 무려 20여가지로 분류될 수 있다. 산업별로 공정함에 관한 요건의 수준이 다를 수 있는데, 그에 맞게 선택적으로 엄격한 수학적 정의를 내리고, 적합한 공정한 알고리즘과 그 구현 가능성, 경계조건을 탐색해서 결과를 예측하는 것이 필요하다.


통계적 공정성에 대한 수학적 정의 중 일부

구분 정의 수학적 정의
예측결과 기반 그룹 공정성(통계적 패리티, 동등한 승인율) 그룹별로 긍정적 예측값을 할당받을 확률이 동일
조건부 통계적 패리티 특정 데이터 속성(요소)을 통제했을 경우 그룹 별로 긍정적 예측값을 할당받을 확률이 동일
예측·실제결과 기반 예측적 패리티
결과 패리티
그룹별로 긍정적 예측값의 비율이 실제로 동일해야 함
위양성율(Type I Error/ False Positive Error Rate) 균형 그룹별로 위양성 예측값을 할당받을 확률이 동일
위음성율(Type II Error/ False Negative Error Rate) 균형 그룹별로 위음성 예측값을 할당받을 확률이 동일
동등확률 그룹별로 실제 값 기반 진양성율(TPR, True Positive Rate)과 위양성율(FPR, False Positive Rate)은 동일
조건부 사용 정확도 동등성 그룹별로 예측 값 기반 양성예측도(PPV, Positive Predictive Value)와 음성예측도(NPV, Negative Predictive Value)가 동일
전체 정확도 동등성 그룹별로 전체적인 예측 정확도(진양성:True Positive, 진음성:True Negative)가 동일
치료 동등성 그룹별로 위양성(False Positive)과 위음성(False Negative)의 비율이 동일
자료: FairWare’18. 2018.5.29.,스웨덴, Verma, S., & Rubin, J. (2018, May), SPRI(2020) 재인용

 
다만, 이러한 통계적 공정성에는 모순적인 개념이 공존하고 있어 단일한 수학적 개념 정의가 되지 않는다는 한계가 있다. 그룹 공정성, 예측적 패리티, 동등확률 등의 수학적 개념이 동시에 만족되기 어렵다는 제약 조건이 있는 것이다. 또한 이러한 통계적 공정성은 분배적 관점에서 정의되고 있어, 의사결정과 판단에 필요한 절차적 공정성은 별도의 트랙으로 연구가 이뤄지고 있다.


산학연의 공정성 지원 도구 관련 동향

미국 시카고 대학에 설치되었다가 최근에 카네기 멜론 대학으로 옮긴 Center for Data Science & Public Policy and Data Science for Social Good에서 만든 공정성 감사 툴인 Aequitas는 데이터 셋의 편향성에 관한 리포트를 자동으로 작성해준다.

‘Ethics and Algorithms Toolkit’은 데이터 커뮤니티인 DC, 샌프란시스코 정부, 존스 홉킨스 대학 및 하버드대 연구자들이 모여 개발한 오픈 소스 공정성 도구이다. 이 도구는 공익적 목표 아래 공공 데이터와 이 데이터 기반 알고리즘 활용이 갖는 의미를 알기 쉽게 설명하면서, 잠재적 위험을 명확화할 뿐 아니라, 알려진 위험을 완화할 수 있는 방법을 제공하고 있다. 이 도구는 특히 공공분야에서 사용하기 적합하도록 관련 요건과 목표가 정의됐다.

또한, 초국적 SW기업들이 머신러닝 공정성과 관련된 연구에 투자하면서 다양한 도구를 출시하기도 했다. 이를테면 구글이 2019년 11월에 소개한 공정성 지표 서비스는 다섯 가지 공정성 정의에 따라 각각 머신 러닝 모델의 최적화 전략을 결정하는 도구인 WIT(What if tool) 등을 포함하고 있고, 깃허브에 공개되었다. 이 공정성 지표는 텐서플로우 확장 컴포넌트에 포함되어 있는데, 공정성 평가 도구를 통해 해당 공정성 지표를 확인하고 관련 데이터를 검증하고 확인해볼 수 있다. IBM Research Trusted AI 또한 AI Fairness 360 오픈 소스 도구를 공개하고, 70개 이상의 공정성 지표와 11개의 편향 완화 알고리즘을 포함했다고 발표했다. 이 도구는 금융, 인력 관리, 의료 및 교육을 포함한 실제 산업 전반에 적용할 수 있는 사례를 포함하여 설계 및 개발되었다. 마이크로소프트 또한 fairlearn이라는 머신러닝 분류 모델의 공정성을 다양한 정의에 맞춰 개선할 수 있는 도구를 개발하여 깃허브에 공개하였다. 링크드인(LinkedIn)은 ‘LiFT’라는 오픈 소스 공정성 도구를 제공한다. 이 도구는 머신러닝 모델의 학습 도중에도 배치되어 사용될 수 있으며, 학습 데이터 셋의 편향성에 대한 점수를 매기고, 모델의 공정성을 평가함과 동시에 학습 모델의 서브 그룹들에 대한 성능 차이를 탐지할 수 있다.

국내에서는 네이버, 카카오 등 플랫폼 기업 중심으로 신뢰가능한 인공지능을 구축하고 활용하기 위한 헌장을 발표하고 기반 연구에 투자를 하고 있으며, 네이버의 경우에는 2021년 8월 말 외부 알고리즘 검토 위원회를 발족하여 네이버 뉴스가 공정하게 운영되고 있는지, 알고리즘 편향성과 조작은 없는지 판단할 수 있도록 평가한 후 감사보고서를 발간하겠다고 발표하기도 했다.


마치며

이처럼 머신러닝의 편향성을 보완하고 공정성을 갖추기 위한 노력에는 비용이 수반되며, 그 파급 효과나 사회적 영향을 고려할 때 매우 중요한 과제라 하지 않을 수 없다. 특히, 공정성에는 단일한 정의가 없고 예측 결과의 정확도와 이율배반적 관계에 있다는 점에서 기술개발의 과소투자와 시장실패가 있을 수 있어, 공공과 민간의 공동 연구개발 투자와 협력이 매우 절실하다 하겠다. 나아가 산업별로 공정성에 관한 요건이 다르며 공정성에 대한 정의와 그 수준도 요건에 따라 달라질 수 있기에, 산업별 실증사업이 반드시 필요하다. 다양한 표준 기구 및 포럼에서 산업별로 요건을 표준적으로 정의하려는 노력을 하고 있는데, 이러한 논의는 최소한의 공통 요건을 포함할 수밖에 없다는 한계가 있다. 공정성에 대한 민감도가 더 높은 산업 현장의 각 사례별로 기업 자체에서 위험을 평가한 후 강화된 요건을 적용할 수도 있는 것이다. 따라서 이 분야는 현재로서는 일괄적인 규제보다는 기업들의 자율 규제에 무게중심을 실을 필요도 있다.

나아가, 특히 공정성, 정당성, 투명성과 합리성이 중요한 공공 분야에서는 이러한 공정성과 설명가능성을 포괄하는 신뢰할 수 있는 인공지능 기술의 발전이 괄목할 만하게 이루어지지 않는 한, 조달 등의 분야에서 다양한 경로의 잠재적 분쟁 위험이 해소되지 않는다는 문제가 있다. 따라서 실질적으로는 신뢰성에 대한 민감도가 낮은 미션 소프트한 분야에서부터 조금씩 머신러닝의 활용을 확대해 가면서 관련 역량과 제도를 정비해 나가야 할 것으로 보인다.



강송희 연구원

△ 강송희 연구원
소프트웨어정책연구소 산업연구팀에 근무하고 있으며, 주요 연구 분야로
증거기반 SW산업정책 연구, SW산업 육성 정책 효과 모니터링 및 평가, 환류체계 구축 등을 들 수 있겠습니다.