전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

데이터 레이블링과 크라우드소싱 - 셀렉트스타 김세엽 대표이사

전문가칼럼
작성자
dataonair
작성일
2021-08-26 14:07
조회
2476
 

“데이터 레이블링? 크라우드소싱? 그게 다 뭐에요?”




작년 봄, 마스크를 사기 위해 약국 앞에 줄 서신 경험이 다들 있으실 텐데요. 신종 코로나바이러스가 퍼지면서 마스크는 생활의 일부가 되어버렸습니다. 이제는 마스크가 없으면 외출 자체가 어렵습니다.카페나 도서관 등 실내 공공장소에 입장하면 체온과 더불어, 요즘은 마스크 착용 여부까지 체크 해주는 얼굴 인식 카메라가 있습니다. 바로 인공지능을 기반으로 개발된 마스크 착용 탐지 카메라입니다. 인공지능은 어떻게 여러분이 마스크를 썼는지, 쓰지 않았는지, 혹은 잘못 썼는지 아는 걸까요? 인공지능이 학교라도 다닌 걸까요? 시시한 농담으로 생각하시겠지만, 이는 어느 정도 맞는 말입니다. 인공지능은 데이터를 교과서 삼아 많은 것을 학습합니다. 거꾸로 말하면, 인공지능은 데이터로 학습을 시켜주기 전까지는 아무것도 알지 못합니다.




데이터 레이블링? 크라우드소싱? 그게 다 뭐에요?-참고이미지 1


데이터 레이블링은 말 그대로 데이터에 ‘label’, 즉 이름표를 달아주는 작업입니다. 현재 대부분의 인공지능은 아무리 많은 데이터를 주어도 그 데이터가 무엇인지 알려주지 않으면 인공지능은 이를 스스로 구별해낼 수 없습니다. 김춘수 시인의 "꽃"이라는 무척 유명한 시가 있지요? “내가 그의 이름을 불러 주기 전에는 그는 다만 하나의 몸짓에 지나지 않았다. 내가 그의 이름을 불러주었을 때 그는 나에게로 와서 꽃이 되었다. ...” 딱딱한 이론에 다소 낭만적인 비유이지만, 인공지능에게 있어 데이터 레이블링이 이와 같습니다. 가공되지 않은 데이터는 그저 정보 덩어리에 지나지 않습니다. 데이터에 이름을 붙여주었을 때, 비로소 데이터는 정보로서의 의미를 가지며 인공지능은 이를 통해 임무를 수행할 수 있습니다. 얼굴을 인식하여 다양한 효과를 넣어주는 카메라 필터 앱은 이목구비가 레이블링 된 무수한 얼굴 사진으로 학습한 인공지능이 사람의 얼굴을 인식하는 것이지요.


거리 풍경 사진이 수만 장이 있어도, 그 자체로는 아무런 의미를 가질 수 없습니다. 하지만 사진 속 도로들을 분류하여 인공지능에게 이렇게 생긴 도로는 ‘차도’라고 알려준다면, 차도를 알아보는 인공지능을 개발할 수 있습니다. 추가적인 학습 또한 가능합니다. 차도 사진 안에 있는 버스들을 모두 찾아 박스를 그린 후, 박스 속에 있는 물체는 ‘버스’라는 이름을 갖고 있다고 알려준다면, 인공지능은 차도 위의 버스까지 분류할 수 있습니다.
사진을 예시로 들었으나, 인공지능은 데이터를 기반으로 수많은 정보를 배울 수 있습니다. 전자 결제를 하기 위해 카메라로 카드를 비추기만 하면 알아서 카드 번호와 유효기한 등을 수집하는 기능, 음성으로 문자 메시지를 입력하는 기능, 인간의 말을 알아듣고 적절한 답변을 하는 챗봇 기능 등, 활용 방식은 아주 다양합니다. 따라서 구현하고자 하는 인공지능 모델에 맞춰 많은 양의 정교한 데이터를 생산해 내는 것이 무척 중요합니다.


레이블링 과정에서 오류가 생긴다면 어떻게 될까요? 필터 카메라 앱에서 얼굴을 제대로 인식하지 못해 여럿이 사진을 촬영할 때 한 명에게만 필터가 적용된다면요? 아니면, 횡단보도를 ‘고속도로’로 잘못 레이블링 한 데이터가 다량 적용된 자율주행 자동차가 있다면요? 전자의 경우, 개발한 회사 입장에서는 꽤나 중요한 문제일 수 있습니다. 모두의 얼굴을 또렷이 인식하는 경쟁 업체에 사용자를 빼앗기는 결정적인 이유가 될 수 있기 때문입니다. 후자는 더이상 말하지 않아도 충분할 만큼 아주 끔찍한 결과를 초래할 수 있습니다. 이처럼 인공지능의 교과서에 해당하는 데이터의 정확도가 낮다면, 인공지능은 부정확한 지식을 근거로 임무를 수행하게 됩니다. 독도가 일본 땅이라고 명시된 교과서라면 아무리 열심히 공부해도 올바른 역사 지식을 갖출 수 없는 것과 같은 이치입니다. 따라서 정교하고 성능이 뛰어난 인공지능을 개발하기 위해서는 아주 다양하고 정확하게 레이블링 된 데이터가 필수입니다.


다양한 경우의 수에도 대응이 가능한 인공지능을 만들기 위해서는 아주 많은 양의 데이터 수집과 가공 작업이 이루어져야 합니다. 그렇다면 데이터 레이블링은 누가, 어떻게 하는 걸까요? 복잡한 예외와 경우의 수를 모두 인지하여 인공지능을 교육할 수 있는 존재는 누구일까요? 맞습니다. 바로 사람입니다. 인력을 활용하여 인공지능 학습 데이터를 수집하고 가공하는 방식은 크라우드소싱 방식과 인하우스 방식으로 나눌 수 있는데요. 많은 사람이 원격으로 모여 데이터를 수집하고 가공하는 과정을 데이터 ‘크라우드소싱(crowdsourcing)’이라고 하며, 크라우드소싱에 참여하는 사람을 ‘크라우드 워커(crowd worker)’라고 합니다. 현재 다양한 온라인 데이터 크라우드소싱 플랫폼이 있습니다. 셀렉트스타에서 런칭한 ‘캐시미션’ 앱 또한 그 중 하나입니다. 캐시미션에서 진행되는 크라우드소싱 과정을 예시로 들어보겠습니다. 인공지능 학습을 위해 데이터가 필요한 회사, 혹은 개인이 의뢰하면, 캐시미션은 게임과 같은 형태의 ‘미션’을 오픈합니다. 처음으로 돌아가, 마스크 착용 탐지 카메라를 만드는 회사가 캐시미션에 의뢰를 한다고 가정해 보겠습니다. 다양한 방식으로 마스크를 착용한 사람들의 사진과, 각각의 인물이 어떤 형태로 마스크를 착용하고 있는지를 인공지능에게 학습시켜야 하겠지요? 그렇다면 데이터 수집에 해당하는 ‘마스크 착용한 얼굴 사진 촬영하기’ 미션, 그리고 데이터 레이블링에 해당하는 ‘사진 속 마스크에 박스 그리기’ 미션 등을 오픈할 수 있겠지요. 크라우드 워커에 해당하는 캐시미션 이용자들은 미션을 수행함으로서 데이터 수집과 가공 단계에 참여하는 것이며, 이 모든 과정이 크라우드소싱인 것입니다. 수집하고 가공하는 데이터의 특성상 모두에게 공개하기 어렵다면 소수의 인원이 데이터를 가공하는 ‘인하우스(in-house)’ 방식으로도 수집이 가능합니다. 다만, 어떤 방식이든 사람이 작업을 해야하는 것은 마찬가지입니다.


크라우드 워커가 수집하고 가공한 데이터는 곧바로 인공지능 개발에 사용될까요? 그렇지 않습니다. 레이블링이 완료된 데이터는 모두 검수 과정을 거칩니다. 오류가 없다고 판단되는 데이터만이 인공지능 개발에 사용됩니다. 좀 전에 함께 생각해 본 것처럼, 레이블링이 잘 못 된 데이터는 인공지능의 정확도에 아주 큰 영향을 미치기 때문입니다. 따라서 데이터 크라우드소싱 플랫폼들은 데이터의 정확도를 높이기 위해 다양한 방식으로 검수 과정을 진행합니다. 앞서 예시로 들은 셀렉트스타의 캐시미션은 데이터 레이블링 실력이 뛰어난 숙련된 이용자들에게 검수 자격을 주고, 자체 개발한 수학적 알고리즘을 적용한 첨단 데이터 검수 시스템을 활용하는 방식으로 데이터 품질을 꼼꼼하게 관리합니다. 데이터 품질은 인공지능 모델의 품질과 직결되기에 이는 매우 중요한 과정입니다.


정교한 인공지능 모델이 만들어지기까지의 과정
△ 정교한 인공지능 모델이 만들어지기까지의 과정


약 10년 전만 해도 어눌한 영문을 보고 ‘번역기를 돌렸냐’고 비꼬는 경우가 많았습니다. 구글의 공동 창업자인 세르게이 브린이 2004년에 팬에게 받은 한글 이메일을 구글 번역기로 돌리자 “The sliced raw fish shoes it wishes”가 나온 것을 보고 구글 번역기 개발에 박차를 가했다는 이야기는 뉴욕타임즈에도 보도된 이야기*입니다. 아마 팬이 쓴 한글은 “회(sliced raw fish)신(shoes) 바랍니다(it wishes)”였지 않을까 싶습니다. 하지만 지금은 어떤가요? 제법 복잡한 문장도 퍽 매끄럽게 소화해냅니다. 구글 번역기가 어떻게 더욱 정확한 번역문을 구사해내는지 감이 잡히실 것 같습니다. 전세계인의 크라우드소싱을 통해 수많은 데이터가 수집되고, 정확하게 레이블링되면서 구글 번역기는 점점 더 정교해지겠지요. 결국 데이터의 품질이 인공지능의 품질을 결정 짓는다고 볼 수 있습니다. 그렇기에 인공지능을 연구하고 개발하는 기업들은 좋은 데이터를 얻기 위해 심혈을 기울이며, 많은 크라우드 워커들은 올바른 데이터 레이블링을 위해 노력합니다. 셀렉트스타 또한 책임감을 갖고 최상의 데이터를 제공하기 위해 지속적인 연구를 하고 있습니다. 인공지능은 결국 인간의 손을 거쳐야만 합니다. 다양한 데이터 수집, 정확한 데이터 레이블링, 그리고 꼼꼼한 검수. 이 모든 단계가 빠짐없이 높은 수준으로 이루어졌을 때, 우리는 비로소 머리에 그리던 완전한 인공지능 모델을 구현할 수 있을 것입니다.

김세엽 대표이사
△ 김세엽 셀렉트스타 대표이사

KAIST 전기및전자공학부 학사
Harvard-MIT Research Internship Program
셀렉트스타(주) 대표이사
‘21.04 Forbes 2021년 아시아 30세 이하 리더 및 Enterprise Technology 분야 대표(Featured Honorees) 선정
‘20.11 Data-Stars 대상(과학기술정보통신부 장관상)



출처 : 한국데이터산업진흥원

제공 : 데이터 온에어 Dataonair.or.kr