전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

수퍼컴퓨터로 보는 딥러닝트렌드 - 소프트웨어정책연구소 추형석 연구원

전문가칼럼
작성자
dataonair
작성일
2021-09-28 15:24
조회
221

슈퍼컴퓨터는 컴퓨터의 본질적인 기능인 계산에 특화된 기계장치이다. 슈퍼컴퓨터는 컴퓨터 시뮬레이션을 통한 자연현상의 예측이라는 거대한 목적아래, 현대 과학기술의 발전을 이끈 핵심 인프라로 자리매김 했다. 그간 슈퍼컴퓨터는 “연산처리장치의 성능은 매 18개월마다 2배 향상된다.”는 무어의 법칙에 따라 동반성장 했다. 그러나 2010년 들어 무어의 법칙은 트랜지스터 생산 공정의 물리적인 한계에 의해 눈에 띄게 둔화되는 현상이 관측되었다. 그럼에도 슈퍼컴퓨터는 다양한 대안을 마련하여 무어의 법칙보다도 더 빠른 매 13개월 마다 성능이 2배가 되는 초성장을 기록하고 있다. 이제 슈퍼컴퓨터는 초당 100경 번(1018) 연산이 가능한 엑사스케일(Exascale) 시대를 눈 앞에 두고 있다. 우리가 사용하는 PC는 기껏해야 초당 수십 조 번(1013) 연산이 가능하다는 점을 미루어 보면 엑사스케일 슈퍼컴퓨터가 얼마나 많은 계산을 처리할 수 있는지 체감할 수 있을 것이다.


가속기의 등장

엑사스케일 슈퍼컴퓨터를 개발하기 위한 여정은 순탄치 않았다. 계산 성능과 직결되는 차세대 연산처리장치의 개발, 합리적인 수준의 전력 소비, 막대한 계산을 병렬 처리할 수 있는 SW 기술 등은 엑사스케일로 향하는 길을 가로막는 장벽이었다. 여기서 가장 문제가 되는 요인은 연산처리장치였다. 무어의 법칙이 본격적으로 둔화되기 시작한 2010년을 전후하여 슈퍼컴퓨터에는 가속기(accelerator)라는 계산 장치가 도입되기 시작했다. 대표적인 가속기 중 하나인 그래픽 연산처리장치(Graphical Processing Unit, 이하 GPU)는 그간 3D 작업이나 게임에 주로 활용되었는데, 계산적인 잠재력이 점차 높아짐에 따라 계산 목적의 범용 연산처리장치로 진화하게 된다. GPU는 동일 가격의 중앙연산처리장치(Central Processing Unit, 이하 CPU) 대비 수 십 배에 이르는 연산처리 성능을 보유했다는 점에서, 슈퍼컴퓨터의 성능 향상 추세를 이어갈 수 있는 핵심 요인으로 주목받았다. 이로 인해 2010년 이후의 슈퍼컴퓨터는 GPU와 같이 계산을 극대화한 가속기를 탑재한 시스템이 속속 등장하게 된다.

GPU가 탁월한 성능을 보유한 것은 사실이었으나, GPU를 제대로 활용하기에는 많은 어려움이 존재했다. 물론 GPU를 생산하는 기업은 다양한 프로그래밍 도구를 지원하여 GPU에 대한 진입장벽을 낮추는 노력을 이어왔었다. 하지만 구조적인 측면에서 GPU가 보유한 성능을 십분 사용하기란 매우 어려운 일이었다. 결과적으로 GPU는 그간 슈퍼컴퓨터가 다뤄왔던 문제 중 일부만을 효율적으로 처리할 수 있었다는 점에서, 슈퍼컴퓨터의 주류로 등극하기는 어려웠다.


변화의 시작 – 딥러닝

변화의 시작은 2012년으로 거슬러 올라간다. 딥러닝의 시작을 알린 2012년 이미지넷 경진대회(ImageNet Large Scale Visual Recognition Challenge)에서는 딥러닝의 대부로 잘 알려진 토론토 대학의 제프리 힌튼 교수 연구진이 우승을 차지했다. 당시 연구를 주도한 알렉스 크잔스키는 GPU 2장을 활용해 수 일 동안 모델을 학습시켜 25%에 가까운 기존의 이미지 인식 오류율을 16% 수준으로 낮추게 된다. 이 사건은 이미지 인식이 더 정확해졌다는 측면에서 일차적인 의미가 있다면, 계산적인 측면에서 GPU를 활용했다는 점도 주목해야 한다. 딥러닝 알고리즘을 세세히 뜯어보면 대부분의 연산이 GPU가 가장 잘하는 행렬곱 연산으로 이루어져 있다. 더 거대한 딥러닝 모델은 필연적으로 더 많은 계산을 요구하고, 이 계산을 처리하기 위해 가장 가성비가 좋은 연산처리장치가 GPU라는 점에서 딥러닝이 일으킨 GPU의 수요는 급격하게 증가하게 된다.

딥러닝과 GPU는 슈퍼컴퓨터의 영역에도 큰 영향을 미쳤다. 그간 슈퍼컴퓨터는 자연현상의 시뮬레이션이라는 견고한 수요층이 있었기 때문에 보수적인 성향이 짙었다. 그러나 딥러닝의 가능성이 다양한 사건을 통해 증명되자 슈퍼컴퓨터를 딥러닝에 사용하는 시도가 본격적으로 확산하게 되었다. 이것은 활용처가 애매했던 GPU가 슈퍼컴퓨터의 주류로 등극하게 된 계기로 작용한다. 매년 6월과 11월 두 차례 세계 슈퍼컴퓨터 순위를 공개하는 TOP500 목록에서 보면, 2021년 6월 기준 10위권 안에 등재된 슈퍼컴퓨터 중 과반이 넘는 6대가 GPU를 활용하고 있다. 또한 대부분의 슈퍼컴퓨터는 이제 딥러닝을 필두로 한 인공지능 및 기계학습을 주요 활용처로 명시함에 따라 딥러닝의 비중이 지속적으로 높아지고 있는 상황이다.


거대 사전학습 모델의 등장

2020년 미국의 비영리기업인 OpenAI는 자사의 블로그에 GPT(Generative Pre-Trained) 모델의 세 번째 버전인 GPT-3를 공개했다. OpenAI의 GPT-3는 사람처럼 언어를 구사하는 일종의 언어 모델(Language Model)로 45테라바이트 수준의 데이터를 학습한 거대 모델이다. OpenAI는 GPT-3 모델을 학습시키기 위해 GPU 10,000장 규모의 슈퍼컴퓨터를 활용했으며, 그 결과 사람과 거의 구분이 어려울 정도로 유창한 언어를 구사하게 됐다. 또한 GPT-3는 범용 모델로도 각광 받았는데, 소수의 데이터로 재학습시킬 경우 매우 탁월한 성능을 보였다. GPT-3는 딥러닝 모델의 크기와 성능 향상이 비례관계에 있다는 사실을 실험적으로 밝힘에 따라, 이를 감당할 수 있는 컴퓨팅 파워의 중요성이 한층 높아졌다고 볼 수 있다. 우리나라의 네이버 역시 지난 2021년 5월 한국어 버전의 GPT-3인 HyperCLOVA를 공개했고, 이에 슈퍼컴퓨터 급 계산자원이 투입되었다는 점은 규모의 경쟁이 시작되었다고도 해석할 수 있다.


엑사스케일 슈퍼컴퓨터와 딥러닝

최초의 엑사스케일 슈퍼컴퓨터는 빠르면 2021년 11월에 공개될 예정이다. 가장 가능성이 높은 슈퍼컴퓨터는 미국의 오크리지 국립연구소의 프론티어(Frontier)이다. 그간 최초의 엑사스케일 슈퍼컴퓨터를 두고 경쟁한 국가는 미국, 중국, 일본이 가장 우세했는데, 일본은 지난 2020년 후가쿠(Fugaku)라는 슈퍼컴퓨터를 출시하여 세계 정상을 차지했다. 후가쿠 역시 엑사스케일 슈퍼컴퓨터 프로젝트의 일환인 ‘플래그쉽2020’으로 추진되었으나, 그 성능은 엑사스케일의 절반정도 수준이었다. 중국은 2020년을 목표로 엑사스케일 슈퍼컴퓨터를 공개할 예정이었으나 출시가 미루어 졌고, 아직 구체적인 계획이 밝혀지지 않은 상황이다. 미국은 총 3대의 엑사스케일 슈퍼컴퓨터 도입을 공식적으로 발표했으며, 2021년부터 순차적으로 출시할 계획을 가지고 있다.
미국의 엑사스케일 슈퍼컴퓨터의 면면을 살펴보면 모두 GPU를 가속기로 탑재하고 있다. 특히 주목할 점은 AMD와 인텔이 개발한 GPU가 선정되었다는 점이다. 그간 딥러닝에 활용되는 GPU는 NVIDIA GPU가 대부분을 차지했다. NVIDIA는 GPU의 계산적 활용에 가장 적극적인 자세를 가지고 있었고, 자사가 개발한 GPU 프로그래밍 도구인 CUDA의 보급으로 SW생태계 확산에도 심혈을 기울였다. 그 결과 딥러닝 연구자들은 GPU에 대한 구체적인 지식이 없어도 막강한 계산 능력을 활용할 수 있게됨에 따라 딥러닝에서 NVIDIA GPU의 입지는 더욱 견고해지고 있는 상황이다. 이에 AMD와 인텔은 엑사스케일 슈퍼컴퓨터를 기점으로 NVIDIA가 거의 독점하고 있는 딥러닝 컴퓨팅 인프라 시장을 공략하는 것으로 해석할 수 있고, 이러한 환경변화를 통해 더욱 역동적인 GPU 시장이 형성될 것이라 전망된다. 특히 딥러닝 연구자나 인공지능을 활용하고자 하는 기업의 입장에서는 다양한 GPU 인프라를 선택할 수 있다는 점이 매우 고무적일 것이다.

미국의 엑사스케일 슈퍼컴퓨터에서 볼 수 있듯이 이제 GPU는 슈퍼컴퓨터의 주류라고 볼 수 있다. 이 엑사스케일 슈퍼컴퓨터 역시 딥러닝과 기계학습에 대한 활용을 명시하고 있기 때문에, 막대한 컴퓨팅 파워가 필요한 거대 모델에 대한 연구개발 역시 지속될 것으로 전망된다.



추형석 연구원

△ 추형석 연구원
소프트웨어정책연구소 AI정책연구팀에 근무하고 있으며, 주요 연구 분야로
AI 신뢰성 확보를 위한 정책 연구, 데이터 기반 정책 연구,
최신 AI 기술 트렌드 분석을 수행하고 있습니다.