[번역] 다리오 아모데이: 딥시크와 반도체 수출 통제에 관하여

앤트로픽의 CEO 다리오 아모데이가 중국의 반도체 수출 통제 정책과 AI 기업 딥시크의 최근 성과를 분석한 글로서, AI 개발의 역학관계를 설명하고 딥시크의 기술 혁신이 오히려 수출 통제의 중요성을 더욱 강화했음을 강조하며, 중국의 반도체 확보 여부에 따른 세계의 미래를 전망하고 있습니다.

[번역] 다리오 아모데이: 딥시크와 반도체 수출 통제에 관하여

몇 주 전, 저는 중국의 반도체 수입 제한을 더욱 강화해야 한다고 주장했습니다. 그 이후 중국의 인공지능 기업 '딥식'이 일부 분야에서 미국의 최첨단 AI 모델들과 맞먹는 성능을 더 낮은 비용으로 구현했다는 소식이 전해졌습니다.

이 글에서는 딥식이 앤트로픽과 같은 미국 AI 기업들에게 실질적인 위협이 되는지는 다루지 않겠습니다(미국의 AI 주도권에 대한 위협 주장이 과장되어 있다고 판단합니다)¹.

대신, 딥식의 이러한 성과가 반도체 수출 통제 정책의 타당성을 훼손하는지 검토하고자 합니다. 제 의견으로는 그렇지 않습니다. 오히려 일주일 전보다 수출 통제의 실질적 중요성이 한층 더 높아졌다고 봅니다².

수출 통제는 민주주의 국가들이 AI 개발의 선두 자리를 지키도록 하는 핵심적 역할을 합니다. 분명히 말씀드리자면, 이는 미국과 중국 간의 경쟁을 피하는 방법이 아닙니다. 궁극적으로 우리가 승리하려면 미국과 여타 민주주의 국가들의 AI 기업들이 중국보다 우수한 모델을 보유해야 합니다. 다만 우리의 기술적 우위를 중국 공산당이 따라잡을 수 있도록 도와줄 필요는 없습니다.

AI 개발의 세 가지 역학관계

정책 제안에 앞서, AI 시스템의 세 가지 기본적인 역학관계를 설명하고자 합니다:

1. 규모의 법칙(Scaling laws). AI의 주요 특성 중 하나는 - 제가 공동 창업자들과 함께 오픈AI에서 처음 입증했던 - 다른 조건이 동일할 때, AI 시스템의 학습 규모를 확대하면 다양한 인지 과제에서 전반적인 성능이 점진적으로 향상된다는 점입니다. 예컨대, 100만 달러 모델은 주요 코딩 과제의 20%를, 1,000만 달러 모델은 40%를, 1억 달러 모델은 60%를 해결할 수 있습니다. 이러한 차이는 실질적으로 큰 의미를 지니며 - 10배의 격차는 학부생과 박사급 실력 차이에 맞먹을 수 있어 - 기업들은 이러한 모델 학습에 막대한 투자를 하고 있습니다.

2. 곡선의 이동(Shifting the curve). 이 분야는 지속적으로 효과성과 효율성을 높이는 크고 작은 혁신들을 만들어내고 있습니다. 이는 모델의 '구조'를 개선하거나(현재 모든 모델이 사용하는 기본 트랜스포머 구조의 개선) 기반 하드웨어에서 모델을 더 효율적으로 실행하는 방식으로 나타날 수 있습니다. 새로운 세대의 하드웨어도 같은 효과를 보입니다. 이는 일반적으로 '곡선을 이동시킵니다': 만약 혁신이 2배의 "연산 승수"(CM)를 가져온다면, 코딩 작업에서 40%의 성능을 내는 데 1,000만 달러 대신 500만 달러가 들거나, 60%의 성능을 내는 데 1억 달러 대신 5,000만 달러가 드는 식입니다.

최첨단 AI 기업들은 정기적으로 이러한 CM들을 발견합니다: 자주는 작은 규모(~1.2배), 때로는 중간 규모(~2배), 가끔은 매우 큰 규모(~10배)의 발전을 이룹니다. 더 지능적인 시스템을 갖는 것의 가치가 매우 크기 때문에, 이러한 곡선의 이동은 일반적으로 기업들이 모델 학습에 '더 적게가 아닌 더 많이' 투자하게 만듭니다: 비용 효율성의 향상은 전적으로 더 똑똑한 모델을 학습하는 데 재투자되며, 오직 기업의 재정적 자원에 의해서만 제한됩니다.

사람들은 자연스럽게 "처음에는 비쌌다가 나중에는 저렴해진다"는 생각에 끌립니다 - 마치 AI가 일정한 품질을 가진 하나의 제품이고, 가격이 내려가면 더 적은 반도체를 사용하게 될 것처럼 말입니다. 하지만 핵심은 '규모의 곡선'입니다: 곡선이 이동할 때, 우리는 단순히 더 빠르게 곡선을 따라가게 되는데, 이는 곡선의 정점에 있는 것의 가치가 매우 높기 때문입니다.

2020년에 제 팀은 '알고리즘' 발전으로 인한 곡선의 이동이 연간 약 1.68배라고 제시하는 논문을 발표했습니다. 그 이후로 이는 상당히 가속화되었을 것입니다; 또한 이는 효율성과 하드웨어를 고려하지 않은 수치입니다. 현재는 그 수치가 연간 약 4배 정도로 추정됩니다. (수치 확인) 학습 곡선의 이동은 추론 곡선도 함께 이동시키며, 그 결과 '모델의 품질을 일정하게 유지하면서' 가격이 크게 하락하는 현상이 수년간 이어지고 있습니다. 예를 들어, 원래의 GPT-4보다 15개월 후에 출시된 클로드 3.5 소넷은 거의 모든 벤치마크에서 GPT-4를 능가하면서도, API 가격은 약 10배 더 낮습니다.

3. 패러다임의 전환(Shifting the paradigm). 때때로, 규모 확장의 근본적인 방식이 변하거나, 새로운 유형의 확장이 학습 과정에 더해집니다. 2020-2023년 동안에는 주로 '사전학습 모델'의 확장이 주를 이뤘습니다. 즉, 인터넷 텍스트의 양을 늘리고 그 위에 부가적인 학습을 더하는 모델들이었습니다. 2024년에는 사고의 연쇄를 만들어내기 위한 '강화학습'(RL) 방식이 새로운 확장의 중심이 되었습니다.