앤트로픽 다리오 아모데이 CEO 가 딥시크에 따른 미국의 GPU 칩 수출 통제 정책에 대해 길게 블로그 포스팅했어요.
이글의 논점은, 일단 딥시크가 공개한 논문과 현재 드러난 모델의 성능등 fact 만을 기반으로 (OpenAI 증류 여부 등의 논점을 제외하고) 그들의 기술적인 성과를 인정함과 동시에 미국의 GPU 수출 통제 정책이 효과가 없는 것 아닌가? 라는 의견에 반대하고 더욱 수출 통제를 강화해야 한다는 의견을 내놓았습니다. 한 기업의 대표로서 이렇게 까지 정책에 대해 강하게 의견을 내놓다니.. 이전 다리오 아모데이 글에서도 그랬듯 중국과의 격차를 확실히 유지하는 것이 중요하다고 설파했어요.
1. 스케일링 법칙: 예를 들어 100만 달러가 20%, 1,000만 달러가 40%, 1억달러가 60% 문제해결 능력을 가질 수 있다. 돈 (GPU 리소스) 를 더 들이면 결국 더 나은 결과를 얻을 수 있다.
2. 곡선 이동: 크고작은 아이디어들로 인한 개선이 이뤄지며, 연간 곡선이동은 약 1.68배 수준으로 예측했었고 지금은 4배 정도로 예상함. 결과적으로 모델의 품질은 일정할때 가격은 크게 하락하게 됨.
3. 패러다임 전환: 2020~2023년은 사전학습모델이 발전의 주요 요소였음 (웹 데이터 확보 등이 중요하던 시기), 2024년은 강화학습 (RL) 기반 CoT 를 생성하는 모델을 학습하는 것으로 패러다임이 변화함.
딥시크 모델에 대한 의견:::
DeepSeek V3 은 사전학습 모델로 한달전에 나왔고 실제로 강력한 혁신을 이뤄냈음. (성능은 Claude 3.5 Sonnet 수준을 따라잡고 학습 효율은 확실히 낮추는데 성공함)
* "Key-Value cache", "mixture of experts" 를 발전시킨 부분 이렇게 2가지가 특히 인상적이었다고.
하지만 최종 학습에 들어간 비용만 보면 Claude 3.5 Sonnet 도 DeepSeek 가 발표한 금액의 166% 수준임. 그렇게까지 차이가 나는게 아님! 비용곡선감소 연간 4배 수준을 고려하면 딥시크가 발표한 금액 자체가 놀라운 것이 전혀 아님. 추세 곡선에 속하는 수준.
딥시크가 보유했다고 알려진 GPU Hopper 칩 50,000여개는 약 10억달러에 해당함. xAI 의 경우 100,000개 정도로 알려짐. 그들의 보유한 GPU 클러스터 운영비용은 미국 탑티어 급 수준이 들어갈 것. 또한 R1 의 경우 DeepSeek 가 v3에서 보여준 수준으로 인상적인 혁신은 아니며 OpenAI가 o1 에서 수행된 정도와 유사한 작업으로 판단됨.
수출 통제의 필요성:::
거의 모든 인간보다 거의 모든 면에서 더 똑똑한 AI를 만들려면 수백만 개의 칩과 수십억 달러(최소)가 필요하며, 2026~2027년에 실현될 가능성이 가장 높습니다. 문제는 과연 이 시기에 중국도 이러한 AI 칩 자원을 보유 하게 될 가능성 입니다. 그리고 중국이 이를 달성한다면 세계는 양극화된 상태로 발전할 것이고 세계는 무한정 균형을 이루지는 않을 것입니다. 엄격한 수출 통제만이 중국이 수백만개의 칩을 보유하는 상황을 막을 수 있을 것.
다리오 아모데이 개인적으로 DeepSeek 를 적대적으로 보지는 않음. 그들은 똑똑하고 호기심많은 연구원같음. 하지만 중국이라는 정부에 얽매여 있을 뿐..
* 이번글을 보며 다시금 앤트로픽 다리오 아모데이 CEO 는 확실히 '미국 중심' 으로 이야기하는 것 같아요. 물론 이 글 자체가 자국 내에서 주로 읽히기는 하겠지만서도 말이죠.
앤트로픽 다리오 아모데이 CEO 가 딥시크에 따른 미국의 GPU 칩 수출 통제 정책에 대해 길게 블로그 포스팅했어요. 이글의 논점은, 일단 딥시크가 공개한 논문과 현재 드러난 모델의 성능등 fact 만을 기반으로 (OpenAI 증류 여부 등의 논점을 제외하고) 그들의 기술적인 성과를 인정함과 동시에 미국의 GPU 수출 통제 정책이 효과가 없는 것 아닌가? 라는 의견에 반대하고 더욱 수출 통제를 강화해야 한다는 의견을 내놓았습니다. 한 기업의 대표로서 이렇게 까지 정책에 대해 강하게 의견을 내놓다니.. 이전 다리오 아모데이 글에서도 그랬듯 중국과의 격차를 확실히 유지하는 것이 중요하다고 설파했어요. 1. 스케일링 법칙: 예를 들어 100만 달러가 20%, 1,000만 달러가 40%, 1억달러가 60% 문제해결 능력을 가질 수 있다. 돈 (GPU 리소스) 를 더 들이면 결국 더 나은 결과를 얻을 수 있다. 2. 곡선 이동: 크고작은 아이디어들로 인한 개선이 이뤄지며, 연간 곡선이동은 약 1.68배 수준으로 예측했었고 지금은 4배 정도로 예상함. 결과적으로 모델의 품질은 일정할때 가격은 크게 하락하게 됨. 3. 패러다임 전환: 2020~2023년은 사전학습모델이 발전의 주요 요소였음 (웹 데이터 확보 등이 중요하던 시기), 2024년은 강화학습 (RL) 기반 CoT 를 생성하는 모델을 학습하는 것으로 패러다임이 변화함. 딥시크 모델에 대한 의견::: DeepSeek V3 은 사전학습 모델로 한달전에 나왔고 실제로 강력한 혁신을 이뤄냈음. (성능은 Claude 3.5 Sonnet 수준을 따라잡고 학습 효율은 확실히 낮추는데 성공함) * "Key-Value cache", "mixture of experts" 를 발전시킨 부분 이렇게 2가지가 특히 인상적이었다고. 하지만 최종 학습에 들어간 비용만 보면 Claude 3.5 Sonnet 도 DeepSeek 가 발표한 금액의 166% 수준임. 그렇게까지 차이가 나는게 아님! 비용곡선감소 연간 4배 수준을 고려하면 딥시크가 발표한 금액 자체가 놀라운 것이 전혀 아님. 추세 곡선에 속하는 수준. 딥시크가 보유했다고 알려진 GPU Hopper 칩 50,000여개는 약 10억달러에 해당함. xAI 의 경우 100,000개 정도로 알려짐. 그들의 보유한 GPU 클러스터 운영비용은 미국 탑티어 급 수준이 들어갈 것. 또한 R1 의 경우 DeepSeek 가 v3에서 보여준 수준으로 인상적인 혁신은 아니며 OpenAI가 o1 에서 수행된 정도와 유사한 작업으로 판단됨. 수출 통제의 필요성::: 거의 모든 인간보다 거의 모든 면에서 더 똑똑한 AI를 만들려면 수백만 개의 칩과 수십억 달러(최소)가 필요하며, 2026~2027년에 실현될 가능성이 가장 높습니다. 문제는 과연 이 시기에 중국도 이러한 AI 칩 자원을 보유 하게 될 가능성 입니다. 그리고 중국이 이를 달성한다면 세계는 양극화된 상태로 발전할 것이고 세계는 무한정 균형을 이루지는 않을 것입니다. 엄격한 수출 통제만이 중국이 수백만개의 칩을 보유하는 상황을 막을 수 있을 것. 다리오 아모데이 개인적으로 DeepSeek 를 적대적으로 보지는 않음. 그들은 똑똑하고 호기심많은 연구원같음. 하지만 중국이라는 정부에 얽매여 있을 뿐.. * 이번글을 보며 다시금 앤트로픽 다리오 아모데이 CEO 는 확실히 '미국 중심' 으로 이야기하는 것 같아요. 물론 이 글 자체가 자국 내에서 주로 읽히기는 하겠지만서도 말이죠.
Dario Amodei — On DeepSeek and Export Controls
On DeepSeek and Export Controls
수출 통제가 얼마나 절실한지에 대한 글인데,, 아무래도 민간 회사의 대표이시기에 이게 애국심의 발현이겠지만서도 동시에 앤트로픽에도 큰 이득을 가져올 것을 고려한 글 같다는 선입견도 생기네요..