스탠포드 워싱턴 대에서 $50 로 최신 모델 수준의 성능을 달성할 수 있다고 화제가 되고 있길래 확인해본 소스. 테스트 타임 스케일링 증류 기법을 소개한 논문 오픈소스 입니다.
정말 가볍게 최신 모델 수준을 모사하기에 매우 좋은 방법 같아 보이네요?
* 물론 $50 는 과장된 부분이 있습니다.. Base 로 쓰인 오픈웨이트 모델인 Qwen2.5-32B 자체가 워낙 좋은 모델이니까요.
논문: https://arxiv.org/pdf/2501.19393
소스: https://github.com/simplescaling/s1
이렇게 좋은 성능 모델이 저렴하게 나오면, 기존 파운데이션 모델 개발사들은 어떻게 이 격차를 계속 유지할 지 고민이 될 것 같아요.. 최근 OpenAI 에서 오픈웨이트 모델 공개를 고민한다는 말을 살짝 흘렸는데.... 이런 분위기를 고려하면,, 그냥 OpenAI 입장에서 한 티어 늦은 모델이나 어차피 차별화가 안되는 MultiModal 이 안되는 모델 정도만 오픈하는 방향으로 (구글 젬마 처럼) 생각하는게 아닐까요?
스탠포드 워싱턴 대에서 $50 로 최신 모델 수준의 성능을 달성할 수 있다고 화제가 되고 있길래 확인해본 소스. 테스트 타임 스케일링 증류 기법을 소개한 논문 오픈소스 입니다. 정말 가볍게 최신 모델 수준을 모사하기에 매우 좋은 방법 같아 보이네요? * 물론 $50 는 과장된 부분이 있습니다.. Base 로 쓰인 오픈웨이트 모델인 Qwen2.5-32B 자체가 워낙 좋은 모델이니까요. 논문: https://arxiv.org/pdf/2501.19393 소스: https://github.com/simplescaling/s1
GitHub - simplescaling/s1: s1: Simple test-time scaling
s1: Simple test-time scaling. Contribute to simplescaling/s1 development by creating an account on GitHub.
이렇게 좋은 성능 모델이 저렴하게 나오면, 기존 파운데이션 모델 개발사들은 어떻게 이 격차를 계속 유지할 지 고민이 될 것 같아요.. 최근 OpenAI 에서 오픈웨이트 모델 공개를 고민한다는 말을 살짝 흘렸는데.... 이런 분위기를 고려하면,, 그냥 OpenAI 입장에서 한 티어 늦은 모델이나 어차피 차별화가 안되는 MultiModal 이 안되는 모델 정도만 오픈하는 방향으로 (구글 젬마 처럼) 생각하는게 아닐까요?
정말 이렇게 쉽게 최신 모델 따라잡기가 가능하니... API 가격은 점점 내려갈 수 밖에 없겠군요. 그리고 대놓고 이런 기법 쓴 모델은 open weight 기반이라도 공개는 할 수 없고... 여러 서비스에서 잘 쓰일듯.