LLM 등 근래 딥러닝 발전에 핵심인 트랜스포머 를 개선한 Mamba 맘바 라는 모델 논문이 2023.12월에 제출되었는데 화제가 되고 있군요.
이 모델이 제안하는 Selective State Spaces (선택적 상태 공간) 모델 구조는 선택적인 접근 방식으로 시퀀스를 효율적으로 처리하면서도 다양한 컨텍스트를 아우르는 attention 매커니즘을 가지고 있습니다. 그래서 전체적인 프로세스는 트랜스포머보다 단순화시켰지만 트랜스포머와 유사한 (긴 컨텍스트에서는 더 나은) 효과를 낼 수 있다고 합니다. 게다가 GPU에 최적화된 병렬 알고리즘 적용이 가능해서 더 빠른 계산이 가능하다고 하네요! WOW!
paper: https://arxiv.org/abs/2312.00752
repo: https://github.com/state-spaces/mamba?tab=readme-ov-file
LLM 등 근래 딥러닝 발전에 핵심인 트랜스포머 를 개선한 Mamba 맘바 라는 모델 논문이 2023.12월에 제출되었는데 화제가 되고 있군요. 이 모델이 제안하는 Selective State Spaces (선택적 상태 공간) 모델 구조는 선택적인 접근 방식으로 시퀀스를 효율적으로 처리하면서도 다양한 컨텍스트를 아우르는 attention 매커니즘을 가지고 있습니다. 그래서 전체적인 프로세스는 트랜스포머보다 단순화시켰지만 트랜스포머와 유사한 (긴 컨텍스트에서는 더 나은) 효과를 낼 수 있다고 합니다. 게다가 GPU에 최적화된 병렬 알고리즘 적용이 가능해서 더 빠른 계산이 가능하다고 하네요! WOW! paper: https://arxiv.org/abs/2312.00752 repo: https://github.com/state-spaces/mamba?tab=readme-ov-file
Mamba: 시퀀스 모델링 재정의 및 트랜스포머 아키텍처 개선
효율적인 처리 및 고급 상태 공간 메커니즘으로 기존 모델을 능가하는 시퀀스 모델링에 대한 Mamba의 획기적인 접근 방식을 살펴보세요. Mamba와 함께 AI의 미래를 알아보세요.
이게 제대로 작동하고 대세가 되면 GPU 가격도 좀 떨어지려나요. API 가격도...? 구조 자체로 인해 결과 퀄리티도 퀄리티지만 하드웨어 리소스가 덜 들어간다는 측면에서 기대가 되네요.