다중 에이전트 시스템, 왜 아직 크게 성능향상이 기대보다 못할까. 라는 주제의 2025.03월 논문입니다. 지금 각광받고 관련 프레임워크는 쏟아지지만, 오히려 fail 되는 경우가 많다고도. 크게 시스템 설계 실패, 에이전트 간 정렬 불량, 검증 및 종료 등으로 구분된다고 하네요. 연구에서 사용된 MAS 로는 대표적인 MAS 5가지 (MetaGPT, ChatDev, HyperAgent, AppWorld, AG2) 가 사용되었습니다. LLM 은 GPT-4o 또는 Claude 3 를 사용했다고 하구요. 150여개 Task 로 테스트 했습니다. 논문상 Fail Rate 가 제일 낮은것은 AG2 (15.2%), 그다음은 MetaGPT (34%) 였고 나머지 3개는 70% 이상 Fail 이었습니다.
Paper page - Why Do Multi-Agent LLM Systems Fail?
HUGGINGFACE.CO
Papers arxiv:2503.13657 Why Do Multi-Agent LLM Systems Fail? Published on Mar 17 · Submitted by philschmid on Mar 21 Authors: Mert Cemri…
5.4 p
5
0