ELO 엘로 평가 방식으로. 사용자들이 모델명 가리고 평가해사 뭐가 더 나은지. 평가. GPT-4o 가 기존 GPT4, gemini1.5-pro, claude3-opus 대비 얼마나 나은 점수가 나왔는지 공개.
기존 모델과 완전히 다른 평가 점수 달성. 혼자 천상에 붙어 있는 수준.
저도 이거저거 챗봇 쓰면서 기존에는 아 어떨땐 클로드가 좋네. 어떨땐 제미나이가 좋네. 등등 확 하나가 제일 좋다고 하긴 애매했는데요.
최근 gpt-4o 출시후엔 chatgpt 답변 퀄리티는 확실히 원탑 입니다.
ELO 엘로 평가 방식으로. 사용자들이 모델명 가리고 평가해사 뭐가 더 나은지. 평가. GPT-4o 가 기존 GPT4, gemini1.5-pro, claude3-opus 대비 얼마나 나은 점수가 나왔는지 공개. 기존 모델과 완전히 다른 평가 점수 달성. 혼자 천상에 붙어 있는 수준. 저도 이거저거 챗봇 쓰면서 기존에는 아 어떨땐 클로드가 좋네. 어떨땐 제미나이가 좋네. 등등 확 하나가 제일 좋다고 하긴 애매했는데요. 최근 gpt-4o 출시후엔 chatgpt 답변 퀄리티는 확실히 원탑 입니다.
X의 William Fedus님(@LiamFedus)
GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Her…