최근 네이버 HyperClovaX 챗봇 응답 평가 점수가 Gemini-Pro 보다 한국어 관련 데이터셋 (KMMLU) 보다 높다고 해서 찾아본 KMMLU 데이터 셋을 공유합니다.
KMMLU는 국내의 오픈소스 언어모델 연구팀인 ‘해례(HAE-RAE)’가 이끈 AI 성능 평가 지표 구축 프로젝트로 인문학, 사회학, 과학·기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5,030개 문항으로 구성돼 있습니다. 수학적 추론 능력과 같이 전세계에서 공통적으로 적용할 수 있는 광범위한 지식을 묻는 문항 비중이 약 80%, 한반도 지리, 국내법 등 한국 특화 문제 해결 능력을 평가하기 위한 문항은 20% 입니다.
기본적으로 논문을 보면 HyperClova 가 좋은 성능을 보이는 것은 CoT (Chain of Thought) 에서 특히 강점을 보이는 것 같아요. 절차적으로 상세하게 질문하는 경우 처리 능력이 좋다고.
최근 네이버 HyperClovaX 챗봇 응답 평가 점수가 Gemini-Pro 보다 한국어 관련 데이터셋 (KMMLU) 보다 높다고 해서 찾아본 KMMLU 데이터 셋을 공유합니다. KMMLU는 국내의 오픈소스 언어모델 연구팀인 ‘해례(HAE-RAE)’가 이끈 AI 성능 평가 지표 구축 프로젝트로 인문학, 사회학, 과학·기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5,030개 문항으로 구성돼 있습니다. 수학적 추론 능력과 같이 전세계에서 공통적으로 적용할 수 있는 광범위한 지식을 묻는 문항 비중이 약 80%, 한반도 지리, 국내법 등 한국 특화 문제 해결 능력을 평가하기 위한 문항은 20% 입니다. 기본적으로 논문을 보면 HyperClova 가 좋은 성능을 보이는 것은 CoT (Chain of Thought) 에서 특히 강점을 보이는 것 같아요. 절차적으로 상세하게 질문하는 경우 처리 능력이 좋다고.
HAERAE-HUB/KMMLU · Datasets at Hugging Face
Dataset Viewer Auto-converted to Parquet API View in Dataset Viewer Subset (45) Accounting · 150 rows Split (3) train · 45 rows question…
와. 정리해주셔서 감사합니다