C-Eval是全面的中文基础模型评估套件

工具软件1年前 (2023)发布 gpts
80 0

C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别,如下所示。更多详情,请访问我们的网站或查看我们的论文。

我们希望C-Eval能够帮助开发人员跟踪模型开发的进展,以及分析开发中模型的优点和弱点。

排行榜

下面列出了我们在初始版本中进行评估的模型的5-shot准确率,请访问我们官方排行榜了解最新模型及其在每个学科中的详细结果。
Model STEM Social Science Humanities Other Average
GPT-4 67.1 77.6 64.5 67.8 68.7
ChatGPT 52.9 61.8 50.9 53.6 54.4
Claude-v1.3 51.9 61.7 52.1 53.7 54.2
Claude-instant-v1.0 43.1 53.8 44.2 45.4 45.9
GLM-130B 34.8 48.7 43.3 39.8 40.3
Bloomz-mt 35.3 45.1 40.5 38.5 39.0
LLaMA-65B 37.8 45.6 36.1 37.1 38.8
ChatGLM-6B 30.4 39.6 37.4 34.5 34.5
Chinese LLaMA-13B 31.6 37.2 33.6 32.8 33.3
MOSS 28.6 36.8 31.0 30.3 31.1
Chinese Alpaca-13B 26.0 27.2 27.8 26.4 26.7

 

C-Eval Hard 排行榜

我们选取了C-Eval中具有挑战性的数学、物理和化学科目组成C-Eval Hard,包括:高等数学、离散数学、概率统计、大学化学、大学物理、高中数学、高中物理、高中化学八个科目。这些科目包含了复杂的LaTex公式,需要非凡的推理能力才能解决。以下是5-shot准确率

Model Accuracy
GPT-4 54.9
ChatGPT 41.4
Claude-v1.3 39.0
Claude-instant-v1.0 35.5
LLaMA-65B 31.7
Bloomz-mt 30.4
GLM-130B 30.3
Chinese LLaMA-13B 27.3
Chinese Alpaca-13B 27.1
MOSS 24.0
ChatGLM-6B 23.1
验证集结果

因为我们不会公开发布测试数据集的标签,所以我们提供验证集的平均准确率作为参考。验证集总共有1346个问题。我们在下表中提供在所有科目上的5-shot平均准确率。Val集的平均准确率与排行榜中呈现的平均测试准确率比较接近。

Model Average
GPT-4 69.9
Claude-v1.3 55.5
ChatGPT 53.5
Claude-instant-v1.0 47.4
GLM-130B 40.8
LLaMA-65B 39.8
Bloomz-mt 38.0
ChatGLM-6B 37.1
Chinese-LLaMA-13B 33.1
MOSS 28.9
Chinese-Alpaca-13B 27.2

 

Github https://github.com/SJTU-LIT/ceval/blob/main/README_zh.md

© 版权声明

相关文章