C-Eval是全面的中文基础模型评估套件

工具软件2年前 (2023)发布 gpts

277 0 0

C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别，如下所示。更多详情，请访问我们的网站或查看我们的论文。

我们希望C-Eval能够帮助开发人员跟踪模型开发的进展，以及分析开发中模型的优点和弱点。

下面列出了我们在初始版本中进行评估的模型的5-shot准确率，请访问我们官方排行榜了解最新模型及其在每个学科中的详细结果。

Model	STEM	Social Science	Humanities	Other	Average
GPT-4	67.1	77.6	64.5	67.8	68.7
ChatGPT	52.9	61.8	50.9	53.6	54.4
Claude-v1.3	51.9	61.7	52.1	53.7	54.2
Claude-instant-v1.0	43.1	53.8	44.2	45.4	45.9
GLM-130B	34.8	48.7	43.3	39.8	40.3
Bloomz-mt	35.3	45.1	40.5	38.5	39.0
LLaMA-65B	37.8	45.6	36.1	37.1	38.8
ChatGLM-6B	30.4	39.6	37.4	34.5	34.5
Chinese LLaMA-13B	31.6	37.2	33.6	32.8	33.3
MOSS	28.6	36.8	31.0	30.3	31.1
Chinese Alpaca-13B	26.0	27.2	27.8	26.4	26.7

C-Eval Hard 排行榜

我们选取了C-Eval中具有挑战性的数学、物理和化学科目组成C-Eval Hard，包括：高等数学、离散数学、概率统计、大学化学、大学物理、高中数学、高中物理、高中化学八个科目。这些科目包含了复杂的LaTex公式，需要非凡的推理能力才能解决。以下是5-shot准确率。

验证集结果

因为我们不会公开发布测试数据集的标签，所以我们提供验证集的平均准确率作为参考。验证集总共有1346个问题。我们在下表中提供在所有科目上的5-shot平均准确率。Val集的平均准确率与排行榜中呈现的平均测试准确率比较接近。