上海人工智能实验室OpenDataLab, 武汉大学,同济大学合作推出了第一个中文常识推理测评基准:CHARM。该工作已经被 “第62届国际计算语言学年会 ACL 2024 主会录用”!快来看看
论文地址:
https://arxiv.org/abs/2403.14112
Github:
https://github.com/opendatalab/CHARM
排行榜:
https://opendatalab.github.io/CHARM/leaderboard.html
项目主页:
https://opendatalab.github.io/CHARM/findings.html
下载地址:
https://opendatalab.com/OpenDataLab/CHARM
CHARM 是首个对大型语言模型 (LLMs) 的中文常识推理能力进行全面且深入评估的测试基,并且涵盖了世界各地广为人知的常识和独具中国特色的常识。我们在此基准上,对7种英文和12种以中文为主的LLMs进行了评估,同时采用了五种具代表性的提示策略(如CoT),来提升LLMs的推理能力。
我们发现,LLMs的语言取向和任务领域均会影响提示策略的有效性,这进一步丰富了之前的研究结果。我们构建了紧密关联的推理和记忆任务,在此过程中发现,部分LLMs在记忆中文常识方面存在困难,这直接影响了他们的推理能力。然而,还有一些LLMs在记忆表现相似的情况下,他们的推理能力却存在差异。进一步地,我们评估了LLMs独立于记忆的推理能力,并针对典型错误进行了分析。
我们的研究精确地突显了LLMs的优势和弱点,从而为其优化提供了明确的方向。此外,这项研究也可为其他领域的相关研究提供参考。
(CHARM评测基准构建示意)
CHARM 是首个全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试,它覆盖了国际普遍认知的常识以及独特的中国文化常识。此外,CHARM 还可以评估 LLMs 独立于记忆的推理能力,并分析其典型错误。
常识领域
全球常识领域:
全球常识领域包含了具有普遍理解性的常识,覆盖了现代生活中的各种对象和方面,是个体应当了解的知识。这些内容包括基础教育期望个体所掌握的基本知识。涉及到人物时,这些都是在全球范围内广为认可的人物。
中国常识领域:
中国常识领域包含了特定于中国的元素,我们将其分为以下七个方面:
● 历史 (H) :包括中国历史上的重要事件和人物、中国的朝代以及关于中国历史的其他基础事实和共享知识。 ● 传统文化与艺术 (CA) :囊括中国的传统文化艺术、文学作品和传统生活方式。 ● 日常生活和习俗 (LC) :包括现代中国的日常生活、服装、食品、住房、交通、节日等。 ● 娱乐 (E) : 包括现代中国日常生活中的电影、电视节目、音乐和其他娱乐活动。 ● 公众人物 (F) :涵盖在中国社会广为人知的公众人物。 ● 地理 (G) :包括中国的地理分布、自然景观和特色地区文化。 ● 汉语语言 (L):包括中国语言的基本知识,如汉字、成语等。
任务列表
推理任务 : CHARM 由7个推理任务组成,包括:时代错误判断(AJ)、时间理解(TU)、序列理解(SqU)、电影和音乐推荐(MMR)、体育理解(SpU)、自然语言推断(NLI)以及阅读理解(RC)。
(评测任务构成)
LLM在CHARM上的整体表现
我们使用5种常用的prompt strategies,评估了19种LLMs在CHARM推理任务上的表现,
(点击放大查看19个热门LLM在CHARM任务上的表现)
LLM综合推理与记忆能力的对比
我们评估了LLM在CHARM的MRI任务上,综合推理与记忆能力之间的相关性。下面是 LLMs 在 4 个 MRI 任务上的平均表现。
如图所示,这19个 LLMs 大致可以被分为三种类型:
● 类型 I:低记忆能力和低综合推理能力。我们发现,除了 OpenAI 的 GPT 系列外,所有其他的英文 LLMs 都属于这个类型。
● 类型 II:高记忆能力和中等综合推理能力。GPT3.5 和所有规模在 30B 以下的面向中文的 LLMs 都属于这个类型。值得注意的是,一些 LLMs 具有高度的记忆性能,但相对较差的综合推理能力。
● 类型 III:超高记忆能力和高综合推理能力。个类别包括 GPT4 和三个规模超过 30B 的面向中文的 LLMs。
上述结果为精准优化LLM的记忆能力和推理能力指明了方向。
LLM使用不同prompt策略在CHARM不同知识域上的表现
LLM使用不同prompt策略在CHARM不同知识域上的表现
结果显示,LLMs的语言取向和任务的知识领域会影响提示策略的表现,这进一步丰富了先前的研究发现。
● 从 LLM 维度来看, 不同的 LLMs 显然偏好不同的提示策略:在5种策略中,XLT 对于英文 LLMs 始终表现优秀,而对于面向中文的 LLMs,尽管存在一些复杂性,但 ZH-CoT 通常表现最好。
● 从常识领域维度来看, 使用英文进行推理的策略(如 XLT、Translate-EN 等)适用于全球常识领域;然而,ZH-CoT 在中国常识领域中的表现通常更好。
这里的结论与前面的研究有所不同 (Huang et al., 2023a, Zhang et al., 2023a, Shi et al., 2022),之前的研究提出,在处理非英文的推理任务时,使用英文比使用题目本身的语言更为有效。
更多详细结果及分析请见:
https://opendatalab.github.io/CHARM/leaderboard.html
https://opendatalab.github.io/CHARM/findings.html
我们这项工作的主要贡献:
1、CHARM是中文常识推理领域的开创性工作: 包含Chinese-specific commonsense domain和global commonsense domain,从而实现对LLM中文常识推理能力进行完整全面的评估,填补了中文常识推理领域的空白。
2、CHARM拥有评估LLM的记忆能力和memorization-independent reasoning能力。可以便于准确定位LLM的推理和记忆能力的长处和不足,为精准优化LLM指明清晰的方向。
3、基于CHARM我们在LLM的prompt strategies方面得到的新的研究结论。LLMs的语言取向和任务的知识领域会影响提示策略的表现,这进一步丰富了先前的研究发现。
更多细节请访问:
论文地址:
https://arxiv.org/abs/2403.14112
Github:
https://github.com/opendatalab/CHARM
排行榜:
https://opendatalab.github.io/CHARM/leaderboard.html
项目主页:
https://opendatalab.github.io/CHARM/findings.html
下载地址:
https://opendatalab.com/OpenDataLab/CHARM
本项工作引文:
@misc{sun2024benchmarking,
title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations},
author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He},
year={2024},
eprint={2403.14112},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
CHARM数据集已上架OpenDataLab
扫码直达↓
阅读原文或浏览器访问: