ACL2024|上海AI Lab, 武汉大学,同济大学联合发布并开源第一个面向大语言模型的中文常识推理测评基准 CHARM !

文摘   科技   2024-06-14 19:30   上海  


上海人工智能实验室OpenDataLab, 武汉大学,同济大学合作推出了第一个中文常识推理测评基准:CHARM。该工作已经被 “第62届国际计算语言学年会 ACL 2024 主会录用”!快来看看


论文地址:

https://arxiv.org/abs/2403.14112


Github:

https://github.com/opendatalab/CHARM


排行榜:

https://opendatalab.github.io/CHARM/leaderboard.html


项目主页:

https://opendatalab.github.io/CHARM/findings.html


下载地址:

https://opendatalab.com/OpenDataLab/CHARM


研究概述

CHARM 是首个对大型语言模型 (LLMs) 的中文常识推理能力进行全面且深入评估的测试基并且涵盖了世界各地广为人知的常识和独具中国特色的常识。我们在此基准上,对7种英文和12种以中文为主的LLMs进行了评估,同时采用了五种具代表性的提示策略(如CoT),来提升LLMs的推理能力。


我们发现,LLMs的语言取向任务领域均会影响提示策略的有效性,这进一步丰富了之前的研究结果。我们构建了紧密关联的推理和记忆任务,在此过程中发现,部分LLMs在记忆中文常识方面存在困难,这直接影响了他们的推理能力然而,还有一些LLMs在记忆表现相似的情况下,他们的推理能力却存在差异。进一步地,我们评估了LLMs独立于记忆的推理能力,并针对典型错误进行了分析。


我们的研究精确地突显了LLMs的优势和弱点,从而为其优化提供了明确的方向。此外,这项研究也可为其他领域的相关研究提供参考。


(CHARM评测基准构建示意)


CHARM基准构成

CHARM 是首个全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试,它覆盖了国际普遍认知的常识以及独特的中国文化常识。此外,CHARM 还可以评估 LLMs 独立于记忆的推理能力,并分析其典型错误。



 常识领域

全球常识领域: 

全球常识领域包含了具有普遍理解性的常识,覆盖了现代生活中的各种对象和方面,是个体应当了解的知识。这些内容包括基础教育期望个体所掌握的基本知识。涉及到人物时,这些都是在全球范围内广为认可的人物。


中国常识领域: 

中国常识领域包含了特定于中国的元素,我们将其分为以下七个方面:

● 历史 (H) :包括中国历史上的重要事件和人物、中国的朝代以及关于中国历史的其他基础事实和共享知识。
● 传统文化与艺术 (CA) 囊括中国的传统文化艺术、文学作品和传统生活方式。
● 日常生活和习俗 (LC) :包括现代中国的日常生活、服装、食品、住房、交通、节日等。
● 娱乐 (E) : 包括现代中国日常生活中的电影、电视节目、音乐和其他娱乐活动。
● 公众人物 (F) 涵盖在中国社会广为人知的公众人物。
● 地理 (G) :包括中国的地理分布、自然景观和特色地区文化。
● 汉语语言 (L):包括中国语言的基本知识,如汉字、成语等。


 任务列表

推理任务 : CHARM 由7个推理任务组成,包括:时代错误判断(AJ)、时间理解(TU)、序列理解(SqU)、电影和音乐推荐(MMR)、体育理解(SpU)、自然语言推断(NLI)以及阅读理解(RC)。


记忆任务: 我们选择了AJ(时代错误判断)、TU(时间理解)、MMR(电影和音乐推荐)以及 SpU(体育理解) ,这些被称为记忆-推理-互联(MRI)的任务,我们构建了与这些推理任务相关的记忆任务。

(评测任务构成)


评测结果


 LLM在CHARM上的整体表现

我们使用5种常用的prompt strategies,评估了19种LLMs在CHARM推理任务上的表现,

(点击放大查看19个热门LLM在CHARM任务上的表现)



 LLM综合推理与记忆能力的对比

我们评估了LLM在CHARM的MRI任务上,综合推理与记忆能力之间的相关性。下面是 LLMs 在 4 个 MRI 任务上的平均表现。


如图所示,这19个 LLMs 大致可以被分为三种类型:

● 类型 I:低记忆能力和低综合推理能力。我们发现,除了 OpenAI 的 GPT 系列外,所有其他的英文 LLMs 都属于这个类型。

● 类型 II:高记忆能力和中等综合推理能力。GPT3.5 和所有规模在 30B 以下的面向中文的 LLMs 都属于这个类型。值得注意的是,一些 LLMs 具有高度的记忆性能,但相对较差的综合推理能力。

● 类型 III:超高记忆能力和高综合推理能力。个类别包括 GPT4 和三个规模超过 30B 的面向中文的 LLMs。


上述结果为精准优化LLM的记忆能力和推理能力指明了方向。



 LLM使用不同prompt策略在CHARM不同知识域上的表现

LLM使用不同prompt策略在CHARM不同知识域上的表现


结果显示,LLMs的语言取向和任务的知识领域会影响提示策略的表现,这进一步丰富了先前的研究发现。

● 从 LLM 维度来看, 不同的 LLMs 显然偏好不同的提示策略:在5种策略中,XLT 对于英文 LLMs 始终表现优秀,而对于面向中文的 LLMs,尽管存在一些复杂性,但 ZH-CoT 通常表现最好。

● 从常识领域维度来看, 使用英文进行推理的策略(如 XLT、Translate-EN 等)适用于全球常识领域;然而,ZH-CoT 在中国常识领域中的表现通常更好。


这里的结论与前面的研究有所不同 (Huang et al., 2023a, Zhang et al., 2023a, Shi et al., 2022),之前的研究提出,在处理非英文的推理任务时,使用英文比使用题目本身的语言更为有效。


更多详细结果及分析请见:

https://opendatalab.github.io/CHARM/leaderboard.html

https://opendatalab.github.io/CHARM/findings.html


总结

我们这项工作的主要贡献:

1、CHARM是中文常识推理领域的开创性工作: 包含Chinese-specific commonsense domain和global commonsense domain,从而实现对LLM中文常识推理能力进行完整全面的评估,填补了中文常识推理领域的空白。


2、CHARM拥有评估LLM的记忆能力和memorization-independent reasoning能力。可以便于准确定位LLM的推理和记忆能力的长处和不足,为精准优化LLM指明清晰的方向。


3、基于CHARM我们在LLM的prompt strategies方面得到的新的研究结论。LLMs的语言取向和任务的知识领域会影响提示策略的表现,这进一步丰富了先前的研究发现。


更多细节请访问:

论文地址:

https://arxiv.org/abs/2403.14112


Github:

https://github.com/opendatalab/CHARM


排行榜:

https://opendatalab.github.io/CHARM/leaderboard.html


项目主页:

https://opendatalab.github.io/CHARM/findings.html


下载地址:

https://opendatalab.com/OpenDataLab/CHARM

本项工作引文:

@misc{sun2024benchmarking,
title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations},
author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He},
year={2024},
eprint={2403.14112},
archivePrefix={arXiv},
primaryClass={cs.CL}
}




CHARM数据集已上架OpenDataLab

扫码直达↓

阅读原文浏览器访问:

https://opendatalab.com/OpenDataLab/CHARM

OpenDataLab
上海人工智能实验室是我国人工智能领域新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。
 最新文章