近年来,随着人工智能技术的不断发展,通用人工智能(AGI)已经成为全球关注的焦点。通用人工智能的未来形态将是“智商”与“情商”的结合,既能解决复杂任务,又能提供情绪价值。近期,OpenAI和Google分别发布了GPT-4o和Gemini Live模型,智谱AI的GLM-4-Plus也在上周的KDD 2024上正式亮相,均体现出了人机交互的全新趋势。
目前,国内外针对大模型的主流评测,如MMLU、GSM8K等,多聚焦于评测大模型的“智商”类问题,考察大模型解决各类复杂任务的能力。与之相对,对于大模型的“情商”评测仍是空白,亟需建立相关基准。为此,SuperBench团队于2024年7月推出了社交智能评测基准,以衡量大语言模型在社会情境中感知人类认知过程和心理状态的能力。
近期,我们发布了《SuperBench大模型社交智能评测报告》。在此评测中,我们选取了14个海内外具有代表性的模型进行评测。
社交智能评测体系
社交智能评测主要衡量个体在社交环境中的认知、情感以及行为表现能力,这些能力通常涉及到理解、交流、适应和解决人际互动中的问题。本次评测主要衡量大语言模型的心智(Theory-of-Mind)和情商(Emotional Intelligence)水平,使用ToMBench和EmoBench作为评测集。
评测结果
*本推送只展示总榜和各分榜排名前十的模型,若您想查看完整榜单,请联系我们。
ToMBench
ToMBench是一个全面衡量大模型心智理论(Theory of Mind,ToM)能力的基准测试框架,以专业心理学理论为基础,涵盖了8种公认的ToM任务和31种核心ToM能力,采用多项选择问题格式,并且从零构建了2,860个原创双语(中英)测试样本,涵盖多样的真实社交情境。
评测方法&流程
评测方式:每个维度构建单选题,评测时采用zero-shot 生成方式,从生成结果中抽取答案与真实答案做比较。模型各维度得分为回答正确的题目所占百分比,任务维度和能力维度的最终得分均为各个维度得分的平均值。针对拒答现象,将拒答题目视为回答错误。
评测流程:模型根据故事问题生成答案,将模型生成的答案和测试集提供的参考答案进行对比,得到最终正确回答。
(参考文献:https://arxiv.org/pdf/2402.15052)
整体表现:
在ToMBench评测中,国际一流模型GPT-4o、Claude3.5 Sonnet和Llama-3.1-405B-Instruct 依然处于领先地位,在心智任务和心智能力的评测中均包揽前三;国内模型中GLM-4-Plus、moonshot-v1-8k和DeepSeek-V2在两个维度的评测中均排名国内前三,但是对比国外模型仍有一定差距。
心智任务:GPT-4o以79.25分领跑,领先排名国内第一的GLM-4-Plus3.75分,moonshot-v1-8k排名国内第二,得74.44分;国内其他模型中,DeepSeek-V2、hunyuan-pro、Ernie-4-Turbo-8k分数接近,均在72分档。
心智能力:GPT-4o、Claude3.5 Sonnet和Llama-3.1-405B-Instruct 依然领先,国内模型中GLM-4-Plus和排名第三的Llama-3.1-405B-Instruct分数接近,但落后榜首2.6分,仍需努力。
ToMBench-心智任务表现:
在ToMBench心智任务评测中,各大模型在奇异故事任务和暗示测试两项评测中整体表现较好,在量词含义任务评测中表现普遍较差,在量词含义任务和错误信念任务两个任务中各大模型差距最大。
国外模型GPT-4o在七个任务中均保持前三,而Claude3.5 Sonnet和Llama-3.1-405B-Instruct 则在五个任务中位列Top3,Llama-3.1-405B-Instruct更是在错误信念任务中取得了96.00分的高分,领先第二名8分。
国内Top1模型GLM-4-Plus在四个评测项中进入了前三名,并且在奇异故事任务和意外结果测试两项评测中,和榜首差距在1分之内;moonshot-v1-8k也在三个评测中位列Top3,表现亮眼。
ToMBench-心智能力表现:
在ToMBench心智能力评测中,各大模型在意图能力的评测中整体表现较好,在知识能力的评测中表现普遍较差。
国外模型GPT-4o在全部能力的评测中均保持在前三名,Claude3.5 Sonnet在四项评测中进入Top3,Llama-3.1-405B-Instruct则稍显逊色,仅在两项评测中进入前三名。
国内模型GLM-4-Plus表现最好,在情感、欲望评测中排名第一,在知识排名第三;其他模型中,moonshot-v1-8k、DeepSeek-V2和hunyuan-pro也在部分能力评测中表现优异,进入Top3。
EmoBench
EmoBench是一个全面衡量大模型情商的基准测试框架,数据集由 400 个精心设计的单选题组成,能够全面评估大模型情绪理解和情绪应用两方面能力。
评测方法&流程
评测方式:每个维度构建单选题,评测时要求大模型根据题设中的场景和问题采用zero-shot 方式选择正确答案。模型各维度得分为回答正确的题目所占百分比,情绪理解和情绪应用的最终得分均为各个维度得分的平均值。
评测流程:在评测过程中,同一个问题会要求大模型进行三次回答,采用多数投票方法来确定答案,最终答案为3次的平均值。
(参考文献:https://arxiv.org/pdf/2402.12071)
整体表现:
在情商能力评测中,GPT-4o和Claude3.5 Sonnet在情绪理解维度仍然领先国内模型,而Llama-3.1-405B-Instruct则被国内模型反超。
情绪理解:GPT-4o处于绝对领先位置,是唯一一个超过60分的模型;Claude3.5 Sonnet排名第二,国内模型中DeepSeek-V2表现最好,超过了Llama-3.1-405B-Instruct,落后Claude3.5 Sonnet 2.47分。
情绪应用:GPT-4o和Claude3.5 Sonnet分数接近,排名前二;国内模型Baichuan 4排名第三,落后榜首不到1分;Llama-3.1-405B-Instruct表现不佳,排名第八。
EmoBench-情绪理解表现:
整体来说,GPT-4o在所有评测项中均位列前三甲,表现出强大而均衡的情绪理解能力,Claude3.5 Sonnet紧随其后,在六项评测中进入前三名;国内模型排名第一的DeepSeek-V2在五项评测中排名Top3,Llama-3.1-405B-Instruct在四项评测中排名Top3;从语言维度来说,各大模型在英文的整体表现强于中文,说明当前在该任务下,中文更具挑战性。
复杂情绪: GPT-4o在中文和英文评测中均夺得榜首,并且在英文评测中对比其他模型有明显优势;英文评测中,国内模型Qwen 2-72B-instruct排名第二,超过Claude3.5 Sonnet;中文评测中,Claude3.5 Sonnet和DeepSeek-V2同得67.35分,并列第二。
个人信仰和经历:在英文评测中,国外模型GPT-4o、Claude3.5 Sonnet占据前两名,国内模型GLM-4-Plus和Llama-3.1-405B-Instruct同分,并列第三,该项分数较低,头部模型均在50分档;中文评测中,GPT-4o依然排名第一,Claude3.5 Sonnet和国内模型DeepSeek-V2、GLM-4-Plus、moonshot-v1-8k同分,并列第二。
情绪线索:英文评测中,GPT-4o和DeepSeek-V2同分,并列第一,国内模型GLM-4-Plus排名第三;中文评测中,GLM-4-Plus排名第一,GPT-4o、DeepSeek-V2和Llama-3.1-405B-Instruct均得71.43分,并列第二。
换位思考:国外模型包揽前三甲,明显好于国内模型;GPT-4o和Claude3.5 Sonnet表现明显好于其他模型,并且Claude3.5 Sonnet在英文和中文的评测均超过GPT-4o,占据榜首。
EmoBench-情绪应用表现:
整体来说,GPT-4o在六项评测中进入了前三名,在所有模型中表现最好;排名靠前的Claude3.5 Sonnet和Baichuan 4等模型均在多项评测中进入Top3。
亲友关系-个人问题:英文评测中,GPT-4o排名第一,DeepSeek-V2排名第二;中文评测中,三家模型并列第一:分别是Claude3.5 Sonnet、Qwen 2-72B-instruct和Llama-3.1-405B-Instruct,同得78.00分。
职业关系-个人问题:英文评测中,Baichuan 4得80.00分,排名第一,对比其他模型有一定优势,领先排名并列第二的GPT-4o、Qwen 2-72B-instruct和GLM-4-Plus8分;中文评测中,总榜排名靠后的Llama-3.1-405B-Instruct得74.00分,占据榜首。
亲友关系-人际问题:GPT-4o和Qwen 2-72B-instruct在中文和英文的评测中同分,并列第一,在英文评测中,Claude3.5 Sonnet、DeepSeek-V2、moonshot-v1-8k同分,并列第三。中文评测中,Baichuan 4和moonshot-v1-8k同分,并列第三。
职业关系-人际问题:英文评测中,Claude3.5 Sonnet和DeepSeek-V2同得76.00分,排名第一,超过了GPT-4o;中文评测中,Claude3.5 Sonnet排名第一,Baichuan 4以2分的劣势排名第二。
总结
本次社交智能评测综合结果如下:
根据评测结果,我们得出以下几个主要结论:
整体来说,GPT-4o、Claude3.5 Sonnet和Llama-3.1-405B-Instruct等国际一流模型在社交智能专题评测中依然领先国内模型,包揽了前三名。国内模型GLM-4-Plus总排名第四,国内排名第一,在国内模型中表现较为均衡。
国内模型中,GLM-4-Plus、DeepSeek-V2和moonshot-v1-8k排名Top3,其中,GLM-4-Plus获得了ToMBench两项评测的国内榜首;DeepSeek-V2在EmoBench-情绪理解维度获得了总榜第三,国内第一的好成绩;国内其他模型中,Baichuan 4在EmoBench-情绪应用评测中获得国内第一名。
敬请关注Superbench团队下一期评测结果。
点击文章末尾阅读原文浏览附件:
SuperBench大模型社交智能评测报告-8月
附件:*本报告只展示总榜和各分榜排名前十模型,如您想查看完整榜单请联系我们
点击下方关注我们