大模型综合能力评测报告（附下载）

科技 2024-11-03 16:01 浙江

▲点击图片查看豆瓣高分书籍

公众号后台回复：“豆瓣”，获取豆瓣高分书籍

公众号后台回复：“社群”，进入知识分享社群

热文推荐：

史上最经典的100部长篇小说

豆ban评分Top250高分电影，少看一部都是遗憾！

在2023年的“百模大战”中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。如何能合理地评价这些模型的能力，成为关键问题。

报告获取方式

长按下方二维码

回复：报告

报告地址：

https://pan.quark.cn/s/6dd8f2dd6533

（点击阅读原文领取）

尽管国内外存在多个模型能力评测榜单，但它们的质量参差不齐，排名差异显著，这主要是因为评测数据和测试方法尚不成熟和科学。为提供客观、科学的评测标准，清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架，旨在推动大模型技术、应用和生态的健康发展。

近期，SuperBench团队发布了2024年3月的《SuperBench大模型综合能力评测报告》。在此评测中，SuperBench团队选定了GPT-4 Turbo、GPT-4 网页版、Claude-3、GLM-4、Baichuan3 网页版、KimiChat 网页版、Abab6、文心一言4.0、通义干问2.1、qwen1.5-72b-chat、qwen1.5-14b-chat、讯飞星火3.5、云雀大模型、Yi-34b-chat等14个海内外具有代表性的模型进行测试。对于闭源模型，SuperBench团队选取API和网页两种调用模式中得分较高的一种进行评测。

报告主要结论

● 整体来说，GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位，国内头部大模型GLM-4和文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小。

● 国外大模型中，GPT-4系列模型表现稳定，Claude-3也展现了较强的综合实力，在语义理解和作为智能体两项能力评测中更是获得了榜首，跻身国际一流模型。

● 国内大模型中，GLM-4和文心一言4.0在本次评测中表现最好，为国内头部模型；通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后，在部分能力评测中亦有不俗表现；但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距，国内模型仍需努力。

大模型能力迁移&SuperBench

自大语言模型诞生之初，评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展，对其性能重点的研究也在不断迁移。根据我们的研究，大模型能力评测大概经历如下5个阶段：

2018年-2021年：语义评测阶段

早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取)，相关评测主要考察语言模型对自然语言的语义理解能力。代表工作：BERT、 GPT、T5等。

2021年-2023年：代码评测阶段

随着语言模型能力的增强，更具应用价值的代码模型逐渐出现。研究人员发现，基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力，代码模型成为研究热点。代表工作：Codex、CodeLLaMa、CodeGeeX等。

2022年-2023年：对齐评测阶段

随着大模型在各领域的广泛应用，研究人员发现续写式的训练方式与指令式的应用方式之间存在差异，理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图，为大模型的广泛应用奠定了基础。代表工作：InstructGPT、ChatGPT、GPT4、ChatGLM等。

2023年-2024年：智能体评测阶段

基于指令遵从和偏好对齐的能力，大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能（AGI）的重要方向。代表工作：AutoGPT、AutoGen等。

2023年-future：安全评测阶段

随着模型能力的提升，对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判，确保大模型的可控、可靠和可信，是未来“AI 可持续发展”的关键问题。

报告部分内容如下

获取原文

后台输入：0420 可获取报告原文，有效期3天。

——推荐阅读——

250本豆瓣高分经典好书，少看一本都是遗憾
书籍获取方式
长按下方二维码
回复：豆瓣

▼

干货▶

Adobe2024正式发布！破解版限时领取
思维导图自学手册，让你更聪明地学习！
57套思维导图类PPT模板送给你，思路整理神器！
六大思维导图神器，中文破解版（附安装包）
思维导图软件+教程，提升逻辑思维必备！
300款Xmind思维导图模板：思路整理神器（附下载）
Xmind 2022思维导图中文破解版（附安装包）
40种经典思维模型，提升八大维度能力
六大思维导图神器，中文破解版（附安装包）
138套甘特图表模板，项目管理神器 (附下载)
19个终身受用的世界顶级思维（附思维导图）
Adobe软件即将全网消失！最后一波下载的机会来了！
收藏！300份麦肯锡中国案例分析报告和分析方法
300套麦肯锡内部案例分析+核心工具方法（附下载）
麦肯锡、埃森哲等顶尖咨询公司PPT模板（附PPT）
图解丨麦肯锡式逻辑思考术思维导图
麦肯锡工作培训9大手册，职场必备圣经（附全套PPT）
280份麦肯锡、BCG、埃森哲等顶尖咨询公司项目案例
战略咨询公司麦肯锡的工作方法、经典报告、项目案例
67页PPT深度解析麦肯锡工具+麦肯锡方法论
40页PPT看懂麦肯锡的思考方式和沟通法则
麦肯锡认知升级三部曲：《麦肯锡方法》《麦肯锡意识》《麦肯锡工具》
查理·芒格的100个思维模型（推荐收藏）
收藏！2000部TED演讲视频合集，20年精华汇总！
500门985大学公开课，拓宽思维增长见识必备！
50大产业链全景图（高清完整版）
历史高清地图集499张
重磅！100大产业链全景图发布（附下载）

PPT▶
57套思维导图类PPT模板送给你，思路整理神器！
最全440套PPT可视化模板，数据展示必备神器
麦肯锡、埃森哲等顶尖咨询公司PPT模板（附PPT）
世界500强PPT模板，让你逼格瞬间UP
联合国都在用的演示神器，比PPT酷炫一百倍！
炫酷的地图图表PPT模板，可编辑可动态展示！
63套科技PPT模板，让你的PPT酷炫如科幻大片！
73套顶级互联网发布会PPT源文件，PPT逼格提升必备！
百度内部培训资料PPT：数据分析的道与术（附源文件）

影视▶
2500集BBC高清纪录片，中英文双语字幕！
豆瓣2023年度电影榜单（附下载）
豆ban评分Top250高分电影，少看一部都是遗憾！
98部超级英雄电影——漫威经典电影合集送给你
北京电影制片厂194部珍贵绝版大合集，经典收藏！
20大制片厂绝版电影大合集，172部超清经典！
100部世界经典名著电影合集（直接观看）
豆瓣年度电影汇总（高清字幕版）
2022高分电影汇总，经典值得收藏（高清字幕版）
10大制片厂绝版电影大合集，172部超清经典！
98部超级英雄电影——漫威经典电影合集送给你
邵氏电影295部4K大合集，难得的经典（无删减完整版）
全部9分以上！经典历史国产剧（高清未删版）

阅读▶
知乎高赞：盘点知识最多、含金量最高的42本书
豆瓣2023年度读书榜单（附下载）
二十世纪最伟大的100部中文小说，少看一本都是遗憾
BBC评出的最伟大的100部小说，知识就是力量（附PDF）
史上最经典的100部长篇小说
【干货】罗辑思维推荐书单全集，给大脑充电！
思维升级必读100本书单，终身学习者赶紧收藏
简史系列书籍55部，拓宽你的知识边界
【合集】影响世界的100部经典名著（有声版）
豆瓣中文小说TOP100，经典值得收藏（附下载）
豆瓣高分外国小说Top100：人类历史的精神宝库
人民日报书单：100本深度思考书籍，让你脑洞大开（附PDF）
人民日报：100部高分中文小说，堪称伟大（附下载）
干货丨巴菲特推荐的十本书，堪称投资圣经（附PDF）
金融圈必读97本书籍，金融大佬强烈推荐（附电子书）
马斯克最爱的十本书，颠覆世界从阅读开始（附PDF）
乔布斯推荐的9本书：活着就是为了改变世界（附PDF)
《毛泽东选集》：此生必读的经典（附下载）
毛泽东最爱的6本书：读了17遍一生挚爱（附PDF）
刘慈欣小说合集：探索未来的星辰大海（附下载）
10分钟搞懂《今日简史》《人类简史》《未来简史》
凯文·凯利和他的科技三部曲：预言帝带你看未来
【干货】2000本Kindle电子书免费领取
豆瓣高分图书Top250+60本音频解读，提升能力必备
100本哈佛商学院必读书单（附1067页哈佛商学院经典案例）

职场▶
工作计划进度甘特图模板，高效工作必备神器！
推荐收藏！字节+腾讯+华为人力资源体系汇总
华为人力资源体系大曝光，看完感叹：太牛了！
阿里巴巴人力资源体系大曝光，马云：HR真惨！
腾讯人力资源体系全曝光，HR朋友圈都在传！
2024中国大陆薪酬观察报告（附下载）
40张PPT完整解析字节跳动人力资源体系（附PPT）
百度内部培训资料PPT：数据分析的道与术（附源文件）
海底捞薪酬体系大曝光，这就是员工不离职的秘密
字节跳动、华为、阿里绩效考核体系（附PPT）
138套甘特图表模板，项目管理神器 (附下载)
926套高逼格Excel可视化图表模板，办公效率神器
54份竞品分析资料（报告、案例、方法与技巧）
PDF编辑神器丨格式转换、编辑修改一键搞定
联合国都在用的演示神器，比PPT酷炫一百倍！
华为项目管理法10大模板【Excel和Word版】
《华为基本法》全文，难得一见，值得珍藏！
华为任正非内部文章全集（67篇）、任正非400余篇讲稿

元宇宙▶
清华大学：元宇宙发展研究报告（附PDF）
北京大学：2022年元宇宙全球年度报告（附PDF）
复旦大学：2022年元宇宙报告(附下载)
2021元宇宙报告汇总：重启新世界（附下载）
元宇宙深度研究报告合集（20份）
元宇宙六大技术全景图（附图谱）
元宇宙框架梳理（附PDF）
177页元宇宙深度报告，推荐收藏（附PDF）
元宇宙报告：下一个生态级科技主线（附PDF
一文看懂元宇宙的6层框架、4大赛道，元宇宙深度解析报告

ChatGPT▶
ChatGPT深度报告合集：奇点临近，未来已来
ChatGPT中文使用手册（附下载）
微软GPT研究报告154页（中文版附下载）
清华大学：ChatGPT发展研究报告(192页PPT下载)
ChatGPT提问技术完整指南（附下载）
ChatGPT官方发布：《GPT提问最佳实践》（附下载）
OpenAI《GPT-4 技术报告》中文版（附下载）
南京航空航天大学：ChatGPT的前世今生(附下载)
哈工大：ChatGPT调研报告（附下载）
ChatGPT报告：开启AI新纪元（附下载）
陆奇：ChatGPT新机遇分享（附完整PPT下载）
麦肯锡报告：ChatGPT如何改变商业模式
ChatGPT报告：从ChatGPT到生成式AI
2023ChatGPT研究框架报告（附下载）
ChatGPT深度报告: 重新定义搜索“入口”
ChatGPT背后的核心技术详解
ChatGPT发展历程、原理、技术架构详解和产业未来

互联网▶
Adobe2024正式发布！破解版限时领取
PDF编辑神器丨格式转换、编辑修改一键搞定
73套顶级互联网发布会PPT源文件，PPT逼格提升必备！
54份竞品分析资料（报告、案例、方法），商业分析必备！
工作计划进度甘特图，高效工作必备神器！
Adobe软件即将全网消失！最后一波下载的机会来了！
【干货】45G微信小程序开发合集
腾讯发布95页重磅报告：全面预测中国未来5年趋势

数据▶
最全440套PPT可视化模板，数据展示必备神器
10份数字化转型报告汇总（附下载）
926套高逼格Excel可视化图表模板，办公效率神器
百度内部培训资料PPT：数据分析的道与术（附源文件）
《数字化转型工作手册》（附下载）

科技▶
马斯克重大宣布，人类即将被彻底改造！
马斯克39页火星计划，也许是人类史上最伟大的PPT
麦肯锡发布：2023科技趋势报告（附下载）
麦肯锡、高盛发布：2024十大科技趋势报告（附下载）
《麻省理工科技评论》：2024 年“十大突破性技术”报告（附下载）
高盛发布：两万字人工智能报告（附下载）
特斯拉企业文化手册
500位科学家联合声明：进化论误导了全人类
马斯克疯了！美国人要砸掉中国5000万建筑工人的饭碗！
数学大师丘成桐：中国的科技至少要倒退20年
63套科技PPT模板，让你的PPT酷炫如科幻大片！
阿里120页PPT诠释国家“智能2.0”战略
惊人的预测——来自麦肯锡报告《中国与世界》完整版
美国公布35页的《2016-2045年新兴科技趋势报告》
普华永道《机遇之城2023》：中国最有前途的51座城市
理工男图解零维到十维空间，烧脑已过度，受不了啦！
BBC分析了365个职业，最不可能被机器淘汰的居然是……
麦肯锡报告：2030年，8亿人被机器取代，近亿中国人面临职业转换（附PDF）
Gartner：2024 年十大战略技术趋势（附下载）
阿里云“城市大脑” 的18个智慧解决方案( 附PDF )
美智库：不应高估中国的科研实力，中国科研存在两大弊病，难以克服

社会
美国纪录片《中国这五年》，全世界都沉默了！
麦肯锡报告：2030年，哪些行业会衰落？
高盛2024全球报告中文版（附下载）
联合国报告：中国经济复苏面临阻力（附下载）
权威！2023“中国大学排名”正式发布（附排名）
德国颁发抄袭大奖，中国包揽前10名拿了大满贯！
麦肯锡报告：2030年，8亿人被机器取代，近亿中国人面临职业转换（附PDF）
中国一流大学校长们的“洋相”：足够出一本笑话集了！
颜宁在美国又获大奖，我们真的失去了一位伟大的科学家
颜宁现象的警钟：中国不是没有人才！但只成就奴才
量子纠缠已被实验证实，颠覆了99%人类认知
清华硕士集体逃离北京！中科院科研人员的自白：我为什么离开北京
刘鹤：我感到了真正的危机，中国要建一道防火墙！
中年危机报告：35岁，中国式中年
德国颁发抄袭大奖，中国包揽前10名拿了大满贯！
朱镕基之子朱云来：中国多盖了三亿人的房子，未来房价将跌到刚需人群能买得起为止

扫码进入知识分享社群

分享优质内容，让阅读有价值

愿行者智，并智者行

公众号后台回复 “社群”, 加入社群

http://mp.weixin.qq.com/s?__biz=Mzg3MzU4NzMzNw==&mid=2247504906&idx=3&sn=f9bece6bb4e382ab02a19366d323c462

钛客科技

让你比别人更先看到未来

最新文章

教师工资单火了，多名教师晒出工资单，引网友热议：无法淡定！

麦肯锡报告《工作新未来》：2030年，2亿中国人面临职业转换（附下载）

王小波全集：有趣的灵魂万里挑一（附下载）

机器人2024年投融市场报告

清华大佬自曝：接到了省烟草局的offer，拒掉了华为！结果华为涨薪70w是烟草的2倍，这可如何是好？

清华北大图书馆借阅榜单TOP10

飞行汽车真来了！中央宣布，六大城市启动eVTOL试点！万亿低空经济市场即将起飞

国家高端智库：2024年人类文明新形态的世界意义研究报告（附下载）

经典书籍分享丨《侯卫东官场笔记》：没有结局的结局

实在想不到，中国从朝鲜进口的最多的居然是这个？

2024民企500强榜单（附下载）

中国工程科技2040发展战略研究3张图

埃森哲：2024中国企业数字化转型指数报告（附下载）

经典书籍分享丨《活出生命的意义》：给你无限力量与勇气

日本车企崩了！央视：最高暴跌94%

中国将超越日本，跃居世界第一

波音公司全球裁员1.7万人

2024年全球人形机器人产品洞察研究报告

经典书籍分享丨《昨日的世界》：历史的一次挣扎

现在形势很严峻，我劝大家多留一手准备吧...

中国尼姑庵2024招聘公告

上海市教委副主任：理科课程落后世界70年，大量内容是200年以前的知识

经典书籍分享丨《硅谷钢铁侠》：侠埃隆·马斯克的传奇一生

2024AIGC创新应用洞察报告

比亚迪今年的薪资。。。

把比亚迪汽车拆开后，工程师震惊了！

马斯克反复推荐的10部经典书籍

亚洲最大工厂，无人不知，曾为中国赚2500亿，如今倒闭，却无人过问！

2024“中国大学排名”正式发布（附榜单）

中国的街道都被“统一店招”毁了

经典书籍分享丨《一生的旅程》：智者当借力而行

沙利文：2024年中国行业大模型市场报告

新华社官媒定调孙院士事件：不要煽风点火

麦肯锡46种经典思考模型框架！137页图解收藏版

联合国发布：2024年世界社会报告（附下载）

经典书籍分享丨《犹太人智慧大全集》全四册：犹太人经商和处世圣经智慧励志书

沙特一机器人摸女记者臀部引热议，工程师神回应！

高盛重磅报告：ChatGPT消灭全球3亿打工人（附下载）

中国最牛的50家科技公司（完整名单）

2025年中国留学生白皮书（附下载）

为什么欧美国家不炒菜，只有中国人炒呢？4个原因

麦肯锡：全球新能源汽车产业发展格局报告（附下载）

经典书籍分享丨《激荡三十年》：每个人心中都有自己的“激荡三十年”

美国大胆预测：未来300年的人类竟然是这样的！

美国发布20项重大科技趋势，将在未来30年改变世界！

沙利文：2024年中国智能算力行业白皮书（附下载）

董明珠婚宴私照流出，打脸多少人：蹭不进的圈子，就别蹭了！

毕马威：2024年中国银行业调查报告（附下载）

麦肯锡：2024科技趋势报告（中文版附下载）

发型师晓华拉动怀化市消费1.2亿元

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

大模型综合能力评测报告（附下载）

250本豆瓣高分经典好书，少看一本都是遗憾书籍获取方式长按下方二维码回复： 豆瓣

250本豆瓣高分经典好书，少看一本都是遗憾
书籍获取方式
长按下方二维码
回复：豆瓣