清华大学：大模型综合能力评测报告（附下载）

科技 2024-12-16 10:08 浙江

▲点击图片查看chatGPT报告

公众号后台回复：“宇宙”，获取元宇宙报告

公众号后台回复：“社群”，进入知识分享社群

热文推荐：

思维导图自学手册，让你更聪明地学习！

Adobe 2025全家桶破解版发布（附安装包）

在2023年的“百模大战”中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。如何能合理地评价这些模型的能力，成为关键问题。

报告获取方式

长按下方二维码

回复：报告

报告地址：

https://pan.quark.cn/s/6dd8f2dd6533

（点击阅读原文领取）

尽管国内外存在多个模型能力评测榜单，但它们的质量参差不齐，排名差异显著，这主要是因为评测数据和测试方法尚不成熟和科学。为提供客观、科学的评测标准，清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架，旨在推动大模型技术、应用和生态的健康发展。

近期，SuperBench团队发布了2024年3月的《SuperBench大模型综合能力评测报告》。在此评测中，SuperBench团队选定了GPT-4 Turbo、GPT-4 网页版、Claude-3、GLM-4、Baichuan3 网页版、KimiChat 网页版、Abab6、文心一言4.0、通义干问2.1、qwen1.5-72b-chat、qwen1.5-14b-chat、讯飞星火3.5、云雀大模型、Yi-34b-chat等14个海内外具有代表性的模型进行测试。对于闭源模型，SuperBench团队选取API和网页两种调用模式中得分较高的一种进行评测。

报告主要结论

● 整体来说，GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位，国内头部大模型GLM-4和文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小。

● 国外大模型中，GPT-4系列模型表现稳定，Claude-3也展现了较强的综合实力，在语义理解和作为智能体两项能力评测中更是获得了榜首，跻身国际一流模型。

● 国内大模型中，GLM-4和文心一言4.0在本次评测中表现最好，为国内头部模型；通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后，在部分能力评测中亦有不俗表现；但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距，国内模型仍需努力。

大模型能力迁移&SuperBench

自大语言模型诞生之初，评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展，对其性能重点的研究也在不断迁移。根据我们的研究，大模型能力评测大概经历如下5个阶段：

2018年-2021年：语义评测阶段

早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取)，相关评测主要考察语言模型对自然语言的语义理解能力。代表工作：BERT、 GPT、T5等。

2021年-2023年：代码评测阶段

随着语言模型能力的增强，更具应用价值的代码模型逐渐出现。研究人员发现，基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力，代码模型成为研究热点。代表工作：Codex、CodeLLaMa、CodeGeeX等。

2022年-2023年：对齐评测阶段

随着大模型在各领域的广泛应用，研究人员发现续写式的训练方式与指令式的应用方式之间存在差异，理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图，为大模型的广泛应用奠定了基础。代表工作：InstructGPT、ChatGPT、GPT4、ChatGLM等。

2023年-2024年：智能体评测阶段

基于指令遵从和偏好对齐的能力，大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能（AGI）的重要方向。代表工作：AutoGPT、AutoGen等。

2023年-future：安全评测阶段

随着模型能力的提升，对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判，确保大模型的可控、可靠和可信，是未来“AI 可持续发展”的关键问题。

报告部分内容如下

——推荐阅读——

ChatGPT深度报告合集：奇点临近，未来已来
微软ChatGPT深度研究报告（中文版附下载）
高盛重磅报告：ChatGPT消灭全球3亿打工人（附下载）
ChatGPT中文使用手册（附下载）
微软GPT研究报告154页（中文版附下载）
清华大学：ChatGPT发展研究报告(192页PPT下载)
ChatGPT提问技术完整指南（附下载）
ChatGPT官方发布：《GPT提问最佳实践》（附下载）
OpenAI《GPT-4 技术报告》中文版（附下载）
南京航空航天大学：ChatGPT的前世今生(附下载)
哈工大：ChatGPT调研报告（附下载）
ChatGPT报告：开启AI新纪元（附下载）
陆奇：ChatGPT新机遇分享（附完整PPT下载）
麦肯锡报告：ChatGPT如何改变商业模式
ChatGPT报告：从ChatGPT到生成式AI
2023ChatGPT研究框架报告（附下载）
ChatGPT深度报告: 重新定义搜索“入口”
ChatGPT背后的核心技术详解
ChatGPT发展历程、原理、技术架构详解和产业未来
从ChatGPT到通用智能，新长征上的新变化
ChatGPT引领AI新浪潮，AIGC商业化启程
三分钟看懂ChatGPT-量子位智库
AIGC的里程碑：ChatGPT凭什么引爆科技圈？
ChatGPT报告获取方式
长按下方二维码
回复： GPT

▼

干货▶
Adobe2025正式发布！破解版限时领取
思维导图自学手册，让你更聪明地学习！
57套思维导图类PPT模板送给你，思路整理神器！
六大思维导图神器，中文破解版（附安装包）
思维导图软件+教程，提升逻辑思维必备！
300款Xmind思维导图模板：思路整理神器（附下载）
Xmind 2024思维导图中文破解版（附安装包）
40种经典思维模型，提升八大维度能力
六大思维导图神器，中文破解版（附安装包）
138套甘特图表模板，项目管理神器 (附下载)
19个终身受用的世界顶级思维（附思维导图）
100个超经典思维模型（附下载）
麦肯锡十大思考框架（附下载）
收藏！300份麦肯锡中国案例分析报告和分析方法
300套麦肯锡内部案例分析+核心工具方法（附下载）
麦肯锡、埃森哲等顶尖咨询公司PPT模板（附PPT）
图解丨麦肯锡式逻辑思考术思维导图
麦肯锡工作培训9大手册，职场必备圣经（附全套PPT）
280份麦肯锡、BCG、埃森哲等顶尖咨询公司项目案例
战略咨询公司麦肯锡的工作方法、经典报告、项目案例
40页PPT看懂麦肯锡的思考方式和沟通法则
麦肯锡认知升级三部曲：《麦肯锡方法》《麦肯锡意识》《麦肯锡工具》
查理·芒格的100个思维模型（推荐收藏）
收藏！2000部TED演讲视频合集，20年精华汇总！
500门985大学公开课，拓宽思维增长见识必备！
50大产业链全景图（高清完整版）
历史高清地图集499张
重磅！100大产业链全景图发布（附下载）
47张新质生产力产业链图谱（附下载）
58大新质生产力产业链图谱（附下载）
8个免费好用的PDF编辑器，不想加班的你一定要收藏！
PPT▶
57套思维导图类PPT模板送给你，思路整理神器！
雷军年度演讲PPT合集（附下载）
最全440套PPT可视化模板，数据展示必备神器
麦肯锡、埃森哲等顶尖咨询公司PPT模板（附PPT）
世界500强PPT模板，让你逼格瞬间UP
联合国都在用的演示神器，比PPT酷炫一百倍！
炫酷的地图图表PPT模板，可编辑可动态展示！
63套科技PPT模板，让你的PPT酷炫如科幻大片！
73套顶级互联网发布会PPT源文件，PPT逼格提升必备！
百度内部培训资料PPT：数据分析的道与术（附源文件）
影视▶
2500集BBC高清纪录片，中英文双语字幕！
豆瓣2023年度电影榜单（附下载）
豆ban评分Top250高分电影，少看一部都是遗憾！
98部超级英雄电影——漫威经典电影合集送给你
北京电影制片厂194部珍贵绝版大合集，经典收藏！
20大制片厂绝版电影大合集，172部超清经典！
100部世界经典名著电影合集（直接观看）
豆瓣年度电影汇总（高清字幕版）
2022高分电影汇总，经典值得收藏（高清字幕版）
2024第96届奥斯卡获奖名单和资源合集
10大制片厂绝版电影大合集，172部超清经典！
98部超级英雄电影——漫威经典电影合集送给你
邵氏电影295部4K大合集，难得的经典（无删减完整版）
全部9分以上！经典历史国产剧（高清未删版）
一度被禁，大型系列纪录片《先生》十集全找到了
阅读▶
知乎高赞：盘点知识最多、含金量最高的42本书
豆瓣2023年度读书榜单（附下载）
豆瓣TOP250高分经典好书，少看一本都是遗憾（附下载）
《人民日报》：世界公认的十大名著，人生至少要读一遍
《人民日报》：狂读这70本书，脑子真的会变快
人民日报书单：100本深度思考书籍，让你脑洞大开（附PDF）
《人民日报》推荐100本高质量书单（附下载）
人民日报书单：100本增长见识的好书（附PDF）
人民日报：100部高分中文小说，堪称伟大（附下载）
体制内必读书单，熬夜也要看完的5本书
二十世纪最伟大的100部中文小说，少看一本都是遗憾
BBC评出的最伟大的100部小说，知识就是力量（附PDF）
史上最经典的100部长篇小说
【干货】罗辑思维推荐书单全集，给大脑充电！
思维升级必读100本书单，终身学习者赶紧收藏
简史系列书籍55部，拓宽你的知识边界
历届茅盾文学奖作品集：中国文学领域巅峰之作
改革开放40年最有影响力的40部小说（附下载）
【合集】影响世界的100部经典名著（有声版）
豆瓣中文小说TOP100，经典值得收藏（附下载）
豆瓣高分外国小说Top100：人类历史的精神宝库
干货丨巴菲特推荐的十本书，堪称投资圣经（附PDF）
马斯克最爱的十本书，颠覆世界从阅读开始（附PDF）
乔布斯反复推荐的10本书（附PDF)
刘慈欣小说合集：探索未来的星辰大海（附下载）
最值得一读的15部中国当代小说，你看过几部？
10分钟搞懂《今日简史》《人类简史》《未来简史》
凯文·凯利和他的科技三部曲：预言帝带你看未来
【干货】2000本Kindle电子书免费领取
香港中文大学推荐书单50本（附PDF）
100本哈佛商学院必读书单（附1067页哈佛商学院经典案例）
职场▶
工作计划进度甘特图模板，高效工作必备神器！
推荐收藏！字节+腾讯+华为人力资源体系汇总
2024中国大陆薪酬观察报告（附下载）
191页《腾讯员工职业发展体系》管理手册（完整版）
40张PPT完整解析字节跳动人力资源体系（附PPT）
字节跳动、华为、阿里绩效考核体系（附PPT）
138套甘特图表模板，项目管理神器 (附下载)
926套高逼格Excel可视化图表模板，办公效率神器
54份竞品分析资料（报告、案例、方法与技巧）
PDF编辑神器丨格式转换、编辑修改一键搞定
联合国都在用的演示神器，比PPT酷炫一百倍！
华为项目管理法10大模板【Excel和Word版】
华为干部与人才发展手册（附PPT）
《华为基本法》全文，难得一见，值得珍藏！
会使用“丰田一页纸”的人，混得都不差
华为任正非内部文章全集（67篇）、任正非400余篇讲稿
麦肯锡最新报告《工作新未来》，2030年，应该做什么工作？
麦肯锡报告：2030年，哪些行业会衰落？
元宇宙▶
清华大学：元宇宙发展研究报告（附PDF）
北京大学：2022年元宇宙全球年度报告（附PDF）
复旦大学：2022年元宇宙报告(附下载)
2021元宇宙报告汇总：重启新世界（附下载）
元宇宙深度研究报告合集（20份）
元宇宙六大技术全景图（附图谱）
元宇宙框架梳理（附PDF）
177页元宇宙深度报告，推荐收藏（附PDF）
元宇宙报告：下一个生态级科技主线（附PDF
一文看懂元宇宙的6层框架、4大赛道，元宇宙深度解析报告
ChatGPT▶
ChatGPT深度报告合集：奇点临近，未来已来
微软ChatGPT深度研究报告（中文版附下载）
ChatGPT中文使用手册（附下载）
高盛重磅报告：ChatGPT消灭全球3亿打工人（附下载）
清华大学：ChatGPT发展研究报告(192页PPT下载)
ChatGPT提问技术完整指南（附下载）
ChatGPT官方发布：《GPT提问最佳实践》（附下载）
OpenAI《GPT-4 技术报告》中文版（附下载）
南京航空航天大学：ChatGPT的前世今生(附下载)
哈工大：ChatGPT调研报告（附下载）
ChatGPT报告：开启AI新纪元（附下载）
陆奇：ChatGPT新机遇分享（附完整PPT下载）
麦肯锡报告：ChatGPT如何改变商业模式
ChatGPT报告：从ChatGPT到生成式AI
2023ChatGPT研究框架报告（附下载）
ChatGPT深度报告: 重新定义搜索“入口”
ChatGPT背后的核心技术详解
ChatGPT发展历程、原理、技术架构详解和产业未来
互联网▶
Adobe2025正式发布！破解版限时领取
PDF编辑神器丨格式转换、编辑修改一键搞定
73套顶级互联网发布会PPT源文件，PPT逼格提升必备！
54份竞品分析资料（报告、案例、方法），商业分析必备！
138套甘特图表模板，项目管理神器 (附下载)
腾讯发布95页重磅报告：全面预测中国未来5年趋势
数据▶
最全440套PPT可视化模板，数据展示必备神器
10份数字化转型报告汇总（附下载）
926套高逼格Excel可视化图表模板，办公效率神器
百度内部培训资料PPT：数据分析的道与术（附源文件）
《数字化转型工作手册》（附下载）
科技▶
马斯克39页火星计划，也许是人类史上最伟大的PPT
麦肯锡发布：2024科技趋势报告（附下载）
麦肯锡、高盛发布：2024十大科技趋势报告（附下载）
《麻省理工科技评论》：2024 年“十大突破性技术”报告（附下载）
高盛发布：两万字人工智能报告（附下载）
特斯拉企业文化手册
500位科学家联合声明：进化论误导了全人类
马斯克疯了！美国人要砸掉中国5000万建筑工人的饭碗！
数学大师丘成桐：中国的科技至少要倒退20年
63套科技PPT模板，让你的PPT酷炫如科幻大片！
阿里120页PPT诠释国家“智能2.0”战略
惊人的预测——来自麦肯锡报告《中国与世界》完整版
美国公布35页的《2016-2045年新兴科技趋势报告》
BBC分析了365个职业，最不可能被机器淘汰的居然是……
社会
美国纪录片《中国这五年》，全世界都沉默了！
麦肯锡报告：2030年，8亿人被机器取代，近亿中国人面临职业转换（附PDF）
高盛2024全球报告：最艰难的已经过去（附下载）
高盛炸裂报告：变革中的中国
联合国报告：中国经济复苏面临阻力（附下载）
德国颁发抄袭大奖，中国包揽前10名拿了大满贯！
中国一流大学校长们的“洋相”：足够出一本笑话集了！
颜宁在美国又获大奖，我们真的失去了一位伟大的科学家
颜宁现象的警钟：中国不是没有人才！但只成就奴才
BBC分析了365个职业，发现最不可能被机器淘汰的居然是……
清华硕士集体逃离北京！中科院科研人员的自白：我为什么离开北京
刘鹤：我感到了真正的危机，中国要建一道防火墙！
中年危机报告：35岁，中国式中年
德国颁发抄袭大奖，中国包揽前10名拿了大满贯！
朱镕基之子朱云来：中国多盖了三亿人的房子，未来房价将跌到刚需人群能买得起为止

扫码进入知识分享社群

分享优质内容，让阅读有价值

愿行者智，并智者行

公众号后台回复 “社群”, 加入社群

锌科技

未来是有限向无限的眺望

最新文章

中国最大乌龙事件：本想在荒漠建造电厂，却意外收获了一个牧场

美国纪录片《中国》(上、下集)，非常震撼

“去中国化”最彻底的4个国家，有一个已经完全西化了！

2024全球人形机器人企业画像与能力评估（附下载）

经典书籍分享丨《文城》：虚幻的城与疲惫的写作者

郝景芳：我和老公清北毕业，我能接受自己的孩子读三流学校吗？

清华大学官方公布学霸们偏爱的30本书（附下载）

清华大学：大模型综合能力评测报告（附下载）

“友情婚”开始流行，没有性生活的爱情

高盛发布：两万字人工智能报告（附下载）

上海“假富豪”事件：在上流社会扮大哥白嫖多年

经典书籍分享丨《思考，快与慢》：思维模式的认知偏差

罗兰贝格：2024全球汽车供应链核心企业竞争力白皮书（附下载）

人大教授张鸣：我招生，学生会干部一概不要

清华大学元宇宙发展研究报告1—3版（附PDF）

经典书籍分享丨《人生海海》：治愈了我的精神内耗

比隐患更可怕的是造假！港珠澳大桥混凝土造假案判刑19人

中建、中交、中电建、中能建、中铁、中铁建、中冶到底是什么状况？一次性彻底说明白！

中国历史高清地图集499张，鉴古知今（附PDF）

经典书籍分享丨《硅谷禁书》：引爆你的内在能力

2024中国城市95后人才吸引力报告

施一公：年轻人如果把钱作为奋斗目标，那就全完蛋了

施一公：无论什么学科，最不重要的就是智商（附毕业演讲）

央视纪录片《苏东坡》：他是人生最好的偶像

中国最神秘的大学：藏在首都，每年仅招300人，录取分数远超985，毕业就是体制内…

人民日报：曝光392所野鸡大学名单！毕业证等同废纸？

14位知名大学校长推荐书单，少读一本都是遗憾

凡尔纳科幻经典（套装11册），让你脑洞打开！

斯坦福大学发布！《全球人工智能实力排行榜》（英）

施一公：无论什么学科，最不重要的就是智商（附毕业演讲）

央视纪录片《苏东坡》：他是人生最好的偶像

中国第一省，正在疯狂建大学

40页PPT看懂麦肯锡的思考方式和沟通法则

就连美国也造不出，30年内不对外出口

毕马威报告：2024年解锁家族企业的传承

经典书籍分享丨《赢》：企业管理的基本法则

巨亏183亿！新能源车销冠发不出工资了

119页PPT：读懂特斯拉的光荣与梦想

麦肯锡：全球新能源汽车产业发展格局报告（附下载）

北京“剩女”突破100万，创下世界之最，为何剩女泛滥?

小县城体制内剩女：一个日益庞大却被悬置的群体

六大思维导图神器，中文破解版（附安装包）

新华社研究院：让世界认识更加真实的中国研究报告（附下载）

经典书籍分享丨《谁说大象不能跳舞》：不能错过的IBM重建史

反超华为，中国第一大民企诞生！营收营收破万亿，员工超60万人

华为：2024年鸿蒙生态元服务开发白皮书（附下载）

64套故宫红复古风PPT，让你的PPT韵味十足！

阿斯麦向美国承诺：只要我国攻台，立刻远程瘫痪台积电光刻机

为什么中国飞往美国的飞机，宁可绕一圈，也不愿穿越太平洋？

韩国总统尹锡悦等8人被列入逮捕名单！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉