▲点击图片查看豆瓣高分书籍
公众号后台回复:“豆瓣”,获取豆瓣高分书籍
公众号后台回复:“社群”,进入知识分享社群
热文推荐:
报告获取方式
长按下方二维码
回复: 报告
报告地址:
https://pan.quark.cn/s/6dd8f2dd6533
(点击阅读原文领取)
尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。
近期,SuperBench团队发布了2024年3月的《SuperBench大模型综合能力评测报告》。在此评测中,SuperBench团队选定了GPT-4 Turbo、GPT-4 网页版、Claude-3、GLM-4、Baichuan3 网页版、KimiChat 网页版、Abab6、文心一言4.0、通义干问2.1、qwen1.5-72b-chat、qwen1.5-14b-chat、讯飞星火3.5、云雀大模型、Yi-34b-chat等14个海内外具有代表性的模型进行测试。对于闭源模型,SuperBench团队选取API和网页两种调用模式中得分较高的一种进行评测。
随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。
报告部分内容如下
获取原文
后台输入:0420 可获取报告原文,有效期3天。
——推荐阅读——
书籍获取方式
长按下方二维码
回复: 豆瓣
书籍获取方式
长按下方二维码
回复: 豆瓣
干货▶
麦肯锡认知升级三部曲:《麦肯锡方法》《麦肯锡意识》《麦肯锡工具》
PPT▶
影视▶
阅读▶
人民日报书单:100本深度思考书籍,让你脑洞大开(附PDF)
100本哈佛商学院必读书单(附1067页哈佛商学院经典案例)
职场▶
元宇宙▶
ChatGPT▶
互联网▶
数据▶
科技▶
《麻省理工科技评论》:2024 年“十大突破性技术”报告(附下载)
麦肯锡报告:2030年,8亿人被机器取代,近亿中国人面临职业转换(附PDF)
美智库:不应高估中国的科研实力,中国科研存在两大弊病,难以克服
社会
麦肯锡报告:2030年,8亿人被机器取代,近亿中国人面临职业转换(附PDF)
干货▶
麦肯锡认知升级三部曲:《麦肯锡方法》《麦肯锡意识》《麦肯锡工具》
PPT▶
影视▶
阅读▶
人民日报书单:100本深度思考书籍,让你脑洞大开(附PDF)
100本哈佛商学院必读书单(附1067页哈佛商学院经典案例)
职场▶
元宇宙▶
ChatGPT▶
互联网▶
数据▶
科技▶
《麻省理工科技评论》:2024 年“十大突破性技术”报告(附下载)
麦肯锡报告:2030年,8亿人被机器取代,近亿中国人面临职业转换(附PDF)
美智库:不应高估中国的科研实力,中国科研存在两大弊病,难以克服
社会
麦肯锡报告:2030年,8亿人被机器取代,近亿中国人面临职业转换(附PDF)
扫码进入知识分享社群
分享优质内容,让阅读有价值
愿行者智,并智者行
公众号后台回复 “社群”, 加入社群