TeleAI星辰大模型中文基准测评出炉，TeleChat2位列第一梯队，工具使用能力突出!

文摘科技 2024-11-21 12:16 浙江

本测评结果仅用于学术研究。

11月8日，SuperCLUE发布《中文大模型基准测评10月报告》，引起了中文技术社区的广泛关注。在报告中，SuperCLUE对于国内外代表性的43个大模型进行了全方位测评。

其中，TeleChat2首次上榜SuperCLUE通用能力基准测评榜单，表现惊艳，成为唯一跻身【第一梯队】的央国企机构；TeleChat2-35B在SuperCLUE开源榜单上夺得铜牌。本文将详细说明TeleChat2的测评分析结果。

模型简介

星辰大模型（TeleChat）由中国电信人工智能研究院自主研发。继2023年发布千亿参数星辰大模型后，近日，中国电信人工智能研究院(TeleAl)发布首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参)星辰语义大模型--TeleChat2。星辰语义大模型上一代TeleChat系列已开源1B、7B、12B、52B参数规模大模型，最新TeleChat2系列已开源3B、7B、 358 和115B参数规模大模型，逐步构建全尺寸开源格局。

凭借中国电信在各行业深耕多年的优势和经验，联合头部生态构建了涵盖教育、政务、应急等20多个行业大模型，覆盖全行业500多个应用场景。目前，星辰系列大模型已在政务服务、智慧教育、经营分析、公文写作及智慧办公等领域广泛应用落地。

TeleChat2开源地址：

GitHub：https://github.com/Tele-AI/TeleChat2

Gitee：https://gitee.com/Tele-AI/tele-chat2

ModelScope：https://modelscope.cn/models/TeleAI

Modelers：https://modelers.cn/models/TeleAI

Huggingface：https://huggingface.co/Tele-AI

测评环境

参考标准：SuperCLUE综合性测评标准

评测模型：TeleChat2-Large（小范围内测API）、TeleChat2-35B（开源）

评测集：SuperCLUE综合性测评基准10月评测集，2900道多轮简答题，包括十二大任务。

模型GenerationConfig配置：

temperature=0.0
max_new_tokens=4096
do_sample=False

测评方法：

本次测评为自动化评测，具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论

结论1：在SuperCLUE综合基准上，TeleChat2-Large以总分66.23分的优异成绩排名国内第三，成功跻身国内大模型第一梯队；相比GPT系列模型，TeleChat2-Large表现好于GPT-4o-mini，与ChatGPT-4o-latest相差4.62分。

结论2：TeleChat2-35B在开源榜单上排行国内第三，表现优于Llama-3.1-70B-Instruct。相比Llama系列模型，TeleChat2-35B与Llama-3.1-405B-Instruct仅差3.38分，和Llama-3.1-70B-Instruct相比，领先0.84分。

结论3：TeleChat2-Large在工具使用、计算、长文本、语言理解等能力上处于国内领先位置；TeleChat2-35B在开源模型对比中，在指令遵循、工具使用、生成与创作等得分均排行前三。TeleChat2的代码能力还有一定提升空间。适用于Agent智能体、数理运算、文本生成与处理等应用场景。

来源：SuperCLUE, 2024年11月8日

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE测评中，TeleChat2的总体表现如下：

TeleChat2总体表现

在SuperCLUE通用综合测评基准上，TeleChat2-Large取得66.23分，表现不俗，首次跻身国内大模型第一梯队；TeleChat2-35B在开源榜单上排行第三，表现突出，得分超过Llama-3.1-70B-Instruct。

TeleChat2在十二大基础能力上的表现

高清版本具体可见《中文大模型基准测评2024年10月报告》，下载地址www.cluebenchmarks.com/superclue_2410

TeleChat2在十二大任务上较为均衡。其中，TeleChat2-Large在工具使用能力上得分87.11分，位列国内第二；在传统安全能力上取得79.38分，排名国内第三；在长文本能力上得分67.70分，排名国内前五；在代码能力上还有一定优化空间。

TeleChat2-35B在与开源大模型对比中，在传统安全能力上得79.38，排行第一；在指令遵循、工具使用、生成与创作能力上总排行前三；在代码、角色扮演上还有一定提升空间。

来源：SuperCLUE, 2024年11月8日

将TeleChat2-Large和GPT系列模型对比，TeleChat2-Large表现好于GPT-4o-mini，与ChatGPT-4o-latest相差4.62分，与o1-preview差9.63分，但在工具使用上领先o1-preview（7.16分），在传统安全上领先3.49分。

来源：SuperCLUE, 2024年11月8日

将TeleChat2-35B与Llama系列模型相比，与Llama-3.1-405B-Instruct总分仅差3.38分，在和Llama-3.1-70B-Instruct对比中，总分领先0.84分，指令遵循、逻辑推理、工具使用、生成与创作、语言理解、长文本、知识与百科、传统安全能力上得分均领先，这表明在中文环境下，TeleChat2-35B的表现优于Llama-3.1-70B-Instruct。

来源：SuperCLUE, 2024年11月8日

将TeleChat2与国内大模型平均得分对比，我们可以发现，TeleChat2-Large在各项能力上均高于平均线，展现出较均衡的综合能力；TeleChat2-35B在高阶推理上低于国内大模型平均分2.03分，其余也均领先。TeleChat2在工具使用能力上远高出平均线10分以上，TeleChat2-Large在计算上高于国内大模型平均分8分以上。

来源：SuperCLUE, 2024年11月8日；模型在每道题上的得分与GPT4-Turbo-0409相比计算差值，得到胜（差值大于0.25分）、平（差值在-0.25～+0.25分之间）、负（差值低于-0.25）。

我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率，可以发现TeleChat2-Large的胜率为25.78%，TeleChat2-35B的胜率为22.26%，TeleChat2的胜和率均在70％左右。

小结：

从评测结果我们发现，TeleChat2在综合能力上表现不俗，TeleChat2-Large在总分上位列国内大模型第一梯队，其中在工具使用，长文本等基础能力上较为领先，代码能力上还有一定优化空间；与开源模型相比，TeleChat2-35B在逻辑推理、工具使用、生成与创作、语言理解等能力上表现突出。

2 定性分析

通过一些典型示例，对比定性分析TeleChat2的特点。

示例1：工具使用

【问题】：本题为function-call能力测试。

请根据下面提供的函数调用JSON文档，调用正确的函数及其参数完成以下需求：我们需要预测收入，当前收入为100万元，年增长率为5%。接下来，评估投资风险，投资金额为200万元，风险系数为1.2。

请将答案按照下面提供的函数调用JSON文档的格式返回，不要返回多余的内容。

{ "function": [ { "name": "forecast_revenue", "description": "预测收入", "parameters": { "type": "object", "properties": { "current_revenue": { "type": "number", "description": "当前收入（元）" }, "growth_rate": { "type": "number", "description": "年增长率" } }, "required": ["current_revenue", "growth_rate"] } }, { "name": "calculate_operating_cost", "description": "计算运营成本", "parameters": { "type": "object", "properties": { "fixed_cost": { "type": "number", "description": "固定成本（元）" }, "variable_cost": { "type": "number", "description": "可变成本（元）" } }, "required": ["fixed_cost", "variable_cost"] } }, { "name": "evaluate_investment_risk", "description": "评估投资风险", "parameters": { "type": "object", "properties": { "investment_amount": { "type": "number", "description": "投资金额（元）" }, "risk_factor": { "type": "number", "description": "风险系数" } }, "required": ["investment_amount", "risk_factor"] } }, { "name": "calculate_tax_liability", "description": "计算税务负担", "parameters": { "type": "object", "properties": { "taxable_income": { "type": "number", "description": "应税收入（元）" }, "tax_rate": { "type": "number", "description": "税率" } }, "required": ["taxable_income", "tax_rate"] } } ]}

【TeleChat2-Large】：5分（满分5分）

{  "function": [    {      "name": "forecast_revenue",      "parameters": {        "current_revenue": 1000000,        "growth_rate": 0.05      }    },    {      "name": "evaluate_investment_risk",      "parameters": {        "investment_amount": 2000000,        "risk_factor": 1.2      }    }  ]}

【ChatGPT-4o-latest】：4.33分（满分5分）

```json{  "function": [    {      "name": "forecast_revenue",      "parameters": {        "current_revenue": 1000000,        "growth_rate": 5      }    },    {      "name": "evaluate_investment_risk",      "parameters": {        "investment_amount": 2000000,        "risk_factor": 1.2      }    }  ]}```

示例2：高阶推理

【问题】：一家能源公司正在设计一个新的风力发电场，以最大化发电量，同时满足以下约束条件：

1）每个风力发电机的建设成本为1000万元；

2）每个风力发电机的建设时间为3个月；

3）总的建设预算不超过5亿元；

4）总的建设时间不超过十年；

5）每个风力发电机的发电能力为2MW；

6）总的发电需求至少为50MW。

【TeleChat2-Large】：5分（满分5分）

【GPT-4-Turbo-2024-04-09】：3.33分（满分5分）

示例3：计算

【问题】：某城市举行了一个为期7天的美食节，首日到场人数为5000人，从第二天开始，每天的到场人数都比前一天多200人。请问这个美食节的7天里，一共有多少人参加？

【TeleChat2-35B】：5分（满分5分）

【Llama-3.1-70B-Instruct】：2.67分（满分5分）

示例4：逻辑推理

【问题】：从 Alice 开始她的第一份工作到她转职去西雅图之间的时间跨度是多少年？

1.2009年，Alice 在旧金山的一家公司开始了她的第一份工作。

2.Alice 在旧金山工作了三年后，决定搬到洛杉矶发展她的事业。

3.搬到洛杉矶两年后，Alice 遇到了一个名叫 Bob 的新来同事。

4.Bob 在洛杉矶工作了四年后，转职去了西雅图。

5.Alice 在Bob搬走了五年后，也转职去了西雅图。

【TeleChat2-35B】：5分（满分5分）

【Llama-3.1-70B-Instruct】：2.33分（满分5分）

小结：

从示例分析中我们发现，TeleChat2-Large在工具使用、高阶推理能力上表现不俗，TeleChat2-35B在计算，逻辑推理上表现突出。

更多10月报告测评信息，请加入SuperCLUE交流群。

TeleAI星辰大模型中文基准测评出炉，TeleChat2位列第一梯队，工具使用能力突出!

语音合成大模型测评基准（方案）发布

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

o1等国外头部大模型，在高难度任务上具备较大领先性 | SuperCLUE

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉