TeleAI星辰大模型中文基准测评出炉,TeleChat2位列第一梯队,工具使用能力突出!

文摘   科技   2024-11-21 12:16   浙江  

本测评结果仅用于学术研究。

11月8日,SuperCLUE发布《中文大模型基准测评10月报告》,引起了中文技术社区的广泛关注。在报告中,SuperCLUE对于国内外代表性的43个大模型进行了全方位测评
其中,TeleChat2首次上榜SuperCLUE通用能力基准测评榜单,表现惊艳,成为唯一跻身【第一梯队】的央国企机构;TeleChat2-35B在SuperCLUE开源榜单上夺得铜牌。本文将详细说明TeleChat2的测评分析结果。

模型简介
星辰大模型(TeleChat)由中国电信人工智能研究院自主研发。继2023年发布千亿参数星辰大模型后,近日,中国电信人工智能研究院(TeleAl)发布首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参)星辰语义大模型--TeleChat2。星辰语义大模型上一代TeleChat系列已开源1B、7B、12B、52B参数规模大模型,最新TeleChat2系列已开源3B、7B、 358 和115B参数规模大模型,逐步构建全尺寸开源格局。
凭借中国电信在各行业深耕多年的优势和经验,联合头部生态构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景。目前,星辰系列大模型已在政务服务、智慧教育、经营分析、公文写作及智慧办公等领域广泛应用落地。
TeleChat2开源地址:

GitHub:https://github.com/Tele-AI/TeleChat2

Gitee:https://gitee.com/Tele-AI/tele-chat2

ModelScope:https://modelscope.cn/models/TeleAI

Modelers:https://modelers.cn/models/TeleAI

Huggingface:https://huggingface.co/Tele-AI

测评环境

参考标准:SuperCLUE综合性测评标准

评测模型TeleChat2-Large小范围内测API)TeleChat2-35B(开源)


测集:SuperCLUE综合性测评基准10月评测集,2900道多轮简答题,包括十二大任务。


模型GenerationConfig配置:

  • temperature=0.0

  • max_new_tokens=4096

  • do_sample=False


测评方法

本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论
结论1:在SuperCLUE综合基准上,TeleChat2-Large以总分66.23分的优异成绩排名国内第三,成功跻身国内大模型第一梯队;相比GPT系列模型,TeleChat2-Large表现好于GPT-4o-miniChatGPT-4o-latest相差4.62分。
结论2:TeleChat2-35B在开源榜单上排行国内第三,表现优于Llama-3.1-70B-Instruct。相比Llama系列模型,TeleChat2-35B与Llama-3.1-405B-Instruct仅差3.38分,和Llama-3.1-70B-Instruct相比,领先0.84分。

结论3:TeleChat2-Large在工具使用、计算、长文本、语言理解等能力上处于国内领先位置;TeleChat2-35B在开源模型对比中,在指令遵循、工具使用、生成与创作等得分均排行前三。TeleChat2的代码能力还有一定提升空间。适用于Agent智能体、数理运算、文本生成与处理等应用场景。

来源:SuperCLUE, 2024年11月8日
来源:SuperCLUE, 2024年11月8日
以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析
1  定量分析
在SuperCLUE测评中,TeleChat2的总体表现如下:

TeleChat2总体表现

在SuperCLUE通用综合测评基准上,TeleChat2-Large取得66.23分,表现不俗,首次跻身国内大模型第一梯队;TeleChat2-35B在开源榜单上排行第三,表现突出,得分超过Llama-3.1-70B-Instruct。

TeleChat2在十二大基础能力上的表现

高清版本具体可见《中文大模型基准测评2024年10月报告》,下载地址www.cluebenchmarks.com/superclue_2410

TeleChat2在十二大任务上较为均衡。其中,TeleChat2-Large在工具使用能力上得分87.11分,位列国内第二;在传统安全能力上取得79.38分,排名国内第三;在长文本能力上得分67.70分,排名国内前五;在代码能力上还有一定优化空间。

TeleChat2-35B在与开源大模型对比中,在传统安全能力上得79.38,排行第一;在指令遵循、工具使用、生成与创作能力上总排行前三;在代码、角色扮演上还有一定提升空间。

来源:SuperCLUE, 2024年11月8日

将TeleChat2-Large和GPT系列模型对比,TeleChat2-Large表现好于GPT-4o-mini,与ChatGPT-4o-latest相差4.62分,与o1-preview差9.63分,但在工具使用上领先o1-preview(7.16分),在传统安全上领先3.49分。

来源:SuperCLUE, 2024年11月8日
将TeleChat2-35B与Llama系列模型相比,与Llama-3.1-405B-Instruct总分仅差3.38分,在和Llama-3.1-70B-Instruct对比中,总分领先0.84分,指令遵循、逻辑推理、工具使用、生成与创作、语言理解、长文本、知识与百科、传统安全能力上得分均领先,这表明在中文环境下,TeleChat2-35B的表现优于Llama-3.1-70B-Instruct。

来源:SuperCLUE, 2024年11月8日

TeleChat2与国内大模型平均得分对比,我们可以发现,TeleChat2-Large在各项能力上均高于平均线,展现出较均衡的综合能力;TeleChat2-35B在高阶推理上低于国内大模型平均分2.03分,其余也均领先TeleChat2在工具使用能力上远高出平均线10分以上,TeleChat2-Large在计算上高于国内大模型平均分8分以上。

来源:SuperCLUE, 2024年11月8日;模型在每道题上的得分与GPT4-Turbo-0409相比计算差值,得到胜(差值大于0.25分)、平(差值在-0.25~+0.25分之间)、负(差值低于-0.25)

我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率,可以发现TeleChat2-Large的胜率为25.78%,TeleChat2-35B的胜率为22.26%,TeleChat2的胜和率均在70%左右

小结


从评测结果我们发现,TeleChat2在综合能力上表现不俗,TeleChat2-Large在总分上位列国内大模型第一梯队,其中在工具使用,长文本等基础能力上较为领先,代码能力上还有一定优化空间;与开源模型相比,TeleChat2-35B在逻辑推理、工具使用、生成与创作、语言理解等能力上表现突出

2  定性分析

通过一些典型示例,对比定性分析TeleChat2的特点。

示例1:工具使用

【问题】本题为function-call能力测试。

请根据下面提供的函数调用JSON文档,调用正确的函数及其参数完成以下需求:我们需要预测收入,当前收入为100万元,年增长率为5%。接下来,评估投资风险,投资金额为200万元,风险系数为1.2。
请将答案按照下面提供的函数调用JSON文档的格式返回,不要返回多余的内容。
{ "function": [ { "name": "forecast_revenue", "description": "预测收入", "parameters": { "type": "object", "properties": { "current_revenue": { "type": "number", "description": "当前收入(元)" }, "growth_rate": { "type": "number", "description": "年增长率" } }, "required": ["current_revenue", "growth_rate"] } }, { "name": "calculate_operating_cost", "description": "计算运营成本", "parameters": { "type": "object", "properties": { "fixed_cost": { "type": "number", "description": "固定成本(元)" }, "variable_cost": { "type": "number", "description": "可变成本(元)" } }, "required": ["fixed_cost", "variable_cost"] } }, { "name": "evaluate_investment_risk", "description": "评估投资风险", "parameters": { "type": "object", "properties": { "investment_amount": { "type": "number", "description": "投资金额(元)" }, "risk_factor": { "type": "number", "description": "风险系数" } }, "required": ["investment_amount", "risk_factor"] } }, { "name": "calculate_tax_liability", "description": "计算税务负担", "parameters": { "type": "object", "properties": { "taxable_income": { "type": "number", "description": "应税收入(元)" }, "tax_rate": { "type": "number", "description": "税率" } }, "required": ["taxable_income", "tax_rate"] } } ]}

【TeleChat2-Large】:5分(满分5分)

{  "function": [    {      "name": "forecast_revenue",      "parameters": {        "current_revenue": 1000000,        "growth_rate": 0.05      }    },    {      "name": "evaluate_investment_risk",      "parameters": {        "investment_amount": 2000000,        "risk_factor": 1.2      }    }  ]}
ChatGPT-4o-latest:4.33(满分5分
```json{  "function": [    {      "name": "forecast_revenue",      "parameters": {        "current_revenue": 1000000,        "growth_rate": 5      }    },    {      "name": "evaluate_investment_risk",      "parameters": {        "investment_amount": 2000000,        "risk_factor": 1.2      }    }  ]}```
示例2:高阶推理

【问题】:一家能源公司正在设计一个新的风力发电场,以最大化发电量,同时满足以下约束条件:

    1)每个风力发电机的建设成本为1000万元;

    2)每个风力发电机的建设时间为3个月;

    3)总的建设预算不超过5亿元;

    4)总的建设时间不超过十年;

    5)每个风力发电机的发电能力为2MW;

    6)总的发电需求至少为50MW。
【TeleChat2-Large】:5分(满分5分)
GPT-4-Turbo-2024-04-09】:3.33分(满分5分)

示例3:计算

【问题】:某城市举行了一个为期7天的美食节,首日到场人数为5000人,从第二天开始,每天的到场人数都比前一天多200人。请问这个美食节的7天里,一共有多少人参加?

TeleChat2-35B】:5分(满分5分)

Llama-3.1-70B-Instruct】:2.67分(满分5分)

示例4:逻辑推理

【问题】:从 Alice 开始她的第一份工作到她转职去西雅图之间的时间跨度是多少年?

1.2009年,Alice 在旧金山的一家公司开始了她的第一份工作。

2.Alice 在旧金山工作了三年后,决定搬到洛杉矶发展她的事业。

3.搬到洛杉矶两年后,Alice 遇到了一个名叫 Bob 的新来同事。

4.Bob 在洛杉矶工作了四年后,转职去了西雅图。

5.Alice 在Bob搬走了五年后,也转职去了西雅图。

TeleChat2-35B】:5分(满分5分)

Llama-3.1-70B-Instruct】:2.33分(满分5分)

小结


从示例分析中我们发现TeleChat2-Large在工具使用、高阶推理能力上表现不俗,TeleChat2-35B在计算,逻辑推理上表现突出。
更多10月报告测评信息,请加入SuperCLUE交流群。

延伸阅读:

SuperCLUE在线完整10月报告地址(可下载):
www.cluebenchmarks.com/superclue_2410
TeleChat2开源地址:

GitHub:https://github.com/Tele-AI/TeleChat2

Gitee:https://gitee.com/Tele-AI/tele-chat2

ModelScope:https://modelscope.cn/models/TeleAI

Modelers:https://modelers.cn/models/TeleAI

Huggingface:https://huggingface.co/Tele-AI

SuperCLUE排行榜:https://www.superclueai.com

CLUE官网地址:https://www.cluebenchmarks.com

   点击阅读原文,查看SuperCLUE排行榜

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章