本测评结果仅用于学术研究。
GitHub:https://github.com/Tele-AI/TeleChat2
Gitee:https://gitee.com/Tele-AI/tele-chat2
ModelScope:https://modelscope.cn/models/TeleAI
Modelers:https://modelers.cn/models/TeleAI
Huggingface:https://huggingface.co/Tele-AI
测评环境
评测模型:TeleChat2-Large(小范围内测API)、TeleChat2-35B(开源)
评测集:SuperCLUE综合性测评基准10月评测集,2900道多轮简答题,包括十二大任务。
模型GenerationConfig配置:
temperature=0.0
max_new_tokens=4096
do_sample=False
本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
结论3:TeleChat2-Large在工具使用、计算、长文本、语言理解等能力上处于国内领先位置;TeleChat2-35B在开源模型对比中,在指令遵循、工具使用、生成与创作等得分均排行前三。TeleChat2的代码能力还有一定提升空间。适用于Agent智能体、数理运算、文本生成与处理等应用场景。
TeleChat2总体表现
在SuperCLUE通用综合测评基准上,TeleChat2-Large取得66.23分,表现不俗,首次跻身国内大模型第一梯队;TeleChat2-35B在开源榜单上排行第三,表现突出,得分超过Llama-3.1-70B-Instruct。
TeleChat2在十二大基础能力上的表现
TeleChat2在十二大任务上较为均衡。其中,TeleChat2-Large在工具使用能力上得分87.11分,位列国内第二;在传统安全能力上取得79.38分,排名国内第三;在长文本能力上得分67.70分,排名国内前五;在代码能力上还有一定优化空间。
来源:SuperCLUE, 2024年11月8日
将TeleChat2-Large和GPT系列模型对比,TeleChat2-Large表现好于GPT-4o-mini,与ChatGPT-4o-latest相差4.62分,与o1-preview差9.63分,但在工具使用上领先o1-preview(7.16分),在传统安全上领先3.49分。
将TeleChat2与国内大模型平均得分对比,我们可以发现,TeleChat2-Large在各项能力上均高于平均线,展现出较均衡的综合能力;TeleChat2-35B在高阶推理上低于国内大模型平均分2.03分,其余也均领先。TeleChat2在工具使用能力上远高出平均线10分以上,TeleChat2-Large在计算上高于国内大模型平均分8分以上。
来源:SuperCLUE, 2024年11月8日;模型在每道题上的得分与GPT4-Turbo-0409相比计算差值,得到胜(差值大于0.25分)、平(差值在-0.25~+0.25分之间)、负(差值低于-0.25)。
我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率,可以发现TeleChat2-Large的胜率为25.78%,TeleChat2-35B的胜率为22.26%,TeleChat2的胜和率均在70%左右。
小结:
2 定性分析
示例1:工具使用
【问题】:本题为function-call能力测试。
{
"function": [
{
"name": "forecast_revenue",
"description": "预测收入",
"parameters": {
"type": "object",
"properties": {
"current_revenue": {
"type": "number",
"description": "当前收入(元)"
},
"growth_rate": {
"type": "number",
"description": "年增长率"
}
},
"required": ["current_revenue", "growth_rate"]
}
},
{
"name": "calculate_operating_cost",
"description": "计算运营成本",
"parameters": {
"type": "object",
"properties": {
"fixed_cost": {
"type": "number",
"description": "固定成本(元)"
},
"variable_cost": {
"type": "number",
"description": "可变成本(元)"
}
},
"required": ["fixed_cost", "variable_cost"]
}
},
{
"name": "evaluate_investment_risk",
"description": "评估投资风险",
"parameters": {
"type": "object",
"properties": {
"investment_amount": {
"type": "number",
"description": "投资金额(元)"
},
"risk_factor": {
"type": "number",
"description": "风险系数"
}
},
"required": ["investment_amount", "risk_factor"]
}
},
{
"name": "calculate_tax_liability",
"description": "计算税务负担",
"parameters": {
"type": "object",
"properties": {
"taxable_income": {
"type": "number",
"description": "应税收入(元)"
},
"tax_rate": {
"type": "number",
"description": "税率"
}
},
"required": ["taxable_income", "tax_rate"]
}
}
]
}
【TeleChat2-Large】:5分(满分5分)
{
"function": [
{
"name": "forecast_revenue",
"parameters": {
"current_revenue": 1000000,
"growth_rate": 0.05
}
},
{
"name": "evaluate_investment_risk",
"parameters": {
"investment_amount": 2000000,
"risk_factor": 1.2
}
}
]
}
```json
{
"function": [
{
"name": "forecast_revenue",
"parameters": {
"current_revenue": 1000000,
"growth_rate": 5
}
},
{
"name": "evaluate_investment_risk",
"parameters": {
"investment_amount": 2000000,
"risk_factor": 1.2
}
}
]
}
```
【问题】:一家能源公司正在设计一个新的风力发电场,以最大化发电量,同时满足以下约束条件:
1)每个风力发电机的建设成本为1000万元;
2)每个风力发电机的建设时间为3个月;
3)总的建设预算不超过5亿元;
4)总的建设时间不超过十年;
5)每个风力发电机的发电能力为2MW;
示例3:计算
【问题】:某城市举行了一个为期7天的美食节,首日到场人数为5000人,从第二天开始,每天的到场人数都比前一天多200人。请问这个美食节的7天里,一共有多少人参加?
【Llama-3.1-70B-Instruct】:2.67分(满分5分)
【问题】:从 Alice 开始她的第一份工作到她转职去西雅图之间的时间跨度是多少年?
1.2009年,Alice 在旧金山的一家公司开始了她的第一份工作。
2.Alice 在旧金山工作了三年后,决定搬到洛杉矶发展她的事业。
3.搬到洛杉矶两年后,Alice 遇到了一个名叫 Bob 的新来同事。
4.Bob 在洛杉矶工作了四年后,转职去了西雅图。
【TeleChat2-35B】:5分(满分5分)
【Llama-3.1-70B-Instruct】:2.33分(满分5分)
小结:
延伸阅读:
GitHub:https://github.com/Tele-AI/TeleChat2
Gitee:https://gitee.com/Tele-AI/tele-chat2
ModelScope:https://modelscope.cn/models/TeleAI
Modelers:https://modelers.cn/models/TeleAI
Huggingface:https://huggingface.co/Tele-AI
SuperCLUE排行榜:https://www.superclueai.com
CLUE官网地址:https://www.cluebenchmarks.com