近日,SuperCLUE作为国内权威通用大模型综合性测评基准机构,发布了最新《中文大模型基准测评2024年10月报告》(简称:《报告》)。《报告》显示,由中国电信打造的星辰语义大模型TeleChat2,凭借出色表现,综合能力位列大模型第一梯队。在理科工具调用维度上,TeleChat2排名前二;在Agent智能体总榜上,排名并列第二。这充分展现TeleChat2在技术上的领先优势,也彰显了中国电信在大模型研发领域的深厚实力。
数据来源:SuperCLUE
TeleChat2-35B以更小参数量和更佳效果获得开源模型排行榜铜牌,综合效果超过Llama-3.1-70B-Instruc和Llama-3.2-90B-Instruct等较大参数模型。
数据来源:SuperCLUE
星辰语义大模型由中国电信创新研发并不断迭代突破,TeleChat2系列是依托星辰语义大模型TeleChat推出的第二代版本。今年9月,中国电信人工智能研究院(TeleAI)正式发布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——TeleChat2-115B。近日,TeleAI团队进一步开源了TeleChat2-3B、7B和35B,以适配不同场景的应用需求,构建了全尺寸大模型的开源布局。
超强工具使用
《报告》涵盖43个国内外具有代表性的大模型,采用多维度、多层次的综合性测评方案,由理科、文科和Hard任务三大维度构成,测评题目超2900道。在理科任务方面,TeleChat2展现了极强的函数调用能力,在工具调用维度排名前二;在文科任务方面,TeleChat2在语言理解、长文本等维度表现突出;在Hard任务方面,TeleChat2在指令遵循维度表现优异,展现出优秀的复杂推理能力。
为提高大模型性能,TeleAI团队在数据维度和后训练阶段进行优化。在数学能力方面,通过抽取知识点合成问答数据,并结合训练奖励模型(Reward Model)筛选出高质量数据;在代码能力方面,抽取高质量代码函数合成功能实现代码,并通过单元测试确保代码质量;在指令遵循能力方面,利用指令进化构建大量数据并进行脚本校验,从而大幅提升模型效果。在后训练阶段,TeleAI团队通过模型微调、权重融合和直接偏好优化等手段进一步优化效果;在微调阶段,使用指令跟随难度和拒绝采样微调等技术筛选数据,并迭代更新模型;在权重融合阶段,结合多个模型的优势获得新权重;在直接偏好优化阶段,专注于中等难度问题,迭代补齐模型能力。
此外,TeleChat2系列模型还完成了Agent能力建设,重点加强了模型在指令跟随、任务拆解、工具调用等方面的能力和表现。在SuperCLUE Agent总榜中,TeleChat2排名并列第二。
数据来源:SuperCLUE
TeleAI团队构建了基于图结构和多智能体(Mutlti Agent)的框架,通过细分工具场景,创建详细的依赖关系图,从而提升训练数据的真实性和复杂度。此外,团队还将工具调用能力分为多个阶段,为每个阶段设计多样化的训练数据,使模型效果提升约15%。
全尺寸开源布局
TeleAI团队通过开源促进大模型技术创新和国产化进程,并为产业持续输送领先的技术能力,加速应用落地。上半年,TeleAI团队已陆续开源了1B、7B、12B和52B参数的第一代TeleChat系列模型。最近,TeleChat2系列也已完成3B、7B、35B和115B模型的开源,逐步构建全尺寸开源布局,吸引了国内外广大开发者的讨论和使用。
荣誉证书
凭借卓越的性能和对开源生态的贡献,星辰语义大模型在Gitee开源社区获得了“GVP-Gitee最有价值开源项目”的称号。此前,星辰大模型还被中国信息通信研究院授予“可信开源大模型成熟度能力”认证和“2024年度央国企开源项目典型案例”称号。不仅展现了对星辰大模型技术的认可,也体现了在推动国内开源生态建设方面的重要作用。
TeleChat2系列模型凭借不同的参数配置和弹性的架构设计,可灵活适配于不同应用场景、资源配置、延时条件及响应速度的多样化需求。目前,星辰语义大模型系列已在政务服务、智慧教育、经营分析、公文写作等领域实现广泛的应用落地。
在政务场景,星辰语义大模型应用于智能知识库、受理助手、分类助手、客服机器人、语音坐席助手等方面,有效提升政务工作效率;在教育领域,星辰语义大模型成功应用于教育听力机,辅助学生进行英语口语对话练习、中英文写作、中文诗歌创作等方面,提升学生的学习兴趣、增强个性化体验;在智慧办公场景,基于星辰语义大模型的超强语义理解和总结能力,“星辰慧记一站式会议助手”能够一键提炼会议纪要,实现会后总结立即生成,推动企业高效、智能发展。
在本次参选的43家大模型企业中,TeleAI是唯一的央企大模型机构,彰显了其在技术创新与自主可控方面的领先地位。未来,TeleAl将继续深耕前沿技术探索,坚持基础大模型的持续研发与投入,打造全球领先的大模型底座和基础能力。
编辑 | 黄亚洁
审核 | 中国电信集团科协运营团队
来源 | 中国电信今日头条号