科大讯飞大模型竞速2年多，答卷不只是语音

科技 2024-11-05 13:25 北京

作者 | 褚杏娟

从 2022 年 12 月启动“1+N”大模型技术攻关至今，科大讯飞已经在这个领域探索了两年多的时间。作为将大模型融入自身业务的典型，讯飞在大模型探索上是围绕业务“选择性答题”：不是要拿全领域第一名，但业务涉及的方向必须领先。

科大讯飞也取得了不错的成绩：根据真实数据背靠背的测试，讯飞星火 4.0 Turbo 七大核心能力全面超过 GPT-4 Turbo，数学和代码能力超越 GPT-4o；首发 11 项基于讯飞星火底座能力的技术和产品应用等。这也体现在了财报上，今年前三季度，科大讯飞实现收入 148.5 亿，同比增长 17.73%；毛利 60.07 亿，同比增长 18.17%。

面对市场的不断变化，科大讯飞必须学会做对的选择。那么，科大讯飞如何选择研发方向？具体都有哪些思考？科大讯飞研究院院长刘聪在近日接受 InfoQ 采访中，从不同的角度讲述了讯飞的发展经验以及自己的思考。

必答题：大模型推理

OpenAI 今年推出了对业界影响重大的三个模型：Sora、GPT-4o 和 o1，分别代表了当前视频生成、语音交互和推理的顶尖技术能力，这些也是国内企业正在竞相追赶的赛道，不过各家各有特长。

对于一个将大模型融入自身业务的典型，Sora 类技术并不符合讯飞当前业务需求，而 GPT-4o 和 o1 两个模型的技术路线，对其来说却是意义重大。

GPT-4o 代表的多模交互能力一直是讯飞专注的技术能力之一，多模态交互形式的出现也影响到了之前交互性并不强的领域，而 o1 的重要意义在于更复杂问题的解决上。

“我们初步判断 o1 这条路线有可能改善，虽然它没有公布任何技术细节，但它有可能提升推理过程，使其不再那么依赖大量的数据和精细设定的推理路径。如果实现了这样的改进，将对解决复杂问题大有裨益。”刘聪说道。

语言推理需要将思维链标识得非常细致，这种情况下推理过程非常依赖数据，甚至依赖设定的推理路径，否则成本会很高。过去人工标注的数据很贵，无法覆盖足够多的场景。但 o1 带来的启发是，只要答案存在于数据中，系统就能够自动操作、自发生成推理链，并在广阔的思维空间中寻找合理的解决方案。这意味着系统将采用以结果为导向的奖励机制来自动生成所需的推理链。

“这是我们未来要做的第一件事。”刘聪表示，它的意义不仅仅是自动生成思维链。“o1 甚至还有可能探索出一些与人类传统思维不同的新路径。”

刘聪表示，讯飞在推理方面主要关注两类问题：一是以数学为代表的学科类问题，如大学级别、奥数级别的问题；二是学科类中具有一定严格逻辑的大概率事件，比如医疗领域。后者则更为关键。据悉，讯飞今年年底实现类 o1 的高难度数学能力显著提升。

“推理能力的建设对讯飞大模型来说是必须重点投入的。”刘聪也说道，“算力对于讯飞来说还是非常重要的。”

去年，讯飞和华为一起建立了首个全国产万卡算力平台飞星一号。此前，Meta 发布的 92 页超长 Llama 3.1 论文中暴露，H100 万卡集群在 Llama3.1 训练平均 3 小时出现一次故障，这表明有卡可用只是第一步，对万卡集群的维护是下个重点。这一年以来，讯飞解决了 500 多次基础软硬件问题，模型训练适配优化平台耗时从 90 天缩减到 15 天，新增 30 多项框架和平台特性，优化了 150 多个基础、通信和融合算子。

今年，科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动，向更大规模算力集群跃迁。

规模越大，挑战也越大。这时的技术团队不仅需要深入理解核心技术，还要在有限的资源下完成许多工作，包括构建通用的平台和实现产品的落地。同时，系统化的工程能力也非常重要，需要有架构性的能力来支持算法。“这两点对于推动国产算力的发展至关重要，缺一不可。”

当前，算力市场正在面临供需变化的情况。现在的算力建设越来越多，包括国产化算力的建设等各种渠道的算力供应逐渐增多，这对算力价格也产生了影响。同时，需求市场已经不如之前强劲，已经有企业被曝不做预训练模型开发，意味着之前的投入有了很多重复和浪费。

“不同的公司最后都要回到：技术进步能否支持行业场景的落地并产生商业闭环价值，这种商业闭环价值是否能帮助我们找到最重要的关键点，实现正循环。”刘聪说道。

业务题：数字人

数字人赛道，对于讯飞来说则是商业模式相关的选择。

讯飞大概是在 2018 年开始决定要做数字人，当时的设想场景比如给讯飞智作配备数字人并给它一些图片和文案，它就可以帮助做类似商品广告的事情，数字人是有一定的业务需求在的。

但在今年 10 月 24 日，讯飞首次发布自己的超拟人数字人。数字人是一个比较综合的方向，涉及建模、驱动、合成等技术，而数字人的智能程度则取决于大模型的情感对话能力、多模态交互能力等。

业内有 2D 数字人、3D 数字人等不同方向的探索，区别于短视频行业的数字人用于制作离线视频，讯飞基于自身业务会更加关注数字人的实时可交互性。

2D 的优势是更像真人，但如果做不好就会陷入恐怖谷效应，显得很不自然。讯飞最初就关注了数字人唇形和牙齿的问题，后期再结合上语音，通过技术将这些元素串连起来。

这些尝试，让刘聪对“超拟人”或“数字人”的概念有了更加清晰的认知。他认为，数字人首先必须具备实时交互能力，尤其在复杂和高精度的情境下非常关键。刘聪的经验是：算法本身决定了结果，如果算法不行，再怎么工程化也难以保证效果。

“我们将交互视作一个持续性的过程。这个过程中，所有元素都是连续的、相互关联并共同生成的。结合扩散技术和其他的方法，我们可以使表情变得更加丰富多样、更好地实现语义贯穿的“口唇 - 表情 - 动作”的超拟人数字人生成。”刘聪说道。“另外，过去做数字人只能预设一些固定动作，现在通过动作驱动技术可以实现更加自然和灵活的动作。这种技术的应用使得交互体验更加真实和生动。”

“数字人这个事情，大家也在摸索到底它能发挥什么样的实用。”刘聪说道，“坦白说，我们只能通过最终呈现效果进行评价，比如对比同一句话、输入给别人回答，观察它的效果和响应时间。”

“使命”题：AI for Science

今年的诺贝尔物理学奖、化学奖、经济学奖都颁发给了 AI 领域的科学家。这一定程度上带动了业内对 AI for Science 的关注。

科大讯飞已在“大模型 + 科研”领域做了许多探索，如联合中国科学技术大学刘海燕教授团队，AI 助力成功设计了 48 个自然界不存在的全新蛋白质；联合中科院动物研究所李鑫团队，研究单细胞基因表达课题；联合中科院等离子体物理研究所李建刚院士团队，研究托卡马克等离子体控制等。

“AI for Science 决定了中国科技发展的速度，赋能科研是讯飞星火的重要使命”刘庆峰说道。根据刘聪的介绍，AI for Science 赋能科研可以分为三个阶段：

第一阶段，基础科研和基础工作的提效。这个阶段，没有具体的 AI for Science 科研任务。比如讯飞去年发布的科技文献大模型和星火科研助手更多是对已有论文的内容进行研究，比如搜索相关论文并写篇综述、论文辅助写作与修改等。
第二阶段，科学任务建模。这一阶段的 AI for Science 只在某些场景使用。当模型变大后，使用新的算法会让任务完成得更好，比如讯飞与中科大刘海燕教授团队、李建刚院士团队及李鑫团队等的合作都是处于这一阶段。
第三阶段，科研方案的辅助设计。这个阶段会将前面两个阶段结合在一起，比如化学领域，论文多、实验配置也多，这时不仅可以让 AI 回答推演中的问题，还可以输入问题进行回答，并基于回答设计一个新的实验等。“当大模型底座能力逐步增强后，降低了对专业领域数据的要求，甚至探索出生成新数据、拓展新场景都是很有可能的。”刘聪说道，

在与科研机构合作过程中，刘聪最大的感受是，双方都要真正了解自己的工作，不仅要会用，还要了解如果不够好用时如何改进。科研人员需要向讯飞研发提出具体的 AI 需求，讯飞研发人员则需要了解 AI for Science 的问题到底是什么。

“这是一个双向奔赴的过程。企业与科研机构的合作都是互相学习，其中定义问题非常关键。”刘聪表示，“不能简单地把 AI 当成工具。”

结束语

无论大模型硬实力、业务需求，还是给自己的责任，这是每个大模型落地企业都需要考虑的问题，科大讯飞给出了自己当前的回答。“解放生产力、释放想象力”是科大讯飞提出的口号，但目前整个行业都在想办法在“生产力”上下功夫，科大讯飞要做的答卷还很多。

今日好文推荐

“前端”架构真的有必要存在吗？

C/C++ 大限将至？美政府给出最强硬要求：2026 年前关键软件必须开始全面去 C

受软件拖累，大众血亏155亿元：直接把奥迪、宾利、杜卡迪和兰博基尼等豪车利润抹平了

低级失误导致 Elasticsearch 仓库 404，7万多 star 一夜清空，网友：只是手滑了？！

活动推荐

2024 年收官之作：12 月 13 日 -14 日，AICon 全球人工智能开发与应用大会将在北京举办。从 RAG、Agent、多模态模型、AI Native 开发、具身智能，到 AI 智驾、性能优化与资源统筹等大热的 AI 大模型话题，60+ 资深专家共聚一堂，深度剖析相关落地实践案例，共话前沿技术趋势。大会火热报名中，详情可联系票务经理 13269078023 咨询。

http://mp.weixin.qq.com/s?__biz=MjM5MDE0Mjc4MA==&mid=2651224413&idx=3&sn=2b92decc663c07f82ee155b93941bfc0

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

Mooncake 分离式推理架构创新与实践

Scaling Law，撞墙了吗？| 直播预告

共话 AI 与出海新趋势，技术领袖探讨未来发展之道

Apache Tomcat 11.0提供了对虚拟线程和Jakarta EE 11的支持

Chrome 被强制出售？谷歌或将抛弃 ChromeOS 全面转向 Android 系统

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

StarRocks Summit 剧透 | 云原生与 AI 驱动，湖仓落地场景前瞻

ISO C++主席 Herb Sutter 离开微软，并宣布即将发布的 C++ 26 是自 C++11 以来最具影响力的版本

微软在 GitHub Universe 上为开发者推出 AI 增强工具

一朝成名，一夜破产！这家谷歌前高管创立的AI公司突然宣布倒闭，专家：这个行业不适合AI

OpenAI死对头、Claude掌舵人访谈：与Altman分道扬镳不是因为商业化、scaling law不会撞墙

QCon演讲实录 | 赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

极客游学·乌镇互联网大会站启航：共话 AI 与出海新趋势

优步借助 MyRocks 差异备份显著节省了存储成本

一场泰森拳王比赛就能让上云鼻祖宕机，员工：周末不想加班修bug

腾讯发布财报，员工平均月薪超9万！Kimi的瓜太多！杨植麟惨遭前投资人提起仲裁；特朗普如何“拯救”TikTok？| Q资讯

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

Cloudflare 使用 OpenTelemetry 彻底检修日志记录管道

别慌，Scaling Laws 的末日还早！“革新版”迅速出现，多位大牛都在叫好

是否应在 Kubernetes上运行Redis？快手这样做！

Safe C++提案能复制Rust的内存安全性吗？

Grab 通过 GPT-4、Glean 和 Slack 实施了利用 LLM 的转换数据发现

“天价”ERP项目导致欧洲最大政府破产：预算涨了10倍，上线半年8000多个错误，一年税收没正常过

B 站轻量级容灾演练体系构建与业务实践

儿歌点点携手火山引擎，共创儿童成长AI伙伴

好未来：多云环境下基于 JuiceFS 建设低运维模型仓库

阿里国际推出全球首个 B2B AI 搜索引擎 Accio

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

RAG在企业落地的难点与创新 | AICon

适应性响应方法可弹性处理软件运维中的难题

Expedia 将大型 Cassandra 集群迁移至 ScyllaDB，实现了零停机目标

微软“甩锅”神操作？服务器“安全更新”成“系统大换血”，企业懵了

应用突破还是炫技噱头：大模型能否真正驱动行业升级？

考完软考，人麻了…… | 极客时间

百度沈抖：AI 应用在 B 端率先爆发

F5 全新报告：AI 时代 API 安全面临严峻挑战

李彦宏：大模型幻觉基本消除，这是只靠想法就能赚钱时代

我们为什么不遗余力地举办 AICon？

大模型“杀死”前端？开发者如何与AI共舞 | Q推荐

生成式AI项目，数据管理的“坑”和“诀窍” | 直播预告

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线测试

一个周末重写所有代码，性能提升10倍！没有这个1000 倍工程师，就没有现在的谷歌地图

Meta元宇宙梦碎：5年烧光465亿美元，硬件高管跳槽，资本圈集体唱衰

QCon演讲实录 | 徐广治：边缘云原生操作系统的设计与思考

3000+面试题，17小时专家课：程序员的求职加速包 | 极客时间

Pinterest大幅提升时序数据库Goku存储效率和资源使用

Linus 大佬展现恐怖业务实力：只改动 21 行代码，Linux 性能狂升 2.6%

对话Steve Klabnik和Herb Sutter：Rust和C++

海柔仿真系统存储实践：混合云架构下实现高可用与极简运维

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉