科大讯飞大模型竞速2年多，答卷不只是语音

科技 2024-11-04 15:13 辽宁

作者 | 褚杏娟

从 2022 年 12 月启动“1+N”大模型技术攻关至今，科大讯飞已经在这个领域探索了两年多的时间。作为将大模型融入自身业务的典型，讯飞在大模型探索上是围绕业务“选择性答题”：不是要拿全领域第一名，但业务涉及的方向必须领先。

科大讯飞也取得了不错的成绩：根据真实数据背靠背的测试，讯飞星火 4.0 Turbo 七大核心能力全面超过 GPT-4 Turbo，数学和代码能力超越 GPT-4o；首发 11 项基于讯飞星火底座能力的技术和产品应用等。这也体现在了财报上，今年前三季度，科大讯飞实现收入 148.5 亿，同比增长 17.73%；毛利 60.07 亿，同比增长 18.17%。

面对市场的不断变化，科大讯飞必须学会做对的选择。那么，科大讯飞如何选择研发方向？具体都有哪些思考？科大讯飞研究院院长刘聪在近日接受 InfoQ 采访中，从不同的角度讲述了讯飞的发展经验以及自己的思考。

必答题：大模型推理

OpenAI 今年推出了对业界影响重大的三个模型：Sora、GPT-4o 和 o1，分别代表了当前视频生成、语音交互和推理的顶尖技术能力，这些也是国内企业正在竞相追赶的赛道，不过各家各有特长。

对于一个将大模型融入自身业务的典型，Sora 类技术并不符合讯飞当前业务需求，而 GPT-4o 和 o1 两个模型的技术路线，对其来说却是意义重大。

GPT-4o 代表的多模交互能力一直是讯飞专注的技术能力之一，多模态交互形式的出现也影响到了之前交互性并不强的领域，而 o1 的重要意义在于更复杂问题的解决上。

“我们初步判断 o1 这条路线有可能改善，虽然它没有公布任何技术细节，但它有可能提升推理过程，使其不再那么依赖大量的数据和精细设定的推理路径。如果实现了这样的改进，将对解决复杂问题大有裨益。”刘聪说道。

语言推理需要将思维链标识得非常细致，这种情况下推理过程非常依赖数据，甚至依赖设定的推理路径，否则成本会很高。过去人工标注的数据很贵，无法覆盖足够多的场景。但 o1 带来的启发是，只要答案存在于数据中，系统就能够自动操作、自发生成推理链，并在广阔的思维空间中寻找合理的解决方案。这意味着系统将采用以结果为导向的奖励机制来自动生成所需的推理链。

“这是我们未来要做的第一件事。”刘聪表示，它的意义不仅仅是自动生成思维链。“o1 甚至还有可能探索出一些与人类传统思维不同的新路径。”

刘聪表示，讯飞在推理方面主要关注两类问题：一是以数学为代表的学科类问题，如大学级别、奥数级别的问题；二是学科类中具有一定严格逻辑的大概率事件，比如医疗领域。后者则更为关键。据悉，讯飞今年年底实现类 o1 的高难度数学能力显著提升。

“推理能力的建设对讯飞大模型来说是必须重点投入的。”刘聪也说道，“算力对于讯飞来说还是非常重要的。”

去年，讯飞和华为一起建立了首个全国产万卡算力平台飞星一号。此前，Meta 发布的 92 页超长 Llama 3.1 论文中暴露，H100 万卡集群在 Llama3.1 训练平均 3 小时出现一次故障，这表明有卡可用只是第一步，对万卡集群的维护是下个重点。这一年以来，讯飞解决了 500 多次基础软硬件问题，模型训练适配优化平台耗时从 90 天缩减到 15 天，新增 30 多项框架和平台特性，优化了 150 多个基础、通信和融合算子。

今年，科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动，向更大规模算力集群跃迁。

规模越大，挑战也越大。这时的技术团队不仅需要深入理解核心技术，还要在有限的资源下完成许多工作，包括构建通用的平台和实现产品的落地。同时，系统化的工程能力也非常重要，需要有架构性的能力来支持算法。“这两点对于推动国产算力的发展至关重要，缺一不可。”

当前，算力市场正在面临供需变化的情况。现在的算力建设越来越多，包括国产化算力的建设等各种渠道的算力供应逐渐增多，这对算力价格也产生了影响。同时，需求市场已经不如之前强劲，已经有企业被曝不做预训练模型开发，意味着之前的投入有了很多重复和浪费。

“不同的公司最后都要回到：技术进步能否支持行业场景的落地并产生商业闭环价值，这种商业闭环价值是否能帮助我们找到最重要的关键点，实现正循环。”刘聪说道。

业务题：数字人

数字人赛道，对于讯飞来说则是商业模式相关的选择。

讯飞大概是在 2018 年开始决定要做数字人，当时的设想场景比如给讯飞智作配备数字人并给它一些图片和文案，它就可以帮助做类似商品广告的事情，数字人是有一定的业务需求在的。

但在今年 10 月 24 日，讯飞首次发布自己的超拟人数字人。数字人是一个比较综合的方向，涉及建模、驱动、合成等技术，而数字人的智能程度则取决于大模型的情感对话能力、多模态交互能力等。

业内有 2D 数字人、3D 数字人等不同方向的探索，区别于短视频行业的数字人用于制作离线视频，讯飞基于自身业务会更加关注数字人的实时可交互性。

2D 的优势是更像真人，但如果做不好就会陷入恐怖谷效应，显得很不自然。讯飞最初就关注了数字人唇形和牙齿的问题，后期再结合上语音，通过技术将这些元素串连起来。

这些尝试，让刘聪对“超拟人”或“数字人”的概念有了更加清晰的认知。他认为，数字人首先必须具备实时交互能力，尤其在复杂和高精度的情境下非常关键。刘聪的经验是：算法本身决定了结果，如果算法不行，再怎么工程化也难以保证效果。

“我们将交互视作一个持续性的过程。这个过程中，所有元素都是连续的、相互关联并共同生成的。结合扩散技术和其他的方法，我们可以使表情变得更加丰富多样、更好地实现语义贯穿的“口唇 - 表情 - 动作”的超拟人数字人生成。”刘聪说道。“另外，过去做数字人只能预设一些固定动作，现在通过动作驱动技术可以实现更加自然和灵活的动作。这种技术的应用使得交互体验更加真实和生动。”

“数字人这个事情，大家也在摸索到底它能发挥什么样的实用。”刘聪说道，“坦白说，我们只能通过最终呈现效果进行评价，比如对比同一句话、输入给别人回答，观察它的效果和响应时间。”

“使命”题：AI for Science

今年的诺贝尔物理学奖、化学奖、经济学奖都颁发给了 AI 领域的科学家。这一定程度上带动了业内对 AI for Science 的关注。

科大讯飞已在“大模型 + 科研”领域做了许多探索，如联合中国科学技术大学刘海燕教授团队，AI 助力成功设计了 48 个自然界不存在的全新蛋白质；联合中科院动物研究所李鑫团队，研究单细胞基因表达课题；联合中科院等离子体物理研究所李建刚院士团队，研究托卡马克等离子体控制等。

“AI for Science 决定了中国科技发展的速度，赋能科研是讯飞星火的重要使命”刘庆峰说道。根据刘聪的介绍，AI for Science 赋能科研可以分为三个阶段：

第一阶段，基础科研和基础工作的提效。这个阶段，没有具体的 AI for Science 科研任务。比如讯飞去年发布的科技文献大模型和星火科研助手更多是对已有论文的内容进行研究，比如搜索相关论文并写篇综述、论文辅助写作与修改等。
第二阶段，科学任务建模。这一阶段的 AI for Science 只在某些场景使用。当模型变大后，使用新的算法会让任务完成得更好，比如讯飞与中科大刘海燕教授团队、李建刚院士团队及李鑫团队等的合作都是处于这一阶段。
第三阶段，科研方案的辅助设计。这个阶段会将前面两个阶段结合在一起，比如化学领域，论文多、实验配置也多，这时不仅可以让 AI 回答推演中的问题，还可以输入问题进行回答，并基于回答设计一个新的实验等。“当大模型底座能力逐步增强后，降低了对专业领域数据的要求，甚至探索出生成新数据、拓展新场景都是很有可能的。”刘聪说道，

在与科研机构合作过程中，刘聪最大的感受是，双方都要真正了解自己的工作，不仅要会用，还要了解如果不够好用时如何改进。科研人员需要向讯飞研发提出具体的 AI 需求，讯飞研发人员则需要了解 AI for Science 的问题到底是什么。

“这是一个双向奔赴的过程。企业与科研机构的合作都是互相学习，其中定义问题非常关键。”刘聪表示，“不能简单地把 AI 当成工具。”

结束语

无论大模型硬实力、业务需求，还是给自己的责任，这是每个大模型落地企业都需要考虑的问题，科大讯飞给出了自己当前的回答。“解放生产力、释放想象力”是科大讯飞提出的口号，但目前整个行业都在想办法在“生产力”上下功夫，科大讯飞要做的答卷还很多。

会议推荐

2024 年收官之作：12 月 13 日 -14 日，AICon 全球人工智能开发与应用大会将在北京举办。从 RAG、Agent、多模态模型、AI Native 开发、具身智能，到 AI 智驾、性能优化与资源统筹等大热的 AI 大模型话题，60+ 资深专家共聚一堂，深度剖析相关落地实践案例，共话前沿技术趋势。大会火热报名中，详情可联系票务经理 13269078023 咨询。

今日荐文

姜萍阿里数学竞赛系老师提供帮助，学校老师被处分；英伟达取代英特尔被纳入道指；一个App实现人猪沟通 | AI周报

走近宋柔教授：78岁仍在科研前线，在语言学高校里做AI的计算语言学家

一键取代谷歌成默认搜索引擎！ChatGPT搜索功能深夜炸场，奥特曼加速将谷歌逼向死亡

纯 AI 厂商早过时了！Runway CEO “手撕”大模型厂商标签，招兵买马开始转型

中国存储厂，杀入顶分桌

你也「在看」吗？👇

http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247626576&idx=2&sn=0167626204ee1ffebaf89dfeb97eade0

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

最新文章

仅4个多月RAG就进化到“一个新时代”了：成本降低到GraphRAG的0.1%

两位清华大牛联手带出的明星企业，摘得Robotaxi第一股，市值超360亿！

科技巨头重磅发力的 AI Agent，给了谁新出路？| 直播预约

泄露的 Sora 效果炸裂，还一次成型！OpenAI 白嫖丑闻闹大了，吃瓜网友看到了进化版模型

大模型让我们成了“提词狂魔”，未来开发者核心竞争力在哪里？

全员停发工资、高管跑路：被小米看上的智驾明星 IPO 三度败北，前员工吐槽“越做越赔钱”

Anthropic 工程师关于提示词工程的深入探讨

AI 杀死了程序员培训班：花 1.3 万美元学编程，却连面试机会都没有？

AI产品如何找到破局之道？秘塔 COO、B 站“王一快”在 AICon 带来答案！

孙宇晨花 624 万美元拍下一根香蕉；黄仁勋荣获港科大荣誉博士；70 多辆小米 SU7 自动泊车撞墙、撞柱 |AI周报

谷歌 AlphaChip 论文再被质疑，DeepMind 驳斥都没做预训练，顺带还揪出了“内鬼”？

强制销毁员工聊天记录！谷歌15年打造“隐瞒文化”：不要保留任何可能让我们难堪的东西！

Pokémon Go 公司构建大型地理空间模型，玩家不知不觉贡献了训练数据

ChatGPT 干掉了一家上市公司！千亿市值归零、10 多年 CEO 被迫离职，付费用户直呼上当

Mooncake 分离式推理架构创新与实践

营收翻倍、Blackwell芯片爆单，黄仁勋否认 Scaling Law 失效，但英伟达财报后股价还是跌了

“为什么说大模型可能是软件开发的死胡同？”

最大的 AI Agent 生态系统来了！微软推出适配 1800 种大模型的智能体，迈入自己的 Agent 时代

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

粉丝福利 | 11 月 23 日，来一场边玩边赚钱的Party！

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

Scaling Law，撞墙了吗？| 直播预告

全球超万亿使用量的热门数据库，首次被大模型揪出了严重漏洞

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

网易CodeWave：当低代码+AIGC 进入深水区，我们如何继续发展？

AI周报 | 月之暗面杨植麟回应近期争议；马斯克或遭调查，理由是“通俄”；小米汽车校招待遇曝光，一年可达 18 薪

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

马斯克“当官”，硅谷大佬抢破头进 DOGE：零报酬、每周工作 80 个小时，录取率不到 1%

钉钉公布商业化核心进展：上半财年ARR远超2亿美元，6大新AI助理现已免费开放

Anthropic创始人访谈：不是因为Altman 与微软合作而离开OpenAI、Scaling Law不会撞墙、未来招聘将放缓

我们为什么不遗余力地举办 AICon？

助推“超级有用”的应用爆发，百度把开发门槛打下去了

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

AI 商业化落地难？百度“杀”出新增长

Mojo 作者 Chris Lattner：Mojo 不仅仅是一种 AI 语言

挨骂 6 个月后，DeepMind 急了：诺奖模型 AlphaFold 3 代码全网免费送，Nature 也发文力荐！

应用突破还是炫技噱头：大模型能否真正驱动行业升级？

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

过去一年我开发 AI 视频编辑器的收获

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线测试

AI周报 | 字节弱化等级：不提倡称哥姐、隐掉职级性别；雷军或推小米驾校，1999元包训漂移？携程CEO：缩短工作时间或提高生育

著名 AI 学者、天工智能首席科学家颜水成离开昆仑万维，去年 9 月入职

微软将斥巨资 700 多亿元，从 AI 初创公司 CoreWeave 租用服务器

6 年 OpenAI 高管揭秘：我为什么离开 OpenAI 及这个公司现在怎样了？

腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

谷歌版贾维斯意外泄露！自主上网购物填表不在话下，“钢铁侠 ”成真指日可待？

122 天打造的奇迹：深入探访 xAI 的 10 万块 GPU 超级 AI 计算机集群

Netflix 弃用人类游戏开发转向 AI，游戏大厂不敢跟风！Netflix 高管：这是“千载难逢”的机遇

用 AI 赋能会议耳机，未来智能要做打工人的嘴替脑替

甲骨文吴承杨：生成式 AI 难以落地，缺少以 AI 为中心的应用开发架构是关键

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉