实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

科技 2024-11-20 12:20 北京

机器之心原创

编辑：杜伟、大盘鸡

算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

不过，由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难，因此这个赛道的玩家并不多。可以看到，目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今，这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能，并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能，并于近日支持 iOS 用户与该语音助手交流。

与此同时，国内一些厂商陆续推出了类似的实时语音对话大模型及应用，比如智谱、科大讯飞等，填补了一些空白。如今，这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手。

声音听起来还不错吧！Skyo 内置了非常清亮、爽朗的男声。

Skyo 基于背后的天工大模型 4.0 4o 版（Skywork 4o）打造。从名称上看，Skyo 中的「o」同样代表了 omni 的意思，并落在语音对话场景，直接对标了 GPT-4o。从定位和功能上看，作为一个智能语音互动产品，Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。

可以说，用户想要在 AI 语音对话中体验的场景和功能，Skyo 基本上都能 hold，还针对当前 AI 语音助手存在的一些痛点进行了优化。

实时对话 AI

一要准、二要快

与传统语音助手的主要区别在于，基于大模型开发的 AI 实时语音对话助手能够应对更复杂的语境、执行更个性化的任务，并开始从「工具」的属性过渡到「人类伴侣」。

自 GPT-4o 之后，语音交互场景的 AI 具备了前所未有的感知能力，在更智能化、更多面手之外，不仅响应延迟明显降低了，还能准确读懂用户的情感语调，如兴奋、高兴或悲伤，并以逼真的方式模仿和回应。

不过，随着更多用户体验到 GPT-4o 语音功能，它的一些缺点陆续显露了出来，比如不擅长识别自然停顿、无法准确响应要求的话题等。

同样地，此后出现的一系列对标 GPT-4o 的产品，如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等，虽然都宣称要打造自然流畅的 AI 对话，但从用户反馈来看，依然存在着一些直接影响对话体验的短板，比如可用性差、中断频繁和延迟严重等。

当然，面对 AI 实时语音对话助手的常见通病，Skyo 也需要尽力去克服。究竟效果怎么样呢？我们还是得看它的现场表现。

一手实测

会念诗、还拿捏住了拟人化

在与 Skyo 来了场面对面的交谈后，我们收获了一些小惊喜。

首先，我们来咨询 Skyo 一些健康常识问题，他回答的比较合理、全面，也有侧重性。当中，我们在他没有回答完上个问题的时候，就开始了下个问题，他衔接得挺好。这说明了 Skyo 能够轻松应对用户打断场景，并在两个问题之间顺滑地切换。

我们还发现，Skyo 的回答中出现了类似于人类日常交谈中常用到的「呃」，这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰，会出现「哎呀」等感叹词，拟人化属性很强。

其次，情感化反应已经成为现阶段语音交互 AI 追求的主要目标之一，在对话中要有能力识别出用户的情绪波动并给予准确的反馈。

Skyo 在这方面做得也不错，他能够理解用户情绪，并使对话更具人性化。当我们跟他说一些烦心事时，他会安慰我们，情绪价值给得很足，还给出了一些建议。

我们接着让 Skyo 讲个小笑话，结果「冷翻了全场」。

既然他不擅长讲笑话，那就换个最近网络上的热门话题，问他知不知道小米雷军在汽车工厂摆拍，看起来他对这件趣事挺门清的。

再让 Skyo 对最近李子柒的回归做一个评价，从结果来看，他的语言组织和总结能力还是不错的。如果放在现实世界中，他写作文应该是把好手。

这同时也意味着 Skyo 具备了一定的实时资讯获知和知识拓展能力，借助外部知识库来强化自己。

最后，让 Skyo 切换成英姿飒爽的女声，并让她念了一首诗。她第一时间选择了李白的《静夜思》，看样子是有点浪漫基因在身上的。

再以男声朗诵徐志摩的《再别康桥》，感情充沛，节奏把握得也很好。

这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产 AI 聊天搭子，如何炼成的呢？

以上 Skyo 各项能力的实现要归功于其采用了先进的端到端实时语音建模技术，其中框架链路自研并保持业界领先。这样一来，在高精度理解用户语音输入内容（即听得准）的基础上，做出比较快速的响应（即答得快），响应时间一般在 1 秒左右。

另外，得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发，Skyo 还能够在高强度对话中保持稳定性和流畅性，并在情绪表达、实时交互等方面更加契合用户需求。

不过，我们也得承认，现阶段 Skyo 的功能并不完善，在回复的过程中偶尔也会出现声音的扭曲失真，但这都是进化路上所要经历的。

未来，Skyo 将继续修炼自己，并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。

当 Scaling Law 放缓

多模态 AI 应用势在必行

最近，Scaling Law「撞墙」的消息开始在 AI 社区传播，领域顶级玩家 OpenAI、谷歌和 Anthropic 均被曝出在开发更先进模型时遇到了不小的困难，比如 OpenAI 内部代号「Orion」的新模型没有达到预期训练效果。

虽然之后这一观点遭到了一些人的驳斥，但不可否认的是，随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出 Transformer 架构等因素的影响，大模型开发速度的放缓似乎是必然的。

奥特曼：「墙」不存在。

相反，基于大模型的 AI 应用正在走向百花齐放，比如搜索引擎、音乐生成、语音交互、智能体，可以拓展生成式 AI 的落地场景并重塑人机交互范式，带来多样化 AI 体验和生产力提升。因此，在保证基座模型性能「不掉队」的前提下，形成完整的应用矩阵，对于想要持续站稳脚跟的厂商来说尤为重要。

在这方面，昆仑万维可以说布局较早且合理。一方面，自研天工系列基座大模型已经发展到 4.0 版本，性能处于全球领先水平。另一方面，构建了清晰、多元的 AI 业务矩阵，在天工 AI 平台集成了 AI 搜索、AI 文档-音视频分析、AI 写作、AI 音乐、AI 图片生成等主流 AIGC 应用。模型与应用两手抓，两手都要硬。

此次，Skyo 实时语音对话助手是昆仑万维抢占 AI 语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工 AI 高级搜索功能一样，也将成为构筑全栈式大模型能力堆栈的重要一环。

我们了解到，Skyo 实时语音对话助手将于近期上线天工 App，并接入天工搜索以获取更准确的实时资讯。可以预见，此举将进一步丰富天工平台的功能，让用户打开手机就能体验到 AI 原生实时对话的乐趣。

回望年初，昆仑万维提出了「实现通用人工智能，让每个人更好地塑造和表达自我」的全新使命。为此，该公司以天工 AI 平台为主阵地，对其上的 AI 应用不断进行功能上的迭代更新，深拓大模型能力释放出口，将新世代的人机交互贯穿文本、图像、语音等更全模态。

未来，昆仑万维还将继续发力实时图像与视频理解等领域，并形成开箱即用的 AI 应用，从而在创新技术进步、全面满足用户 AIGC 需求的过程中加快迈向 AGI 的步伐。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943730&idx=1&sn=bb5350bbbad4b34c2ad73fe6faa4143c

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉