首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

国产4o大模型，秒懂国风李子柒

科技 2024-11-20 11:59 北京

金磊发自凹非寺
量子位 | 公众号 QbitAI

又一个国产版《Her》，就这么水灵灵地来了。

作为一个实时语音对话的功能，效果好不好，实测见分晓。

我们直接以近期的大热点——李子柒复出作为话题，来上一番对话：

可以看到，这个AI对于“李子柒复出”这样相对较新的话题，信息的掌握也是较为全面。

它先是用“太震撼了”来表达了对这件事的整体感受，并且精准、高度总结内容为：

用中国非物质文化遗产漆器为主题的视频，这个选择本身就是对传统文化的致敬。

当问及对视频内容更具体的感受，国产《Her》仿佛一个李子柒的人类粉丝：

依旧保持高标准，每一帧都像一幅画面；她的视频总能让人感受到一种宁静与美好。

不仅如此，国产《Her》甚至还能对网友们的讨论做总结，包括李子柒为了做了漆器，背后所付出的努力和刻苦精神。

而且从整个对话过程来看，这个AI在语言表达方式上也是与人类无异，例如语气和自然的停顿等等；即使是随意地打断，也是完全OK的哦~

同样的话题，我们给到GPT-4o这边：

嗯，GPT-4o知道李子柒，但是知道的不多。

无论是中文还是英文提问，由于它的知识是截止到了2023年10月，所以对于实时的新闻热点，GPT-4o是无法hold住的。

那么这个国产《Her》，何许AI也？

不卖关子，它正是来自昆仑万维的Skyo，基于天工大模型4.0 4o版（Skywork 4o）打造。

那么除了能够跟踪时事热点，Skyo还能解锁哪些能力？

更多实测，Let’s go on~

聊天随意打断，话题不掉地上

OpenAI大约半年前发布GPT-4o实时语音对话功能的时候，现场和网上观众较为震惊的，便是它不论如何被打断，都能马上接上话。

虽然在刚才李子柒的例子中，我们已经体现了一些“随时打断”的能力，所以我们这次再加一点难度。

随时打断，中英切换

我们这次测试的话题是去西雅图旅行，来看下Skyo能给出什么样的建议：

在我们提出了简洁的需求之后，Skyo便唰唰唰地开始制定旅程计划了。

而当它提到西雅图标志性景点太空针塔时，我们进行了第一次打断（00:50），Skyo也随即停止了回答，开始聆听新问题。

当Skyo要继续拓展对太空针塔的介绍，我们随即第二次打断（01:09）；第三次打断（01:38）我们直接用英文进行提问：

OK, sounds good, by the way, can you recommand some Seattle dishes I should try？

然后Skyo也是听懂了英文需求，立即开始推荐当地著名的咖啡餐厅。

这一轮的随时打断+中英文切换，Skyo，通过。

不让话掉到地上

在真实生活中，很多i人在与人沟通交流过程中，或许会出现接不上话的情况。

那么如果我们以话题终结者的姿态与Skyo交流，又会是什么效果？来，开整：

我们先是以“电影”为由头，主动开启了一个话题。

但Skyo在反问的时候，我们连续两次冷漠回答了“没有”（00:27）、“也没有”（00:47）。

第一次话题被终结，Skyo很巧妙地把话题从电影转向了音乐或书籍；二次话题被终结，Skyo联系上下文（因为是我们以电影开启的话题），它就开始讲述自己对电影的看法了。

总而言之，把话掉地上，这事儿在Skyo这边是不能存在的。

情感陪伴，“人”声可变

自打对话类AI大模型问世以来，情感陪伴，无疑成了很多用户的一种刚需。

那么Skyo是否也能在人们难受之际带来一份心灵的慰藉呢？

请看VCR：

在我们提出“被老板骂了”这样的情景之后，Skyo会用自己的方式来引导我们看开一些。

而当被要求切换女声声音时（00:42），Skyo也是有求必应，秒变女声，然后有理有据地罗列观点进行心理开导。

由此可见，Skyo作为新晋国产实时语音对话产品，在多个维度的测试中都属于达标了的那种。

那么接下来的一个问题：

怎么做到的？

Skyo实时语音对话助手是一个多模态大模型项目，应用了端到端实时语音对话建模技术。

其强大的记忆功能使其能够在对话中追踪并回忆用户的偏好与历史信息，从而提升多轮对话的准确性。

这种精细的技术积累，使得Skyo在高强度的对话交互中依然保持卓越的稳定性与流畅性。

除此之外，Skyo采用了全双工和低延迟的实时语音对话架构。

全双工意味着该助手能够同时进行听和说的操作，用户无需按下对话开始和结束按钮即可实现无缝交流，这就让人机的互动变得更加自然和高效。

在技术测试中，Skyo以其低延迟的实时响应接近人类思考的反应时间，体现了在对话响应速度方面的显著优势。

在互动能力方面，Skyo拥有较好的情感理解与个性化记忆功能。

它不仅可以记录用户的历史偏好，还能根据用户需求提供个性化的互动体验，例如提供温暖的女声或更具情感色彩的回应。

这使得Skyo在非正式、非固定场景下，能够保持一种尊重且平等的人机交互体验。

Skyo的卓越性能依赖于其多模态模型的应用，使其能够在多种场景中保持高质量的交互体验。

例如，用户可以与助手讨论最新的科技新闻，助手能够根据用户的请求，从科技资源库中检索相关信息并进行异步交互，增强用户的互动感与沉浸体验。

此外，Skyo系统的自研特性使其在互联网语音交互与应用场景中具有出色的适应性。

通过自研的数据积累与语音交互技术，Skyo实现了实时、高效且个性化的沟通体验，使得用户在每次对话中都能感受到近乎无障碍的人机互动与温暖陪伴。

以上就是昆仑万维“炼”成Skyo背后的秘籍了。

又拼上一块多模态“拼图”

最后，我们聊回到实时语音对话助手本身。

虽然GPT-4o可以说是率先打开了这一市场的大门，但时至今日类似的产品仍然存在诸多痛点。

例如现有产品在多语言支持方面仍有不足，难以满足全球用户的需求；再如它们虽然在语义理解和生成方面表现出色，但在情感理解和个性化记忆方面仍有待提升。

此外，实时语音对话助手在响应速度和流畅性方面也需要进一步优化，以此来确保用户体验的连贯性和自然性。

但最重要的一点，或许还属消息的实时性了，毕竟我们平时聊天也都更倾向于谈谈一些新鲜的事物。

从这次的实测中不难发现，Skyo在诸多维度上已经符合要求，是在实时语音对话助手领域发展中打了个样的那种。

至于对昆仑万维在大模型时代自身的发展，Skyo可以说是有拼上了一块多模态的“拼图”。

这一点，把它在每个节点的产品铺开来看，便可一目了然了。

首先就是其大底座天工大模型系列，包括天工1.0、天工2.0、天工3.0，近期还将邀测天工大模型4.0 O1版，具备中文逻辑推理和反思能力。

其次在其它模态上，还包括AI搜索（天工AI搜索）、AI音乐（天工SkyMusic）、AI社交（linky）、AI视频（AI短剧平台SkyReels）等。

加上此次的Skyo，昆仑万维称得上是国内在多模态与工程能力，以及布局全面型上的佼佼者了。

One More Thing

据了解，Skyo即将集成在天工AI的APP中。

届时，除了我们展示的能力之外，还会有生成音乐、主动交流以及更多个性化交互等众多新能力哦~

那么这样的实时语音对话助手，是否聊到你的心趴上了呢？

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247759836&idx=1&sn=af8e5bb66b286f2072a026b922cadfd8

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉