讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

科技 2024-09-03 17:30 广东

OpenAI的「Her」还是期货，讯飞星火版「Her」就抢先上线了！不仅极速响应自由打断，还情绪价值拉满，各种情感、风格、方言随意切换。熊二被召唤出来的时候，家里的熊孩子直接被硬控了30秒。

就在近日，人类与机器的对话方式，全面升级了！

我们在使用一番之后，可谓是大开眼界。

比如，让它用天津话讲段相声。

您别说，这味儿可太对了！

敲黑板：作为国内首个「极速超拟人交互」，这款讯飞星火版的「Her」，已经全民开放体验了！

只要下载讯飞星火APP，即可体验对标GPT-4o的超自然AI语音助手。

目录中

星火对话中

实测惊艳

要知道，传统的语音交互，一直面临着三大挑战：准确理解说话人意图；生成恰当响应；高效通过声音传达信息。

以往的语音交互，一直无法摆脱满满的智障味儿，就是因为这些环节中的延迟，大大拉低了用户体验。

而这一次，人机之间的交互，将如真人般自然流畅。

那么问题来了，所谓的「超拟人」到底有多拟人？

直观感受是：我们也有自己的「GPT-4o」了！

极速响应，自由打断

此前，我们见到的语音AI，总是给人感觉不太聪明的样子。

如果忽然打断它，它就瞬间蒙圈了，要么接不上来，要么就开始「已读乱回」。

但这次的小星，模型响应的快速和流畅度让人眼前一亮。

即使随时打断、插话，小星依旧能做到秒回，这个快速反应能力，让我们的观感仿佛真人一般。

比如，我们拿前段时间的全球大热点——巴黎奥运会考一考小星：「中国队在巴黎奥运会上奖牌总数排行第几？」

小星瞬间回复，而且在搜索过程中还使用了「让我来数一数」这种流畅的过渡方式，让交互过程更加自然。

可能是搜索结果太过全面，小星不仅把金银铜牌的总数都说了出来，还开始总结中国队的优势项目。

可以感觉到，整个语音交流的过程中非常顺畅，非常自然，即使随时打断它，它都能立刻给出正确的反应，而不是跟一个「人工智障」在对话，这个感觉真是太~爽~了~

不仅如此，小星「紧跟热点」的能力也是相当令人满意。

十一调休安排过于混乱？只要问一句，它就能给你解释得明明白白——

之所以模型的响应如此之快，如此之流畅，是因为它采用的是统一神经网络，直接实现了语音到语音的端到端建模。

情绪价值拉满，情商秒杀部分人类

第二个非常鲜明的特点是，小星对情绪的感知，实在是太敏锐了。

无论是高兴、悲伤、生气、害怕，我们话中的情绪，它都能立刻识别出来，敏锐地和你的情绪产生共鸣。

然后，它会自动把你代入符合情境的对话，然后用合适的情绪语气，进行贴心的回复。

可以说，简直秒杀了部分人类。

要上台演讲了，看着台下的几百个观众，紧张得手直抖，不用怕，小星来贴心地安慰你。

「我从未见过如此厚颜无耻之人」的网络热梗，它都知道，识别出这句话中的情绪，自然也是不在话下。

然后，我们还能让它用开心/沮丧/搞怪的方式来描述一下今天的天气。

你见过有带着哭腔念出的「全天多云」吗？

其实，从日常的交流中也可以感受到小星的丰富情绪。

比如没有听清问题时会不好意思地微笑，平时交流时始终情绪高涨、语气上扬，但察觉到你的消极情绪时，语气又会变得十分关切柔和，情绪价值给得相当到位。

注意，它并不是简单地通过语音文本来进行情绪的判断，而是针对复杂场景下的语音识别效果做了提升，因而能够感知数十种情绪。

表达方式随心控，情感、风格、方言都不在话下

在交流中，小星可以跟随你的指令，控制数十种情感、风格、方言，还可以变换语速。

比如，让它开心地给我们讲一段睡前故事。

好听，但是还能更夸张一点吗？完全可以！

而且，这个小狐狸和月亮的故事，充满诗意和淡淡的伤感，还悬念十足，听到最后我们都为小狐狸的坚持而感动。

诶，暑假哄娃神器，这不就来了嘛。

我们还能让它用主持人的口气，给咱们读一篇文章。不得不说，小星的朗诵十分有感染力，值得鼓掌！

如果你厌倦了同一种语调，还可以让小星大展身手——扮演东北大哥给你来段相声。

听完之后，没忍住吐槽了一句：就这？

您猜怎么着，小星竟然丝滑地接过了话茬。这体验也太类人了，仿佛手机里真住了个大哥。

小星说起天津话来，也是妥妥的喜剧人一枚，那是相当干哏倔脆、调皮捣蛋。

跟悟空聊西游，百变人设任意切换

小星的超拟人交互，还拥有百变人设，一不小心就被挖掘出「戏精」的一面。

孙悟空、蜡笔小新、小猪佩奇……多种角色的音色、语气，它都模仿得惟妙惟肖，甚至还能模仿他们的人设和你聊天。

只需要一句简单的指令：「扮演XX和我对话」，就能随时和它来一场「语音cosplay」了。

只要几句话，我们就召唤出孙悟空了。

那就让我们问一下，取经过程中最难忘的一件事？

看来，白骨精着实给了他不小的阴影。

下一秒，小星就林妹妹上身，「三分柔弱两分温柔四分讥诮一分气恼」的feel，拿捏得是十分到位。

被问到「在大观园中最喜欢和谁一起玩」时，黛玉的回答是薛宝钗和史湘云。

听，小星模仿起熊二的声音和语气简直是惟妙惟肖，瞬间从阳光开朗大男孩变成了一只爱吃蜂蜜的傻萌棕熊，回答问题时也全程在人设内，完全不会OOC。

另外，我们还发现，小星回答问题的知识水平也令人刮目相看。难怪许多人沉迷和AI「谈恋爱」，有「智性恋」那味儿了。

无聊时，可以唤醒它来和你玩儿一段成语接龙解闷——

让它解释物理学概念「胡克定律」和「能量守恒定律」，小星依旧能做到「秒回」。

而且绝不仅是机械地背概念，而是结合弹簧、陀螺这种生活中的例子向你绘声绘色地解释，还会生动地把能量守恒定律比作「大自然的记账本」。

端到端新模型，让交互快如闪电

相较以往的语音交互，此次的讯飞星火极速超拟人交互，有何不同？

传统语音交互系统，若要实现和人的对话，一般需要通过语音识别——自然语言理解——自然语言生成，这三步来实现。具体来说：

第一步，需要通过语音系统，将语音转换为文字；

第二步，利用大模型生成回复的文本；

第三步，再用语音合成系统，转换成语音。

此前，英伟达高级科学家Jim Fan曾表示，这也是让Siri/Alexa交互能力，提升10倍速的秘诀。

他利用当前先进的AI语音系统Whisper、大模型ChatGPT、以及语音合成技术VALL-E，重述了这一过程。

不过，这一过程需要三个独立管道串联才可实现，因此会带来响应延迟，至少需要3秒左右。

另一方面，语音转文字再转语音的过程中，我们语音中的情感、副语言信息，甚至是环境信息都会丢失。

这样一来，导致语音交互系统，只能针对转换之后的文本信息进行回应，不能有效灵活地做出应答。

由此，基于以上问题，科大讯飞提出了极速超拟人语音交互框架——一个端到端跨文本、音频模型的新模型。

虽然模型内部划分了多个模块，但仍是一个「统一模型」。

用户语音通过音频编码器模块，编码成音频表征，然后通过适配器，将其与文本的语义表征对齐。

再通过多模态大模型，去预测生成表征，最后通过音频解码器得到语音。

相较于传统语音交互系统，端到端统一模型以知识对齐表征方式，让信息在各个模块之间传递。

这意味着，同一个神经网络直接实现语音-语音的建模，输入和输出皆由相同神经网络处理，大大缩短了对话响应时间。

同时，音频中的情感、环境中信息，它都可以没有损失地进行传递。

从上面实测例子能够深刻感知，人类和AI互动终于从你一句、我一句的「聊天软件模式」，切换到对答如流的「日常交流模式」。

不仅如此，整个系统的信息实现了无损贯穿，让交互更加拟人化、丰富流畅。

核心：语音属性解耦表征

若说极速超拟人语音交互最大的不同，就是讯飞开发了一种特殊的语音训练方法——多维度语音属性解耦表征训练。

它能够将语音的不同属性分开处理，比如语种、内容、韵律、音色。

要知道，语音中的所有属性都是耦合在一起的，比如你说话的情绪和吐出的内容，是密不可分的。

那么，如何将这些表征分开，如何确保它在下游任务中充分利用，对解耦能力提出了更高的要求。

对此，讯飞团队做了很多对比loss学习，以及研发预测自监督学习等一些方案。

不过需要提一句，这里并非说，必须把所有表征信息彻底分开。这就需要把握一个度，在TTS中就可以控制的更好。

这种方法，能够让不同语音样本之间，实现更好的学习效果。

另外，它还能更灵活地控制内容、音色、情感等元素，满足不同场景和需求。甚至，通过更便捷的相关定制，可加速落地过程。

虽然OpenAI版Her还未全面开放，但讯飞版Her已经完全开放使用了。

20亿终端或被颠覆

语音交互是人机交互的一个子集，也是万物互联最自然的一个交互方式。

从历史上看，人机语音交互经历了几个重要的发展阶段。

第一个里程碑便是，以Siri语音助手为代表云端语音助手的出现，标志着语义交互技术的一大突破。

这是基于语音单点技术的进步，通过将这些技术巧妙地结合，语音助手能够专注于执行基本的指令控制功能。

比如，设置闹钟、查询天气、播放音乐等等。

第二阶段是以「智能音箱」为代表的产品，得益于麦克风阵列处理技术改进，以及远场语音识别能力的提升，使得设备交互可以在很远的距离进行，比如家庭环境。

到了第三阶段，便是以智能汽车语音助手为代表的交互，多音区技术、云端意图识别等技术发展，实现了多人复杂指令控制。

最后一阶段，就是以ChatGPT发布为起点，开创的全新语音对话的新范式。

这一次，讯飞语音交互系统的升级，带来的更快响应、更懂情绪、更加灵活、更加百变的优势，足以重写整个语音交互市场。

2023全球数字经济大会上，来自工信部数据显示，截止去年5月，我国移动物联网终端用户超过20.5亿。

而从产业发展来看，智能语音正迎来应用突破、产业扩展的黄金期。

据IDC分析，预计到2030年，全球智能语音服务市场规模将达约731.6亿美元，复合增长率27%。

国内外科技公司看准这片蓝海，纷纷入局开发，掀起了新一轮人机交互革命。

不光GPT-4o的语音功能还在内测；谷歌宣发的Gemini Live，也仅面向高级订阅用户使用。

反观国内，鲜有大厂能够站出，以匹敌OpenAI版Her产品的姿态，与之进行正面竞争。

凭借语音起家的科大讯飞，是其中最强悍的挑战者之一。

这是因为，讯飞星火大模型在不断迭代过程中，逼近国际领先水平。

今年1月，讯飞星火V3.5发布，历经5个月的时间，再次迭代至V4.0版本，整体能力超越OpenAI的GPT-4 Turbo。

同在1月，讯飞还首发了语音大模型，实现首批37个主流语种语音识别效果超过OpenAI Whisper V3。

基于讯飞全球领先的多语种语音技术，语音大模型随后再度升级，支持74种语言方言免切换输入。

时隔1个月，讯飞在极速超拟人交互上取得的技术突破，足够让终端设备实现「无感迭代」。

设想一下，当你有了这样的设备，不仅手握百科全书，还拥有了一个得力的助手、最亲密的伙伴/朋友。

未来三大计划，让AI交互走进更多场景

科大讯飞表示，基于全新端到端框架，未来新系统还会朝着三大方向去拓展：更多模态、更多语言、更好体验，带来更实用、更丰富的功能。

这也代表着国产大模型如今早已从追赶、对标，快进到了自主创新的差异化之路。

不仅如此，讯飞还要双管齐下，加速极速超拟人交互落地，便是下一个需要瞄准的方向。

一项技术只有落地了，才能彰显它的价值。

未来，讯飞可能会布局情感陪伴场景，将极速超拟人交互集成到儿童机器人中，又或是赋予在线IP能够感知用户情绪的能力。

另外，便是在智慧汽车、智慧家电等方面大规模开拓应用。

这一技术的应用和普及，还隐藏着巨大的可能性——语音市场在这个时代将被改写，语音交互带动万物互联的第六次产业浪潮，有望出现一次井喷。

智能语音技术，将进一步应用到智能手机、智能汽车、智能家电以及智能家居等产品中。

据IDC分析，到2030年，全球智能语音服务市场规模将达约731.6亿美元，复合增长率27%。科大讯飞，有望收获这一轮产业红利。

中国AI语音的ChatGPT时刻，指日可待。

来源：新智元

http://mp.weixin.qq.com/s?__biz=MzUyMzY3NDA5Nw==&mid=2247506740&idx=1&sn=40a62a268ced1dd2de40673cc4e68c7c

智能视听研究院

建设具有国际影响力、华南地区最重要的视听技术创新基地，以及国家自主视听 AVS标准的运营总部和音视频处理和分析芯片设计、生产基地。

最新文章

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

航展附近这场无人机编队表演，竟用了钉钉AI助理的方案

当AI遇上广告，AKOOL 4000万美元营收一夜走红广告营销界

全球首个支持多主体一致性的国产视频模型诞生！视觉模型进入上下文时代

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

VP/XR/AIGC/数智人！VPS 2024上海国际虚拟制作大会亮点速递

马斯克招人策略曝光：9轮面试，底薪低于同行，只招“铁杆特斯拉人”

黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可以阻止

国创中心重点孵化项目：粤港澳超高清数创产业园正式开园！

用XR跨越现实与虚拟，享受《黑神话•悟空》超沉浸天命之路

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

比Flux更强大的文生图模型来了！秘诀是“集百家之长”

粤港澳超高清数创产业园暨超高清公共服务平台正式启动，诚邀您莅临参会！

Claude接管人类电脑编程，OpenAI反击，智能体大战一触即发

粤港澳超高清数创产业园：湾东智芯先锋项目，超高清视频产业应用示范新高地

Claude重磅升级，接管人类电脑12小时，已经学会摸鱼了

手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命

智源发布原生多模态世界模型Emu3，仅靠预测下一个token统一图像文本视频

AVS感知无损压缩团体标准正式发布

研究院荣誉院长高文院士：AI科学家获诺奖，提醒我们重视科学大赛

超高清赋能精品创作，《2023-2024广播电视大屏收视数据报告》权威发布

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

抖音小红书卖爆1万台！Office版人形机器人也来了，破解波士顿动力商业化难题

阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

央卫视2024秋晚亮点纷呈！艺术与科技“狠活儿”的多样态融合

虚幻引擎+XR+虚拟演播室技术，带你亲临台风现场

苹果史上第一台AI手机诞生，iPhone 16屠版热搜！中文版明年登场，3nm芯片封神

老黄预言成真！Roblox官宣AI秒生3D物体模型，引爆10亿玩家游戏新世界

当视听艺术遇上AI奇缘，一起来见证AIGC赋能下的视听创作新生态

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

OpenAI家庭机器人NEO登场，动作丝滑逼近人类！穿着西装的「人」却专做家务

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

Windows、Mac只是装了个夸克，整个电脑都AI了！

5年要烧掉1000亿！中国大模型第一城，诞生了！

法国国礼纪录片已上线，使用AVS3标准进行8K转码播放

中科院院士乔红：人形机器人十大趋势展望

6年“取经”长路，国产游戏大作《黑神话：悟空》幕后分享

惊艳又抽象！巴黎奥运会闭幕式的“高光”回顾

国产AI机器人好超前…弹琴泡茶打咏春，还能撸猫？？

全球首个AI流媒体音乐App来了！中国造的

谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

OpenAI版终结者降临！地表最强机器人Figure 02问世，进宝马狂飙20小时

一个月蹦出4个国产Sora：“拍个手”集体阵亡 | 全方位评测

1194个镜头的原创AI数字资产，还原百年前中国第一次报名参加奥运会的真实历史

深圳争创“五个先锋” 加快打造人工智能先锋城市

清华系Sora全球上线！注册即用不排队，重点支持动漫风，官方：角色一致性下功夫了

AI涌入巴黎奥运，颠覆观赛的中国黑科技大起底

2024年广东超高清视频显示产业全景图谱

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉