AI集体过年,前天我还在感叹MiniMax、DeepSeek、Kimi、腾讯混元在农历新年前放出的大招,今天又被字节旗下的豆包震撼到了!
前几天,豆包的实时语音对话功能已经全量开放了!
可能有的小伙伴会说:不就是AI把生成的文本转成音频播放出来么?几个月前别家AI的APP就已经上线了。
不不不不不不,这次真不一样!
豆包这次上线的是端对端的实时语音模型。
我在想,该怎么向你们解释“端对端的实时语音模型”?用太专业的术语怕大家更懵了,简单对比的话:大家都知道“同声传译”吧?
在你不停说话的时候,它就在实时处理你说的内容,在你说完话的一瞬间,就能立即作出回答。
看下面视频:
之前的那些AI通话,在人说话完后,它要转圈反应一会儿,才发出声音;豆包这个回答就快很多。
最关键的是——它还能模拟角色、唱歌、听说方言,随时被打断,还能时时提供情绪价值……(微软的TTS瞬间不香了)
简单体验
进入豆包的手机APP,列表顶部的“豆包”后面有个醒目的“📞”按钮。
当你看到这个粉色的界面,就表示已经进入和它的对话过程中了,如果你不说话,它会一直倾听,直到你发出声音为止。
可以点击上方的按钮,切换情境。
看网上的评价“悄悄说话”这个情境非常令人震惊。
用“戏精本精”这个情境,她一来就学夹子音,可千万别在公共场所尝试,小心成全场焦点。😂
关掉语音对话窗口,还能看到你们的对话记录,以文本的方式呈现的。
豆包其实内置了很多语音播音人,在右上角的设置中可以看到。
看到下面“克隆我的声音”了吗?猜猜它是干啥的?
听说默认的温柔桃子目前最得人心,其他的播讲人大家多去尝试啊,有新发现欢迎在留言区讨论~
总体来说,它的创新在于:在对话的过程中,可以像要求真人一样,让它用什么方言、扮演什么角色、用什么语气……这才是真正的聊天助手。
正式用途
难道我整天就和它聊天吗?对生活、工作,有什么实际帮助吗?
示例1
我家小闺女经常要缠着我给她编故事,正愁编不出来新的了。今天下午她发现我在和豆包聊天后,她喜欢上了。
一会叫豆包给故事中添加她幼儿园的同学作为主角,一会叫豆包按她的想法编故事;我想,以后父母可以解脱出来了。
示例2
在去年的公开课上,大家为了把AI搬进课堂,用得最多的就是——用AI把历史人物带进课堂,让历史人物和学生进行互动。
传统的方式在老师和学生说完话后,要等很久才反应过来,且回答较为死板;如果把豆包的这个端对端实时语音带进课堂,是不是效果会更好呢?
示例3
很多小伙伴放假在家想练习一下厨艺,以前需要看几分钟的教学视频,再一步一步跟着学。
现在可以直接和AI对话,哪步不会就问哪步,就像有个老师在身边教你一样。
示例4
曾经,我们想要听故事、听广播剧。需要主播录好音后上传到平台,我们再来播放收听。
如今,AI就在你的手边,想听什么故事,它实时给你编,换着语速、换着语气、换着方言给你编……
我想,看到这则新闻,很多行业的人会有危机感吧!
有了这种端对端实时语音大模型,还可以帮我们做更多事,今天这篇文章是讲不完了,后期我拆开了给大家细讲。
大过年的,写文章不容易啊!三连一波?
- end -
让你的观点被更多人看见,本公众号接收教育信息化、实用软件、人工智能、办公技巧等文章、视频的投稿;请参考本公众号历史文章的风格撰写。