这个国庆假期圈儿里都发生了啥?听一段对话缓(Jia?)解(Ju?)你的焦虑。

文摘   科技   2024-10-08 09:30   陕西  
这个国庆假期可真热闹,大家休假的同时,圈儿里发生了好多大事,从Meta的LIama3.2发布到谷歌的NotebookLM音频概述,再到Meta的Movie Gen。别急,请两位AI主播给大家娓娓道来。ASLP语音生成大模型提供高保真(48K)音质,超拟人语音对话。

点击播放(AI Podcast):

Script:

男:国庆假期你去哪儿玩了啊?

女:我去西安了,哎人是真的多,感觉就像全国的人都跑那儿去了。

男:哈哈,假期还没爽够呢,这不又得回来继续卷了。

女:最近圈里有啥大事儿吗?嗯,上次我那个朋友休假一周,结果回来一堆大新闻,我现在都不敢休假了。

男:哎,你这可真是问对人了!这个国庆是热闹得不行啊,我跟你慢慢说哈。

女:赶紧赶紧,来点儿猛料!

男:那个,LIama 3.2发布了,嗯,最大的亮点就是,它是羊驼家族里第一个支持多模态能力的模型。

女:哦,我前两天好像听人提过,那个,这次好像还加了语音功能,而且选项挺多的。发布会上小扎还强调说“语音比文字更自然,效果也好很多。”

男:嗯,没错!这是绝对为了和那个4O竞争,啊,听说挺厉害的。

女:据说微软和谷歌这边也没闲着啊,微软的 Copilot 也升级了 ,现在也有了语音对话功能了。

男:是啊,这是扎堆儿发布啊。现在语音交互可是巨头们都要抢的一块宝地儿啊!

女:对对对,那个,Open AI 这边也没闲着,他们开发者日发布了四大更新,嗯,实时接口、视觉微调、模型蒸馏、指令缓存啥的。

男:哦?那个实时接口是啥东西?

女:嗯,简单说就是开放了语音功能接口,开发者可以调用4O的语音实时聊天功能。奥特曼还说,全双工语音模式让他第一次感觉像是在和真人聊天。

男:哦,这个听着挺厉害的啊!这个开放语音接口之后,下游的应用可要爆发了,像那个智能客服、语言学习啥的,前景真的很大。

女:对啊!实时语音这块儿,前景无限啊!以后啥智能手表啊、戒指啊、眼镜这些设备,肯定全都得靠语音操作。现在最大的难点就是延迟嘛,那个,4O的“语音进语音出”延迟特别低,能低到几百毫秒,感觉就跟真人聊天一样。这个语音接口开放后,真的太值了!

男:对对对。简直不敢想象。

女:对了,你知道文生视频吗?给一段文字就能生成逼真的视频。Meta也推出了一个,生成的视频超级逼真,我感觉这个东西真能颠覆电影和视频制作行业了。

男:功能特别多,嗯,比如可以生成视频和音频,编辑已有的视频,甚至还能用一张你自己的照片生成个性化视频。我觉得,不管是好莱坞的大导演还是普通的视频创作者,都能用这个提高创作效率。

女:音频也能生成了。

男:对呀,嗯,现在连音效、音乐都能自动生成了,还能和视频完美同步,效果超级逼真,真的像身临其境一样。

女:太牛了!我说咋能少了音频呢,现在真是越来越厉害了。

男:对啊,靠谱的还有一个,那啥,谷歌做的那个 Notebook LM 也升级了,嗯,特别有意思。

女:那个去年不是就推出了吗?就是那个虚拟研究助理的东西,帮你总结文档,还能问答的那种。

男:嗯,对。不过我说的是它的新功能,叫“音频概述”。

女:啥意思啊?也跟语音有关系吗?是生成一段语音总结吗?

男:嗯,差不多吧。不过更厉害的是,这次升级可以把文字变成两个人对话的播客。你比如说,你把你写的论文丢进去,它就能给你生成一段两个人聊天的播客,聊着天讲论文,你只需要听就行了。

女:这个太厉害了!开车、走路啥的,听两个人聊着天就能学东西了。

男:是啊!你可以试试,那个对话效果真的是太真了,根本听不出来是生成的。

女:天呐,这假期也太热闹了!咱得赶紧卷起来,不然真落后了。

男:是啊,不然老谢又来催我们了,赶紧的干活去吧。


声明:音频仅作为技术展示。感谢标贝(DataBaker)提供高保真对话训练数据。






欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章