-坐高铁过隧道的时候,信号总容易断
-每次走进电梯,声音免不了会卡住一小会
…
腾讯主导的新一代实时语音编码行业标准AVS3P10完成定稿,即将正式对外发布。此次AVS音频组AVS3P10标准采纳的腾讯侧方案,就是以腾讯会议Penguins AI语音引擎为原型。
点击查看AVS官方报道
作为全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,表现达到国际一流水准。仅需1/3的编码码率,就能实现和现有主流标准同等清晰的音质。经过多轮交叉验证,AVS项目组得出结论:AVS3P10代表了目前AI Codec的最高水平。
读起来有点神秘?
简单来说:即使网络卡如2G,也能顺畅开会!
01
你开会时说的每句话,在传输时都要经历这些环节:
①语音转化为数字信号→②在发送端“编码”→③传输过去→④到接收端“解码”→⑤将数字信号转换成声波。
想要能随时随地能听歌、打语音、看视频,起到“压缩”作用的编解码是其中关键。如果不经“压缩”就直接传输,音频体积很大,传输时拥塞是难免的。
现在,评价一项编解码技术是否足够牛,重点就看压缩率和质量保障:
把音频体积压缩数十倍后,看音频质量有没有损伤、会不会影响理解。
02
过去几十年,行业奔着极致效果不断突破,也形成了一系列编解码标准。
然而,它们仍然会受到物理世界的基本限制:
根据香农定律,当码率降到一定水平时,同一种编解码技术无论如何优化,都难以在保持信号质量的同时进一步压缩数据。
当码率降到10kbps以下,即使是当前行业最主流的编解码标准,也难以把关键细节恢复出来。
如果不能进一步提升压缩率,到了类2G的的弱网环境:比如隧道、电梯、地库里,仍然会卡顿、听不清。
03
虽然,「卡」的原因不在腾讯会议——
但相比起被动接受,我们选择主动压缩自己。
从2020年起,我的工程师同事们就在向着这个难题发起冲击:
如何让编解码效率再上一个台阶,网络再差也能流畅开会?
为了解决这件事,腾讯会议天籁实验室和腾讯AI Lab自研了音频编解码器Penguins。它的本质,是一套能更高效捕捉核心特征以及重建语音信号的算法。
通过引入AI深度学习网络,在发送端,将语音信号建模,只编码核心特征参数;到接收端,通过AI预测和还原,重建高质量的语音信号,恢复出同等清晰的最终波形。
有了Penguins编解码器,仅需1/3的数据量,就能传输同等质量的声音,大幅降低对网络的要求。主观质量对标传统编码的中高码率情况下,编码效率提升200-300%。
这几年,Penguins逐步落地到腾讯会议的驾驶模式、弱网模式中,也被QQ等更多鹅厂自研产品pick,至今已服务亿级用户。
04
实际上,弱网环境下的通话挑战,除了线上会议场景,在更多音频传输的场景中也存在。
我们希望,让好技术走出去,服务于行业,共同成长。
从去年3月起,腾讯会议天籁实验室联合腾讯知识产权部在AVS音频组主动提议并参与标准制定,即AVS3P10实时语音编码标准。随后,腾讯提交基于Penguins候选技术,经过AVS音频组交叉验证后采纳。本月,AVS3P10实时语音编码标准已正式完成标准化工作。
以Penguins为原型的新一代实时语音编码行业标准AVS3P10,得到的评价是:标准制定速度最快,标准交付质量最高,测试非常充分。
AVS是国内多媒体领域最重要的标准化组织。2002年6月,国家原信息产业部科学技术司批准成立了数字音视频编解码技术标准工作组(AVS),面向我国的信息产业需求,联合国内企业和科研机构,制(修)订数字音视频的压缩、解压缩、处理和表示等共性技术标准。经过多年发展,AVS对推动技术创新、推动行业生态建设做出了卓越贡献。
其中,AVS音频组负责组织制定音频编码技术标准。当前,AVS标准已经演进到第三代。
编解码技术、音频降噪算法、语音增强技术…过去这些年,腾讯会议天籁实验室持续打磨一场会背后的每个技术细节,已经形成了一套全球领先的实时音频通信端到端解决方案。
我们希望,这些更好的技术不仅能服务每一位腾讯会议的用户,也为更多场景带来改变。
腾讯天籁实验室
打造下一代AI音频引擎
扫描二维码
联系腾讯天籁实验室