AI颠覆音源变焦技术,革新音视频同步变焦体验

科技   2024-11-19 10:00   云南  


不知道大家有没有用过手机上的音源变焦功能,在用手机拍摄视频时,当你把画面逐渐变焦放大时,拍摄目标的声音逐渐变得清晰,而且背景的噪音被明显降低,聚焦突显拍摄目标的声音。这样的视频拍摄效果,就是通过音源变焦技术实现的。


音源变焦技术早就已经应用在手机上,到了今天,音源变焦技术的应用场景变得越来越广阔,不仅可用于视频拍摄,在安防摄像头、会议系统等场景,也可以利用该技术来实现实时声音跟随画面聚焦,带来更沉浸的体验。


图片来源:豆包AI图像生成


想要把音源变焦效果做好,在硬件和算法部分仍旧存在很多挑战,但AI技术带来了新的捷径。

         

 

音源变焦都有哪些应用场景?



在手机上,音源变焦技术可用于视频拍摄场景。借助这项技术,可以把视频画面变焦与音频声音相关联。比如在街边看到有路人歌手在演唱,通过变焦放大画面拍摄歌手特写时,即使拍摄距离比较远,也能把歌手的声音清晰地录下来。


音源变焦技术还能用于VR/AR眼镜,未来可能眼睛看往哪,声音就会自动聚焦到哪,让你瞬间拥有“顺风耳”。


在安防场景,当画面中的目标人物距离有点远,又想要听清声音时,就可以用上音源变焦技术。我们把安防摄像头的画面拉近放大,音源变焦技术会把目标人物的声音同步清晰放大,不用担心声音太小或者被其他人声干扰。

    

在会议系统中,音源变焦技术可以根据画面实时聚焦人物,同步输出聚焦人物的声音。即使会议上有其他干扰声音,也能让远程参会人听清当前主讲人的讲话内容。


实现音源变焦,都有哪些难点?


音源变焦的主要技术包括波束成形。波束成形技术要基于麦克风阵列,通过该技术可实现指向性声音收录,能够呈现指定方向的声音,并减弱背景噪音的影响。除了要具备麦克风阵列这种硬件基础,实现音源变焦还需要有专门的声音算法来对音源信号进行处理。

         

 

在音源变焦方案中,声音处理算法是一大难点。声音算法不仅要能够放大目标声音,还需要抑制其他环境噪音干扰,最终才能呈现出清晰的目标声音,核心在于声音和噪音的分离。


图片来源:豆包AI图像生成

         

 

在传统的音源变焦方案中,对语音信号处理的算法主要依赖于对声音信号的统计特性理解,只能根据人工编写和预估的规则,来识别环境噪音。这种处理方式的适应性较差,面对噪音种类繁多的复杂场景,难以起到较好的降噪效果。

         

 

强大的AI技术恰好能够大幅改善算法适应性差的问题,给音源变焦技术带来颠覆性的影响。   

         

 

音源变焦还能变得更好用吗?

         

 

在音源变焦方案中,麦克风决定着音源信号的质量,这也是进行后续算法处理的基础。用上更好的麦克风阵列硬件,可有效提升音源变焦效果。因为麦克风性能提升后,能够清晰捕捉到目标声音,减少失真。高性能麦克风极大增强了特定方向的声音拾取效果,在噪声环境下也能显著提升语音质量,让算法处理效果更好。

         

 

         

 

部分音源变焦方案引入了AI技术对音源数据进行处理。把语音信号处理与深度学习结合,AI能够从海量数据中学习噪声和语音的分离规则。在经过大量数据训练后,AI能够更加准确地实时分离人声和背景噪音,既能准确聚焦到目标声音,也能起到明显的降噪效果。


AI技术还能辅助优化传统音源信号处理中遇到的问题,突破传统方案的性能瓶颈,给语音增强处理带来革命性的进步。


训练AI语音处理模型也存在着较高的门槛,主要包括数据匹配和模型小型化。只有给AI提供庞大的高质量数据集,训练出来的AI模型才能更加准确、高效地处理不同环境下的数据。另外,AI模型还需要尽可能小型化,既要能够高效处理数据,又不能占用太多计算资源,需要找到性能和模型规模之间的平衡点。

         

 

可以看到,要让音源变焦变得更好用,在硬件和算法方面都要有突破性的提升。


Audio Zoom AI音源变焦解决方案


英飞凌携手大象声科推出了Audio Zoom AI音源变焦解决方案。该方案结合了大象声科的AI语音增强技术和英飞凌的硬件产品,可实现音视频同步变焦。



硬件方面,视频支持光学变焦功能,通过大象声科的算法,能够实现视频与音源变焦同步。在音源部分,采用了8颗英飞凌高性能的硅麦克风组成线性麦克风阵列,这个方案还可以与英飞凌的AI边缘处理器PSOCTM Edge搭配,在本地就能完成音源算法处理。


英飞凌推出的Audio Zoom音源变焦解决方案,可以分别处理视频和音源信息,然后把这些信息与变焦比例相结合,输入到神经网络中,最终实现同步的音视频变焦效果。


在实际功能上,英飞凌Audio Zoom方案,能让视频主角的声音随着画面放大而变得更加清晰,即使在嘈杂的环境下,出色的降噪效果让其同样能提供高品质的音质效果。观看视频时,观众能够体验到画面与音源同步聚焦所带来的沉浸感。


Audio Zoom音源变焦解决方案能够应用于广泛适用于智能手机及配件、安防摄像头和会议系统等设备。


与专家共探音源变焦未来


11月22日下午15:00,我爱音频网将携手英飞凌与大象声科,开启一场主题为《基于AI语音增强的音源变焦技术与应用》的线上直播活动。通过这次活动,你可以深入了解AI语音增强音源变焦技术,与英飞凌、大象声科的专家共同探讨音源变焦的未来。

         

 

本次活动将会在英飞凌官微视频号、我爱音频网视频号同步线上直播。

         

 

报名方式:

         

 

   

方式一:长按识别海报二维码,关注【英飞凌官微】公众号,提交相关信息即可成功报名,直播开始前我们将为您发送智能会议提醒。


方式二:或下拉至文末,点击【阅读原文】,提交相关信息即可成功报名。

         

 

   


音频行业年度报告持续更新中,如果你想了解消费类音频行业最新动态,欢迎关注我爱音频网呀:D



以下热门话题可以点击蓝字了解,
也可以在我爱音频网微信后台回复如下关键词获取专题

「2022市场报告」
智能穿戴整体市场、VR/AR智能眼镜TWS耳机市场
智能手表市场投影仪九大音频品类在线音乐市场

「芯片原厂」
高通炬芯、中科蓝讯、物奇
英集芯、SY思远、LPS微源、创芯微
稳先微泰凌微电子来远电子美芯晟
恒玄、海栎创

「电池厂商」
瓦尔塔鹏辉豪鹏
金宇宙亿等新能源

「供应链厂商」


楼氏电子xMEMS亚奇科技

顺络电子三体微意芯微瑞勤电子



更多优质厂家更新中

商务合作联系:info@52audio.com
勇敢点,在留言板说出你的观点!

我爱音频网
我爱音频网|全球知名音频行业媒体,全网100万粉丝。以专业视角和敏锐洞察,为音频爱好者和从业者提供丰富的音频产品资讯,以专业性在音频领域内得到了广泛认可,是连接消费者与音频产品、技术的重要桥梁。
 最新文章