近年来,全球人工智能技术快速发展,成为推动科技和产业加速发展的重要力量,对经济社会发展和人类文明进步产生深远影响。人工智能技术也正在重塑传统声学领域,给声学研究带来新机遇。人工智能技术以及大模型的发展与声学融合产生了哪些结合点?人工智能技术如何赋能新质生产力发展?日前,北京声智科技有限公司创始人、董事长,首批“北京市先进科技工作者”陈孝良接受了新华网的采访。
新华网:围绕人工智能技术和声学的结合,您和团队开展了哪些研究?
陈孝良:我们围绕声学和大模型的结合,主要在远场语音交互技术上开展研究,包括空间编码、声音水印、声纹识别等。在空间编码上,我们实现了声音和位置信息的联合编码,可以得到更地回放效果。在声音水印方面,我们已经开展了对声音克隆的研究,并且应用在电信反欺诈系统。进一步,我们在探索利用人工智能技术,比如深度学习、监督学习的方法,更好地做源头的水印嵌入。另外,我们在声纹识别方面,特别是实时转写,我们能够把整个声纹处理控制在一个复杂场景下,现在也已经开始进行相关的应用推广,在AI耳机上开始应用这项技术。
新华网:面对采集的海量声音数据,您和团队在大模型训练过程中是如何克服训练过程中出现的相关困难及挑战?
陈孝良:灾难性遗忘是在预训练和微调过程中经常出现的问题。在大模型训练中,我们通过数据增强和自监督学习技术降低灾难性遗忘的风险,并通过算法优化减少模型幻觉现象。面对海量数据,我们团队采用高效的数据筛选和多层次的训练策略,使模型能够在大数据环境下稳定、可靠地进行推理。这些技术帮助我们克服了大规模数据带来的挑战,让声学AI模型更加精准、适应性更强。
新华网:您如何看待和理解人工智能技术和大模型在新质生产力中的体现?
陈孝良:人工智能很重要的一个分支是大模型,它解决了我们语言里面重要的理解问题,同时,它在新质生产力里面,非常典型的一个应用是AI硬件。因为AI硬件将声学技术、语音技术和语言技术融合在一起,并且落地到一个非常重要的载体中,对于技术和经济都带来巨大的价值。
AI硬件产品,如AI耳机、AI眼镜、AI PC和AI手机等设备,通过将声学计算与人工智能技术融入日常生活,不仅带动了技术创新,还提升了消费体验。这种技术驱动的消费升级推动了整个AI硬件产业链的发展,带动材料、传感、内容和服务等上、下游供应链的技术进步,为我们国家数字经济注入新的活力。
※ 本文原载自新华网。
关于标准
关于GAS
联系我们