人在听到声音或想要发声时,神经细胞都会产生有别于安静状态下的波动。在听声音时,负责声音感知和理解的颞上回(STG)区会比较活跃。在发出声音时,负责驱动发音器官腹侧感觉运动皮层(vSMC)区会比较活跃。通过采集这些区域的脑电信号,就可能判断出一个人听到了什么声音,或者想说什么话,就像一个会读心术的魔法师一样。有趣的是,人工智能正在帮助我们实现这一魔法,或形象地称为“AI读心术”。可以想象,如果这一技术真能实现的话,可以解决很多失语病人的沟通问题。例如,一些中风患者因为恢复不佳失去语言能力,AI读心术可以帮助这些患者和人交流。
图1:基于ECoG信号的问答分类[1]
2024年6月份的《自然-机器智能》杂志刊发的一篇文章提出了更有效的方法,实现了更强的功能[2]。这篇来自纽约大学的工作不止对神经信号进行分类,而是直接把神经信号转换成声音信号。整个流程也很简单,首先把ECoG信号通过一个深度神经网络转换成对应的语音参数,包括基频、共振峰位置、元辅音权重等(如图2)。
图2:ECoG转语音参数的3D Swin网络[2]
有了这些参数,再经过一个合成器把语音参数转换成语音频谱(图3),最后通过一个称为Griffin-Lim的算法将频谱转换成可以听到的语音信号。总结起来,当前的一些研究成果让我们对AI读心术有了很强信心,但这一技术离真正实用还有一段距离。一方面是植入电极太麻烦,而非植入性方式精度又会大幅下降。另一方面,现在能恢复的还是受限列表里的一些短词,如何扩展到自由对话还有很长的路要走。
扫码关注AI光影社,学习更多人工智能知识,并可预约《图解人工智能》签名版。