【AI100问(150)】AI“读心术”靠谱吗?

文摘   科学   2024-06-25 13:00   北京  


人在听到声音或想要发声时,神经细胞都会产生有别于安静状态下的波动。在听声音时,负责声音感知和理解的颞上回(STG)区会比较活跃。在发出声音时,负责驱动发音器官腹侧感觉运动皮层(vSMC)区会比较活跃。通过采集这些区域的脑电信号,就可能判断出一个人听到了什么声音,或者想说什么话,就像一个会读心术的魔法师一样。有趣的是,人工智能正在帮助我们实现这一魔法,或形象地称为“AI读心术”。可以想象,如果这一技术真能实现的话,可以解决很多失语病人的沟通问题。例如,一些中风患者因为恢复不佳失去语言能力,AI读心术可以帮助这些患者和人交流。


图1展示的是2019年发表在《自然-通讯》杂志上的一篇文章[1]。在这篇文章中,作者利用内嵌式电极提取脑电信号,并利用人工智能模型理解患者听到的问题和想做出的回答。这种内嵌式大脑皮层电极(ECoG)植入到大脑皮层中,可以采集到较为精确的信号。实验表明,无论是听问题还是回答问题,脑电波判断的准确率都可达到60%左右,超过随机选择的结果。这至少说明通过脑电波来判断人的感知和意图是有可能的


图1:基于ECoG信号的问答分类[1]

2024年6月份的《自然-机器智能》杂志刊发的一篇文章提出了更有效的方法,实现了更强的功能[2]。这篇来自纽约大学的工作不止对神经信号进行分类,而是直接把神经信号转换成声音信号整个流程也很简单,首先把ECoG信号通过一个深度神经网络转换成对应的语音参数,包括基频、共振峰位置、元辅音权重等(如图2)。


图2:ECoG转语音参数的3D Swin网络[2]

有了这些参数,再经过一个合成器把语音参数转换成语音频谱(图3),最后通过一个称为Griffin-Lim的算法将频谱转换成可以听到的语音信号。


图3:由语音参数生成语音频谱的合成网络[3]
我们可以听一下AI合成出的声音。在下面的音频文件中,前一个词为原始声音,后一个词为从神经信号合成出的声音。可以看到对于短词,AI合成的还是很准确的。

总结起来,当前的一些研究成果让我们对AI读心术有了很强信心,但这一技术离真正实用还有一段距离。一方面是植入电极太麻烦,而非植入性方式精度又会大幅下降。另一方面,现在能恢复的还是受限列表里的一些短词,如何扩展到自由对话还有很长的路要走。



参考文献:
[1] Moses D A, Leonard M K, Makin J G, et al. Real-time decoding of question-and-answer speech dialogue using human cortical activity[J]. Nature Communications, 2019, 10(1): 3096.
[2] Chen X, Wang R, Khalilian-Gourtani A, et al. A neural speech decoding framework leveraging deep learning and speech synthesis[J]. Nature Machine Intelligence, 2024: 1-14.


供稿:清华大学  王东
制作:北京邮电大学  戴维
审核:北京邮电大学  李蓝天

扫码关注AI光影社,学习更多人工智能知识,并可预约《图解人工智能》签名版。

AI光影社
来自清华大学的人工智能科普平台