研究进展:大型语言模型LLM-语言处理 | Nature Machine Intelligence

文摘   2024-11-27 00:00   北京  
人工智能的最新进展,人们开始关注了大语言模型large language models (LLMs)和人类神经处理之间相似性,特别是在语言理解方面。尽管先前研究已经证明了大语言模型LLM表征和神经反应之间相似性,但驱动这种趋同的计算原理——特别是随着大语言模型LLM的发展——仍然难以捉摸。

今日,美国 哥伦比亚大学(Columbia University)Gavin Mischler, Yinghao Aaron Li,Nima Mesgarani等,在Nature Machine Intelligence上发文,利用神经外科患者听语音的颅内脑电图记录,以研究高性能大语言模型LLM和大脑语言处理机制之间一致性。

还检查了具有相似参数大小的大语言模型LLM不同选择,并发现随着在基准任务上的性能提高,大语言模型不仅变得更像大脑,还反映在模型嵌入的更好神经反应预测中,而且还与大脑的分层特征提取路径更紧密地保持一致,使用更少层进行相同编码。

确定了高绩效大语言模型LLM的分层处理机制共性,揭示了相似语言处理策略的趋同性。最后,证明了语境信息,在大语言模型LLM表现和大脑定位alignment中的关键作用。

(小注:当人们定位身体后方物体的时候,相比于定位身体前方的物体,表现出了正确率低、反应时长的差异,这个现象被称为大脑的“alignment”效应)

这些发现,在大脑和大语言模型LLM中语言处理的趋同方面,为开发更符合人类认知过程的模型,提供了新的方向。

Contextual feature extraction hierarchies converge in large language models and the brain. 

在大型语言模型和大脑中的语境特征提取层次收敛。


图1:  将大型语言模型large language models ,LLM嵌入映射到大脑。

图2: 大型语言模型LLM性能相关层的大脑峰值相关性。

图3: 更好的大型语言模型LLM显示了更多类似大脑的分层处理。

图4: 大型语言模型LLM之间特征提取分层比较。

图5: 语境信息的影响。

文献链接

Mischler, G., Li, Y.A., Bickel, S. et al. Contextual feature extraction hierarchies converge in large language models and the brain. Nat Mach Intell (2024).

https://doi.org/10.1038/s42256-024-00925-4

https://www.nature.com/articles/s42256-024-00925-4

本文译自Nature。

来源:今日新材料

声明:仅代表译者观点,如有不科学之处,请在下方留言指正!


今日新材料
中国材料研究学会每日发布新材料最新动态。
 最新文章