AI by Complexity 读书会启动:复杂性怎样量化和驱动下一代AI系统

学术   2024-06-13 08:57   英国  


导语


大模型、多模态、多智能体层出不穷,各种各样的神经网络变体在AI大舞台各显身手。复杂系统领域对于涌现、层级、鲁棒性、非线性、演化等问题的探索也在持续推进。而优秀的AI系统、创新性的神经网络,往往在一定程度上具备优秀复杂系统的特征。因此,发展中的复杂系统理论方法如何指导未来AI的设计,正在成为备受关注的问题。

集智俱乐部联合加利福尼亚大学圣迭戈分校助理教授尤亦庄、北京师范大学副教授刘宇、北京师范大学系统科学学院在读博士张章、牟牧云和在读硕士杨明哲、清华大学在读博士田洋共同发起「AI By Complexity」读书会,探究如何度量复杂系统的“好坏”?如何理解复杂系统的机制?这些理解是否可以启发我们设计更好的AI模型?在本质上帮助我们设计更好的AI系统。读书会于6月10日开始,每周一晚上20:00-22:00举办。欢迎从事相关领域研究、对AI+Complexity感兴趣的朋友们报名读书会交流!



读书会背景




如今的AI领域正在经历着加速发展,并产生了广泛的社会影响,神经网络现在已经占据了人工智能算法研究的核心。通过观察神经网络领域的发展,我们发现人们通过引入不同的结构设计偏见(bias)开发出了具有不同性质的算法模型。例如,层级化的信息聚合机制带来了卷积神经网络,记忆机制带来了循环神经网络,稀疏性的引入带来了节省能量的稀疏网络,生物神经元的放电机制带来了脉冲神经网路模型,等等。

我们发现,很多人们想要给神经网络引入的性质,例如节省能量,层级化的信息处理等,也都是复杂系统的性质。什么是一个“好”的神经网络?在以前的研究范式中,人们往往是将一个在复杂系统中观察到的性质引入神经网络,从而得到一个好的神经网络,然而我们认为,一个好的神经网络,本质上应该首先是一个好的复杂系统,然后它将自然的带有节省能量,信息处理高效,可以对抗扰动等诸多性质。

这两种研究思路是不同的,前者的启发可以来源于任何地方,例如来源于直觉(持续学习,稀疏神经网络),来源于数据(对比学习),来源于人类社会的需要(联邦学习)等。这些启发也相当重要,但总体而言,他们指向AI如何面对特定限制下的挑战,而并不在本质上指向更强的人工智能模型。而后者的启发将来源于人们对复杂系统理论的进展和对复杂系统机制的理解,指向AI系统的内在属性的增强。

通过观察近期的科研趋势,尤其是大语言模型的进展,我们可以观察到数据量和参数量的胜利,然而系统的尺寸只是其复杂性的一个方面。如何度量复杂系统的“好坏”?如何理解复杂系统的机制?这些理解是否可以启发我们设计更好的AI模型?这是我们想要通过这个读书会回答的问题。



与复杂科学的关系




复杂系统和人工智能的研究是互相促进的,在本次读书会中,我们主要关注这条双向箭头的其中一边,即复杂系统的新理论如何指导人工智能的设计。因此,我们会共同学习复杂系统的最新进展,并一起讨论如何将其应用于AI领域。当然,在这个方向上已经存在一些值得学习的研究范例,如神经网络的临界性,大模型的scaling law等。但更多的复杂系统理论及方法也为我们展示了更多的可能,如复杂系统的信息处理能力,对抗扰动的鲁棒性,通过局部的互相抑制来节省整体能量消耗的机制等,这些新的进展,或许可以帮助我们设计新的AI。



读书会框架




我们认为未来更好的AI一定是一个具有强大计算能力的复杂系统。所以我们应该站在复杂系统的视角,关注如何量化定义“好的复杂系统”,如何理解复杂系统的机制。这种对复杂系统的深入研究,会帮助我们更好地理解AI以及设计出更好的AI。在本次读书会中,我们将为大家从不同的视角呈现复杂系统的研究成果以及与AI如何融合。这些方向如下图:





发起人团队




张章,北京师范大学系统科学学院博士生。研究兴趣集中于复杂网络与深度学习的交叉领域,具体包括机器学习,复杂系统自动建模等。

田洋,博士,研究方向是复杂系统、统计物理和计算物理。

刘宇,副教授,北京师范大学珠海校区-复杂系统国际科学中心-Evolving Complex Systems Lab。物理、数学背景(瑞典Uppsala大学应用数学与统计博士),先后在英国Glasgow大学化学系、荷兰Groningen大学化学生物系、瑞典Mittag-Leffler数学研究所任研究职位。目前研究方向:用算法信息论研究生命的起源与演化,即,把生命系统定量刻画成软件系统。微信公众号:【ecsLab】。

牟牧云,北京师范大学系统科学学院博士生。研究方向:复杂系统建模与调控、强化学习世界模型、图神经网络。

杨明哲,北京师范大学系统科学学院硕士生,张江老师因果涌现研究小组成员。研究领域是因果涌现、复杂系统自动建模。

尤亦庄,加利福尼亚大学圣迭戈分校助理教授。研究领域为理论凝聚态物理,强关联系统,量子拓扑物态,多体局域化与热化,纠缠,张量网络,以及全息原理与机器学习。
个人主页:https://everettyou.github.io/
https://pattern.swarma.org/user/4298




报名参与读书会 




本读书会适合参与的对象

  • 基于复杂系统相关学科研究,对统计物理、复杂网络、信息论、复杂系统临界性等视角启发AI系统构建与研究有浓厚兴趣的科研工作者;

  • 具有一定统计物理、信息论、复杂网络、神经科学以及计算机科学的学科背景,在领域内有一定的研究基础,想进一步进行交叉学科研究与交流的学者、研究生、本科生。

  • 对复杂科学充满激情,对世界,特别是“AI是否能成为一个真正的复杂系统”充满好奇的探索者,且具备一定的英文文献阅读能力的探索者。

  • 想锻炼自己科研能力或者有出国留学计划的高年级本科生及研究生。


社群管理规则

为确保专业性和讨论的聚焦,本读书会谢绝脱离读书会主题和复杂科学问题本身的空泛的哲学和思辨式讨论;不提倡过度引申在社会、人文、管理、政治、经济等应用层面的讨论。我们将对参与人员进行筛选,如果出现讨论内容不符合要求、经提醒无效者,会被移除群聊并对未参与部分退费,解释权归集智俱乐部所有。


运行模式

本季读书会预计讨论分享10-12次,以主题分享的形式按照暂定框架贯次展开;每周进行线上会议,与会者可以广泛参与讨论,会后可以获得视频回放持续学习。


举办时间

从2024年6月10日开始,每周一20:00-22:00,持续时间预计10-12周。我们也会对每次分享的内容进行录制,剪辑后发布在集智斑图网站上,供读书会成员回看,因此报名的成员可以根据自己的时间自由安排学习时间。

参与方式

此次读书会为线上闭门读书会,采用的会议软件是腾讯会议(请提前下载安装)。在扫码完成报名并添加负责人微信后,负责人会将您拉入交流社区(微信群),入群后告知具体的会议号码。

报名方式

第一步:扫码填写报名信息。


第二步:填写信息后,付费299元。

第三步:添加负责人微信,拉入对应主题的读书会社区(微信群)。本读书会可开发票,请联系相关负责人沟通详情。

共学共研模式与退费机制

读书会采用共学共研的机制,围绕前沿主题进行内容梳理和沉淀。读书会成员可通过内容共创任务获得积分,解锁更多网站内容,积分达到标准后可退费。发起人和主讲人作为读书会成员,均遵循内容共创共享的退费机制,暂无其他金钱激励。读书会成员可以在读书会期间申请成为主讲人,分享或领读相关研究。

加入社区后可以获得的资源:

  • 在线会议室沉浸式讨论:与主讲人即时讨论交流。

  • 交互式播放器高效回看:快速定位主讲人提到的术语、论文、大纲、讨论等重要时间点(详情请见:解放科研时间,轻松掌握学术分享:集智斑图推出可交互式播放器

  • 高质量的主题微信社群:硕博比例超过80%的成员微信社区,闭门夜谈和交流

  • 超多学习资源随手可得:从不同尺度记录主题下的路径、词条、前沿解读、算法、学者等。

  • 参与社区内容共创任务:读书会笔记、百科词条、公众号文章、论文解读分享等不同难度共创任务,在学习中贡献,在付出中收获。

  • 共享追踪主题前沿进展:在群内和公众号分享最新进展,领域论文速递。

参与共创任务,共建学术社区:


PS:具体参与方式可以加入读书会后查看对应的共创任务列表,领取任务,与运营负责人沟通详情,上述规则的最终解释权归集智俱乐部所有。





读书会阅读材料




阅读材料较长,为了更好的阅读体验,建议您前往集智斑图沉浸式阅读,并可收藏感兴趣的论文。


读书会阅读清单


一、作为复杂系统的AI大模型

本视角下关注的核心问题:AI大模型首先是一个典型的复杂系统。如何用复杂系统的视角去研究现在的AI系统,有哪些方法可以借鉴,有哪些规律可以帮助深入理解AI大模型,可以从复杂网络、复杂动力系统的方法来对大模型进行研究,同时也能够去深入理解AI大模型的涌现现象和规模法则。

推荐阅读:AI何以涌现:复杂适应系统视角的ChatGPT和大语言模型

https://pattern.swarma.org/article/224


本视角下讨论的核心理论:网络科学、规模法则、涌现

1. Jason Wei, Yi Tay, Rishi Bommasani, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682, 2022

大语言模型中的涌现:大语言模型的涌现现象也是近年来研究的热点问题,但是与传统复杂系统中的涌现定义不同,大语言模型的涌现能力,指的是随着模型规模的增长,一些能力会突然变强,突变式地拥有了小语言模型所不具有的新能力。

2. Jared Kaplan, Sam McCandlish, Tom Henighan, et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 2020

大语言模型的规模法则:与许多复杂系统一样,大语言模型也遵循着规模法则(Scaling law),也就是它的各项宏观指标会形成两两的幂律关系。

3. Emanuele La Malfa, Gabriele La Malfa, Giuseppe Nicosia, et al. Characterizing Learning Dynamics of Deep Neural Networks via Complex Networks. arXiv:2110.02628, 2021

展示了神经网络训练过程中权重分布的异质化趋势,即赢者通吃的局面。

4. Matteo Zambra, Alberto Testolin, Amos Maritan. Emergence of Network Motifs in Deep Neural Networks. arXiv:1912.12244, 2019

研究了神经网络在训练过程中自发演化出的局部网络结构。

5. Emanuele La Malfa, Gabriele La Malfa, Claudio Caprioli, et al. Deep Neural Networks as Complex Networks. arXiv:2209.05488, 2022

探讨了不同网络结构对神经网络功能和学习能力的影响。


二、神经科学视角

本视角下关注的核心问题:bio-inspired machine learning是一个非常广阔的领域,通过一期读书会来囊括诸多代表性研究是不够的,因此,我们希望在这个部分只节选生物启发机器学习中具有复杂性味道的研究范例进行学习与讨论。例如:Hebbian Learning和Anti-Hebbian Learning。


本视角下讨论的核心理论:Hebbian Learning、Anti-Hebbian Learning、脉冲神经网络

推荐人:张章

  1. Alemanno, Francesco, et al. "Supervised hebbian learning." Europhysics Letters 141.1 (2023): 11001. https://iopscience.iop.org/article/10.1209/0295-5075/aca55f/meta

Hebbian Learning指人们从生物神经网络中发现了一条简单有趣的规则,即Fire together,wire together。这个简单的规则可以用于指导神经网络的结构设计和训练。

  1. Choe, Yoonsuck. "Anti-hebbian learning." Encyclopedia of Computational Neuroscience. New York, NY: Springer New York, 2022. 213-216. https://link.springer.com/referenceworkentry/10.1007/978-1-0716-1006-0_675

Anti hebbian learning则是另一条与之相反的规则,即尽可能减少神经元的协同激活,从而起到节省能量的作用,相比于Hebbian Leraning,Anti Hebbian Leraning是一个更晚发现的规则,但同样是简单规则指导神经网络结构和动力学的可实践的范例。


三、统计物理视角

本视角下关注的核心问题一:

所有研究关注的核心问题都是如何理解神经网络在初始化、优化(即训练)和部署阶段的行为所符合的物理规律。例如,在初始化时是否有可能使得神经网络避免梯度爆炸或梯度消失?在训练过程中,神经网络是否可以在特点优化器的作用下避开局部极小值,应该如何泛化?在部署阶段,是否可以依据特定统计物理规则对神经网络参数进行筛选和量化以降低计算量?


本视角下讨论的核心理论:平均场理论、重整化群

推荐人:田洋

神经网络的平均场理论的核心目的在于理解神经网络在无限宽的条件下的动力学行为,确定神经网络在初始化和训练阶段的最优条件(例如最优初始化方案等)。以下是关于人工神经网络的平均场理论的论文,前面为三篇核心文献,分别对应平均场理论、实验效果、经典平均场理论的局限和推广;后面两篇为补充文献。

  1. Xiao, Lechao, et al. "Dynamical isometry and a mean field theory of cnns: How to train 10,000-layer vanilla convolutional neural networks." International Conference on Machine Learning. PMLR, 2018. https://proceedings.mlr.press/v80/xiao18a

  2. Schoenholz, Samuel S., et al. "Deep information propagation." arXiv preprint arXiv:1611.01232 (2016). https://arxiv.org/abs/1611.01232

  3. Weng, K., Cheng, A., Zhang, Z., Sun, P., & Tian, Y. (2023). Statistical physics of deep neural networks: Initialization toward optimal channels. Physical Review Research5(2), 023023. https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.023023

  4. Pennington, J., Schoenholz, S., & Ganguli, S. (2018, March). The emergence of spectral universality in deep networks. In International Conference on Artificial Intelligence and Statistics (pp. 1924-1932). PMLR. https://proceedings.mlr.press/v84/pennington18a.html

  5. Yang, G., & Schoenholz, S. (2017). Mean field residual networks: On the edge of chaos. Advances in neural information processing systems30. https://proceedings.neurips.cc/paper_files/paper/2017/hash/81c650caac28cdefce4de5ddc18befa0-Abstract.html

  6. Bahri, Y., Kadmon, J., Pennington, J., Schoenholz, S. S., Sohl-Dickstein, J., & Ganguli, S. (2020). Statistical mechanics of deep learning. Annual Review of Condensed Matter Physics11, 501-528. https://www.annualreviews.org/content/journals/10.1146/annurev-conmatphys-031119-050745


重整化群这一个方向的核心研究目的在于从信息论或概率论的角度理解重整化群的设计原理,并结合新的数学工具设计更具有泛用性或计算性能更加高的重整化群,以在原始理论无法涵盖的场景中验证系统是否处于临界点或是否符合特定标度关系。下面5篇文章是重整化群和机器学习想法交融或用于解决数据科学问题的代表。

  1. Kline, Adam G., and Stephanie E. Palmer. "Gaussian information bottleneck and the non-perturbative renormalization group." New journal of physics 24.3 (2022): 033007. https://iopscience.iop.org/article/10.1088/1367-2630/ac395d/meta

  2. Cheng, Aohua, Pei Sun, and Yang Tian. "Simplex path integral and renormalization group for high-order interactions." arXiv preprint arXiv:2305.01895 (2023). https://arxiv.org/abs/2305.01895

  3. Lenggenhager, Patrick M., et al. "Optimal renormalization group transformation from information theory." Physical Review X 10.1 (2020): 011037. https://journals.aps.org/prx/abstract/10.1103/PhysRevX.10.011037

  4. Xu, Yizhou, Yang Tian, and Pei Sun. "Fast renormalizing the structures and dynamics of ultra-large systems via random renormalization group." (2024). https://www.researchsquare.com/article/rs-3888068/v1

  5. Gordon, Amit, et al. "Relevance in the renormalization group and in information theory." Physical Review Letters 126.24 (2021): 240601. https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.126.240601


本视角下关注的核心问题二:利用统计物理对复杂系统进行度量这个研究方向上也有了很多新的进展,如使用自由能度量复杂网络的信息传播速度,使用熵度量复杂网络对抗扰动的能力,使用热机效率度量复杂网络的效率等。而因为我们有一个信仰,“一个好的AI系统首先是一个好的复杂系统”,因此这部分度量方式也可以去学习,并有助于指导AI系统的设计。


本视角下讨论的核心理论:熵、自由能原理

推荐人:张章、牟牧云

推荐论文:9篇

  1. Ghavasieh, Arsham, Carlo Nicolini, and Manlio De Domenico. "Statistical physics of complex information dynamics." Physical Review E 102.5 (2020): 052304. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.102.052304

  2. Ghavasieh, Arsham, and Manlio De Domenico. "Generalized network density matrices for analysis of multiscale functional diversity." Physical Review E 107.4 (2023): 044304. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.107.044304

  3. Ghavasieh, Arsham, and Manlio De Domenico. "Enhancing transport properties in interconnected systems without altering their structure." Physical Review Research 2.1 (2020): 013155. https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.013155

  4. Ghavasieh, Arsham, and Manlio De Domenico. "Diversity of information pathways drives sparsity in real-world networks." Nature Physics (2024): 1-8. https://www.nature.com/articles/s41567-023-02330-x


自由能的概念起源于统计物理,后被引入机器学习和信息加工领域,表示对世界表征状态与其真实状态间的差异。自由能原理认为,所有可变的量,只要作为系统的一部分,都会为最小化自由能而变化。本质上,自由能原理希望阐明在生物系统中实现自组织的可能性。在集智“自由能原理与强化学习”读书会中对以自由能原理为基础的主动推断框架进行了详细的介绍,更多偏向从贝叶斯定理出发的认知的视角。在本次AI by Complexity读书会中我们将更多从随机动力系统以及非平衡稳态等视角出发探究自由能原理与智能体感知和行动之间的联系,这对于构建决策AI智能体或许能够带来新的启发。以下5篇论文与自由能原理相关。

  1. Karl, Friston. "A free energy principle for biological systems." Entropy 14.11 (2012): 2100-2121. https://www.mdpi.com/1099-4300/14/11/2100

生命何以存在?这篇文章从随机动力系统的视角出发,基于变分自由能的最小作用量原理,试图解释生命体能够抵抗环境中无序的波动的内在逻辑,并建立了它与信息瓶颈方法在形式上等价的条件。

  1. Friston, Karl, and Ping Ao. "Free energy, value, and attractors." Computational and mathematical methods in medicine 2012 (2012). https://pubmed.ncbi.nlm.nih.gov/22229042/

自由能原理认为行动和感知可以被理解为最小化感觉样本的自由能,而强化学习源于行为主义和工程学,假定代理者优化策略以最大化未来的奖励。这篇文章试图将自由能原理以及强化学习针对行动和感知的两种表述联系起来。

  1. Friston, Karl, et al. "The free energy principle made simpler but not too simple." Physics Reports 1024 (2023): 1-29. https://www.sciencedirect.com/science/article/pii/S037015732300203X

这篇论文提供了自由能原理的简洁推导。自由能量原理是关于自组织和感知行为的规范性描述,它将自组织描述为最大化贝叶斯模型证据,将感知行为描述为最优贝叶斯设计和决策。这篇文章随机动力系统的朗之万方程描述开始,最终得出可以被看作是有感知的物理学的贝叶斯力学。

  1. Mazzaglia, Pietro, et al. "The free energy principle for perception and action: A deep learning perspective." Entropy 24.2 (2022): 301. https://www.mdpi.com/1099-4300/24/2/301

这篇文章建立了自由能原理与深度学习世界模型之间的联系,并对强化学习世界模型架构设计的不同方面进行了讨论。

  1. Hafner, Danijar, et al. "Action and perception as divergence minimization." arXiv preprint arXiv:2009.01791 (2020). https://arxiv.org/abs/2009.01791

基于自由能原理以及自由能原理的具体实现主动推断框架,启发了差异最小化(divergence minimization)的想法,从差异最小化的角度出发,很多深度学习强化学习算法可以看作是智能体在最小化内在模型分布与目标分布之间的差异。从这个角度出发可以将大量已有的的深度学习强化学习(更多针对强化学习)算法进行一个统一的分类,并且能够启发我们设计新的强化学习算法。


本视角下关注的核心问题三:PMI LAB致力于寻找生物和人工智能的物理原理,坚信赋予数学优美性的理论可以帮助人们洞察事物深层次的本质。近几年来人工智能的涌现能力受到社会各界的高度关注,正成为新一轮科技革命的驱动力。如何更好地理解这种涌现能力?如何基于物理学第一性原理创造更安全、可靠、通用的人工智能,进而理解人类心智的形成?本实验室从统计物理的视角,利用平均场理论的思想来寻找能够联系微观神经活动和宏观智能的物理量,并揭示智能模型中哪些参数变化会导致系统状态的显著影响。具体而言,本实验室从玩具模型的平衡系综分布和非平衡动力学两个方向着手研究:平衡态方法有助于刻画神经网络集体行为的相变,即对称性破缺,以及优化算法背后的能量景观;而非平衡动力学有助于研究网络学习和信息传播的非平衡过程,以此揭示网络动力学的物理本质。

本视角下讨论的核心理论:费米玻色机网络、随机矩阵谱计算、理论机器学习、连续学习、平均场理论
推荐人:PMI Lab
推荐:14篇论文、1本书籍
【神经网络的统计物理(书籍)】
Huang H. Statistical mechanics of neural networks[M]. Springer, 2021.
以下分类按照⻩海平老师对智能原理的八大挑战(Eight challenges in developing theory of intelligence, ArXiv: 2306.11232)进行分类,其中关于因果学习、意识理论还未有正式成果。
【一、表征学习 Representation learning】
Huang H. Mechanisms of dimensionality reduction and decorrelation in deep neural networks[J]. Physical
Review E, 2018, 98(6): 062313. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.98.062313
J. Zhou and H. Huang, Weakly correlated synapses promote dimension reduction in deep neural networks, Phys. Rev. E 103, 012315 (2021). https://journals.aps.org/pre/abstract/10.1103/PhysRevE.103.012315
【二、泛化理论 Generalization】
Huang H, Kabashima Y. Origin of the computational hardness for learning with binary synapses[J]. Physical Review E, 2014, 90(5): 052813. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.90.052813
C. Li and H. Huang, Learning credit assignment, Phys. Rev. Lett. 125, 178301(2020).https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.125.178301
C. Li, and H. Huang, Emergence of hierarchical modes from deep learning, Phys. Rev. Research 5, L022011 (2023)  
https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.L022011
【三、对抗性攻击 Adersarial vulnerality】
Xie M, Wang Y, Huang H. Fermi-Bose Machine[J]. arXiv preprint arXiv:2404.13631, 2024.https://arxiv.org/abs/2404.13631
【四、连续学习 Continual learning】
Li C, Huang Z, Zou W, et al. Statistical mechanics of continual learning: Variational principle and mean-field
potential[J]. Physical Review E, 2023, 108(1): 014309.
https://journals.aps.org/pre/abstract/10.1103/PhysRevE.108.014309
【五、大脑的内禀模型 Internal model of the brain】
Hou T, Huang H. Statistical physics of unsupervised learning with prior knowledge in neural networks[J]. Physical Review Letters, 2020, 124(24): 248302. https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.124.248302
Zou W, Huang H. Introduction to dynamical mean-field theory of randomly connected neural networks with
bidirectionally correlated couplings[J]. SciPost Physics Lecture Notes, 2024: 079. https://www.scipost.org/SciPostPhysLectNotes.79?acad_field_slug=astronomy
W. Zou, C. Li, and H. Huang, Ensemble perspective for understanding temporal credit assignment, Phys. Rev. E 107, 024307 (2023). https://journals.aps.org/pre/abstract/10.1103/PhysRevE.107.024307
Z. Jiang, Z. Chen, T. Hou, and H. Huang, Spectrum of non-Hermitian deep-Hebbian neural networks, Phys. Rev. Research 5, 013090 (2023). https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.013090
J. Qiu and H. Huang, An optimization-based equilibrium measure describes non-equilibrium steady
state dynamics: application to edge of chaos, arXiv:2401.10009 (2024). https://arxiv.org/abs/2401.10009
【六、大规模语言模型 Large language model】
Li C, Qiu J, Huang H. Meta predictive learning model of languages in neural circuits[J]. Physical Review E, 2024, 109(4): 044309. https://journals.aps.org/pre/abstract/10.1103/PhysRevE.109.044309


四、复杂网络视角

本视角下关注的核心问题:神经网络模型作在机器学习算法中处于核心地位,而现有的神经网络模型以全连接、CNN、RNN、Transformer等为代表,其本身并没有和网络科学直接关联。而我们知道一个全连接的复杂网络在现实中是很少见的。网络科学告诉我们,全连接的网络在成本,鲁棒性,信息传递效率等方面都不是最优的。而现在大多数稀疏神经网络的研究也只考虑了成本的降低,而并不从复杂网络的视角考虑一个稀疏的网络带来的其他性质。因此我们想在这一部分介绍结合网络科学和神经网络模型的论文,一些容易想到的论文是在库计算领域(reservoir computing)中,研究库中不同网络结构对效果的影响。


本视角下讨论的核心理论:库计算

推荐人:张章

推荐论文:4篇

  1. Klickstein, Isaac, Louis Pecora, and Francesco Sorrentino. "Symmetry induced group consensus." Chaos: An Interdisciplinary Journal of Nonlinear Science 29.7 (2019). https://pubs.aip.org/aip/cha/article/29/7/073101/1059583

  2. Dale, Matthew, et al. "Reservoir computing quality: connectivity and topology." Natural Computing 20 (2021): 205-216. https://link.springer.com/article/10.1007/s11047-020-09823-1

  3. Kawai, Yuji, Jihoon Park, and Minoru Asada. "A small-world topology enhances the echo state property and signal propagation in reservoir computing." Neural Networks 112 (2019): 15-23. https://www.sciencedirect.com/science/article/abs/pii/S0893608019300115

  4. Zador, Anthony M. "A critique of pure learning and what artificial neural networks can learn from animal brains." Nature communications 10.1 (2019): 3770. https://www.nature.com/articles/s41467-019-11786-6


五、信息论视角

本视角下关注的核心问题一:目前AI被拓展到各个领域,随着LLM的兴起和各种参数规模的增大(AI本身变为复杂系统)以及需要处理的任务越来越复杂(AI面对的对象是复杂系统),复杂系统所特有的涌现现象一定会是AI研究中不可避免会遇到的问题。那么问题来了:什么是AI自身的涌现?因果涌现理论如何解释甚至优化出更加具有涌现特征的AI?另外,AI能否“理解”涌现?以识别甚至控制涌现为优化目标,能否让AI表现更出色?


因果涌现最早由Erik Hoel等人提出,即对一个系统建立多尺度建模的视角,在不同尺度下,都可以找到系统背后的动力学。其中,从微观变量到宏观变量会经历一个粗粒化的映射,减少我们处理变量的维度。宏观变量固然会损失一些信息,但往往其动力学过程更为简洁。对每一个尺度下的动力学,我们都可以测量其因果效应强度,比如计算有效信息(effective information, EI)的大小,关于这个具体度量指标的介绍可以参考集智百科词条有效信息。我们可以比较不同尺度下动力学EI的大小,如果宏观动力学EI大于微观动力学EI,我们认为该系统发生因果涌现。

基于Hoel等人的多尺度因果涌现框架来指导AI研究的工作目前只有NIS(Neural Information Squeezer)系列,其中NIS+的框架可以通过让机器识别涌现(最大化有效信息)来增强分布外泛化预测的能力:
本视角下讨论的核心理论:因果涌现

推荐人:杨明哲

  1. Zhang, J., & Liu, K. (2022). Neural Information Squeezer for Causal Emergence. Entropy25(1), 26. https://doi.org/10.3390/e25010026

  2. Yang, M., Wang, Z., Liu, K., Rong, Y., Yuan, B., & Zhang, J. (2023). Finding emergence in data by maximizing effective information (arXiv:2308.09952). arXiv. http://arxiv.org/abs/2308.09952


本视角下关注的核心问题二:自去年以来,包括Ilya Sutskever、Marcus Hutter、Jack Rae等众多研究者均对压缩与智能之间的关系进行了探讨,有观点甚至将这一理论视为OpenAI的核心哲学。实际上,探究压缩和智能的联系已有悠久历史,最早可追溯至图灵关于可计算性的研究。此后,1960年代Solomonoff、Kolmogorov 和 Chaitin独立提出并发展算法信息论(紧随香农的信息论之后),该领域逐渐引入了诸如柯式复杂度这样的重要概念:即复杂度衡量的是在通用图灵机上生成某个对象的最短程序长度。90年代,研究者已经开始利用压缩方法有效地执行分类等任务,这一应用如今重新受到关注,仿佛它是一个全新的发现。随着大型模型的兴起,这一领域的联系和重要性重新受到关注,这可能使得这一学科从默默发展到再次成为焦点。在当前的人工智能研究中,虽然数据规模和模型规模受到了极大关注,但各种Magic神经网络架构背后,必然有更深层的原理在指导或推动其发展,这可能就像卡诺循环、内燃机、热力学第二定律以及热力学统计之间的微妙关系。


本视角下讨论的核心理论:算法信息论

推荐人:刘宇

  1. Cilibrasi, Rudi, and Paul MB Vitányi. "Clustering by compression." IEEE Transactions on Information theory 51.4 (2005): 1523-1545. https://ieeexplore.ieee.org/abstract/document/1412045

在算法信息论领域非常有影响力的工作:如何利用压缩机定义距离,进而用来分类、构造系统发生树等。

  1. Delétang, Grégoire, et al. "Language modeling is compression." arXiv preprint arXiv:2309.10668 (2023). https://arxiv.org/abs/2309.10668

DeepMind的最新工作,阐述大模型和压缩的关系,使得算法信息论再次引起人工智能领域的关注。

  1. Johnston, Iain G., et al. "Symmetry and simplicity spontaneously emerge from the algorithmic nature of evolution." Proceedings of the National Academy of Sciences 119.11 (2022): e2113883119. https://www.pnas.org/doi/abs/10.1073/pnas.2113883119

    从算法信息论角度去描述分子等结构的复杂性,连接起来演化和压缩的关系。

  2. Sharma, Abhishek, et al. "Assembly theory explains and quantifies selection and evolution." Nature 622.7982 (2023): 321-328. https://www.nature.com/articles/s41586-023-06600-9:

    近期Nature正刊发表的充满争议的Assembly Theory

  3. Zecheng Zhang, Chunxiuzi Liu, Yingjun Zhu, et al. Evolutionary Tinkering Enriches the Hierarchical and Interlaced Structures in Amino Acid Sequences (近期将在Physical Review Research刊出)https://www.researchsquare.com/article/rs-3440555/v2

    算法信息论领域所提出的新方法-梯径方法,并把它应用于蛋白质序列的分析,挖掘序列中亚结构的重复嵌套关系以及演化关系。


本视角下关注的核心问题三:信息瓶颈的核心目的在于探索如何使得神经网络能在无监督或弱监督的条件下进行对比学习,实现对数据的最优低维表征(当然,相关算法也适用于传统的监督学习)。


本视角下讨论的核心理论:算法瓶颈

推荐人:田洋

以下两篇为信息瓶颈(information bottleneck)在深度学习里最经典的论文。

  1. Painsky, A., & Tishby, N. (2018). Gaussian lower bound for the information bottleneck limit. Journal of Machine Learning Research18(213), 1-29. https://www.jmlr.org/papers/v18/17-398.html

  2. Hjelm, R. D., Fedorov, A., Lavoie-Marchildon, S., Grewal, K., Bachman, P., Trischler, A., & Bengio, Y. (2018). Learning deep representations by mutual information estimation and maximization. arXiv preprint arXiv:1808.06670. https://arxiv.org/abs/1808.06670


六、复杂系统的临界性视角

本视角下关注的核心问题:在生物系统中,用什么量化方法度量一个生物系统(如脑网络)系统是否处于临界态?临界态将为这个系统带来哪些好处?这些问题是否在人工神经网络中也成立?


本视角下讨论的核心理论:自组织临界

推荐人:张章

  1. Bak, Per. How nature works: the science of self-organized criticality. Springer Science & Business Media, 2013.

关于自组织临界性的经典丛书,中文译本为《大自然如何运作》,由自组织临界性的提出人per bak撰写。

  1. Tetzlaff, Christian, et al. "Self-organized criticality in developing neuronal networks." PLoS computational biology 6.12 (2010): e1001013. https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1001013

这是一篇纯生物文章,监测了一个developing的神经网络系统是如何逐渐从低活性状态,经过超临界,亚临界的状态,最终达到临界态的。作者还通过数学模型来解释了这一神经网络developing的过程。

  1. Katsnelson, Mikhail I., Vitaly Vanchurin, and Tom Westerhout. "Self-organized criticality in neural networks." arXiv preprint arXiv:2107.03402 (2021). https://arxiv.org/abs/2107.03402


通过实验(MNIST手写体数字识别)和分析证明,人工神经网络再训练中会逐渐趋向于一个自组织临界态。


神经现实
包罗人类心智万象,预想一切重塑身心之物。
 最新文章