Fully forward mode training for optical neural networks
DOI: https://doi.org/10.1038/s41586-024-07687-4
随着人工智能(AI)技术的快速发展,光学计算在提升机器学习应用的速度和能效方面展现出巨大潜力。然而,当前光学神经网络(ONNs)的高效训练方法仍面临诸多挑战。传统上,这些方法依赖于在电子计算机上进行数值模拟,这不仅计算资源消耗巨大,还受到模型精度和系统复杂性的限制。光学AI的当前实现方式主要是通过光学系统模拟电子人工神经网络(ANNs)需要付出大量努力才能在空间和时间上表征光传播,而光学系统的设计和控制也在很大程度上依赖于电子计算机的数值模拟和优化,这极大地限制了光学AI的性能和可扩展性。为了克服这些限制,研究人员不断探索新的训练方法,以期在光学系统本身上实现高效的模型训练。然而,现有的基于梯度下降的训练方法通常依赖于光的反向传播,这在实际光学系统中难以实现高精度的校准和对齐。此外,混合方法,即结合现场前向传播与离线反向传播,也因其对通用光学系统建模的依赖而受到限制。阻碍在光学系统中实现无模型和现场机器学习的技术挑战包括以下3点。通用光学非常需要统一的可微分现场参数公式。系统复杂性与学习效率/最优性之间也存在冲突。现有的梯度下降训练依赖于光场的反向传播,但相关的复杂性使其难以扩大规模并完全物理实施。FFM学习通过将光学系统映射为参数化的现场神经网络,并利用空间对称性和洛伦兹互易性来消除梯度下降训练中对光场反向传播的需求。这使得光学参数可以在原始物理系统上直接自我设计,而无需离线建模和反向传播过程。FFM通过测量输出光场和误差传播来计算梯度,并使用梯度下降算法来更新参数。基于此,2024年清华大学戴海琼团队提出了一种全新的训练方法——全前向模式(Fully Forward Mode, FFM)学习,旨在直接在光学系统上实现高效的并行训练。FFM学习通过消除对光的反向传播需求,将光学系统映射为参数化的现场神经网络,并利用空间对称性和洛伦兹互易性来计算梯度并更新系统参数。这种方法不仅避免了复杂的数值建模,还显著提高了训练速度和系统性能。通过FFM学习,光学系统能够自动搜索并优化设计参数,以实现高精度的图像处理、动态非视距成像和高效的光学计算。在自由空间和集成光子系统中,FFM学习展示了其在构建深层ONNs、高分辨率散射成像、动态全光非视距系统以及无模型非厄米系统奇异点搜索等方面的显著优势。这项工作不仅推动了光学AI领域的技术进步,还为未来高性能、高能效的光学计算提供了新的思路和方法。神经网络的梯度下降训练一直是 AI 复兴的核心。该工作通过利用空间对称性和洛伦兹互易性,消除了梯度下降训练中后向传播的必要性。因此,光学参数可以直接在原始物理系统上自行设计。该方法根据来自数据和误差传播的测量输出光场计算梯度,然后使用梯度下降算法有效地更新参数。
非磁性光学系统的特点是折射率、增益和损耗,这意味着这种光学系统的学习应该涉及复折射率 𝑛=𝑛R+j𝑛I (nR,复折射率的实部;nI,复折射率的虚部;j,虚数单位)。根据折射率的可调性,自由空间和集成光学系统可以分为两个不同的区域:调制区和传播区,从而实现各种功能(图 D)。由麦克斯韦方程组控制的光学系统可以重新参数化为可微的嵌入式光子神经网络,公式化为:
其中 x 和 y 是输入和输出电场,W 和 M 分别是以固定和可调折射率为特征的传播和调制区域(图1b)。上式中的光传播重新表述为 𝑦(𝑟o)=∫d(𝑟i)𝐺(𝑟o,𝑟i)𝑥(𝑟i) ,其中 𝐺(𝑟o,𝑟i) 是格林函数,ro和ri分别指定输出和输入索引。设 δy 表示目标和输出之间的误差。在洛伦兹互易性中,误差传播用𝛿𝑥(𝑟i)=∫d(𝑟o)𝐺(𝑟i,𝑟o)𝛿𝑦(𝑟o) 表示 ,这对应于在系统的输出端口输入𝛿𝑦(𝑟o),并将场向前传播到输入端口。要在具有完全正向传播的光学系统上实现梯度下降,应将向后传播替换为:
该方程成立有效性的充分条件是,对于每个坐标对 (𝑟i,𝑟o) ,始终有一对可用 (𝑟o′,𝑟i′) ,使得 𝐺(𝑟o′,𝑟i′)𝛿𝑦(𝑟i′)=𝐺(𝑟i,𝑟o)𝛿𝑦(𝑟o) 和𝑟i与𝑟i′之间以及𝑟o′与ro之间存在一一对应的关系。这个条件在空间对称的系统中得到满足,这是物理系统中固有的(非常类似于电路中由特勒根定理导出的电压电流互易性)。图1 用于光学系统的FFM现场机器学习
因此,误差传播的输出用于计算相对于折光率的梯度 δn。在设计区域的折射率收敛后,部署的光学系统将实现目标应用程序(FFM 学习算法图6所示,摘自原文补充材料)。图1c右下角说明了自由空间系统的设计,用于聚焦输入光束。随着 FFM 学习的应用,品质因数逐渐增加,设计的折射率曲线逐渐接近抛物线波前,导致输出收敛到一个紧密的焦点。图2展示了使用 FFM 学习的自由空间 ONN 的自我训练过程。为了证明 FFM 学习的有效性,图2b在为该工作MNIST 数据集上可视化了训练结果。实验和理论光场之间的结构相似性指数 (SSIM) 超过 0.97,表明高度相似。接着,该工作研究了用于 Fashion-MNIST 数据集分类的多层 ONN(图2d)。通过将层数从 2 层增加到 8 层,可以观察到计算机训练网络的实验测试结果的平均准确率(标准差的两倍)分别为 44.0% (35.1%)、52.4% (8.8%)、58.4% (18.4%) 和 58.8% (5.5%)。这些结果低于 92.2%、93.8%、96.0% 和 96.0% 的理论精度。通过 FFM 学习,网络性能提高到 86.5%、91.0%、92.3% 和 92.5%,接近计算机准确度的理想水平。该工作进一步提出了非线性FFM学习,如图2f所示,在数据传播中,输出在馈入下一层之前被非线性激活,记录非线性激活的输入并计算相关的梯度。在误差传播过程中,输入在传播之前乘以梯度(BP算法)。因为只需要前向传播,所以所提出的 FFM 非线性训练范式适合可测量的一般非线性函数,因此适用于光/电和全光非线性ONN。该工作也演示了点扫描散射成像系统的实现,如图3。传统上,在自适应光学中,启发式优化方法已被用于优化焦点。该工作分析了不同的最先进的优化方法,并利用粒子群优化 (PSO) 进行比较。采用两种不同类型的散射介质,即随机相位板(称为 Scatterer-I)和透明胶带(称为 Scatterer-II)。基于梯度的 FFM 学习表现出更高的效率,在两个实验中经过 25 次设计迭代后收敛,在两种散射类型中收敛损失值为 1.84 和 2.07。相比之下,PSO 方法需要至少 400 次设计迭代才能收敛,最终损失值为 2.01 和 2.15。图3 通过FFM学习通过散射介质达到衍射极限
现场 FFM 学习为设计非常规成像模式提供了有价值的工具,尤其是在无法精确建模的情况下,例如非视域场景成像 (NLOS)其中物体隐藏在角落,观察者不可见。利用光路往返隐藏物体时所表现出的空间对称性(图4a),全光场矩阵(FFM)学习技术能够实现动态隐藏物体的全光学现场重建与分析。
该工作使用了字母形状的隐藏铬目标‘T’、‘H’和‘U’,将曝光时间设置为1毫秒,光功率设为0.20毫瓦,使传感器能够即时对目标进行成像,即使目标在视场中移动。如果不使用FFM设计的波前,所得图像将严重失真(‘原始’列)。尽管粒子群优化(PSO)提高了信号强度(图4b第三列),但目标仍然难以辨认,平均结构相似性指数(SSIM)为0.36。相比之下,FFM设计的波前恢复了所有三个字母的形状,每个目标的SSIM均达到了1.0。整个FFM学习过程和实时动态目标成像实验在补充视频2中进行了可视化展示。
图4 使用 FFM 学习对动态 NLOS 场景进行并行成像和全光学分类FFM 学习方法可以扩展到集成光子系统的自动配置和设计方面。图 5a 展示了使用集成神经网络实现 FFM 学习方法,该神经网络由以串联和并联配置连接的对称光子内核组成。矩阵的对称性允许误差传播矩阵和数据传播矩阵之间的等效性。因此,数据和误差传播共享相同的传播方向。
光栅耦合器阵列用于将输入光耦合到芯片中。如图5b底部所示,每个输入都通过片上光束分离器进行分配,并通过2×1多模干涉仪进行组合。矩阵元素是通过正向偏置p-i-n结,利用不同水平的注入电流来配置片上可变光衰减器(VOA)的衰减系数来实现的。VOA阵列的电极被布线并引线键合到印刷电路板上,以便进行矩阵重新配置,光则通过封装的光纤阵列耦合到和从PIC中输出。共有32个b图所示芯片组成整个PIC以实现基于FFM学习的分类任务。
所构建的神经网络被用于标准鸢尾花数据的分类,其中输入被处理为16×1的向量,输出代表三种花类别中的一种。在训练过程中,通过设置权重为1.0、0.75或0.5,将对称矩阵配置为三种对称比例中的某一种。训练期间矩阵编程的保真度如图5c所示,三个对称矩阵值的时间漂移标准差分别记录为0.012%、0.012%和0.010%。在这种不确定性水平下,将实验梯度与模拟值进行了比较。如图5d所示,实验梯度与理想模拟值之间的平均偏差为3.5%。图5d的插图展示了第80次学习迭代时第二层的设计梯度,而整个神经网络的误差如图5e所示。在第80次迭代时,全光场矩阵(FFM)学习(即计算机模拟训练)显示的梯度误差分别为3.50%(5.10%)、3.58%(5.19%)、3.51%(5.24%)、3.56%(5.29%)和3.46%(5.94%)。设计准确率的演变如图5f所示。
图5 PIC和实验装置示意图
理想模拟和FFM实验均大约需要100个周期才能达到收敛。在三种对称比例配置下,实验性能与模拟性能相似,网络收敛到的准确率分别为94.7%、89.2%和89.0%。FFM方法达到的准确率分别为94.2%、89.2%和88.7%。相比之下,计算机设计的网络在实验中的准确率分别为71.7%、65.8%和55.0%。
[1]Xue, Z., Zhou, T., Xu, Z. et al. Fully forward mode training for optical neural networks. Nature 632, 280–286 (2024). https://doi.org/10.1038/s41586-024-07687-4
免责声明
本公众号旨在传递与分享光学知识、科研资讯,所有内容、图片均已注明出处,且仅供个人学习、知识记录,不作为商业用途。如涉及版权或其他问题,请及时联系邮箱opto1thz8nm@163.com,我将尽快进行协调处理。欢迎需要宣传工作的同行私信投稿!