生成式神经网络(Generative Models)近年来成为机器学习和人工智能领域的热点技术,在图像生成、文本生成等科学与艺术领域具有广泛应用,同时重新定义了机器智能的边界。这类模型通过学习数据的统计分布,从中采样随机噪声生成新的信息。然而,目前大多数生成式神经网络依赖数字计算硬件实现,受限于计算效率和能耗问题。光计算作为一种新兴的计算范式,研究光与物质相互作用现象在信息处理领域的可能性。其中,光学神经网络利用光的高并行、低延迟和低能耗特性,成为光计算领域的重要方向,催生了许多创新性的光学神经网络架构。然而,现有研究多集中于分类任务的确定性神经网络模型,对生成式模型的探索相对有限。
噪声在生成式神经网络中至关重要,影响着生成样本的多样性和数量。该研究利用光在介质中的多重散射效应所形成的复杂空间模式分布,探索将这种效应作为天然物理噪声源的可能性。这种大规模空间散斑模式结合衍射光学神经网络,为光学生成式神经网络提供了硬件平台一致性(均为空间模式调控),同时散射信号的优良统计特性确保了噪声信号的高质量。然而,实现从随机散斑模式到目标图像的高效映射,需要通过精确的光学编码策略将两者关联起来。研究团队提出了两种编码策略:随机位置编码和物理感知位置编码。其中,后者通过变分自编码器(VAE)对目标图像进行降维,将图像与散射介质的照射位置关联,显著提升了生成图像的质量和一致性。此外,光电生成器部分采用了级联、并行两种光学神经网络架构,其中级联网络通过逐层特征提取实现深度学习,而并行网络通过独立的特征提取模块进行特征聚合,适应不同数据集和生成任务的需求。
图1 光子衍射生成器的主要工作流程
该研究展示了基于MNIST数据集的手写数字生成任务,在不同网络架构、读出方式下均生成了高质量的手写数字图像。实验结果表明,物理感知编码与数字读出的结合,能够大幅提升生成图像的质量。进一步,在更复杂的数据集(Fashion MNIST、EMNIST-letter)上实验验证了PDG对于多样化生成任务的适用性。
图2 光子衍射生成器的主要架构和图像生成结果
此外,研究团队利用散射介质固有的记忆效应,展示了图像插值应用。通过扫描散射介质的照射位置,实现了不同类别图像间的平滑过渡(图3)。
该研究利用光学散射、衍射现象构建了系统化的光电生成式神经网络,实现了多个公开数据集的高质量图像生成,展示了散射与衍射现象在光电计算平台中可作为不同模块发挥协同作用。未来,探索该系统在更复杂的多模态数据生成及全光深度生成式网络中的应用,是重要的研究方向。尽管该光学系统的模型与数字平台中的生成式模型并非完美的一一映射,但研究结果充分体现了丰富的光学物理现象在神经网络硬件部署中的价值,同时启发研究人员在探索非传统计算时,不仅要从算法角度关注神经网络模型的关键特点,还需重视硬件平台的内在物理属性,以实现算法与硬件的深度融合。
文章链接:
https://www.nature.com/articles/s41467-024-55058-4