光子器件|串联深度神经网络纳逆向设计米光子结构

文摘   2024-09-25 18:34   湖北  

Training Deep Neural Networks for the Inverse Design of Nanophotonic Structures

DOI: 10.1021/acsphotonics.7b01377

光子器件越来越依赖复杂的纳米结构来实现复杂的功能。随着结构复杂性的增加,设计过程变得更具挑战性。传统的纳米光子器件设计方法通常依赖于电磁仿真和迭代优化算法,包括进化算法、水平集方法、伴随方法和特定几何参数的优化这些算法从一个初始设计开始,通过反复模拟和调整结构参数,以逼近目标光学响应。然而,这种方法往往需要大量的计算资源和时间由于每次仿真的计算成本都很高,因此随着器件的规模尺寸和复杂性的增加,这些方法的时间开销会难以接受
近年来,随着机器学习和深度学习的快速发展,数据驱动的方法在纳米光子学设计领域展现出巨大的潜力。人工神经网络(ANNs)能够通过学习大量训练数据中的规律,实现复杂映射关系的快速预测。
NN 替换优化循环中计算成本高昂的 EM 仿真:在纳米光子学设计中,前向建模网络已经被证明能够有效替代计算成本高昂的电磁仿真,显著缩短设计周期。这些网络通过输入结构参数预测光学响应,为设计过程提供了强有力的辅助工具。然而,对于逆设计问题——即根据目标光学响应设计相应的纳米光子学结构,传统神经网络面临着非唯一性的挑战。由于电磁散射问题的固有属性,同一光学响应可以由多种不同的结构产生。这种非唯一性导致训练数据中存在冲突实例,使得神经网络难以收敛到正确的设计。因此,如何有效训练逆设计神经网络,使其能够处理大规模训练数据并设计复杂光子结构,成为当前研究中的一个重要问题。
一次性的算力开销


正向建模和逆向设计网络都需要大量的训练实例来训练以执行预期的功能,这一过程也需要消耗大量的计算资源,但相比于传统优化需要对每个设计进行相同的大量仿真,训练NN的算力开销主要被用于构建设计工具,而传统优化方法则需要不断消耗。
威斯康星大学Liu等人通过提出一种串联架构的神经网络,结合前向建模和逆设计,实现复杂纳米光子学结构的快速逆设计。该方法不仅能够克服非唯一性问题,还能有效利用大规模训练数据,为纳米光子学设计领域提供一种新的、高效的解决方案。
串联神经网络

正向建模网络的训练可以通过标准的DNN训练流程完成。然而,在训练用于逆设计的深度神经网络(NNs)时,存在一个重大挑战。这一挑战源自逆散射问题的一个基本属性:同一电磁(EM)响应可以由多种不同的设计产生。这种非唯一的响应到设计的映射关系导致了训练数据中的冲突实例,例如(r, d1) 和 (r, d2)。当训练数据集中存在这种具有相同输入但不同输出标签的冲突实例时,神经网络将难以收敛。

期的工作曾尝试通过将训练数据集划分为不同的组来解决这一问题,以确保每个组内每个响应r对应唯一的设计d。这种方法在小规模训练集上取得了一定的成效。但如消除表面上的冲突实例并不能从根本上解决非唯一映射的问题,因此一般效果不佳。

图1 DNN网络示意图

首先,该工作通过一个具体例子来说明训练用于逆设计的深度神经网络所面临的困难。如图2(a)所示,考虑一个由SiO2和Si3N4交替层组成的薄膜。该多层薄膜的目标是生成一个目标透射光谱;设计空间是每一层的厚度。该结构可以由一个数组d = [d1, d2, ..., dm]表示,其中di是第i层的厚度。透射光谱被离散化为n个点,并由一个数组r = [r1, r2, ..., rn]表示。
设定每一层的最大允许厚度为a。所关注的频谱范围是0.15c/a ≤ f ≤ 0.25c/a,其中c是光速,a是单位长度(如微米)。
图2  由 m 层 SiO2 和 Si3N4 组成的透射薄膜,薄膜的设计参数是层 d 的厚度 ( = 1, 2, ..., m),器件响应是透射光谱

只要存在具有不同结构但透射光谱几乎相同的实例,神经网络的训练就会难以收敛。这很好理解,例如,训练数据中的两个实例具有如图2(b)所示的结构d1和d2。这两个薄膜的透射光谱r1和r2几乎完全相同,如图2(c)所示。当我们在训练集中同时包含实例(r1, d1)和(r2, d2)时,训练过程将难以收敛,因为对于从r1到r2的微小输入变化,这两个实例给网络提供了完全不同的答案d1和d2,网络因此紊乱,梯度相悖。

冲突标签无法学习

为了便于理解冲突标签导致DNN无法学习的原因,该工作考虑一个具体的网络来检查训练过程。训练是通过最小化一个成本函数来进行的,例如,其中oi是神经网络在给定输入r下设计的层厚度,而di是层厚度的真实值(即模拟中使用的值)。成本函数衡量了网络预测O与真实值D之间的距离。我们使用了一个四层全连接网络。其架构表示为200-500-200-20,数字表示每层中的单元数。网络有一个包含200个单元(n=200)的输入层,这与透射光谱的离散化点数相匹配。输出层包含20个单元(m=20),表示一个20层薄膜的层厚度。它还有两个隐藏层,分别包含500和200个单元。训练集包含500,000个实例,而另外50,000个不同的实例被留作测试集。

图3 逆网络的学习曲线

学习曲线如图3(a)中的蓝线所示。即使在经过15,000个训练周期后,成本函数也几乎没有下降,这表明网络在为输入透射光谱设计薄膜结构方面的性能很差。增加逆设计网络的大小或调整超参数(如学习率)也无法改善其性能。如图3(b)所示,该神经网络产生的设计结果与目标光谱相去甚远。这一观察结果与之前的研究结果一致。

同时该工作也考虑了消除训练集中的非唯一实例来解决冲突问题,但是效果也非常有限,如图3a红色曲线所示,其原因主要是隐式冲突训练实例导致的,即NN本质是建立一组输入输出的映射,而隐式的非唯一映射示例会导致训练的模型所对应的映射在两组映射间来回跳跃导致学习效率底下且无法收敛。

图4 数据驱动的串联DNN

基于此,该工作提出了一个由两个神经网络组成的串联架构,如图 4 所示。第一部分与逆向设计的传统网络相同,第二部分是经过训练以预测设计响应的正向网络。当使用串联网络进行逆向设计时,将所需的响应  作为输入。中间层 M 的输出(如图 4 所示)是设计结构。

串联网络的应用验证


串联网络的输出是根据设计结构计算的响应。正向建模网络是预先训练的。然后,预先训练的正向建模网络中的权重是固定的,并且对逆网络中的权重进行训练,以减少定义为预测响应和目标响应之间的误差的成本函数。这种网络结构克服了电磁波逆散射中的非唯一性问题,因为神经网络的设计不需要与训练样本中的真实设计相同。相反,只要生成的设计和实际设计具有相似的响应,成本函数就会很低。

图5  串联神经网络的学习曲线和串联网络方法的示例测试结果。

正向建模:在逆向网络训练前,该工作首先分离训练网络的第二部分正向建模网络,并使用从全波电磁仿真中获得的训练实例独立训练该网络。前向网络的输入是设计D,输出是响应R 。由于每个设计D总是有独特的响应R ,因此培训很容易收敛。

逆向网络架构被设置为四层,每层分别有200-500-200-20个单元。将光谱 = [r1, r2, ..., r200] 作为串联网络的输入。网络第一部分的输出设计D被计算为中间层,然后将其输入到正向建模部分以计算相应的光谱 [o1, o2, ..., o200]。如图5(a)中的学习曲线所示,测试实例的成本迅速下降,表明训练非常有效。实际上,如图5(b)和(c)所示,串联网络设计出的结构能够以更高的保真度产生所需的透射光谱。


图6 透射谱为高斯形状的DNN设计示例

该工作展示了一个针对透射谱目标为高斯形状,设计 16 层 SiO2 和 Si3N4 薄膜结构的具体示例,如图6所示。每层的最大厚度设置为 150 nm。响应是 300 至 750 THz 范围内的透射光谱,对应于 400 至 1000 nm 的波长 λ。训练好以后的DNN推理只需要毫秒量级即可得到设计结果,类似的工作参见逆向设计|Nanophotonics基于深度学习和空间滤波的光子器件多任务拓扑优化

图7 全息超表面的RGB单元结构 

最后该工作也演示了一个设计 2D metasurface结构以在三个波长上独立调节传输相位延迟的示例:R (470 nm)、G (540 nm)、B (667.5 nm)。该单元的设计结构如图7所示,可用于超表面以创建三色全息图

表1 

[1]Dianjing Liu, Yixuan Tan, Erfan Khoram, and Zongfu Yu. ACS Photonics 2018 5 (4), 1365-1369DOI: 10.1021/acsphotonics.7b01377

免责声明

本公众号旨在传递与分享光学知识、科研资讯,所有内容、图片均已注明出处,且仅供个人学习、知识记录,不作为商业用途。如涉及版权或其他问题,请及时联系邮箱opto1thz8nm@163.com,我将尽快进行协调处理。欢迎需要宣传工作的同行私信投稿!

👇 关注我,更新不错过👇 
您的“
”和“在看”,是我不竭的动力

1thz8nm
光电子器件与集成,23级直博生,做纯粹的学术分享和学习记录
 最新文章