Training Deep Neural Networks for the Inverse Design of Nanophotonic Structures
DOI: 10.1021/acsphotonics.7b01377
正向建模网络的训练可以通过标准的DNN训练流程完成。然而,在训练用于逆设计的深度神经网络(NNs)时,存在一个重大挑战。这一挑战源自逆散射问题的一个基本属性:同一电磁(EM)响应可以由多种不同的设计产生。这种非唯一的响应到设计的映射关系导致了训练数据中的冲突实例,例如(r, d1) 和 (r, d2)。当训练数据集中存在这种具有相同输入但不同输出标签的冲突实例时,神经网络将难以收敛。
早期的工作曾尝试通过将训练数据集划分为不同的组来解决这一问题,以确保每个组内每个响应r对应唯一的设计d。这种方法在小规模训练集上取得了一定的成效。但如消除表面上的冲突实例并不能从根本上解决非唯一映射的问题,因此一般效果不佳。
图1 DNN网络示意图
只要存在具有不同结构但透射光谱几乎相同的实例,神经网络的训练就会难以收敛。这很好理解,例如,训练数据中的两个实例具有如图2(b)所示的结构d1和d2。这两个薄膜的透射光谱r1和r2几乎完全相同,如图2(c)所示。当我们在训练集中同时包含实例(r1, d1)和(r2, d2)时,训练过程将难以收敛,因为对于从r1到r2的微小输入变化,这两个实例给网络提供了完全不同的答案d1和d2,网络因此紊乱,梯度相悖。
冲突标签无法学习
图3 逆网络的学习曲线
学习曲线如图3(a)中的蓝线所示。即使在经过15,000个训练周期后,成本函数也几乎没有下降,这表明网络在为输入透射光谱设计薄膜结构方面的性能很差。增加逆设计网络的大小或调整超参数(如学习率)也无法改善其性能。如图3(b)所示,该神经网络产生的设计结果与目标光谱相去甚远。这一观察结果与之前的研究结果一致。
同时该工作也考虑了消除训练集中的非唯一实例来解决冲突问题,但是效果也非常有限,如图3a红色曲线所示,其原因主要是隐式冲突训练实例导致的,即NN本质是建立一组输入输出的映射,而隐式的非唯一映射示例会导致训练的模型所对应的映射在两组映射间来回跳跃导致学习效率底下且无法收敛。
基于此,该工作提出了一个由两个神经网络组成的串联架构,如图 4 所示。第一部分与逆向设计的传统网络相同,第二部分是经过训练以预测设计响应的正向网络。当使用串联网络进行逆向设计时,将所需的响应 作为输入。中间层 M 的输出(如图 4 所示)是设计结构。
串联网络的应用验证
正向建模:在逆向网络训练前,该工作首先分离训练网络的第二部分正向建模网络,并使用从全波电磁仿真中获得的训练实例独立训练该网络。前向网络的输入是设计D,输出是响应R 。由于每个设计D总是有独特的响应R ,因此培训很容易收敛。
逆向网络架构被设置为四层,每层分别有200-500-200-20个单元。将光谱 = [r1, r2, ..., r200] 作为串联网络的输入。网络第一部分的输出设计D被计算为中间层,然后将其输入到正向建模部分以计算相应的光谱 [o1, o2, ..., o200]。如图5(a)中的学习曲线所示,测试实例的成本迅速下降,表明训练非常有效。实际上,如图5(b)和(c)所示,串联网络设计出的结构能够以更高的保真度产生所需的透射光谱。
该工作展示了一个针对透射谱目标为高斯形状,设计 16 层 SiO2 和 Si3N4 薄膜结构的具体示例,如图6所示。每层的最大厚度设置为 150 nm。响应是 300 至 750 THz 范围内的透射光谱,对应于 400 至 1000 nm 的波长 λ。训练好以后的DNN推理只需要毫秒量级即可得到设计结果,类似的工作参见逆向设计|Nanophotonics基于深度学习和空间滤波的光子器件多任务拓扑优化。
最后该工作也演示了一个设计 2D metasurface结构以在三个波长上独立调节传输相位延迟的示例:R (470 nm)、G (540 nm)、B (667.5 nm)。该单元的设计结构如图7所示,可用于超表面以创建三色全息图
免责声明
本公众号旨在传递与分享光学知识、科研资讯,所有内容、图片均已注明出处,且仅供个人学习、知识记录,不作为商业用途。如涉及版权或其他问题,请及时联系邮箱opto1thz8nm@163.com,我将尽快进行协调处理。欢迎需要宣传工作的同行私信投稿!