光子器件|Nature 面向光学神经网络的11TOPS光子卷积加速器

文摘   科学   2024-06-21 22:48   湖北  
面向光学神经网络的11TOPS光子卷积加速器

DOI: https://doi.org/10.1038/s41586-020-03063-0

人工神经网络(ANN)是具有加权连接的节点的集合,通过适当的反馈来调整网络参数,可以“学习”并执行面部识别、语音翻译、玩策略游戏和医疗诊断的复杂操作 。经典的全连接前馈网络在处理极高维数据方面面临挑战,而卷积神经网络(CNN)受视觉皮层系统(生物)行为的启发,可以抽象出原始形式的输入数据的表示,然后以前所未有的准确性预测其属性,并大大降低参数复杂性。

CNN( convolutional neural networks)已广泛应用于计算机视觉、自然语言处理等领域。神经网络性能依赖于其底层硬件的计算能力。

光学神经网络(ONN)作为新一代计算候选技术,有潜力解决电子硬件的带宽限制,利用超过10 THz的光通信带宽实现超高速计算。ONN模拟运行,规避了冯·诺依曼架构中数据存取的能量和时间消耗问题。尽管已在开发高度并行、高速、可训练的ONN方面取得进展,并有可能实现单光子芯片集成,提供高计算密度,但ONN在处理大规模数据、网络规模与硬件空间权衡、及充分利用宽光带宽方面仍有改进空间。

2020年,澳大利亚莫纳什大学的Xu等人ONN的时间-波长复用概念并应用于以每秒110亿次操作(每秒千兆操作)运行的单个感知器[2]。

2021年,该团队成功演示了一种光学卷积加速器(CA),用于处理和提取大规模数据中的特征,从而生成具有多个同时并行核的卷积。所提出的光学CNN的架构包括一个卷积层、一个池化层和一个全连接层[1]通过使用集成的克尔微梳源交错复用波长、时间和空间维度,我们实现了高达 11.322 TOPS 的矢量计算速度。该工作使用VCA以 3.8 TOPS 的矩阵处理速度处理 250,000 像素的图像,相关工作发表在《Nature》。该团队20年和21年的两篇工作其实原理较为相似,但其核心区别在于卷积加速器这一概念的引申和相关工作的补。

光子矢量卷积加速器的原理
光子矢量卷积加速器(VCA)具有用于数据输入和输出的高速电信号端口,分别由电光调制器和光电探测器实现光信号与电信号的相互转化,如图1所示。
输入数据向量 X 以 1/τ (波特率) 的符号速率编码为串行电波形中时间符号的强度,其中 τ 是符号周期。卷积核由长度为 R 的权重向量 W 表示,该权向量通过波整形器的光谱整形以微梳线的光功率进行编码。通过电光调制将时域波形X多路传送到内核波长通道上,生成由 W 加权的副本。经过光波形通过色散延迟传输,其延迟步长(相邻波长通道之间)等于X的符号持续时间,有效地实现了时间和波长交织之后,VCA通过高速光检测对延迟和加权副本进行求和,以便每个时隙在给定卷积窗口,即感受野下,产生 X 和 W 之间的卷积。
感受野


感受野(Receptive Field)是一个在计算机视觉和神经网络领域中使用的概念,它指的是网络中单个神经元能够"看到"或接收输入信号的区域大小。在图像处理中,感受野可以被理解为输入图像中影响特定神经元输出的像素区域。在卷积神经网络(CNN)中,每个卷积层的神经元通过滤波器(或称为卷积核)来处理图像,这些滤波器覆盖的像素范围就是该神经元的感受野。

图1 TOPS光子CA的工作原理

因此,卷积窗口在与X波特率相匹配的调制速度下有效地滑动。每个输出符号都是 R 乘法累加 (MAC) 运算的结果,计算速度由 2R/τ TOPS 给出。由于该过程的速度与波特率和波长数量成比例,因此来自微梳的大量平行波长数量会产生许多 TOPS 的速度。此外,输入数据 X 的长度在理论上是无限的,因此 CA 可以处理任意大规模的数据——唯一的实际限制是外部电子设备。

计算速度中的系数2是因为每次MAC操作包含了一次乘法和一次加法。

图2 通过色散等间隔延迟传输的信号加权副本

VCA通过光探测将所有波长的时域波形X复制品求和可以等效为W与X的卷积的原理如图2所示,求和结果为:

该工作也提出通过为每个核添加R个波长的子带,可以同时实现多个核的卷积。在组播和色散延迟之后,子带(内核)被解复用并分别检测,为每个内核生成卷积结果,即电子波形。VCA是完全可重构和可扩展的:内核的数量和长度是任意的,仅受波长总数的限制。

图3 VCA,矢量卷积加速器用于处理一维数据的实验装置

多核矢量CA与矩阵CA

在电输出端口处,输出波形共有L+R−1个符号(L和R分别为输入数据向量和核权重向量的长度),其中L-R+1个符号为卷积结果。此外,每个输出符号是R MAC操作或2R操作的计算结果,符号持续时间τ由输入波形符号的符号持续时间给出。因此,考虑到在实际CNN的卷积层中中 L 通常比 R 大得多,项 (L – R + 1)/(L + R − 1) 不会影响矢量计算速度或吞吐量,其(以每秒操作数为单位)由下式给出:
图4 基于VCA的500*500的图像处理
图4显示了用于处理经典 500 × 500 图像的矩阵光子卷积加速器,该版本采用南加州大学信号和图像处理研究所 (USC-SIPI) 数据库。
系统使用十个 3 × 3 个卷积内核同时执行图像卷积。将所有核的权重矩阵扁平化为包含所有 90 个权重(10 个核,每个 3 个× 3 = 9 个权重)的复合核向量 W,然后通过光谱整形器(波形整形器)将其编码到 90 条微梳线的光功率上,每个核占据自己的 9 个波长波段。波长由间距约为48.9 GHz的孤子晶体微梳提供,90 个波长在 C 波段占据 36 nm。
图5 基于VCA的500*500的图像处理的实验结果

图5显示了图像处理结果。将 500 × 500 输入图像以电子方式展平为向量 X,并编码为 250,000 个时间符号的强度,每个符号的分辨率为 8 位,通过高速电数模转换器形成电输入波形,数据速率为 62.9 千兆波特(时隙 τ = 15.9 ps,如图5b)。所有 10 个内核的每张图像的持续时间 (25*15.9 ps=3.975 μs) 相当于 1/3.975 μs 的处理速率,即每秒 25 万张超大规模图像。

CA系统中通过引入2.2公里单模光纤传输,从而产生15.9ps的时间延迟(间距为48.9 GHz的波长通道之间),与数据符号周期τ同步,实现10个内核的时间波长交错。90条卷积核对应的波长解复用为10组,每组9条,对应不同内核,由10个光电探测器检测。检测后,通过模数转换器和重采样,将信号转换为数字形式,完成卷积操作,生成10个特征图,提取输入图像的分层特征,如图5d所示。

VCA 充分利用了时间、波长和空间复用,其中卷积窗口以等于每秒 629 亿个符号的调制波特率的速度有效地滑过输入向量 X。每个输出符号是 9(每个内核的长度)MAC 操作的结果,因此每个内核的核心向量计算速度(即吞吐量)为 2 × 9 × 62.9 = 1.13 TOPS。因此,对于 10 个内核,VCA 的总计算速度为 1.13 × 10 = 11.3 TOPS。


基于CA的光学CNN



所提出的CA 是完全动态可重构的,也是可扩展的。

因此,该工作使用相同的系统依次形成前端卷积处理器和全连接层,以形成光学CNN,如图6所示,我们将其应用于同时识别完整的10(0到9)个手写数字图像(MNIST手写数字数据集的图像,而不仅仅是两位数的二元识别[2]。

图6 光学CNN的实验示意图。左侧是输入前端CA,右侧是全连接层;微梳源为 TOPS 光子 CA 以及全连接层系统提供波长。用于采样和池化等的电子数字信号处理 (DSP) 模块位于此结构的外部

图7 光学CNN的卷积层

光学CNN的架构包括一个卷积层、一个池化层和一个全连接层。外设系统,包括信号采样、非线性函数和池化,都是通过数字信号处理硬件以电子方式实现的。

卷积层执行网络中最繁重的计算任务,占总计算能力的 55% 到 90%。将数字图像(30 × 30 个灰度矩阵,分辨率为 8 位)平展为向量,并在时域中以 11.9 吉波特(时隙 τ = 84 ps)进行多路复用。使用了三个 5 × 5 个内核,需要 75 条微梳线(图 5),垂直卷积步幅为 5。使用约13公里的标准单模光纤实现色散延迟,以匹配数据波特率。波长被解复用成三个核,由高速光电探测器检测,然后进行采样得到feature maps,将得到的特征图进一步池化(用数字电子器件进行非线性缩放)以形成全连接层的输入数据X FC (72 × 1)

图8 光学CNN的全连接层

全连接层包含10个神经元,与0-9每个手写数字一一对应。每个神经元l的突触权重由72×1矩阵WFC(l)表示,匹配72条梳状线的光功率分布,作为神经元的光输入。光信号在72波长上多播并延迟后,通过波整形器分配至10个空间端口,对应各神经元。最终,通过采样卷积结果的第73个符号得到各神经元输出。光学CNN的最终输出由输出神经元的强度表示(如图8),其中每个测试图像的最高强度对应于预测的类别。

注1:由于CNN的这一部分涉及线性处理,因此核波长加权可以在电光调制之前或之后都行,只要在光电探测之前实现即可。后者的优点是,解复用和加权都可以通过单个波形整形器实现。

注2:为了达到设计的核权重,使用基于硅基液晶的光谱整形器(Finisar WaveShaper 4000S)对生成的微梳进行功率整形。该工作在实验中使用了两个波形整形器,第一个用于使微梳光谱变平,第二个波形整形器用于整形所需的精确梳状功率。

注3:对于两个实验(500 × 500 图像处理实验和 CNN 的卷积层)中的 CA,第二个波形整形器根据卷积核的配置同时将波长通道整形和解复用到单独的空间端口中。而对于CNN的全连接层,第二个波形整形器同时对 10 个输出神经元执行整形和功率分割(而不是解复用)。

图9 基于光学CNN的图像识别的实验和理论计算结果
该工作首先对手写数字MNIST数据集的50张图像进行了实验测试,然后对500张图像进行了更广泛的测试。50 张图像的混淆矩阵(图 9)显示生成的预测准确率为 88%,而在电子数字计算机上计算的数值结果的准确率为 90%。500张图像的相应结果基本相同,理论为89.6%,实验为87.6%

总的来说,尽管手写数字识别是数字电子硬件的基础功能之一,但它在很大程度上仍然超出了当前的模拟可重构 ONN。于全连接神经网络,数字识别需要许多物理并行路径(例如,具有 10 个神经元的隐藏层需要 9,000 条物理路径),这是难以实现的。而该工作提出的 光学CNN 代表了第一个可重新配置和可集成的 ONN,它不仅能够执行完整的手写数字识别等高级复杂任务,而且能够在许多 TOPS 上执行。
与此同时,该工作如何将矩阵展平为向量以进行卷积处理?内核大小对滑动卷积窗口的步幅和等效的矩阵计算速度的影响如何?神经元的负突触权重如何设定?深度CNN的计算性能如何?高品质光学孤子晶体微梳如何实现?仍值得进一步探讨的问题,在该工作详实的补充材料中也有相应解读。

[1]Xu, X., Tan, M., Corcoran, B. et al. 11 TOPS photonic convolutional accelerator for optical neural networks. Nature 589, 44–51 (2021). https://doi.org/10.1038/s41586-020-03063-0

[2]X. Xu, M. Tan, B. Corcoran, J. Wu, T. G. Nguyen, A. Boes, S. T. Chu, B. E. Little, R. Morandotti, A. Mitchell, D. G. Hicks, D. J. Moss, Photonic Perceptron Based on a Kerr Microcomb for High-Speed, Scalable, Optical Neural Networks. Laser & Photonics Reviews 2020, 14, 2000070. https://doi.org/10.1002/lpor.202000070


👇 关注我,更新不错过👇 
您的“
”和“在看”,是我不竭的动力

1thz8nm
光电子器件与集成,23级直博生,做纯粹的学术分享和学习记录
 最新文章