点击蓝字 关注我们↑↑↑
DIGITAL TWIN
如果您不希望错过文章,就加个星标吧!
本期阅读
文章信息
论文《TAD-Net: An approach for real-time action detection based on temporal convolution network and graph convolution network in digital twin shop-floor》于2021年12月收录于《Digital Twin》期刊,本文由东南大学刘庭煜团队完成。文章介绍了一种基于时间卷积网络(TCN)和图卷积网络(GCN)的实时动作检测方法TAD-Net,旨在数字孪生车间中实现对生产动作的实时检测。
DOI: 10.12688/digitaltwin.17408.1
引用本文:
Hong Q, Sun Y, Liu T et al. TAD-Net: An approach for real-time action detection based on temporal convolution network and graph convolution network in digital twin shop-floor [version 1; peer review: 2 approved]. Digital Twin 2021, 1:10 (https://doi.org/10.12688/digitaltwin.17408.1)
文章阅读(译文)
TAD-Net: An approach for real-time action detection based on temporal convolution network and graph convolution network in digital twin shop-floor
Qing Hong1, Yifeng Sun2, Tingyu Liu3, Liang Fu1, Yunfeng Xie1
1 School of Mechanical Engineering, Nanjing University of Science and Technology, Nanjing, 210094, China
2 China Electronics Technology Group 28th Research Institute, Nanjing, 210007, China
3 School of Mechanical Engineering, Southeast University, Nanjing, 210096, China
摘要
车间生产行为的实时管控对保障安全生产具有重要意义,也是快速构建数字孪生车间的必经之路。鉴于此,提出一种数字孪生车间生产行为实时检测方法,该方法以连续骨架节点序列数据作为输入,基于时序卷积网络(TCN)和图卷积网络(GCN)对联合分类和回归循环网络(JCR-RNN)进行了增强重构,建立了时域行为检测网络(TAD-Net),实现了车间生产行为的实时检测。实验结果表明,该方法在长序列动作数据集OAD以及车间生产行为数据集NJUST3D上取得了较高的时域定位评分、识别速度以及准确率,能够满足车间实际使用的需求。
关键词
数字孪生车间、生产行为、实时行为检测、TAD-Net、TCN、GCN
1. 引言
车间是制造业的基础单元,车间的数字化、智能化是实现智能制造的必要条件。数字孪生车间的提出以及后续的深化应用,为车间生产过程的高效管理运行提供了有效的理论和技术支撑。数字孪生技术旨在通过数字化手段多维度、多尺度虚拟化物理实体,构建物理世界和虚拟世界的深度融合与映射的纽带,探索基于虚拟模型对物理实体及其行为等进行仿真、分析及优化等应用。要实现制造车间的智能管控,数字孪生模型的构建是不可或缺的关键环节。
与装备、产品等生产元素相比,人员作为产品设计制造活动中更为重要的元素,其行为的管控一直都是车间生产活动的重点。对车间的生产行为进行数字化描述,显然能够更加高效地为数字孪生车间提供人机交互和人员管控服务,从而提高车间的生产安全等级以及生产效率。
要实现数字孪生车间人员生产行为的智能管控,需要首先构建人员特征数字化表达模型以及生产行为检测模型,然后将模型应用到数字孪生车间中,实现对生产行为的实时智能感知与检测,从而达到对数字孪生车间生产行为智能监控的目的。
人员行为检测与行为识别不同,行为识别是行为检测任务的基础。目前车间人员行为检测的核心在于先实现人员行为的时域检测,后续的行为识别可以基于文献实现。
行为的时域检测和计算机视觉中的目标检测类似,属于视觉检测问题下的一种,不同点在于目标检测的最终结果是目标物体在图片中的边界框,而行为时域检测的最终结果是在视频或序列数据中定位到行为发生的时间段。相对于目标检测,行为检测的难度更大,主要体现在以下几点:
(1)时序信息数据冗杂。
(2)边界不明确。
(3)时间跨度大。
鉴于此,本文提出了一种车间生产行为实时检测方法,该方法以连续骨架节点序列数据作为输入,基于时序卷积网络(TCN)对JCR-RNN行为时域定位网络进行了改进,再基于图卷积网络(GCN)对其分类与回归网络进行了重构,建立了时域行为检测网络(TAD-Net),完成了车间连续数据流的生产行为时域定位和分类识别任务,实现了车间生产行为的实时检测。
2. 时域行为检测网络(TAD-Net)的技术路线
本文实现车间生产行为实时检测的技术路线如下:
(1)输入数据采集及预处理
使用KinectV2深度视觉传感器在车间现场采集生产行为的骨架节点序列数据,并基于文献[7]中的数据预处理方法对骨架序列数据进行重构修正及时序特征构建。
(2)时域行为检测网络构建
基于时序卷积网络(TCN)改进JCR-RNN的LSTM时序信息提取模块,处理输入骨架节点序列数据的时序信息,基于图卷积网络(GCN)重构JCR-RNN的普通卷积分类、回归模块输出行为的类别、起止时间点,合并这几个模块组成时域行为检测网络(Temporal Action Detection Net, TAD-Net)。
(3)实例验证
分别基于长序列动作检测OAD数据集和文献的车间生产行为NJUST3D数据集进行TAD-Net的实例验证,计算SL-Score、分类准确率、FPS三项指标,并与其它方法进行对比,分析验证该车间生产行为实时检测方法的可行性,并且基于实验结果对行为数据模型进行进一步的分析,提出目前存在的问题和需要改进的方向。
3. 时域行为检测网络(TAD-Net)的方法及原理
时域行为检测网络(TAD-Net)的总体结构与JCR-RNN的网络结构类似,如图1所示,主要包含时序提取、分类、回归3个网络模块。基于TCN改进原来的LSTM时序提取网络模块,主要用于提取连续骨架节点序列数据的时序特征信息,并传送给基于GCN重构的分类和回归网络模块,这两个模块通过处理时序特征信息,输出实时的行为分类结果和动作起始点。具体各模块的设计如下:
图1 TAD-Net总体结构
3.1 时序提取模块
时序卷积网络(TCN),是一种对卷积神经网络进行结构变换以处理序列建模任务的网络架构,对TCN的初步实验评估表明,这种并非那么复杂的卷积结构在时序信息提取任务上的表现优于LSTM一类的递归神经网络。因此,选择TCN单元代替LSTM单元作为提取生产行为时序特征信息的基础模块。
TAD-Net中设计的单个TCN块网络结构如图2所示,受自然语言处理任务启发,该TCN中同时使用残差和参数化跳跃连接,在网络中的每一层先进行空洞卷积随后利用残差结构缓解梯度消失和爆炸问题,使得该TCN块可以多层堆叠组成更为复杂的时序提取网络。该TCN网络中使用门控激活函数,使用这种函数能够更好地缓解梯度消失问题,该函数如式(1)所示:
图2 TCN块网络结构
为解决生产行为片段长短不一的问题,时序提取模块采用了一种类似于层级金字塔的时序卷积结构,使得网络能够通过选取不同的卷积层数获得最合适的感受野,使网络能够聚焦于正在进行动作的时序部分,避免因无用信息过多造成时序信息丢失。以三层的时序提取网络模块为例,其网络内部信息传递如图3所示,高层会在低层提取的特征信息的基础上进一步提取时序信息,从而获得更大的感受野。
图3 三层时序提取网络信息传递
同时,时序提取模块的单个TCN块中均使用空洞卷积进一步增大感受野,进而加强网络对持续时间较长生产行为的处理能力。通过我们的实验测算,5、6、7、8、9层时序提取网络的感受野数值如表1所示,以采集数据每秒30帧来计算,8层网络的感受野为256帧,即8.53s,9层网络的能够感知的时序范围为17.07s。在训练网络时候,可以根据训练数据的最长行为实例灵活选择网络的层数,从而使得网络适合当前动作实例的检测。
表 1 模型层数与感受野关系
3.2 分类网络模块
考虑到人体关节是一个类似铰链的刚性结构,可将关节在空间域内以拓扑图的结构进行连接。与直接使用坐标连接的方法不同,拓扑连接的方式可以更有效地体现人体的空间姿态信息,配合图卷积网络则能够最大程度地提取出骨架节点空间特征,从而增加行为时域定位与识别的准确性。因此,我们基于图卷积网络构建新的分类网络替换原来的普通卷积分类网络。
图4 GCN块
TAD-Net中的单个GCN块网络结构如图4所示,在网络中嵌入注意力模块使得网络能够关注不同关节在执行不同行为时的重要程度,从而为特征关节点内各节点动态分配不同的注意力权重,该注意力机制使用编码解码网络结构,在解码层后加上Softmax层使得各信息的注意力之和为1,同时在网络中添加残差结构,防止因网络层数过深而出现不稳定的现象。嵌入注意力机制的图卷积模块输出公式如式(3)所示:
将每一个时间点的时序神经网络各层结果组合,并使用分类模块进行处理,用于实时行为结果分类。该分类网络模块首先利用多层图卷积网络构建多层次的结构化语义特征,然后添加全连接层和SoftMax层对当前帧进行分类,最后输出各类别行为的概率分布。
3.3 回归网络模块
在目标检测任务中,一般目标的位置采用的是边界框进行定位,边界框一般使用四维向量(x,y,w,h)来表示,x,y表示边界框在图片像素中的中心坐标,w,h则表示边界框的像素宽度和高度。而在行为检测任务中则不同,在线时序关节点行为数据可以看作是时间上的一维数据,即边界框只需要起止时间点两个数据表示,但实时行为检测又与之不同,因为实时数据是以流的形式不断输入的,若以绝对坐标形式表示边界框,那么随着时间不断推移,每一个动作起始时间点和结束时间点将会不断增大导致计算不便,因此文章中使用了一种基于相对坐标的边界框,当前时间点坐标设为当前时间点与当前行为开始时间点的差值,即当前时间点的相对坐标。
在建立上述分类网络的基础上,考虑到实际生产车间数据的连续性和实时性,需要在生产车间实时数据流中检测到行为的起始点,而由于实时行为检测无法知道行为的结束时间,因此实时回归任务不同于其他离线的行为检测任务,该回归网络模块只输出当前行为起始点的相对坐标,将分类网络的输出行为类别改变的时刻定为该行为终止时间。
4. 实例验证分析
为了测试文章方法的可行性,作者团队在OAD和NJUST3D数据集上进行了详细的对比验证实验,实验过程详见文章原文,部分测试结果如图5、6、7、8所示。
图5 OAD数据集上各网络模型的识别准确率
图6 NJUST3D数据集上TAD-Net-9的识别混淆矩阵
图7 OAD数据集上各网络模型的时域定位得分
图8 实时数据流下各网络模型的平均处理速度
基于OAD和NJUST3D数据集测试的各主流网络表现可以分析得出:
(1)识别准确率方面,因为视频数据的特征信息丰富,基于视频数据流的SS-Net识别准确率高于基于骨架节点序列流的STA-LSTM和JCR-RNN,而同样是基于骨架节点序列流,TAD-Net借助GCN在骨架图结构中的优异性能,识别准确率还要略高于SS-Net,足见提取人体关节内部信息特征对生产行为的巨大贡献。
(2)时域定位方面,基于TCN的TAD-Net的SL-Score评分要明显高于其它主流网络模型,由此可见,基于人体骨架节点序列流的TCN模块针对人员行为的时序特征提取能力,很大程度地超过擅长序列提取的LSTM以及基于丰富特征视频流的SS-Net。
(3)运行速度方面,在针对实时数据流的测试中,因为视频流数据的巨大复杂度,SS-Net的运行速度表现较差,不如基于骨架节点的网络模型,而由于LSTM自身计算效率较低的限制,基于LSTM的STA-LSTM和JCR-RNN模型的运行速度要低于基于TCN的TAD-Net。
因此,基于TCN与GCN的TAD-Net模型针对车间人员生产行为具有更高的识别准确率、时域定位分数以及更快的检测速度,能够很好地满足数字孪生车间的使用需求。
5. 结束语
行为检测是数字孪生车间人员管控的主要任务之一,也是人机共融技术的主要难点和瓶颈,为解决车间生产行为管控的实时性问题,本文提出了一种车间生产行为实时检测方法,该方法以连续骨架节点序列数据作为输入,基于TCN对JCR-RNN的行为时域定位网络进行了改进,基于GCN对其识别和回归网络进行了重构,建立了时域行为检测网络(TAD-Net),实现了车间生产行为的实时检测。TAD-Net具有以下的优点:
(1)并行性高。当输入一个时序序列时,基于TCN的时序提取网络可以将序列各部分进行并行输入处理,而不需要像循环神经网络那样按照时序顺序依次输入计算。
(2)感受野灵活。时序提取网络的感受野的大小受网络层数、二维卷积核的大小、空洞卷积系数等决定,可以根据不同的任务需求或输入数据进行灵活配置。
(3)梯度稳定。网络中大量使用的残差结构能够避免梯度消失和爆炸问题,网络训练更加简单快速。
(4)内存占用更低。循环神经网络在使用时需要对每个时间段的信息进行保留,因此在训练过程中会占用大量的内存,而时序卷积网络在各个时间点的卷积核是参数共享的,内存使用更低,模型训练更快。
(5)识别准确率更高。基于GCN的行为识别网络在卷积操作中能够保留人体骨架节点间的固有连接信息,对人体肢体动作特征的提取能力更强,识别更为准确。
因此,该方法能够较好地满足实际应用需求,对规范复杂车间生产过程,降低生产安全隐患,实现车间生产行为的实时理解,具有重要的研究价值和现实意义。
关注公众号,后台回复“DT20”即可下载原文
DigiTwin2025
相关阅读
本公众号致力于分享高质量的数字孪生与数字工程相关学术研究与知识资讯,以促进学术交流与知识传播。推送的论文内容主要来源于公开出版或在线发布的学术资源,版权归原作者所有,仅供学术交流,未经授权不得商用。如有侵权,请联系删除。
如您有优秀论文需推荐,或者成果发布、企业进展、科研交流等需求,请在公众号后台留言,或发送邮件到digitaltwin@buaa.edu.cn,与我们取得联系。感谢您的持续关注与支持!