点击蓝字 关注我们
本文引用信息
朱红蕾,卫鹏娟,徐志刚. 基于骨架的人体异常行为识别与检测研究进展[J]. 控制与决策, 2024, 39(8): 2484-2501.
2024年第8期封面文章推荐
基于骨架的人体异常行为识别与检测研究进展
朱红蕾,卫鹏娟,徐志刚
本文创新点:
✦✦
选题依据
面对日常生活中的各类安全威胁和突发状况,以视频监控为主要工具进行安防的举措已突显出强大优势,各类人体异常行为识别与检测方法在交通管控、医疗监护、公共安全等领域的表现突出。本文重点关注基于骨架的人体异常行为识别与检测研究进展。首先,按照应用场景中目标个数的不同,分类总结典型的人体姿态估计算法。其次,依据特征提取网络的不同,将异常行为识别方法分为五类,分别围绕CNN、RNN、GCN、Transformer以及混合模型展开对比分析。然后,从数据与标签的映射学习角度,对三类异常行为检测方法进行了讨论。通过分析和思考现有研究存在的问题,从多个角度指出未来可能的研究方向和内容。
✦✦
研究路线
✦✦
研究内容
人体骨架通常建模为关节点(个数介于10 ∼ 30)位置及其连接形成的肢体部分,如图1所示,也可描述为拓扑图结构,其中顶点指人体关键点部位,如头 部、肩膀、手部、膝盖、脚部等;边指的是关键点的先验连接,如大小臂、左右腿等。骨架拓扑图结构简单且灵活,很大程度上可以表征行为信息。
图1 包含15个和20个关节点的人体骨架示意图
近年来,基于深度学习的姿态估计方法陆续被提出,将对人体姿态的估计转化为对关键点的检测和识别问题。首先定位人体各关键点的位置坐标,再根据 先验知识确定其空间位置关系,最后连接各关键点得到人体骨架。该方法的准确度很大程度上决定了人体异常行为识别与检测的精度。按照应用场景中目标个数的不同将姿态估计方法分为单人姿态估计和多人姿态估计。
单人姿态估计算法首先检测并识别出人体各关键点,然后将其自然连接以构建人体骨架,这种算法并不适用于现实生活中的大多数场景。
对于多人姿态估计算法,通常可根据预测的出发点及执行顺序分为自顶向下、自底向上和单阶段3种方式。
自顶向下的方法从高层抽象开始,首先检测出人体并以边界框标记,然后再分别对每个人进行姿态估计。该方法检测精度较高但极度依赖人体边界框的检测质量,且耗时严重。此外,自顶向下方法的计算成本与图像中目标的数量成正比。
自底向上的方法首先定位输入图像中每个人的所有关键点部位,然后通过人体模型拟合或其他算法对其进行分组。此类方法检测速度快,适用于实时性 检测任务,但当图像中多人距离较近乃至重叠时,易将关键点错误分配。
单阶段的姿态估计算法,以端到端的方式从空间位置密集回归一组候选姿态,其中每个候选姿态由来自同一个体的关键点位置组成。
图2 姿态估计算法分类
3.2 基于骨架的人体异常行为识别方法
基于深度学习的人体骨架异常行为识别方法是利用神经网络模型从视频帧中提取人体骨架特征,通过训练和学习模型参数进行识别。按照特征提取骨干网络模型的不同,该方法主要分为基于卷积神经网络(CNN)、循环神经网络(RNN)、图卷积神经网络(GCN)、Transformer网络以及混合模型的方法。
CNN处理骨架数据时,通常需结合LSTM网络以充分获取时空信息。GCN得益于对非欧式数据建模的优势,可充分提取人体骨架拓扑图节点的特征。Transformer网络用以捕捉远距离关节点的空间信息及长时间序列的时序信息。现有研究结合多个网络的优势,以捕捉视频中丰富的时空特征及上下文语义特征,往往可取得比单一模型更好的效果。
3.3 基于骨架的人体异常行为检测方法
在异常行为识别任务中,需预先对视频序列进行分割,并定义好哪一行为发生的起始帧和结束帧。通过训练模型学习每一类行为的特征,使其能够准确辨别输入行为的类型,基于此判断该输入行为是否异常。而异常行为检测任务则需解决更困难的问题,即在未分割的视频序列中准确定位到异常行为。在行为识别领域,以人体骨架为研究对象的方法得到了广泛应用,并将其扩展到检测任务中。
基于骨架的人体异常行为检测方法结合行为发生的背景环境及上下文时空信息计算异常分数,并依据所设定的阈值准确定位异常行为。按照训练过程是否涉及数据与标签对应关系的学习,将其分为有监督、弱监督、无监督3种。
有监督异常行为检测方法旨在使用标记数据分别建模正常和异常行为,通常用于检测训练阶段预定义的特定行为。在训练网络之前需赋予样本标签,模 型通过学习样本和标签之间的关联进行分类。基于有监督的异常行为检测方法需要从大量有标签数据中学习出一般规律特征,具有较好的效果。但缺乏标注良好的数据集。
弱监督方法是指训练集中仅提供正常和异常行为的视频级标签,在测试时根据预测到每一帧的异常得分来判断其是否为异常帧。多示例学习MIL可应对部分正负样本过于相似的问题。该方法将视频数据定义为包含多个示例的包,异常视频生成的包称为正包,正常视频生成的包称为负包,正包中至少包含一段异常行为,而负包中不包含异常片段。与有监督检测方式相比,弱监督方法仅需视频级的标签,可避免标注训练数据耗时问题。
无监督方法的目的是只使用正常数据进行训练,从而学习正常行为的特征表示,并根据测试样本与正常样本的偏离程度来检测异常。多数研究通过聚类、帧重构、未来帧预测、生成网络及混合模型的方法检测异常行为。无监督异常行为检测方法只学习正常行为的分布,假设未知的异常行为具有很高的重建和预测误差。但由于缺乏关于异常行为的先验知识,无法学习所有正常的行为模式,模型在不同场景下具有一定偏差。
✦✦
结论
1)多模态融合:随着硬件设备及深度学习技术的发展,多模态信息逐渐成为异常行为识别与检测任务中的研究热点。其中,RGB视频、骨架信息、红外信息、光流信息等各类模态信息层出不穷。不同模态数据之间具有互补性,如何综合运用多种模态数据来提升模型的泛化能力,从而更准确地识别和检测异常行为,是今后研究的重点。
2)实时性检测:实时性是人体异常行为检测任务中一个关键考量因素。与已发生事件的离线检测不同,实时在线检测需要更高的速度和准确度。轻量级模型可以有效地提高模型的实时性,减少计算负担,因此设计轻量级模型更具现实意义。
3)模型可扩展性:Transformer模型的兴起,给计算机视觉领域带来新的发展机遇。Transformer模型相比于传统的卷积神经网络模型具有更高的检测效率和更好的可扩展性。Transformer及其衍生模型(如Video SwinTransformer)能够有效地提取视频序列中的时空特征,为识别与检测异常行为提供了更为前瞻性的解决方案。
4)注意力机制优化:骨架序列间的时空相关性是人体异常行为识别与检测任务中的重要特征。各种注意力机制能够有效地捕捉关节间的时空相关性,提高检测的准确度和效率。然而,注意力机制也会增加计算代价,需要在效率和精度之间进行平衡,才能达到更好的检测性能。因此,如何优化注意力机制以提高检测的效率和精度,仍然是该领域的研究热点。
作者介绍
卫鹏娟,硕士研究生,主要研究方向为计算机视觉。
相关文章推荐
郑重声明:根据国家版权局相关规定,纸媒、网站、微博、微信公众号转载、摘编本微信信息,需包含本微信名称、二维码等相关信息,并在文首注明《控制与决策》原创。个人请按本微信原文转发、分享。
-联系我们-
《控制与决策》
网站:http://kzyjc.alljournals.cn
电话:024-83687766
邮箱:kzyjc@mail.neu.edu.cn
《Journal of Control and Decision》
网站:
https://www.tandfonline.com/toc/tjcd20/current
邮箱:tengrong@ise.neu.edu.cn
点击“阅读原文”查看全文信息