在工业场景中, AI视频分析技术在处理复杂场景时仍存在局限性,例如光线的变化、场景对精确测量的要求等等。激光测距技术以其高精度、长距离、抗干扰能力强等特点能够很好的与AI视频分析技术协同,提供更加稳定、精准的AI识别能力。本文从AI视频分析、激光测距技术的原理、技术价值、应用场景等方面进行深入研究,并通过实践探索落地方案,旨在为相关研究人员和行业从业者提供有价值的参考。
随着深度学习、大模型等AI技术的快速发展,计算机视觉领域取得了显著进步,使得机器能够以人类相似的方式理解和解释视觉信息。然而,单一的AI视觉系统在处理复杂环境时仍存在局限性,现实环境中的光线变化、浮沉等环境因素对AI视觉系统提出了挑战, 同时,业务场景中对目标的距离、速度等精准测量的需求也对AI算法提出了更加复杂的要求。为了提高系统的鲁棒性和可靠性,研究者开始探索将不同类型的传感器数据融合在一起。AI视觉与激光测距技术的结合是当前边缘感知技术发展的重要方向,通过两种技术的优势互补,有助于解决单一技术难以克服的问题,为各领域提供更高效、准确和鲁棒的环境感知解决方案。
AI视觉结合激光测距仪技术的价值在于它能够提供更精确、更可靠、更全面的环境感知能力,从而在多个领域实现更高效、更安全、更智能的应用。
• 提升感知能力:激光测距仪能够提供精确的深度、距离等信息,结合AI视觉算法的图像理解能力,可以提供更加全面的三维感知能力,深入地理解环境中的细节和关系。
• 提升系统可靠性:在光线变化、遮挡或低纹理环境中,激光测距仪的数据可以作为AI视觉的有效补充,提高系统的可靠性。
• 优化成本和效率:一方面通过融合数据,只需要较少的传感器就能达到所需性能,从而降低成本;另一方面无需使用复杂的计算就可获取精确的结果,优化数据处理流程,减少计算量,提高实时性。
AI视频分析技术主要依赖于深度学习和计算机视觉两大核心技术。深度学习通过构建复杂的神经网络模型,让计算机从海量数据中学习并提取出有用的信息。而计算机视觉则专注于让计算机理解和解析图像和视频数据。
AI视频分析使用算法分析视频中的对象、属性、行为以及事件等内容,主要采用的技术包括:目标检测技术、目标跟踪技术、动作行为识别技术以及时序动作定位技术等。
图1:AI视频分析技术
• 目标检测技术:目标检测的任务是识别目标类别并定位目标在图像中位置,基于深度学习的目标检测技术已经非常成熟,最具代表性方法包括基于anchor的one stage(例如Yolo v5)与two stage(例如Faster-RCNN)方法。
• 目标跟踪技术:目标跟踪的任务是关联时序目标身份,简单的说是当前目标是上一时刻的哪个目标?因此,其解决的主要问题为目标数据关联与匹配。比较有代表性的算法有sort(simple online and realtime tracking),在它基础上引入外观相似性度量解决长时间遮挡跟丢问题的deepsort(simple online realtime tracking with a deep association metric)。
• 动作行为识别技术:动作行为识别是预测目标在当前时刻或一段时间内的状态。视频识别与图像识别两者的重要区别是是否对时间序列建模,常用的方法包括3D-CNN、RNN、LSTM以及计算开销更小的TSM(Temporal Shift Module),该技术广泛应用到动作识别、流程规范化识别以及视频分类等场景。
• 时序动作定位技术:时序动作定位简称TAL(Temporal Action Localization)是视频理解中的重要分支。主要用来定位动作发生的开始时刻与结束时刻。通常采用滑窗法、候选框预测法以及起止点预测法预测起止点与动作类别(例如短视频剪辑),常用的算法例如自底向上时序动作定位算法BSN(Boundary Sensitive Network for Temporal Action Proposal Generation)。
根据基本原理,实现激光测距法可分成两大类:飞行时间(Time of Flight)法和空间几何法。其中,飞行时间法测距又包括脉冲式和相位式,空间几何法主要包括三角法和干涉法。
脉冲式激光测距是激光技术最早应用于测绘领域中的一种测距方法,其通过直接测量发射光与接收光脉冲之间的时间间隔,获取目标距离的信息,广泛应用长距离且对精度要求不高的测量,如地形地貌测量、地质勘探等。
相位式激光测距利用无线电波段的频率,对激光束进行幅度调制并测定调制光往返一次所产生的相位延迟,再根据调制光的波长,换算此相位延迟所代表的距离。相位式激光测距测量精度可达(亚)毫米级,测量范围从分米到千米,因而被广泛应用于中短程测距。
干涉法测距是经典的精密测距方法之一,根据光的干涉原理,两列具有固定相位差,而且有相同频率、相同的振动方向或振动方向之间夹角很小的光相互交叠,将会产生干涉现象。干涉法激光测距的分辨率可达nm,精度极高,但涉及多个激光光源,测量系统设计较为复杂。
三角法激光测距即光源、被测物面、光接收系统三点共同构成一个三角形光路,由激光器光源发出的光线,经过准直透镜聚焦后入射到被测物体表面上,光接收系统接收来自入射点处的散射光,并将其成像在光电探测器敏感面上,通过光点在成像面上的位移来测量被测物面移动距离的一种测量方法。这种测距方式一般适合室内近距离工作,广泛应用于物体表面轮廓、宽度、厚度等量值的测量。
实际工业应用中,可根据不同的场景的特点和需求选择相应技术的激光测距设备,来解决精确测量、抗光线干扰等问题。
图2:相位式激光测距原理示意
近年来,我国大型煤炭企业集团陆续开展煤矿智能化建设,旨在通过数字化技术赋能煤炭“产、运、储、销、用”全过程。煤炭生产逐步由机械化、自动化迈向信息化、智能化,少人、无人作业已成为煤矿智能化发展的重要方向。但当前,在煤炭销售环节,煤矿装车站仍采取人工抄写方式进行车号统计,不仅作业时间长,易出现漏检和误检,且严重制约了全流程的智能化建设。主要问题包括:
• 依赖人工统计运煤专列车号:车辆信息及车辆情况需要人力录入,效率低、错误多。
• 煤矿现场环境复杂:运煤火车股道周围环境恶劣、可见度差,车辆运行轨迹多变(来车、去车、倒车等),常规的识别方案极容易产生误识别。
• 现有的AI视频分析产品不符合商用要求:行业内现有产品平均能够达到80%左右识别率,不能满足煤矿现场的商用要求。如果对算法进行针对性的优化,需要适应不同股道间的环境差异,可复制性不强,成本太高。
采用AI视频分析结合激光测距技术准确识别来去车辆信息,代替人工巡视和手工录入,减轻一线员工工作压力,提升识别准确率和效率。
图3:采用AI视频分析结合激光测距技术的运煤车辆识别方案
当运煤车辆进入识别范围后,边缘AI一体机通过融合激光测距数据和摄像头数据,分析出摄像头有效识别区间,对此区间视频流进行AI分析,逐车识别车号、车型、自备车/国铁车、载重、自重、容积、换长等信息,并且通过识别顺序和业务逻辑对辆车数据进行整合以及剔除干扰数据(如倒车、相邻股道等),最终按顺序输出完整的运煤车数据到运煤车辆管理平台。下一步,自动装车系统可根据识别的车辆数据自动装煤,完成运销业务。
相比较传统单一使用AI视频分析技术的方案,该方案用激光测距仪代替AI模型识别车辆的来去和车厢的个数,在夜间或光线不足的情况下,能更加的准确识别出车何时进入识别范围、何时驶离、是来车还是去车、有多少节车厢,有助于融合分析时剔除无关数据,大幅提升最终结果的准确度,并且保持良好的稳定性。
图4:方案落地效果
随着AI视频分析技术和激光测距技术的不断发展,越来越多的场景可以使用这类融合技术解决行业实际场景中更加复杂、精细化的问题。
针对人员不方便进出的场景(深山、有辐射的地方等),在无人机上挂载激光测距仪,利用远程算力对视频进行实时的AI分析和融合计算,能够实时的识别出多个环境对象,提供准确的定位测量,从而生成描述空间位置信息的深度图像,。例如,在农业监测领域,通过无人机识别并测量指定动植物的生长情况,自动记录测量数据,提高养殖管理效率;无人机在执行搜救任务时,飞行过程中通过AI识别出救援对象并锁定相对位置,测量周围环境、障碍物的大小等,及时提醒后端救援人员采用可行的救援方案前往施救。
将激光测距仪与安防摄像头组合成一体化设备,利用AI技术识别或追踪目标后进行测量,实现精细化的安防监控能力,例如精准的识别出人员/车辆的轨迹方向、火情的大小、可疑人员的位置、速度等信息,辅助安保人员处理。
将激光测距仪与识别车辆的摄像头组合成一体化设备,利用AI技术识别车辆、车牌信息,利用激光测距仪识别车速,实现车辆识别与车速一体化监控,能够低成本的在园区、城市关键路段实现车辆识别、车牌识别、车辆超速的综合场景,及时发现违规行为、降低风险。
[1] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun,Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,2015
[2] Nicolai Wojke, Alex Bewley, Dietrich Paulus,Simple Online and Realtime Tracking with a Deep Association Metric,2017
[3] Ji Lin, Chuang Gan, Song Han,TSM: Temporal Shift Module for Efficient Video Understanding,2018