整数智能智驾4D数据标注工具解决方案分享 | 自动驾驶之心直播回顾

文摘科技 2024-07-11 18:00 浙江

1. 直播回顾

1.1. 直播主题

随着人工智能技术的迅猛发展，数据驱动已成为当前主流AI算法的核心。在人工智能领域，数据处理扮演着至关重要的角色，而这背后都离不开一个庞大的数据服务产业的支持。

面对定制化、复杂化数据需求的日益增长，以及数据成本的不断升高，整数智能积极应对挑战，基于特斯拉提出的4D标注概念，成功开发出了一套先进的基于时序的4D标注工具。经过实践验证，这套工具在降低成本、提升质量、提高效率方面展现出了不凡的表现。

在去年12月的直播中，我们主要介绍了以下内容：特斯拉的数据生产流程演进；地图重建的不同方法，包括Lidar Base和Camera Base的区别以及我们所选择的技术；对重建后地图的处理方法，使其适合进行全局标注、动态物标注以及我们未来的展望。

在本次与自动驾驶之心的合作直播分享中，整数智能基于上一次的内容做出进一步的拓展，分享4D标注的量产经验与解决方案。整数智能在4D标注实践过程中不断积累经验，针对新需求和新问题，公司抽象出了新的功能，并进行了功能迭代研发，以满足市场的不断变化。

1.2. 问题及解决方案

在多传感器同时工作的系统中，数据同步和投影对齐一直是一个挑战。特别是在复杂场景下，如自动驾驶车辆在不规则的地形上行驶。实际应用中导致投影误差的原因有很多，包括运动补偿、时间同步、刚性连接等问题。

1.2.1. 动态补偿

点云畸变是由于激光雷达采集数据的过程中，随着载体运动导致一帧点云中的点不是在同一时刻采集的，即不同激光点的坐标系不一致，现代的激光雷达大部分都提供了每个点的时间戳信息，这为点云去畸变提供了基础。

上图中展示了当车辆直线运动时的Lidar扫描的信息，假设Lidar采样率为10HZ，那么Lidar每旋转一圈需要100ms，在100ms的时间内车辆行驶了2.22m，如上图右侧所示；每25ms激光雷达旋转90°，上图左侧展示了从触发开始，到扫描一圈结束后Lidar所扫描到的区域，最右侧的绿点是开始时刻位置，每25ms移动一个单位并旋转90°直到转一圈结束，可以看到扫过的轨迹并非直觉的圆形，而是一个螺旋线，去畸变（运动补偿）的目的就是把所有的点云补偿到某一时刻，让扫描的点云统一到一个时间点上去，这个时间点可以是起始时刻，也可以是结束时刻，也可以是中间的任意时刻。

由于Lidar计算点坐标时，都是以接收到激光束时刻的Lidar自身坐标系为基础的，所以载具运动过程中，每一列激光点的基准坐标系都是不一样的，但是他们在同一帧点云里，我们希望能统一在同一个坐标系下，所以我们需要知道每次采集时的坐标系相对于初始时刻坐标系的转换关系。

上图是一个去畸变的过程示意图，其中绿色的圆是开始时刻的Lidar位置，螺旋线是车辆移动时扫到的信息，而正圆是车辆静止时扫到的信息，我们需要将点补偿到正圆上（因为开始时刻是没有运动的，所以不需要调整点），粉色的点是25ms时Lidar扫到的点，需要补偿至右侧的粉色的点上，在原点中心的棕色点是50ms时需要补偿至右侧的中点，紫点和黄点分别对应75ms和100ms的情况。

1.2.2. 时间同步

另外一个比较容易被忽略的问题是数据采集的时间同步。在很多数据采集方案中，数据同步可能并不是硬同步，而是通过PTP（精密时间协议）做的时间同步。在这种情况下，相机的时间戳可能指的是触发时间而不是实际的曝光时间。

这就导致如果我们仅仅通过找雷达和相机时间戳最近的匹配来进行对齐，很可能会导致因时间戳误差引起的数据不同步问题。即由于曝光时间和触发时间的不同步，导致了激光雷达点云和相机图像的投影对齐存在偏差。我们平台提供了可视化工具，可以快捷、直觉的处理时间同步问题，提高数据质量。

对齐前后对比，左图为对齐后，右图为对齐前

1.2.3. 数据有效性校验

由于车辆的颠簸和振动，即使是原本刚性连接的传感器，也有可能会产生偏移，从而导致数据同步和投影对齐上的问题，在一些Case中我们就发现了这样的问题。由于采集车需要在多种路面上行驶，行驶过程中的颠簸可能会造成刚性连接的震荡，从而出现了一些偏移。这种问题往往难以直接察觉且随机发生，但它可能导致整个系统的输出质量下降。

为了解决这个问题，我们提出了一种基于反射率的投影校验方法。具体来说，我们将反射率在一定范围内的点云映射到2D图像上，以此来判断映射是否偏移过大。例如，在进行车道线标注时，车道线的反射信息通常较强，因此我们可以将这部分点云映射到图像上，并根据投影的结果迅速判断当前数据是否有效。如果车道线的投影出现了偏差，我们就可以认为传感器出现了偏移。这种方法的优点在于，它能够实时监控传感器的状态，并且利用已有的数据快速做出判断。

点云映射校验

车道线映射校验

1.2.4. 性能限制的问题

Tesla通过采用multi-trips标注策略，有效提升了标注效率，关键在于将同一地理位置的多个trips数据进行聚合标注，以降低成本。很多trips的数据出现在同一地理位置上，比如一个路口可能会有十几个trips经过，一个很自然的想法就是将这些trips进行聚合，统一进行标注，来平摊标注的成本，这和19年先进行重建再进行标注降低成本的原理是一样的。该步骤的技术点包括地图间的几何匹配、地图更新策略和结果联合优化。带来的收益是很多极端情况的case（黑夜、雨雪天等）出现的区域已经进行了标注，可以通过聚合或者定位的方式获取真值数据。以上两种情况都是建立在采集车辆足够多，数据量非常庞大的基础之上提升标注效率。

针对multi-trips的4D标注，让每个标注员都能处理数十公里区域的大量点云数据（超过10亿）成为挑战。因此，需要探索比点云更稀疏的全局地图表征方式，以在维持标注质量的同时提高处理效率。

Multi-trip采集的大范围场景数据

针对性能限制问题，我们采取了以下措施：

平台已支持自动重建4D数据地图，通过增加位姿信息并导入至MooreData平台，可高效获得全局地图，支持实时数据叠帧或拆分，提升标注的精准性和效率。
对于multi-trips点云数据，工程师采用线下重建方式，包括噪点清除、特征提取及拍平处理，有效压缩数据，以适应性能需求。

1.2.5. 动态物的标注

在之前的分享中专门为动态物体标注设计了的单独章节，但更重要的交互问题并没有过多着墨。所以分享将结合交互来更详细地介绍如何使用4D工具进行数据标注。

4D中进行动态物体标注场景最大的困难是交互。这主要是因为在车流密集的环境下，场景变得极其混乱，以至于理清车辆和个别点之间的关系就成为了一项艰巨的任务。为此，需要一种能够清晰呈现不同时刻和物体之间关系的方法。

为了有效地验证数据并确保标注的精确度和效率，我们在点云动态拼接过程中引入了更高的灵活性。考虑到复杂场景下的使用需求，尤其是动态和静态物体共存的情况，我们采用了动态拼接技术，从而增强了工具的通用性。这项技术使我们可以根据具体需求来拼接全局地图或特定区域的点云，以适应不同的标注策略。这样的调整加强了数据生产的可操作性的同时，也提高了标注规则的灵活性。

带动态物的全局地图是非常非常杂乱的，不同时刻的不同动态物会混在一起，所以如何从无到有生成第一批标签是我们投入了最多精力的部分。为了解决上述问题，我们设计了以下的标注流程：

Pseudo label生成：激光雷达（Lidar）的域差异性极大，普通的模型在跨域的数据中效果极差，生成的Pseudo label根本无法达到可用标准，所以我们的初始模型借鉴了ResimAD的思路，通过simulation做了一次归一化，这样在陌生域的检测效果达到了可用的级别。基于上述模型获取粗略的Pseudo label，但仍然存在框不贴合、属性错误和追踪错误等问题。

ResimAD Architecture

Pseudo label调整：尽管有跨域模型，但Pseudo label效果可能不稳定。我们手动调整不准确的框，并通过平台交互功能快速定位问题帧。修复关键帧后，利用模型再次生成Pseudo label，提高标注质量。
标注质量校验：完成所有对象的调整后，我们进行质量校验。这包括聚合所有框以检查bbox质量，并单独显示对象的轨迹以检查追踪质量。校验通过的数据被视为高质量数据。

1.2.6. MLOps套件

MLOps套件是旨在提高标注效率和降低标注成本的系统。如我们上文展示的效果，基于跨域模型生成的Pseudo尚待进一步改进，无法达到我们对模型表现的期望。所以我们需要依赖在平台生产的数据迭代出一个好用的预标注模型。

为了提升效率并实现对已标注数据的最大利用，我们引入模型训练的Workflow。借助于已标注数据的回馈，使得数据能够产生“复利”。这个过程不断优化模型的表现并降低标注工作的成本。我们采用了AutoDL的思想来使得没有相关背景的项目管理和运营人员也可以依托平台的可视化界面轻松训练出一个有助于提升标注效率的模型。

后端运行的模型赋予了我们在计算量问题上的极高自由度。为了实现更高的精度（Precision）与查全率（Recall），我们可以考虑采用更大的模型。这个过程中，我们设计主要考虑以下几个需求：

让模型快速收敛
利用模型更高效的赋能标注

MLOps套件概览

标对的数据比标数据本身要重要得多，我们如何从浩如烟海的采集数据中找到真正值得标的、性价比高的数据是非常值得关注的问题。
为了让模型更快速的收敛，我们一直在寻找是否有可能使用更少的数据来帮助模型提高预测效果。在这个方面，我们从Bi3D中得到了启发，并构造了一个跨域收敛模型。我们选择部分但重要的目标数据，并以最小的成本对其进行人工标注。这种策略在高性能与低标注成本之间实现了良好的平衡，使得模型能够使用较少的数据量迅速收敛。

利用Vector选取有代表性的数据

Bi3D Architecture

在目标检测任务中，我们通常依赖IoU来区分正负样本，并让模型收敛，使得预测的边界框和真实的边界框的IoU变得越来越大。然而，在标注场景中，我们更关注的是修改的成本。因此，为了优化模型的在标注场景中的表现，我们需要转变关注点，考虑引入新的因素作为损失函数的一部分。

在这种背景下，我们选择将角点距离和调整次数引入到损失函数中。角点距离是指预测的边界框与真实的边界框的角点之间的距离；而调整次数则直接与标注成本相关。通过将这两部分融合到损失函数中，模型就不仅将关注到预测结果的贴合度，也会关注标注过程需要的调整量。

这种策略的引入将使模型更加符合实际应用的需求。它使模型在IoU提升的同时，也能考虑到标注效率的问题，力图使模型的输出结果更接近于真实标签，从而减少后续的标注调整工作。这无疑将大大降低标注成本，并提高标注的效率。

低IoU但修改成本低

高IoU但修改成本高

1.2.7. 静态物的标注

对于静态地面元素如车道线和地面标识，理想的标注环境需去除噪点和动态物。我们采用算法处理动态物拖影，保留地面信息特征，并基于动态物标注精准剔除动态物，保留静态物点云信息。

工具上，MooreData数据工程平台提供强大的车道线标注功能，包括合流分流关联、分段、拆分合并、移动旋转复制等，支持无点云信息处的虚拟标注，以及一键统一车道线高度。同时，平台还可以轻松生成车道中心线，并有效解决十字路口、车道线断开或分流、方向相反等复杂场景的标注问题。

2. 未来展望

最后，关于2077AI计划，整数家计划投资1024万元以支持具有里程碑意义或公益性质的数据集建设工作。2077AI是一个致力于推动人工智能数据行业规范化和发展的非营利组织，其核心目标是提供高质量、关键性的数据集，以支持人工智能领域的研究与开发，并通过开放治理寻求社区与学术界的认可。

我们坚信数据是人工智能未来发展的重要驱动力。通过我们的努力，我们期望从数据中提取更多价值，推动人工智能行业迈向新的发展阶段。我们期待与全球合作伙伴共同构建一个开放、高效、繁荣的人工智能数据生态系统。

2077AI计划

整数智能信息技术（杭州）有限责任公司，起源自浙江大学计算机创新技术研究院，致力于成为AI行业的数据领航员。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员，其提供的智能数据工程平台（MooreData Platform）与数据集构建服务（ACE Service），满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。

目前公司已合作海内外顶级科技公司与科研机构客户1000余家，拥有知识产权数十项，通过ISO9001、ISO27001等国际认证，也多次参与人工智能领域的标准与白皮书撰写，也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

点击「在看」

好内容大家分享

http://mp.weixin.qq.com/s?__biz=MzkxMDMwODI4MA==&mid=2247491099&idx=1&sn=06fec1a2ba8d66ac3302def0d4a905de

整数智能

整数智能作为AI行业的数据合伙人，我们提供专家级的数据标注工程平台与数据集解决方案（数据采集、数据清洗与数据标注）。