当预测输出了预测轨迹时, 我们如何去评价输出结果的优劣呢? 本节以Waymo Prediction Metrics为准, 介绍常见的轨迹预测评价指标
1.3.1 基本指标
1.3.1.1 定义
: N个agent的集合 : 每个agent的预测轨迹数量, : 轨迹的总预测时间步长
是第个预测结果的轨迹集的非归一化似然
是第个预测结果的轨迹集
1.3.1.2 minADE 最小平均位移误差
K组预测结果中, 从第1秒到第T秒, 真值和预测轨迹的平均L2误差最小的一组.
: ground truth(真值) L2范数: 两点之间的L2范数即欧式距离.
1.3.1.3 minFDE 最小终点位移误差
与minADE不同的是, minFDE仅计算终点(T时刻)的预测位置与真值位置的误差.
1.3.1.4 Negative Log Likelihood (NLL) 负对数似然
NLL是一种在统计学和机器学习中广泛使用的损失函数, 主要用于衡量模型预测的概率分布与真实概率分布之间的差异
1.3.1.5 Miss Rate
miss率, 轨迹的终点与真值偏差大于阈值时, 定义为miss
:旋转矩阵,用于将时刻的偏差结果转换到全局坐标系。
当方向上的误差均小于阈值时:, 认为这组轨迹miss了. 阈值可以设置如下:
可以与速度关联, 对阈值进行放大缩小:
1.3.1.6 Overlap Rate
重叠率, agent概率最高的预测轨迹结果, 与其他agent的真值是否发生碰撞. 如果发生碰撞, 则视为一次重叠. 所以第i个agent的重叠率定义为, 发生碰撞的其他agent数量/agent数量.
1.3.1.7 预测计算时间
预测计算时间是评价on-board预测性能的非常的指标, 它直接表示了预测方法的效率优劣. 对于自动驾驶工业界来说, 自动驾驶汽车的计算资源是非常有限的, 但是预测模型一般需要消耗较多资源. 因此保证预测的实时性, 很大程度可以评价模型的优劣.
1.3.2 工业界常用指标
除了上面的基本指标, 在工业落地中还需要关注一些细节指标, 来更具象的评价模型.
1.3.2.1 场景级别指标
自动驾驶车辆在不同场景下, 交互的目标可能是不一样的. 比如说在十字路口附近, 可能会有大量的行人和电瓶车; 而在高速路上, 主要是以高速车辆为主. 为了根据这些不同的场景, 针对性的评价. 工业界常常把不同的场景单独拿出来进行评价, 比如在十字路口附近, 可以着重观察交互车辆, 行人, 电瓶车的轨迹预测质量; 在高速上, 则可以主要看高速车辆的预测结果.
类似的, 像环岛, 掉头路等曲率较大的预测轨迹场景, 都可以根据场景特性单独设置评价指标.
1.3.2.2 行为级别指标
与场景类似, 我们同样可以按照行为进行分类评价. 比如针对急刹车, 换道, 或是突然掉头等等行为, 均可以单独设置评价指标观察预测模型的结果.
1.3.2.3 交互级别指标
将与自车产生交互的车辆, 单独分类出来进行评价. 比如cut-in自车的车辆, cut-out自车的车辆, 路口博弈的车辆等等.
交互指标主要是为了评估预测结果对自车产生的影响, 因为预测结果往往会直接影响倒planning, planning又直接影响到自车的表现.
推荐阅读:
🏎️自动驾驶小白说官网:https://www.helloxiaobai.cn