单目标跟踪SOT常用评价指标
One-Pass Evaluation (OPE)
用ground-truth中目标的位置初始化第一帧,然后运行跟踪算法得到平均精度和成功率。这种方法被称为one-pass evaluation (OPE)。这是最常用的评估方法,指标包括曲线和数值指标。最早由OTB数据集提出。
1. success、precision曲线
这两种曲线可以说是几乎所有论文都在用的,
- success plot of OPE
这主要考察的是重叠率,横坐标是iou阈值,纵坐标是成功的比例。 - precision plot of OPE
这主要是衡量预测与gt的中心之间的距离,横坐标是像素,纵坐标是成功的比例。
2. 数值指标
-
Overlap Success Rate (OSR),与success plot对应,越大越好,OSR代表预测框和gt的IoU大于阈值$\beta$的比例,大部分数据集$\beta=0.5$。
-
Distance Precision Rate (DPR),与precision plot对应,越大越好,DPR代表预测框的中心和gt框中心的距离小于阈值$\alpha$的比例,大部分数据集$\alpha=5$,少数是20。
-
AUC: area under curve 成功率图的曲线下面积,成功率图指随着$beta$的变化,OSR的变化曲线图。越大越好。
-
OP50:$\beta=0.5$时的OSR。越大越好。
-
OP75:$\beta=0.75$时的OSR。越大越好。
-
除了常用AUC代表成功率外,还有的用 Average Overlap (AO) 来表示success rate. 对每一帧计算 IoU,然后所有IoU取平均得到 Average Overlap。
$A O=\frac{1}{N} \sum_{i=1}^N \operatorname{IoU}\left(p_i, g_i\right)$ -
除了常用$\alpha=5$时的DPR表示Precision rate外,还有少数用下面的方法计算Precision:
其他评估法
OPE评估有2个缺点。一是一个跟踪算法可能对第一帧给定的初始位置比较敏感,在不同位置或者帧初始会造成比较大的影响。二是大多数算法遇到跟踪失败后没有重新初始化的机制。针对上述两个问题,又提出以下几种评估方法。
1. 鲁棒性评估: TRE 和 SRE
通过从时间(temporally,从不同帧起始)和空间(spatially,不同的bounding box)上打乱,然后进行评估。可以分为:temporal robustness evaluation (TRE) 和 spatial robustness evaluation (SRE)。
- Temporal robustness evaluation (TRE):Each tracking algorithm is evaluated numerous times from different starting frames across an image sequence. In each test, an algorithm is evaluated from a particular starting frame, with the initialization of the corresponding ground-truth object state, until the end of an image sequence. The tracking results of all the tests are averaged to generate the TRE score.
在一个图片/视频序列中,每个跟踪算法从不同的帧作为起始进行追踪(比如分别从第一帧开始进行跟踪,从第十帧开始进行跟踪,从第二十帧开始进行跟踪等),初始化采用的bounding box即为对应帧标注的ground-truth。最后对这些结果取平均值,得到TRE score。 - Spatial Robustness valuation (SRE): To evaluate whether a tracking method is sensitive to initialization errors, we generate the object states by slightly shifting or scaling the ground-truth bounding box of a target object. In this work, we use eight spatial shifts (four center shifts and four corner shifts), and four scale variations (see Fig. 2). The amount for shift is 10 percent of the target size, and the scale ratio varies from 80 to 120 percent of the ground truth at the increment of 10 percent. The SRE score is the average of these 12 evaluations.
由于有些算法对初始化时给定的bounding box比较敏感,而目前测评用的ground-truth都是人工标注的,因此可能会对某些跟踪算法产生影响。因此为了评估这些跟踪算法是否对初始化敏感,作者通过将ground-truth轻微的平移和尺度的扩大与缩小来产生bounding box。平移的大小为目标物体大小的10%,尺度变化范围为ground-truth的80%到120%,每10%依次增加。最后取这些结果的平均值作为SRE score。
2. OPER 和 SRER
One-pass evaluation with restart (OPER)。在跟踪期间,如果跟踪失败,那么就在下一帧重新初始化然后再跟踪,其余与OPE一样。Spatial robustness evaluation with restart (SRER)同理。跟踪失败后重新初始化再跟踪的原因就是为了方便更好的评估、分析跟踪算法的优缺点,跟踪算法在什么情况下会失败等特点。
以上几种评估方法如下图: