ByteTrack 是一个简单、快速、强大的多对象跟踪器,通过关联每个 Detection Box 进行多对象跟踪。
多对象跟踪 (MOT) 旨在估计视频中对象的边界框和身份。大多数方法通过关联得分高于阈值的检测框来获取身份。检测分数低的物体,例如被遮挡的物体,会被简单地丢弃;这带来了不可忽视的真实物体缺失和碎片化轨迹。为了解决这个问题,我们提出了一种简单、有效和通用的关联方法,通过关联每个检测框而不是只关联高分框来进行跟踪。对于低分检测框,我们利用它们与轨迹的相似性来恢复真实对象并过滤掉背景检测。当应用于 9 个不同的最先进跟踪器时,我们的方法在 IDF1 分数上实现了从 1 到 10 分的持续改进。为了提出 MOT 最先进的性能,我们设计了一个简单而强大的跟踪器,命名为 ByteTrack。我们首次在单台 V100 GPU 上以 30 FPS 的运行速度在 MOT17 的测试集上实现了 80.3 MOTA、77.3 IDF1 和 63.1 HOTA。
MOT 挑战测试集的结果
Dataset | MOTA | IDF1 | HOTA | MT | ML | FP | FN | IDs | FPS |
---|---|---|---|---|---|---|---|---|---|
MOT17 | 80.3 | 77.3 | 63.1 | 53.2% | 14.5% | 25491 | 83721 | 2196 | 29.6 |
MOT20 | 77.8 | 75.2 | 61.3 | 69.2% | 9.5% | 26249 | 87594 | 1223 | 13.7 |
MOT 挑战测试集上的可视化结果