基于目标中心图网络的一阶段行人多目标检测与跟踪方法
CGTracker: Center Graph Network for One-Stage Multi-Pedestrian-Object Detection and Tracking
-
摘要: 1、研究背景(context):行人目标作为现实生活场景中最常见和最主要的目标类别具有极大的跟踪价值。而行人目标检测与跟踪技术是许多上层应用的关键技术,如:自动驾驶及视频监控。现有的多目标跟踪方法通常将任务分为三个部分:目标检测、特征提取和目标关联。这些方法往往只是简单地应用通用方法来实现每一步,而没有充分研究目标类别的特征来进行检测和跟踪,导致额外的计算成本和MOT的低效率。
2、目的(Objective):CGTracker旨在实现高效的一阶段联合目标检测与多行人目标跟踪方法,以便于实时跟踪应用中的在线跟踪。
3、方法(Method):考虑到行人是现实世界场景中最常见的目标类别,并且在对象关系和运动模式方面具有特殊性,我们提出了一种新颖而高效的单阶段行人检测和跟踪方法,命名为CGTracker。CGTracker将行人目标检测为对象的中心点,并直接从目标中心的特征表示中提取对象特征,用于预测轴对齐的边界框。同时,将检测到的行人构建为目标图,以促进多目标关联过程,其中使用两个相邻帧之间目标的语义特征、位移信息和相对位置关系来执行可靠的在线跟踪。
4、结果(Result & Findings):我们将该方法在流行的 MOT17 挑战中进行了评估,在 9 FPS 时达到了 69.3% MOTA。在广泛使用的评估指标下的广泛实验结果表明,在提交这项工作时,我们的方法是 MOT17 挑战排行榜上的最佳技术之一。
5、结论(Conclusions):在本文中,我们介绍了一种基于图的单阶段多行人目标检测和跟踪方法,称为中心图网络(CGTracker)。结果表明,行人目标的中心特征以及行人目标之间的空间关系能够对行人目标跟踪的方法产生显著影响。我们的方法不仅达到了最先进的跟踪精度,而且在推理速度方面也非常高效。大量的实验结果表明,CGTracker 在 MOT17 基准测试中实现了最先进的跟踪精度,并且在推理速度方面也非常高效。CGTracker 是一个端到端的框架,联合学习多行人目标检测和跟踪,效率很高,可以应用于实时 MOT 应用,例如自动驾驶。目前CGTracker直接采用对象中心坐标之间的距离来表示关系下一步我们将进一步探索更好的对象关系表示和信息聚合机制,以构建更有效的关系约束。同时,我们还将探索更多有用的对象特征,以改进密集人群跟踪场景中的小目标检测与关联。Abstract: Most current online multi-object tracking (MOT) methods include two steps: object detection and data association, where the data association step relies on both object feature extraction and affinity computation. This often leads to additional computation cost, and degrades the efficiency of MOT methods. In this paper, we combine the object detection and data association module in a unified framework, while getting rid of the extra feature extraction process, to achieve a better speed-accuracy trade-off for MOT. Considering that a pedestrian is the most common object category in real-world scenes and has particularity characteristics in objects relationship and motion pattern, we present a novel yet efficient one-stage pedestrian detection and tracking method, named CGTracker. In particular, CGTracker detects the pedestrian target as the center point of the object, and directly extracts the object features from the feature representation of the object center point, which is used to predict the axis-aligned bounding box. Meanwhile, the detected pedestrians are constructed as an object graph to facilitate the multi-object association process, where the semantic features, displacement information and relative position relationship of the targets between two adjacent frames are used to perform the reliable online tracking. CGTracker achieves the multiple object tracking accuracy (MOTA) of 69.3% and 65.3% at 9 FPS on MOT17 and MOT20, respectively. Extensive experimental results under widely-used evaluation metrics demonstrate that our method is one of the best techniques on the leader board for the MOT17 and MOT20 challenges at the time of submission of this work.