面向交通感知的雷达-相机自动标定与融合系统

石盼; 李垚; 任浩杰; 夏锐; 石为开; 张燕咏

doi:10.1007/s11390-026-6122-z

面向交通感知的雷达-相机自动标定与融合系统

Automatic Radar-Camera Calibration and Fusion for Traffic Perception

摘要

摘要:
文章摘要图/表： 图1 雷达-相机融合系统框架：实现异构输入对齐与语义-运动学互补融合
研究背景 随着智能交通系统的发展，毫米波雷达与相机的融合因其互补性成为远距离交通感知的关键技术，但在实际路侧部署中面临三大严峻挑战，如图2所示。首先，高速远距场景下难以布置静态标定物，且雷达分辨率低导致传统时空对齐不准确；其次，现有的特征级融合方法计算成本高昂，且在远距离处微小的标定误差会导致特征空间严重错位，难以满足实时性要求；最后，主流监督学习方法高度依赖昂贵的人工标注数据，限制了其在大规模异构交通网络中的扩展应用。图2 雷视融合系统实际部署面临的三大挑战
目的本研究旨在针对实际路侧感知场景，提出一套从理论分析到系统部署的完整解决方案，以克服现有融合系统在标定难、效率低和依赖人工标注方面的局限。通过构建一个自动化的雷达-相机标定与融合系统，研究致力于实现利用动态轨迹的鲁棒时空同步，并探索适合远距离感知的高效融合范式，从而推动智能交通感知技术在真实复杂场景中的大规模商业化应用。
方法本文提出了一套包含动态标定与目标级融合的自动化系统框架。在标定方面，设计了基于轨迹的动态标定方案，利用扩展卡尔曼滤波（EKF）在BEV平面估计车辆运动状态，通过两阶段匹配策略对齐平滑后的轨迹，从而在无静态标定物的情况下实现鲁棒的时空同步。在融合方面，采用了FARFusion目标级融合框架，首先在2D图像平面利用视觉几何关联和雷达精确测距进行深度校正，随后在统一的BEV坐标系下结合卡尔曼滤波与全局最近邻（GNN）算法进行多目标跟踪，以兼顾语义丰富性与几何精度。
结果目标级方法和特征级方法相较于单模态基线和传统融合方案展现出更优的性能指标。结果表明目标级范式在交通场景中具有两大关键优势：1)检测与定位精度：FARFusion的目标级方法与Fcos3dFusion的特征级方法在所有测试序列中均实现了BEV空间（APBEV）的最高平均精度。这一显著提升验证了我们的假设：利用雷达的精确距离测量可显著提升目标定位精度。Fcos3dFusion在所有测试序列中均实现BEV空间最高平均精度（APBEV）。这一显著提升验证了我们的假设：利用雷达精确测距锚定空间稳定的2D视觉检测，可有效缓解单目视觉固有的深度病态性问题。2)计算效率：与需进行高计算量视图变换和密集特征匹配的特征级方案不同，目标级方法仅处理稀疏目标列表。这种轻量级架构最大限度降低计算开销，在资源受限的路边边缘设备上仍能保持高频输出，这对追踪高速目标至关重要。实验结果证实：在远距离交通场景中，目标级方法不仅能与特征级方法媲美，还能提供更优的计算效率。
结论本文证实了基于轨迹的自动标定和目标级融合策略是当前路侧智能交通系统最务实的技术路线，有效解决了高速环境下的标定难题并平衡了精度与效率。研究指出，为了实现下一代高安全性交通管理，未来的工作应突破单一节点的监督学习限制，重点向三个方向演进：一是从人工标注转向物理感知的自监督学习以挖掘海量无标签数据价值；二是从孤立感知转向网络化协作感知以实现跨设备连续跟踪；三是从模块化管道转向端到端感知基础模型，以隐式优化全局感知目标。

Abstract: In intelligent transportation systems (ITS), millimeter-wave (MMW) radar-camera fusion has emerged as a cost-effective and viable solution due to low sensor prices. However, deploying such a fusion system in practical far-range scenes faces significant challenges in both sensor calibration and fusion processes. To address these challenges, this paper presents a systematic study from theoretical analysis to practical system deployment. First, we review the status quo of radar-camera fusion systems, comparing existing calibration and fusion paradigms carefully. Through comparative analysis, we find that though feature-level fusion is popular in related research, the target-level fusion is more practical for roadside applications because it is computationally efficient and more robust to depth ambiguity. Second, we introduce an automatic radar-camera calibration and fusion system for real-world traffic perception. This system implements a trajectory-based calibration scheme for spatio-temporal synchronization, specifically tackling the difficulty of identifying distinguishable calibration targets in far-range environments. After calibration, this system applies a robust two-stage target-level fusion method to achieve effective radar-camera fusion in traffic scenes. Finally, we introduce the promising advancements of the proposed system and discuss several open challenges for large-scale and high-safety commercialization. We believe physics-aware self-supervised learning, cooperative perception across roadside devices, and end-to-end perception foundation models are important for future traffic perception systems.

HTML全文

参考文献()

施引文献

资源附件()