从任意起点到达终点：GNSS拒止条件下的基于强化学习的视觉无人机导航

王宇鑫; 张振宇; 刘顺宇; 孙立; 宋明黎

doi:10.1007/s11390-025-4468-2

从任意起点到达终点：GNSS拒止条件下的基于强化学习的视觉无人机导航

From Anywhere to the Destination: Visual Reinforcement Learning for GNSS-Denied Drone Navigation

摘要

摘要:
研究背景 无人机 (UAVs) 通常依赖全球导航卫星系统 (GNSS) 进行定位和导航。然而，在某些环境下，由于信号遮挡或降级，GNSS 的可靠性会受到影响。在这种 GNSS 不可靠或被拒绝的条件下，基于视觉的导航 (Vision-Based Navigation) 作为一种有前景的替代方案应运而生。这对于确保无人机在复杂、无 GNSS 信号区域（如城市峡谷、室内、被干扰区域等）的持续、自主运行至关重要。当前视觉导航方法具有以下局限性：a)现有方法（如监督学习）需要投入大量人力进行专家引导示范，数据采集过程繁琐且被动，尤其不适用于大规模的户外导航任务。b)基于定位的导航方法容易因连续的定位误差累积而导致较大的航行偏差；基于角度的导航方法虽然能直接预测方向，但其泛化能力受限于预先收集的专家路径。部分强化学习导航方法依赖于精确的坐标或距离数据，这在GNSS失效的场景下难以实现。
目的本研究的目的是克服现有纯视觉导航方法对专家演示的重度依赖和被动的数据收集模式，见图1(a)(b)(c)，以及强化学习需要精确坐标的局限，研究基于强化学习的纯视觉无人机导航方法，实现从任意起点到指定终点的主动探索式导航。
方法本研究提出了一种名为 active exploration transformer (AceFormer)的视觉强化学习导航框架，见图2，其整体设计、网络设计和训练步骤描述如下：整体设计：a)整体采用了一种基于Actor-Critic模式的强化学习架构。其中，Actor网络负责预测无人机在特定状态下应采取的动作，而Critic网络则负责评估该状态的价值。b)导航任务被建模为一个马尔可夫决策过程，包含了状态、动作、奖励和状态转移等要素。研究采用具有较强鲁棒性和稳定性的近端策略优化（PPO）算法来优化和更新网络。网络设计：a)AceFormer的Actor网络和Critic网络采用了相同的网络架构但是权重不同：由内部实例特征编码器（Intra Instance Feature Encoder）和语义引导解码器（Semantic Guidance Decoder）两部分组成。当前图像和目标图像通过内部实例特征编码器编码为“实例引导”特征（semantic guidance）。当前图像和目标图像的semantic guidance被连接融合并输入Semantic Guidance Decoder。b)Intra Instance Feature Encoder编码器采用视觉Transformer (ViT)作为骨干网络，分别处理当前图像和目标图像，将它们转换成图像块序列并连接一个额外的Token，经过若干层Transformer块输出“实例引导”特征（semantic guidance）。c)Semantic Guidance Decoder以“实例引导”为输入，通过多层MLP和Tanh激活函数，以预测出无人机的动作或评估状态的价值。d)Actor网络和Critic网络的区别主要表现最终输出的维度分别是2和1，Critic网络去掉了最后的Tanh层。训练步骤：a)初始化与数据采集：从环境中采集初始状态（即当前图像和目标图像）。b)特征提取与动作生成：使用旧的actor-critic网络与环境互动，收集一系列的状态、动作和奖励数据，并存入回放缓冲区。c)损失函数计算：通过演示数据计算奖励函数和优势函数，经过更新的Actor网络和Critic网络计算比率函数，最后根据PPO算法计算损失函数。网络更新：以批次大小B更新M轮次后清除回放缓冲并开始下一个循环。
结果主要实验结果：表1的实验结果表明我们的方法对比基于位置的导航和基于角度的SOTA导航方法取得了最好的效果。并且我们的方法对比其他基于强化学习的方法有着巨大的提高。我们的方法在FLOPs和推理时间分别打到了51.2MB和9.8ms，对于边缘设备也有着很好的支持。可视化路径结果：图3展示了不同方法在理想环境和噪声环境中的实际导航轨迹。图中红色线条代表AceFormer的轨迹，可以看出其导航路径更快速、更精确，非常接近理想路径。即使在有噪声干扰的环境中，AceFormer也能够有效地进行探索并修正后续的飞行方向。这些发现突显了AceFormer通过其主动探索策略能够生成更可靠和准确的导航指令。
结论本研究提出了一种名为AceFormer的新型视觉强化学习架构，用于在GNSS拒止的户外环境中进行大规模无人机导航。本方法通过主动探索学习，克服了传统纯视觉方法对被动专家指导的依赖，并且克服了强化学习需要位置数据的难题。为了降低真实飞行的训练成本，本研究还推出了一个基于谷歌地球的DroEnv模拟环境。大量实验证明，该方法在理想和有噪声的条件下都具有准确性、有效性和鲁棒性。如何改进此方法以应对动态天气条件下的导航挑战有待进一步研究。

Abstract: Unmanned aerial vehicles (UAVs), also referred to as drones, typically depend on the Global Navigation Satellite System (GNSS) for positional awareness and navigation. However, the GNSS can be unreliable in specific environments due to signal obstruction or degradation. In recent years, vision-based navigation has emerged as a promising alternative to GNSS. Despite its potential, this visual method necessitates a significant investment in expert-guided demonstrations, resulting in a cumbersome and passive collection process, especially for large-scale outdoor navigation tasks. In this paper, we propose AceFormer, a vision-based active exploration transformer framework that enables agent navigation from any starting point to a destination without expert guidance. Specifically, this framework introduces an intra instance feature encoder in tandem with a semantic guidance decoder, which empowers the drone agent to extract global instance-level semantic information. Deep reinforcement learning is further employed to train the drone agent, enabling it to explore the environment dynamically, and learn navigation tasks in a trial-and-error way. To empirically evaluate AceFormer, a challenging drone navigation simulated flight environment (DroEnv) is designed by leveraging Google Earth as a navigation platform, which contributes to a standardized benchmark for the drone navigation field. Extensive experiments conducted on DroEnv with randomly sampled starting points demonstrate the effectiveness of the proposed AceFormer in both ideal and noisy environments. Our code is publicly available.

HTML全文

参考文献()

施引文献

资源附件()