空地无线传感器网络中高效数据收集强化学习博弈框架
An Efficient Reinforcement Learning Game Framework for UAV-Enabled Wireless Sensor Network Data Collection
-
摘要: 1、研究背景(context)
随着地理大数据在学术研究和生活中重要作用的日益凸显,高效的收集地理大数据已成为迫切的需求。学术界和工业界在偏远、复杂的区域进行感知、探索和监测环境仍然具有挑战性,其中数据收集的成本决定了能否将传感器部署到野外环境。无人机以其机动性和灵活性,可以集成到地面无线传感器网络中,成为一种低成本的数据自动收集器。然而,广域地理空间无法为无人机持续提供能源补充,这给使用无人机带来了挑战。合理规划无人机的飞行路径,可以降低无人机的能量消耗,节约数据采集成本,提高效率。在此背景下,无人机的低能耗路径规划成为地理数据采集中最关键的问题之一。
2、目的(Objective)
针对目前在更大的开放区域中对分簇的无线传感器网络进行高效数据收集的要求,采用一种低能耗的高效无人机路径优化方法。一方面能够合理的规划无人机飞行路径,另一方面能够选择合理的簇中心,联合优化能耗。
3、方法(Method)
我们利用博弈论框架构建了一个基于深度强化学习的方法,该方法由两个子模块组成:传感器簇中心处理器(CHP)和路径规划处理器(NOP)。在博弈过程中,CHP从NOP接收路径规划结果,并使用这个路径来评估所有簇中心选择的效用。NOP接受CHP提供的簇中心列表,为无人机规划数据收集路径。这个过程不断重复,直到双方达到纳什均衡。
4、结果(Result & Findings)
实验证明,路径规划处理器不断调整收敛趋势,以更高的概率跨越局部优化。同时,与直接使用簇中心节点相比,从传感器簇中心处理器中选择簇头作为Nash均衡后的导航点,可以减少无人机飞行的访问时间。数值结果表明,与一般广泛使用的基于深度强化学习路径规划方法相比,在训练参数相同的情况下,博弈方法可以使无人机节省超过17.58%的能量,在最好的情况下节省38%的能量。
5、结论(Conclusions)
本文开发了一个基于强化学习的游戏框架,分为传感器簇中心处理器和路径规划处理器两部分。使用传感器簇中心处理器来确定无人机航点;另一方面,利用路径规划处理器为无人机寻找最优路径。文章采用两种强化学习方法和三种学习率进行数值实验。数值结果表明,本文提出的基于多方的博弈框架能够有效地降低强化学习中无人机的过估计,提供成本更低的数据采集方案。未来,我们将进一步分析基于深度强化学习的博弈框架的可行性,包括传感器聚类、簇中心查找和路径处理三方博弈。Abstract: With the developing demands of massive-data services, the applications that rely on big geographic data play crucial roles in academic and industrial communities. Unmanned aerial vehicles (UAVs), combining with terrestrial wireless sensor networks (WSN), can provide sustainable solutions for data harvesting. The rising demands for efficient data collection in a larger open area have been posed in the literature, which requires efficient UAV trajectory planning with lower energy consumption methods. Currently, there are amounts of inextricable solutions of UAV planning for a larger open area, and one of the most practical techniques in previous studies is deep reinforcement learning (DRL). However, the overestimated problem in limited-experience DRL quickly throws the UAV path planning process into a locally optimized condition. Moreover, using the central nodes of the sub-WSNs as the sink nodes or navigation points for UAVs to visit may lead to extra collection costs. This paper develops a data-driven DRL-based game framework with two partners to fulfill the above demands. A cluster head processor (CHP) is employed to determine the sink nodes, and a navigation order processor (NOP) is established to plan the path. CHP and NOP receive information from each other and provide optimized solutions after the Nash equilibrium. The numerical results show that the proposed game framework could offer UAVs low-cost data collection trajectories, which can save at least 17.58% of energy consumption compared with the baseline methods.