基于动态偏度和稀疏度计算的A3C鲁棒性评估：一种并行计算视角

doi:10.1007/s11390-021-1217-z

基于动态偏度和稀疏度计算的A3C鲁棒性评估：一种并行计算视角

Robustness Assessment of Asynchronous Advantage Actor-Critic Based on Dynamic Skewness and Sparseness Computation: A Parallel Computing View

摘要

摘要: 1、研究背景（context）。
强化学习作为一种自主学习，在极大程度上推动了人工智能领域中基础应用程序的发展。在所有主流的强化学习算法中，异步优势演员-评论家（A3C）以其能够支持异步并行学习的特性，成为人工智能研究领域中的一种流行算法，同时该算法引领了并行计算引发的深度强化学习革命。A3C可以异步执行多个代理与环境进行交互，摒除传统的单代理学习模式，通过多代理协作更快地实现自主学习。目前，越来越多的实际应用场景（例如：电力控制）开始考虑使用A3C进行部署。基于并行计算的A3C在极大程度上提高了同步并行学习的潜力，为强化学习的发展打开了新的大门。
2、目的（Objective）：
相关研究表明，在轻微随机的环境干扰下，A3C并不能保持其鲁棒性，因此，在并行计算的高速环境中，对A3C的鲁棒性进行系统的评估是非常有意义且重要的。因此，在本工作中，我们的研究目标是基于多代理并行计算实现对A3C的系统性鲁棒性评估。
3、方法（Method）：
我们首先计算动作概率偏差，并构建一个由动作概率偏差组成的全局矩阵，进而获得在每个状态上的策略动作差异。通过对动作概率偏差全局矩阵进行深度分析，以及A3C算法训练，我们定义了两种全新的偏度、稀疏度计算指标。考虑到偏度、稀疏度不同的权重组合，利用实现对二者的综合计算，并以此作为整体的鲁棒性评估指标。除了静态评估方法以外，我们基于对变化回合的条件性全局空间状态采样，提出了一种动态评估算法，同时分析了该算法的时间复杂度，进而证明动态鲁棒性评估算法的时间效率。我们实现了一个基于A3C的寻路场景作为我们的实验环境，同时针对代理个数、学习率的不同实验组合来验证本文提出方法的有效性。
4、结果（Result&Findings）：
通过对代理个数、学习率不同的组合进行实验，我们发现，本文提出的动态A3C鲁棒性评估方法与基准相比可以达到83.3%的准确率。随着代理个数的增加，偏度、稀疏度会相应下降，最大下降幅度分别达到38.1%和7.86%。通常情况下，设置一个更低的学习率会得到更高的偏度和稀疏度值，同时也意味着A3C模型的鲁棒性会更强。
5、结论（Conclusions）：
实验证明本文提出的鲁棒性评估方法能够以较高的准确性实现对A3C模型的鲁棒性评估，并且详细分析了代理个数以及学习率对A3C模型鲁棒性的影响。本工作首次针对基于并行计算的A3C鲁棒性问题进行了深入的研究。在未来，有望启发该领域一系列相关研究，包括但不限于：（1）面向无限状态空间的A3C强化学习的鲁棒性研究；（2）针对更多类型强化学习的鲁棒性研究；（3）确保强化学习鲁棒性的完善机制研究。

Abstract: Reinforcement learning as autonomous learning is greatly driving artificial intelligence (AI) development to practical applications. Having demonstrated the potential to significantly improve synchronously parallel learning, the parallel computing based asynchronous advantage actor-critic (A3C) opens a new door for reinforcement learning. Unfortunately, the acceleration's influence on A3C robustness has been largely overlooked. In this paper, we perform the first robustness assessment of A3C based on parallel computing. By perceiving the policy's action, we construct a global matrix of action probability deviation and define two novel measures of skewness and sparseness to form an integral robustness measure. Based on such static assessment, we then develop a dynamic robustness assessing algorithm through situational whole-space state sampling of changing episodes. Extensive experiments with different combinations of agent number and learning rate are implemented on an A3C-based pathfinding application, demonstrating that our proposed robustness assessment can effectively measure the robustness of A3C, which can achieve an accuracy of 83.3%.

HTML全文

参考文献()

施引文献

资源附件()