增强多液体状态机模型在神经形态视觉识别任务上的应用
M-LSM: An Improved Multi-Liquid State Machine for Event-Based Vision Recognition
-
摘要:研究背景 人脑高效率的一个重要原因在于基于事件的计算。受人脑启发的尖峰神经网络(SNN)是一种典型的基于事件的学习算法。SNN中的信息通过稀疏和异步尖峰进行传输,计算在本地和分布式神经元和突触中并行进行。基于事件的传感器,如动态视觉传感器(DVS),与基于帧的传统视觉传感器相比,可以提供更高的动态范围和输出速率。更重要的是,DVS基于事件的信息表示可以减轻下游算法处理庞大信息的负担,提供显著的速度和效率优势。过去结合大规模SNN和DVS的端到端基于事件的手势识别系统取得了高精度,但是往往依赖于拥有超过200 000个神经元的大规模网络,面临昂贵训练成本的挑战。而液体状态机(Liquid State Machine,LSM)作为一种SNN,具有网络规模小和训练简单的特点。目的 我们研究发现,即使通过突触可塑性学习规则学习LSM的权重和通过增加神经元数量,传统LSM在NMNIST和IBM手势数据集上的分类精度分别只有87%和83%。而其他基于事件的算法在这两个数据集上报告的最新精度分别达到98%和94%。虽然现有的LSM算法功耗低、复杂度小,但由于精度较低,无法真正应用于基于事件的视觉识别。我们旨在提升LSM在基于事件的视觉识别任务上的精度,使其成为一种具有低复杂度、低训练成本和高精度的方案。方法 在本文中,我们提出了一个改进的液体状态机(M-LSM)方法用于高性能视觉识别。具体来说,在使用突触可塑性规则学习权重的基础上,我们提出了两个规则,即多状态融合和多液体搜索。通过多次液体状态采样实现多状态融合,多个时间步的状态可以保留更丰富的时空信息。我们采用网络体系结构搜索(NAS)寻找多液体LSM的潜在最佳结构。我们的M-LSM在两个基于事件的数据集上进行了评估,并与其他基于SNN的方法进行了比较。我们还进行了交叉验证来评估算法对数据的鲁棒性。最后,我们对不同算法的开销进行了量化分析。结果 在NMNIST和IBM DvsGesture上,我们提出的M-LSM可以分别达到97%和92%的分类准确率,这与最先进的准确率相当,并且比现有SNN方法的训练成本更低。结论 本文提出了一种基于LSM的事件视觉识别方法并提出了两种改进性能的方法,即多状态融合和多液体搜索。改进后的M-LSM可以在两个DVS数据集上实现与过去的工作相当的分类精度。综合比较研究表明,我们提出的M-LSM算法能够以更小的网络复杂度和更低的训练成本优于其他基于事件的算法。本研究为基于事件的视觉识别提供了一个具有竞争力的解决方案,尤其是在功率受限的场景中。该方案网络复杂度小,训练成本低,在执行视觉识别任务时可以节约能源和资源,有利于人工智能和环境保护的应用。最后,我们没有要披露的负面潜在道德影响。Abstract: Event-based computation has recently gained increasing research interest for applications of vision recognition due to its intrinsic advantages on efficiency and speed. However, the existing event-based models for vision recognition are faced with several issues, such as large network complexity and expensive training cost. In this paper, we propose an improved multi-liquid state machine (M-LSM) method for high-performance vision recognition. Specifically, we introduce two methods, namely multi-state fusion and multi-liquid search, to optimize the liquid state machine (LSM). Multi-state fusion by sampling the liquid state at multiple timesteps could reserve richer spatiotemporal information. We adapt network architecture search (NAS) to find the potential optimal architecture of the multi-liquid state machine. We also train the M-LSM through an unsupervised learning rule spike-timing dependent plasticity (STDP). Our M-LSM is evaluated on two event-based datasets and demonstrates state-of-the-art recognition performance with superior advantages on network complexity and training cost.