用于分布式网络中组通信服务的容错和错误恢复技术

王跃华; 周忠; 吴威

doi:10.1007/s11390-012-1224-1

摘要: 近年来，为了满足分布应用节点的需求，覆盖网络传输模型作为一种新兴网络通信架构，以其高可靠性、高可扩展性和高容错性在众多领域中得到了广泛的应用。但由于网络的动态性和节点的多样性，存在大量链路和节点失效, 从而严重影响了基于分布式覆盖网络的应用系统的实用性和服务质量。为满足应用需求和提高服务质量，本文对分布式网络中组通信服务的容错和错误恢复技术进行了研究，通过总结其中存在的主要问题，结合研究背景和应用需求，提出解决方法。总的来说，本文的主要创新点包括： 1)提出了一种基于位置的分布式数据备份算法，该算法能够在提高服务可靠性的同时降低数据备份所需网络开销。考虑到覆盖网络大多是由多个不可靠节点组成的，节点的加入，退出（分布式单点故障）和网络故障（集中式网络分割故障）都会对上层的服务造成较大的影响。在这样的覆盖网络环境中，如果忽略不同的故障模式的影响，会导致大量网络资源被浪费，降低服务的可靠性和可扩展性。因此我们提出基于位置的分布式数据备份算法，各个网络节点可根据故障模式的特点，结合节点的位置信息，在感知范围内层次式搜索数据备份节点，动态地建立多个数据备份。算法能大量地减少无效数据备份，具有较高的节点搜索效率，且维护开销小。2)提出了一种用于组通信服务的故障恢复策略。通过研究我们发现在有较大数量节点的覆盖网络系统中，上层组通信服务会频繁地受到节点和网络故障的影响（表现为中断和不可达）。如果上层组通信服务的恢复过分的依赖于底层网络系统的管理和维护，会导致长时间的服务中断，令网络负载加大、系统中节点数量显著减少，从而严重影响系统的健壮性和实用性。因此我们利用服务中断恢复和网络结构破坏恢复过程的独立性，结合覆盖网络节点功能的多样性，提出一种用于组通信服务的故障恢复策略。节点可根据在组通信服务中的功能，动态地选择错误恢复方式。这样在保持组通信服务恢复低延时的情况下，能够大量的减少网络中的维护开销，从而达到快速故障修复和提高网络资源利用率的目的。为了便于进行相关算法和策略的仿真实验，设计开发了分布式覆盖网络仿真平台GeoCast。在此基础上，我们进行了一系列仿真实验，在功能和性能上对容错和错误恢复技术进行了测试。仿真结果表明，本文所提策略和方法可以在分布式网络环境下，有效地减少了组服务中断数，降低了服务恢复延时和数据备份维护开销，提高了服务在不同故障模式下的可靠性和网络资源利用率。本文对组通信服务中的容错和错误恢复技术做了一定的研究工作，今后，我们将会在此基础上从以下两方面完善我们的工作：1）设计阈值算法用于进一步提高本文所提容错和错误恢复算法的适用性；2）研究应用实例，并根据应用服务的特点和结合应用中用户的需求，改进本文算法，以提高本文算法的实用性。在分布式网络中，用于组通信服务的容错和错误恢复技术具有较高的实用价值。它能够保证组通信服务在不同故障模式下的可用性和可靠性。该技术能够应用于紧急提醒（救助），多人在线网络游戏，视频会议，电子商务，基于位置的广告，IP语音传输，交通控制和股票信息发布等应用，具有较高的实用价值和应用前景。

Abstract: Group communication services (GCSs) are becoming increasingly important as a wide field of promising applications has emerged to serve millions of users distributed across the world. However, it is challenging to make the service fault tolerance and scalable to fulfill the voluminous demand of users in a distributed network (DN). While many reliable group communication protocols have been dedicated to addressing such a challenge so as to accommodate the changes in the network, they are often costly or require complicated strategies to handle the service interruptions caused by node departures or link failures, which hinders the service practicability. In this paper, we present two schemes to address the challenges. The first one is a location-aware replication scheme called NS, which makes replicas in a dispersed fashion that enables the services on nodes to gain immunity of failures with different patterns (e.g., network partition and single point failure) while keeping replication overhead low. The second one is a novel failure recovery scheme that exploits the independence between service recovery and structure recovery in time domain to achieve quick failure recovery. Our simulation results indicate that the two proposed schemes outperform the existing schemes and simple alternative schemes in service success rate, recovery latency, and communication cost.

用于分布式网络中组通信服务的容错和错误恢复技术

Fault Tolerance and Recovery for Group Communication Services in Distributed Networks