面向可穿戴健康监护的联邦增量极限随机森林算法
FedIERF: Federated Incremental Extremely Random Forest for Wearable Health Monitoring
-
摘要:研究背景 基于行为的健康监护是监测用户健康状况的有效途径。可穿戴健康监护具有低功耗和便于携带的优点,它可以在临床环境之外长时间收集用户的生命体征数据,监测用户的健康状况。因此,具有重要的现实意义。要想构建有效的可穿戴健康监护模型,一种理想的方式是整合不同组织收集的数据,并使用整合后的数据构建模型。以这种方式训练的模型可以在以前未见过的新用户上表现出良好的泛化性能。然而,根据数据隐私保护的法律规定,大多数可穿戴健康数据只能由所有者访问,无法利用不同机构采集的数据共同构建模型。联邦学习为解决此类问题提供了一种有效途径。此外,随着时间的推移,联邦的规模还会不断扩大,如何有效利用新合作伙伴的数据也非常重要。目的 本文的研究目标是通过将联邦学习和增量学习引入可穿戴健康监护,帮助研究人员和医生以保护隐私的方式获得具有良好泛化能力和可扩展性的可穿戴健康监测模型。方法 首先,本文提出了一种新的横向联邦学习方法——联邦极限随机森林 (FedERF)。该方法能够在保护数据隐私和安全性的前提下使用不同机构采集的数据共同构建准确的联合森林模型。基于联邦极限随机森林,我们提出了一种新的联邦增量学习方法——联邦增量极限随机森林(FedIERF)。该方法以增量方式整合来自机构的知识。为了评估联邦极限随机森林和联邦增量极限随机森林的性能,我们在五个公共的可穿戴行为识别数据集进行了大量的实验。结果 联邦极限随机森林和联邦增量极限随机森林的性能能够逼近在不考虑隐私情况下直接利用来自不同机构的数据构建的极端随机森林。该结果表明联邦极限随机森林能够在不损失性能的前提下保护用户隐私,而联邦增量极限随机森林可以有效地以隐私保护的方式利用来自新机构的数据更新联邦模型。结论 联邦极限随机森林是极限随机森林在联邦学习框架下的新部署范式,它解决了构建保护用户隐私的跨机构的可穿戴健康监护模型的挑战。在此基础之上,联邦增量极限随机森林能够有效解决智能医疗和智能金融领域的一个实际问题——联邦的动态扩展问题。联邦极限随机森林和联邦增量极限随机森林为跨机构的模型构建提供了新范式,同时也为不同医院和组织之间在可穿戴健康监测方面的合作开辟了机会。Abstract: Wearable health monitoring is a crucial technical tool that offers early warning for chronic diseases due to its superior portability and low power consumption. However, most wearable health data is distributed across different organizations, such as hospitals, research institutes, and companies, and can only be accessed by the owners of the data in compliance with data privacy regulations. The first challenge addressed in this paper is communicating in a privacy-preserving manner among different organizations. The second technical challenge is handling the dynamic expansion of the federation without model retraining. To address the first challenge, we propose a horizontal federated learning method called Federated Extremely Random Forest (FedERF). Its contribution-based splitting score computing mechanism significantly mitigates the impact of privacy protection constraints on model performance. Based on FedERF, we present a federated incremental learning method called Federated Incremental Extremely Random Forest (FedIERF) to address the second technical challenge. FedIERF introduces a hardness-driven weighting mechanism and an importance-based updating scheme to update the existing federated model incrementally. The experiments show that FedERF achieves comparable performance with non-federated methods, and FedIERF effectively addresses the dynamic expansion of the federation. This opens up opportunities for cooperation between different organizations in wearable health monitoring.