基于对比图扩散与动态权重调整的癌症驱动基因预测方法
Predicting Cancer Driver Genes via Contrastive Graph Diffusion and Dynamic Weighting
-
摘要:研究背景 癌症的发生和发展通常由基因突变驱动。准确识别癌症驱动基因对于理解肿瘤的生物学机制和开发靶向治疗具有重要意义。传统方法通常依赖于蛋白质相互作用(PPI)网络来识别癌症驱动基因,但PPI网络中存在的噪声会显著降低预测的准确性。近年来,图神经网络(GNN)和对比学习(GCL)等技术被引入到癌症驱动基因预测中,以提升特征的鲁棒性。然而,现有方法在多任务学习中的损失权重分配不均衡,且对网络噪声的抑制能力有限,这些问题限制了模型的性能提升。因此,开发一种能够有效抑制噪声并优化多任务学习权重分配的新方法,成为当前研究的重要方向。目的 本研究旨在解决现有癌症驱动基因预测方法中存在的两个主要问题:一是蛋白质相互作用(PPI)网络中的噪声干扰,导致预测精度受限;二是多任务学习中损失权重分配不均衡,影响模型性能。为此,本文提出了一种基于对比图扩散与动态权重调整的癌症驱动基因预测方法(DGCL_DWA),目标是提升癌症驱动基因预测的准确性和鲁棒性,为癌症生物学研究和精准医疗提供更可靠的计算工具。方法 DGCL_DWA主要通过图扩散技术增强PPI网络的生物学信息表达,采用对比学习,并引入动态权重调整策略优化多任务学习的损失分配。本方法包含四阶段:1)PPI网络扩散:利用个性化PageRank生成扩散网络,保留原始结构的同时强化潜在生物学关联;2)图对比学习特征编码:采用Chebyshev图卷积提取原始与扩散网络的特征,通过邻域对比学习约束特征一致性;3)网络特定特征嵌入:结合节点分类与链路预测任务,学习网络特异性特征;4)动态权重调整:根据任务损失变化率动态平衡对比学习、节点分类与链路预测的权重。结果 实验是基于TCGA数据集的16种癌症类型(如LUAD、BRCA等)和两种PPI网络(CPDB与STRING)。1)泛癌预测:在CPDB数据集上,DGCL_DWA的AUC为0.9138(优于MTGCN的0.911 6),AUPRC为0.837 6(优于MTGCN的0.833 2);在STRING数据集上,AUC达0.917 3,AUPRC达到0.823 7,验证了方法的普适性。2)单癌预测:在BRCA和LUAD等大样本癌症中,AUC分别提升2.1%和2.7%,显著优于基线模型。3)消融实验:移除图扩散网络或邻域对比学习均导致性能下降(如AUC降低0.8%–1.8%),动态权重调整策略使AUC提升0.02%–0.15%。独立测试:在OncoKB和ONGene数据集上,DGCL_DWA的AUPRC分别达到0.6224和0.5172,展现较强泛化能力。结论 本文提出的DGCL_DWA通过图扩散与对比学习有效抑制了PPI网络噪声,动态权重调整策略进一步优化了多任务学习性能。实验表明,该方法在泛癌和单癌驱动基因预测中均优于现有方法。未来可结合更多生物学先验知识改进图扩散模型,进一步提升网络生物学意义。Abstract: Accurate identification of mutation-driven cancer driver genes is vital for cancer biology and targeted therapy. To address noise in protein‒protein interaction (PPI) networks, we propose DGCL_DWA, a novel method utilizing graph diffusion and contrastive learning. DGCL_DWA first employs personalized PageRank to generate a diffusion graph, revealing hidden biological connections. Chebyshev graph convolution extracts features from both the PPI and diffusion networks, and neighborhood contrastive learning harmonizes gene representations, reducing noise. The network-specific features are refined via Chebyshev graph convolutions, which are constrained via node classification and link prediction. A dynamic weight adjustment strategy balances task-specific losses during training. Finally, logistic regression is used to predict driver genes. The experimental results demonstrate the superior performance in pan-cancer and specific cancer driver gene identification compared with state-of-the-art methods. Ablation studies confirm the positive impact of the diffusion graph, contrastive learning, and dynamic weight adjustment on predictive accuracy. The source codes are available at https://doi.org/10.57760/sciencedb.31933.
下载: