We use cookies to improve your experience with our site.

基于堆叠自动编码器和变体三重网络的 MiRNA-疾病关联预测

MiRNA-Disease Association Prediction Based on Stacked Autoencoders and Variant Triplet Networks

  • 摘要:
    研究背景 小分子RNA (miRNA)在复杂疾病的预防、诊断和治疗中发挥着重要作用。确定潜在的miRNA-疾病关联关系(MDA)能够为深入了解疾病的致病机制并改善其诊断和治疗水平提供帮助。然而,通过传统的生物医学实验来识别MDA既昂贵又耗时,而计算的方法正好在这个方面具有优势。当前已有多个基于现有文献中经过验证的MDA而建立的MDA数据库,为通过计算方法发现新的MDA提供了坚实的基础。
    目的 提出一个名为 SAETNMDA 的计算方法来改进 MDA 的预测性能。该方法利用快速核学习(FKL) 和变异三重态网络来提取更高质量的 miRNA 和疾病对的特征表示,从而提高模型的可靠性和性能。
    方法 首先,SAETNMDA 通过 FKL 模型将 miRNA 和疾病的多个相似性分别整合到miRNA和疾病的相似性中,从而丰富了生物信息。接下来,从 miRNA和疾病的角度分别使用两组堆叠自动编码器 (SAE)和三重态网络,在集成相似性特征的基础上获取miRNA和疾病的特征表示。使用三重态网络的特点在于将相关的 miRNA-疾病对映射到嵌入空间中的附近位置,而不相关的对则映射到远处位置。然后将从miRNA和疾病两个角度分别提取的miRNA-疾病对的特征分别输入到XGBoosts模型,基于误差的权重进行集成来获得最终的MDA预测分数。我们在5倍交叉、独立数据集、全新 miRNA上进行了实验,并与其它的miRNA疾病关联关系预测方法进行了比较,验证了SAETNMDA 的有效性。
    结果 根据实验结果,我们的方法优于所比较的方法。SAETNMDA 在所有验证中都取得了最高的 AUC 和 AUPR 值,AUPR 值有显著改善。值得注意的是,该方法也表现出较强的通用性,在独立集和全新 miRNA 验证中,其中改进的 AUPR 值凸显了有效性。此外,消融性实验的结果也进一步证明了 SAETNMDA 的优势。三种疾病上的案例分析结果也进一步说明了 SAETNMDA 在实际应用中的预测能力,每种疾病预测排名在前 50的 miRNA都得到了验证。所有结果表明SAETNMDA 是一个能够有效预测 MDA 的计算方法。
    结论 SAETNMDA 是一个通过整合生物数据并通过堆叠自动编码器和三重网络学习判别性特征表示来预测 MDA 的有效方法。该模型在预测 MDA 方面取得了很好的效果,但是也还存在局部缺陷。比如,其有效性取决于输入数据的质量和全面性,正负样本的选择对收敛有一定的影响。因此,为了提高 SAETNMDA 的性能,我们将使用更多的生物数据,如疾病功能相似性网络、miRNA 序列相似性网络、miRNA 家族信息等,应用新的图基础模型, 提出更有效的集成策略,以丰富数据表示并减少偏差。此外,我们也将通过获取高可靠的负样本策略来提高预测性能。

     

    Abstract: MicroRNAs (miRNAs) play a key role in the prevention, diagnosis, and treatment of complex diseases. However, identifying miRNA-disease associations (MDAs) through traditional methods is costly and time-consuming. Recent studies have reported numerous validated MDAs, forming the basis for the prediction of new MDAs using computational methods. In this study, we propose SAETNMDA, a computational method that applies fast kernel learning (FKL) and variant triplet networks to predict MDAs. First, miRNA and disease similarities are integrated into two kernels via FKL to enrich biological data. Next, feature representations are obtained by applying stacked autoencoders (SAEs) and triplet networks, enabling the identification of associated pairs by mapping them to nearby locations in the embedding space, while unassociated ones are mapped distantly. Finally, we utilize XGBoost (Extreme Gradient Boosting) to obtain predictive scores for MDAs from these features. SAETNMDA’s performance is evaluated with 5-fold cross-validation (5-fold-CV) and compared with other methods. It achieves the highest AUC and AUPR (0.9419, 0.4749 for HMDD v2.0; 0.9496, 0.5355 for HMDD v3.2, respectively). The performance is also validated on an independent dataset and de novo miRNAs, with SAETNMDA achieving the highest AUC and AUPR in all validations. Case studies also demonstrate the robust predictive capability of our method, with the top 50 predicted miRNAs validated for each of the three diseases. These results highlight SAETNMDA as an efficient model for MDA prediction. SAETNMDA’s source code is available at https://github.com/npxquynhdhsp/SAETNMDA.

     

/

返回文章
返回