We use cookies to improve your experience with our site.

基于迁移学习的DNA甲基化缺失数据补齐

Imputing DNA Methylation by Transferred Learning Based Neural Network

  • 摘要: 研究背景
    DNA甲基化是一种重要的表观遗传类型,在包括癌症的许多重大疾病中起着至关重要的作用。随着高通量测序技术的发展,揭示DNA甲基化与疾病的关系有了很大的进展。然而,由于实验技术的局限性导致测量的数据中存在随机缺失值,给DNA甲基化数据分析带来了巨大的挑战。目前已有许多方法可以对缺失值进行补齐操作,但大多是基于单个样本之间的相关性,结果受到癌症异常样本的影响。
    目的
    我们研究目标是充分利用各种癌症之间存在的普适规律,通过学习泛癌样本中DNA甲基化之间的普适相关性,再将这种普适相关规律迁移应用于单个癌症数据的补齐,从而降低单个癌症数据集较少以及异常样本带来的负面影响。
    方法
    我们提出了一种新的基于神经网络迁移学习方法用于填补缺失的DNA甲基化数据,即TDimpute-DNAmeth。该模型在泛癌症数据集上训练获得一般模型,然后在目标癌症数据集上进行优化。这样训练出来的模型既学习了泛癌数据集之间的相关性,又学习了目标癌症数据集的独特性。研究中,我们通过5折交叉验证来保证模型的稳定性,并与其它方法包括简单均值补齐、最近邻(KNN)、主成分分析(PCA)、奇异值分解(SVD)、随机森林等进行比较。
    结果
    通过在16个癌症数据集上的测试,我们的方法被证明优于其他常用的方法,结果表明泛癌数据集之间的相关性确实有利于提升单个癌症数据集的补齐精度。进一步的分析表明,DNA甲基化与肿瘤的生存有关,可作为肿瘤预后的生物标志物。
    结论
    研究结果表明,采用迁移学习方法利用泛癌样本间DNA甲基化的相关性,有效地解决了样本量小、维数高的问题。通过对模拟缺失DNA甲基化数据的测试,我们的模型在RMSE和R2两个指标上均一致性优于现有方法。我们进一步用于真实缺失数据的补齐,并根据补齐数据 进行生存分析,结果证实我们的模型补齐的数据质量能更好地反应患者状态。更重要的是,该模型框架并不局限癌症DNA甲基化补齐任务,未来可以进一步应用于其他组学类型、其他疾病类型、以及基于补齐结果的年龄预测和细胞分类等其它任务。

     

    Abstract: DNA methylation is one important epigenetic type to play a vital role in many diseases including cancers. With the development of the high-throughput sequencing technology, there is much progress to disclose the relations of DNA methylation with diseases. However, the analyses of DNA methylation data are challenging due to the missing values caused by the limitations of current techniques. While many methods have been developed to impute the missing values, these methods are mostly based on the correlations between individual samples, and thus are limited for the abnormal samples in cancers. In this study, we present a novel transfer learning based neural network to impute missing DNA methylation data, namely the TDimpute-DNAmeth method. The method learns common relations between DNA methylation from pan-cancer samples, and then fine-tunes the learned relations over each specific cancer type for imputing the missing data. Tested on 16 cancer datasets, our method was shown to outperform other commonly-used methods. Further analyses indicated that DNA methylation is related to cancer survival and thus can be used as a biomarker of cancer prognosis.

     

/

返回文章
返回