基于多相似性度量融合的合成致死基因对预测
Synthetic Lethal Interactions Prediction Based on Multiple Similarity Measures Fusion
-
摘要: 研究背景(context): 合成致死(Synthetic Lethality)是指两个非致死基因同时失活导致细胞死亡的现象,我们称这两个基因为合成致死基因对。在癌症治疗中,用药物靶向致癌基因的合成致死配对基因可以选择性地杀死癌细胞,而不危害正常细胞。这样的治疗策略有望实现更有效、毒性更低的个性化癌症治疗。因此,寻找有效的合成致死基因对对抗癌药物研究具有十分重要的意义。
目的(Objective): 我们的研究目的是通过使用计算方法识别出具有合成致死效应的基因对。目前已有的识别合成致死基因对的方法主要依靠高通量筛选。但基因组合的数量随着涉及的基因数量的增加呈指数增长,并随着癌症类型的增加而不断扩大。考虑到基因组合数量的庞大,通过高通量筛选测试所有可能的基因组合并不可行。因此,设计有效地探索基因组合空间并发现有效合成致死基因对的计算预测方法被迫切需要。
方法(Method): 我们提出了一种预测合成致死基因对的新方法,首先我们计算出基因之间基于基因表达谱、蛋白质序列、蛋白质-蛋白质相互作用网络、共通路信息和基因本体论的相似性分数。接下来,我们应用了SNF算法融合上述7种基因之间的相似性度量。第三,我们计算基因对之间的相似性度量。最后,我们应用k最近邻算法实现了基因对之间基于相似性的分类任务。
结果(Result&Findings): 经过与其他预测方法的性能对比后,我们发现我们的基于相似性的分类方法具有更好的预测性能,AUROC值达到了0.85。我们进一步分析了各数据类型的贡献度,发现在使用的7种相似性度量中,基于蛋白质序列的相似性特征贡献度最高。应用我们提出的方法预测新的合成致死基因对,我们发现RAS系列基因在训练集和预测结果中具有最多的合成致死配对基因。
结论(Conclusions): 我们融合了合成致死基因对的7种相似性度量,实现了基于相似性的分类任务,结果表明基于相似性的方法大大提高了模型的分类性能。我们进一步发现RAS基因的合成致死配对基因有可能成为癌症靶向治疗中的关键靶点,靶向RAS合成致死配对基因的药物有可能具有很大的抗癌潜力。使用该方法进行预测后,我们通过两个抗癌相关实例证明了预测结果的有效性。接下来我们还将进一步研究加入更多维度的属性信息、开发具有更高性能的计算模型以进一步实现对合成致死基因对的准确预测。Abstract: The synthetic lethality (SL) relationship arises when a combination of deficiencies in two genes leads to cell death, whereas a deficiency in either one of the two genes does not. The survival of the mutant tumor cells depends on the SL partners of the mutant gene, thereby the cancer cells could be selectively killed by inhibiting the SL partners of the oncogenic genes but normal cells could not. Therefore, there is an urgent need to develop more efficient computational methods of SL pairs identification for cancer targeted therapy. In this paper, we propose a new approach based on similarity fusion to predict SL pairs. Multiple types of gene similarity measures are integrated and k-nearest neighbors algorithm (k-NN) is applied to achieve the similarity-based classification task between gene pairs. As a similarity-based method, our method demonstrated excellent performance in multiple experiments. Besides the effectiveness of our method, the ease of use and expansibility can also make our method more widely used in practice.