摘要:
单细胞转座酶可及染色质测序技术(scATAC-seq)的发展极大地推动了表观遗传景观中细胞异质性的研究。许多研究利用scATAC数据深入探索基因调控关系。然而,scATAC-seq通常面临数据丢失(dropout)问题,这一限制导致scATAC数据具有稀疏性和噪声。在本文中,我们提出了一种结合对比学习和生成对抗网络(GAN)的模型(scMCG),用于分析scATAC数据。我们利用两个编码器分别捕捉scATAC数据的全局和局部特征,并通过对比学习缓解了特征冗余和数据稀疏性的影响;而GAN则通过增强数据的特征表示,有效地去除了噪声的影响。我们在the PBMC, the mouse brain, and the Buenrostro2018三个scATAC数据集上进行了实验,结果表明该模型在细胞聚类和转录因子活性影响等多个任务中表现出色。
研究背景 scATAC-seq技术能够以单细胞分辨率揭示染色质的开放状态,为研究细胞异质性、发育轨迹以及基因调控机制提供了前所未有的视角,在单细胞表观遗传研究中发挥了重要作用。通过分析染色质可及性,研究人员能够识别关键的顺式调控元件(如增强子和启动子),并推断转录因子的结合活性,从而深入理解细胞类型特异性表观遗传调控网络。然而,scATAC-seq技术及其分析方法仍面临挑战和局限性。由于单细胞测序技术的固有特性,scATAC-seq数据通常具有高稀疏性和高噪声,这可能导致关键信息的丢失。此外,现有的分析方法大多忽略了DNA序列本身的潜在信息,限制了模型对染色质可及性机制的全面理解。尽管一些方法尝试结合深度学习技术(如卷积神经网络和Transformer)从序列角度建模,但这些方法往往未能有效区分局部特征和全局特征,导致模型可能只是关注单一类型的特征,从而影响预测的准确性。
目的 为了更好地对scATAC数据进行分析,需要一种能解决scATAC数据的稀疏性和高噪声的数据表征模型。我们提出了一个模型(scMCG)来解决这些问题。
方法 scMCG通过两个编码器分别捕捉全局和局部特征,增强了全局特征的提取能力,并引入掩码注意力机制,使模型能够更精准地关注DNA序列中的关键区域。此外,scMCG采用自适应注意力机制动态计算全局和局部特征的权重参数,避免了静态加权策略的不足。为了进一步提升模型的性能,scMCG还引入了生成对抗网络(GAN),以增强模型的泛化能力以及对DNA序列中复杂特征的提取能力。在数据预处理阶段,我们需要将不同类型的数据集与其对应的基因组参考数据进行整合。以PBMC数据集为例,我们基于人类参考基因组版本hg38,提取与染色质可及性区域相对应的DNA序列信息。这一步骤确保了后续分析中使用的序列数据与基因组坐标的精确匹配,为模型训练提供了高质量的输入数据。在scMCG模型的设计中,我们采用混合编码器和卷积神经网络(CNN)编码器进行对比学习,以从DNA序列数据中提取特征。混合编码器结合了掩码注意力机制、多头注意力机制和卷积层,用于捕捉全局特征;CNN编码器由多个卷积层组成,用于提取局部特征。这两个编码器协同工作,通过对比学习生成潜在嵌入表示。随后,利用生成对抗网络(GAN)使模型能够学习到最佳的数据表征。
结果 为了验证模型性能,在PBMC, mouse brain, Buenrostro2018三个数据集上进行了实验,并将其与两种先进方法(scBasset和SCCL)进行了对比。采用三种评估指标来衡量模型的性能:调整互信息(Adjusted Mutual Information, AMI)、调整兰德指数(Adjusted Rand Index, ARI)和同质性(homogeneity)。为了验证模型预测不同细胞类型的调控因子活性的能力。我们在PBMC数据集上进行了转录因子活性推断实验,重点关注了三个关键转录因子:PAX5、TCF7和BCL6。这些转录因子分别在B细胞、T细胞和自然杀伤(NK)细胞中表现出显著的细胞类型特异性活性。为了更直观地展示实验结果,我们使用UMAP对细胞类型、基因表达和转录因子活性之间的关系进行了可视化。结果证明scMCG在对三个转录因子的预测更为准确。此外,为了进一步研究PBMC数据集中GATA1和KLF1在HSC分化过程中的作用,我们对它们在HSC、MPP、CMP和MEP中的显著性进行了推断。scMCG有效识别了GATA1和KLF1的结合位点,并发现了它们在不同细胞类型中的变化。
结论 本文提出模型scMCG,用于分析单细胞scATAC数据。通过整合对比学习和生成对抗网络(GAN),解决scATAC数据固有的稀疏性和噪声问题。实验基于AMI、ARI和同质性3个指标,评估模型的性能,并测试了该模型在细胞聚类任务和转录因子活性推断任务中的表现。实验结果表明,scMCG在细胞聚类任务中表现出优异的性能,在转录因子活性推断任务中展现了较高的准确性。当前,大语言模型在众多领域的应用日益广泛,并展现出卓越的性能。我们认为,在未来的研究中,将擅长分析序列数据的大语言模型与scATAC数据相结合,有望进一步挖掘scATAC数据中潜在的被忽略信息,从而推动单细胞表观遗传学研究的深入发展。