面向质朴图像数据的多图循环注意力模型研究
Advanced Cross-Graph Cycle Attention Model for Dissecting Complex Structures in Mass Spectrometry Imaging
-
摘要:研究背景 近年来,空间质谱成像(SMSI)技术的迅速发展,使我们能够通过扫描来量化样品表面多种分子(如生物标志物、代谢物、肽和蛋白质)的空间分布图谱,从而推动了生物医学、药理学、肿瘤学和神经学等领域的进步。然而,目前的SMSI技术无法同时兼顾高分辨率与低时间成本,且数据制备过程容易受到各种噪声的影响,严重阻碍了数据挖掘和知识发现。尽管研究者们已开发了一些计算方法来增强数据分析的效果,但多模态集成方法依然十分匮乏。目的 本文旨在基于已有的多模态模型MSG,进一步开发跨图循环注意力模型MSCG,以有效解析组织的复杂空间结构、去除数据噪声、处理多种SMSI技术生成的数据,并具备处理大规模数据集的能力。方法:首先,我们分别使用两个独立的图注意力自动编码器(GATE),分别聚合空间近邻的组织学特征和质谱数据的单模态表征;随后,利用基于注意力机制的迁移学习技术,最小化两个模态表征之间的距离,从而实现两个GATE之间的相互监督学习。通过这种方式,我们能够有效融合图像、质谱数据和空间位置等多模态信息,生成增强的多模态表征。基于这一增强表征,我们可以实现质谱数据的复杂空间结构解析和去噪处理。我们在不同规模及不同制备技术的质谱数据集上对MSCG模型进行了测试,验证其实用性、稳定性和泛用性。结果:对于使用DESI技术制备的肾腺癌(renal adenocarcinoma)质谱数据集,MSCG的调整兰德指数(ARI)和归一化互信息(NMI)分别达到了0.8677和0.7853,均优于其他方法。在DESI技术制备的大规模肾脏(kidney)数据集中,MSCG不仅在聚类结果上表现优异,还能够清晰识别皮层、外皮层和骨髓区域的边界。在MALDI技术制备的SlideC2切片上,MSCG在平均轮廓系数(ASW)方面显著领先于其他方法。此外,基于MSCG去噪处理后的类别特异性标记物的基尼系数(GI)明显高于其他方法。实验结果表明,MSCG模型能够有效解析质谱数据的复杂空间结构并去除噪声,具有较强的实用性、稳定性和泛用性。结论 本文中提出了一种多图协同学习模型MSCG,旨在通过联合分析多模态SMSI数据(包括组织学、空间位置和质谱数据)来解析组织结构。为应对多模态融合中的挑战,如异质性、多尺度、高噪声以及不同制备技术带来的数据质量差异,MSCG分别采用独立的GATE模型,从空间近邻的组织学特征和质谱数据中聚合低维特征,并通过注意力机制实现各模态表征的协同学习,从而提升多模态表征的质量。我们对来自不同平台的SMSI数据集进行了MSCG的评估。结果显示,MSCG在空间域解析和质谱数据去噪方面的表现优于其他方法。未来的工作中,我们计划基于此研究,进一步探索预测肿瘤样本中空间可变分子及其网络的有效计算方法。Abstract: Joint analysis of multimodalities in spatial mass spectrometry imaging (SMSI) data, including histology, spatial location, and molecule data, allows us to gain novel insights into tissue structures. However, the significant differences in characteristics such as scale and heterogeneity among the multimodal data, coupled with the high noise levels and uneven quality of MSI data, severely hinder their comprehensive analysis. Here, we introduce a cross-graph cycle attention model, MSCG, to learn efficient joint embeddings for multimodalities of SMSI data by integrating graph attention autoencoders and attention-transfer. Specifically, MSCG enables leveraging one modality (e.g., histology) to fine-tune the graph neural network trained for another modality (e.g., MSI). Our study on real datasets from different platforms highlights the superior capacities of MSCG in dissecting cellular heterogeneity, as well as in denoising and aggregating MSI data. Notably, MSCG demonstrates versatile applicability across MSI data from various platforms, showcasing its potential for broad utility in this field.