蛋白质组学中质谱数据的计算分析所面临的挑战

马斌

蛋白质组学中质谱数据的计算分析所面临的挑战

马斌

Challenges in Computational Analysis of Mass Spectrometry Data for Proteomics

Bin Ma

摘要

摘要: 质谱技术极大地改变了蛋白质组学的研究模式，即从“逐个蛋白，人工密集”模式转变成“计算密集，高通量”模式。在质谱技术中，计算技术的作用是无可替代的‘。另一方面，质谱数据的规模和复杂程度都给数据分析带来了很大的挑战，本文试图尽可能全面地介绍这些挑战以及最新的进展。
---蛋白质鉴定的数据库搜索方法
C1：精确预测肽段的理论质谱；
C2：衡量肽段和质谱之间相似性的打分函数；
C3：肽段鉴定结果的性能评估，即有效估计假阳性率(False positive rate)；
C4：”one hit wonders”，即当某个蛋白质仅仅只有一个肽段被质谱匹配时，如何准确鉴定蛋白质；
C5：蛋白质鉴定结果的性能评估；
C6：联合使用一级质谱和二级质谱进行蛋白质鉴定；
C7：由于同源蛋白质常常会包含相同的肽段，在这种情况下，如何从肽段匹配结果中准确推断出蛋白质；
C8：质谱质量评估，以去除噪音质谱；
C9：和固定修饰(fixed PTM)相比而言，可变修饰(variable PTM)对数据库搜索方法带来很大的麻烦，因为在这种情况下，一个氨基酸可能发生，也可能不发生修饰。多个氨基酸的可变修饰造成搜索空间呈指数级增长，因此需要开发有效的搜索算法；
C10：目前质谱仪器能够高通量地产生质谱，因此要求算法与软件实现必须能够处理大量的数据；

---肽段测序的De Novo方法
C11：为提高De Novo方法的性能，如下问题是值得考虑的：1）快速的组合搜索算法。理论上总质量等于给定值的肽段数目是指数数量级的，因此需要快速的搜索算法。2）和上述组合搜索相适合的，精确的打分函数设计；3）有效处理不理想质谱，比如谱峰丢失现象，异常断裂模式生成的谱峰识别问题等；4）使用不同质谱仪生成的多张质谱联合推断；

---使用同源序列库提高肽段/蛋白质鉴定性能
C12：使用同源序列库提高肽段/蛋白质鉴定性能。虽然数据库中未包括目标蛋白质，但是如果包含与其同源的序列的话，依然可以有效地提高序列鉴定的性能。为完成这个目标，需要修改经典的序列比对统计模型，比如考虑De Novo错误的同源比对算法。

---蛋白质完全测序
C13：使用MS/MS技术对目标蛋白质进行完全测序。一些前驱性工作包括1) 手工拼接：先使用De Novo技术鉴定出各酶切片段的序列，然后将这些序列人工拼接成完全序列；2) 自动化预处理：先从各酶切片段的质谱计算出中间量，称作前缀质谱(prefix residue mass spectrum)，然后将这些前缀质谱拼接成一个总的质谱。如何进行全自动的完全测序，是值得关注的问题。

---PTM鉴定
C14：结合MS/MS与序列信息鉴定PTM。目前已经有工作从序列出发预测出哪些氨基酸会发生哪些PTM，如果再结合质谱信息的话，有希望准确鉴定PTM；
C15：适宜于PTM的序列-质谱相似性度量：PTM对质谱的影响是多样的，有些PTM仅仅影响氨基酸的质量，从而造成质谱的简单偏移，还有一些PTM会严重影响肽段的断裂方式，从而造成质谱发生很大的改变。因此，需要设计能够考虑PTM的序列－质谱相似性度量。
C16：未知PTM的自动发现：对每个氨基酸枚举其所有可能PTM会造成搜索空间的指数级增长，因此一种自动检测未知PTM的方法是很有意义。一些已有的工作包括1)质谱与序列的比对发现PTM；2）质谱－质谱比对发现PTM；

---糖基结构确定
C17：使用质谱数据确定糖基结构：和其他PTM不同，糖基化不仅会造成氨基酸质量的变化，同时还会形成不同的结构。一般来说，糖基是有多个糖原形成的树状结构，连接糖原的化学键在质谱仪中会发生断裂，形成一些离子，并混杂于肽段形成的离子中。不同于肽段线性结构，糖基形成树状结构，从而导致鉴定的复杂性。已有的工作包括1）使用酶切技术分离出糖基，然后使用质谱技术鉴定糖基结构；2）直接通过糖基化蛋白质的质谱鉴定糖基的结构。上述工作使用动态规划或者启发式算法逐步构建出糖基的整体结构。已有工作证明了糖基结构确定问题是NP-Hard的，因此需要开发有效的实用算法。

---质谱数据库搜索
C18：高质量质谱数据库构建：随着带序列标注信息的质谱数据的快速累积，将待鉴定质谱与已标注质谱进行直接比较成为一种质谱鉴定的有效方法。这条路线的首要之处在于质谱序列标注的质量控制；
C19：在质谱数据库中快速搜索相似质谱：随着质谱数据库的增大，如何进行快速的质谱比对，是值得研究的内容；
C20：同一肽段的带PTM质谱与不带PTM质谱的快速比对与发现：对于同一个肽段来说，如果能够通过比对发现其含有不同PTM的修饰产物，无疑是有意义的工作；

---蛋白质定量
C21：保留时间(retention time)校正：经典的肽段/蛋白质定量方法是基于蛋白质的同位素标定，最近无须同位素标记(label-free)的方法日益得到重视，其优势在于无须同位素标记样品制备、避免样品制备等过程的错误引入等，更重要的在于可以在不同蛋白质之间进行比较。
对存在于不同蛋白质的同一肽段来说，其保留时间大致相同，但是在不同反应中依然会存在较小的变化，因此首先需要进行校正。比如，通过多个样本的保留时间进行校正。
C22：特征肽段(peptide features)检测：存在于多个样品中的共同肽段称作为特征肽段。从质谱保留时间数据中发现特征肽段，称为特征肽段映射(mapping)。在建立映射并计算每个特征肽段的强度之后，特征肽段可以用来计算不同样本之间的比例。
C23：肽段特征匹配：
C24：依据肽段表达量计算蛋白质表达量：原则上，可以由肽段表达量推断出蛋白质的表达量，然而此步计算需要解决两个困难：1）共同肽段问题。如果两个蛋白质含有一个共同肽段，那么此肽段的表达量如何合理分配给这两个蛋白质。2）肽段表达量计算中的错误去除。
C25：PTM定量：含某种PTM的蛋白质/肽段的表达量是多少，是非常有意义的问题。利用保留时间信息有助于计算PTM定量。

---非标准蛋白质测序
C26：含二硫键肽段的肽段测序：常见的蛋白质通常呈线性结构，而含有多个Cystine的蛋白质会形成二硫键，从而导致质谱发生特异性变化；
C27：非核糖体合成蛋白质(non-ribosomal protein, NRP)的测序：非核糖体蛋白质通常呈环状或者分支结构，也会导致质谱发生特异性变化；
C28：从多个肽段的混合质谱中鉴定肽段：如果多个肽段具有相同的母离子质量，则其二级质谱会混杂在一起，因此如何从混合质谱中鉴定出所有肽段序列，是值得研究的；

---“自顶向下”(top-down)蛋白质鉴定
C29：“自顶向下”(top-down)蛋白质鉴定：传统的蛋白质鉴定方法都是采用“先酶切，测肽段”的策略，随着新型质谱仪器的出现，可以无需酶切步骤，直接对整个蛋白质加多个电荷获得整体质谱。因此，有必要开发新的打分函数以适应完全不同的断裂规律。

---肽段的可检测性
C30：精确预测肽段是否形成二级质谱：研究表明，即使是来源于同一个蛋白质，有些肽段会更容易形成可观察到的二级质谱，而有些肽段则更不容易产生质谱，其原因大致可归纳为：1）酶切步骤中的遗漏；2）肽段上PTM导致二级质谱未观察到；3）肽段在LC步骤丢失；4）肽段离子化不充分，从而在一级质谱阶段因强度较弱而未检测到；5）肽段断裂异常导致产生异常二级质谱。预测肽段形成可观测二级质谱的可能性有助于蛋白质定量。

---多质谱联合进行肽段鉴定
C31：使用多级质谱进行肽段/蛋白质鉴定与测序：由于断裂不完全等原因，往往会形成低质量质谱。多级质谱是解决此问题的一种可行方案。
C32：使用多类质谱进行肽段/蛋白质鉴定与测序：此外，还可以采用多类质谱，比如断裂规律不同的CID和ETD，联合进行质谱鉴定和测序。

---质谱数据压缩
C33：质谱数据文件压缩与管理：随着质谱数据的快速累积，如何进行压缩以降低磁盘空间需求，是有实际意义的；

---保留时间预测
C34：精确预测二级质谱的保留时间：每个二级质谱都关联一个保留时间，即相应肽段从LC上被洗脱的时间。原则上保留时间是能够重现和预测的。对二级质谱保留时间的精确预测，能够有效地校验肽段鉴定结果，并提高鉴定性能。

---质谱预处理
C35：噪声谱峰去除与去迭和(deconvolution)算法：质谱中往往包含一些噪声谱峰，识别并去除噪声谱峰能够有效提高后续步骤的性能。噪声谱峰识别的难点在于如何处理谱峰重合。ESI离子化过程容易产生带多个电荷的离子，因此需要先将多电荷离子形成的质谱变换成单电荷离子形成的质谱，然后再进行后续鉴定步骤。现有依赖于同位素谱峰的方法需要处理谱峰重合的情况。

---生化标记物发现
C36：从质谱数据直接发现生物标记物：对蛋白质鉴定结果的分析能够有助于发现新的生化标记物，最近的研究表明能够从质谱数据出发直接发现生化标记物。

Abstract: Mass spectrometry is an analytical technique for determining the composition of a sample. Recently it has become a primary tool for protein identification and quantification, and post translational modification characterization in proteomics research. Both the size and the complexity of the data produced by this experimental technique impose great computational challenges in the data analysis. This article reviews some of these challenges and serves as an entry point for those who want to study the area in general.

HTML全文

参考文献()

施引文献

资源附件()