一种基于概率统计模型的蛋白质二级质谱鉴定方法-山东亚星游戏官网机床有限公司

专利名称：一种基于概率统计模型的蛋白质二级质谱鉴定方法
技术领域：
本发明涉及蛋白质二级质谱鉴定领域，特别涉及一种基于概率统计模型的蛋白质二级质谱鉴定方法。
背景技术：
PI ^ S M H1 # 7 I 1S. (matrix-assisted laser desorption ionization, MALDI)和电喷雾(Electrospray Ionization,ESI)两种软电离技术的出现，使生物质谱能够较少地引入杂质和保持肽段分子的完整性，从而使生物质谱大规模应用于蛋白质分析。目前，生物质谱已成为蛋白质组研究的支撑技术之一，其主要是利用串联质谱(LC MS/MS) 来分析蛋白质样品。在蛋白质组的生物信息学研究中，质谱数据处理是十分重要的研究内容，其任务是从带有复杂噪声或者部分信息缺失的数据中推断样品的蛋白质组成。数据库搜索是质谱数据处理的主要方法，其基本过程如

图1所示，即将实验图谱和数据库中的理论酶切图谱进行比对、打分，选择分值最高的匹配作为搜索结果后选肽段。蛋白质二级质谱鉴定涉及到诸多方面的内容，其主要涉及到母离子价态的确定、效质谱峰的选取和匹配打分模型。目前针对鉴定结果整体质量控制的方法主要是应用随机数据库方法对整体鉴定结果进行阳性率控制，其基本思想是先针对真实蛋白质数据库和实验数据集构建一个随机数据库，然后同时或者分别搜索真实蛋白质数据库和新构建的随机数据库，通过随机数据库肽段匹配来模拟正常数据库中的随机匹配，从而估计正常数据库中随机匹配的特征分布，确定不同过滤标准，Kail’ s于2008年在ftOteome上公开了一种方法，具体是采用如下公式来得到整体数据集的假阳性率(False Discovery Rate，FDR)。FDR = TT目前蛋白质二级质谱鉴定算法根据匹配打分模型大致可以分为两类解释型模型和概率统计模型。其中著名的商业软件SEQUEST的算法是解释型模型，而另一个商业软件 Mascot的算法是概率统计模型。另外还有一些免费的鉴定算法，例如比较有影响力的基于统计模型的算法有X ！ Tandem和0MSSA。其中X ！ Tandem用的是超几何模型，OMSSA用的是泊松分布模型。这些基于统计模型的算法中考虑的是实验质谱峰匹配与不匹配，并没有考虑质谱峰的连续匹配情况，更较少考虑到质谱峰峰强的概率模型。在基于解释模型的算法中，其中kquest考虑了离子连续匹配和峰强。但它统一把峰强分别定义为三个值50(b 和y离子)、25(b，y离子脱水和脱氨离子)和10 (a离子)，没有充分体现实验质谱离子的特征。因此，研究一种能大大提高蛋白质有效质谱和蛋白质肽段数量的二级质谱鉴定方法具有很高的理论和实际应用价值。

发明内容
本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于概率统计模型的蛋白质二级质谱鉴定方法，该方法鉴定有效质谱和蛋白质肽段的数量均高于现有算法。本发明的目的通过以下的技术方案实现一种基于概率统计模型的蛋白质二级质谱鉴定方法，具体包括以下步骤(1)虚拟酶解蛋白质数据库序列，并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引；(2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肽段数据库中找出符合要求的候选肽段，并对找到的所有候选肽段产生符合要求的理论图谱；(3)对待分析实验图谱进行去同位素和去噪处理；(4)将步骤(3)得到的待分析实验图谱和步骤O)中得到的每张候选肽段的理论图谱进行匹配打分，选择分值最高的候选肽段作为此实验图谱的鉴定结果；(5)针对所有实验图谱鉴定结果进行整体假阳性控制。所述步骤(1)具体包括以下步骤(1-1)读取待分析二级质谱样本中物种蛋白质序列库文件的一条蛋白质序列；(1-2)根据用户设定的蛋白酶，找到蛋白质序列中的酶切位点，在符合规则的酶切位点产生断裂，从而产生没有漏切位点的肽段或存在漏切位点的断裂肽段；(1-3)计算步骤(1- 所得到的各个虚拟酶切后肽段的质量数，根据每个氨基酸的分子量计算每个肽段的质量数；(1-4)将肽段信息写入肽段数据库中以该肽段取整后质量数命名的文件中；(1-5)读取下一条蛋白质序列，重复步骤(1-2)-(1-4)，直到所有的蛋白序列被酶解和存入肽段数据库；(1-6)按文件名的数字从小到大读出文件中的肽段信息，每读一个文件，按照文件中肽段的质量数从小到大进行排序，然后存入database, ind文件中，同时，以Ida为单位对所有肽段建立查找索引database, index，其查找索引包括以下信息其质量数，这些肽段在database, ind文件中的开始位置，该区间内的肽段的个数。所述步骤(1-3)中在计算质量数之前首先对每个氨基酸的质量建立索引，其对20 个氨基酸的索引和翻译后修饰的索引方法如下(1-3-1)启用一个与ASCII码等同大小的数组，该数组的下标与氨基酸单字母简写的ASCII码数值一致，其数组中保存氨基酸的质量数；(1-3-2)把单字母表示氨基酸的肽段序列中每个字母依次转换成其对应ASCII码的数值，然后根据氨基酸索引表的数值计算每条虚拟酶解后的肽段的质量数。所述步骤( 在肽段数据库中找出符合要求的候选肽段的具体步骤是(2-1-1)加载步骤(1-6)中的database, index文件信息到内存数组index，读取待分析二级质谱的母离子核质比值和电荷信息，并计算其母离子去电荷后的质量数；(2-1-2)根据容许的质量误差和步骤(2-1)所述的质量数在index数组中查找相应肽段在文件database, ind中的开始位置和行数，然后加载此区间内的所有肽段信息；(2-1-3)根据用户所采用质谱仪的精确度，对步骤(2-1-2)加载到内存的肽段进行进一步的筛�。魑舜治龆吨势椎暮蜓‰亩�。所述步骤O)中产生符合要求的理论图谱具体包括以下步骤(2-2-1)在肽段的上部和下部分别表示出b和y离子的类型，其中b离子是从左边往右标记，y离子是从右往左进行标记，模拟经过离子碎裂过程候选肽段可能产生的理论碎片b、y离子；(2-2-2)在步骤(2-2-1)产生b、y离子基础上，根据下面两条的规则产生b、y离子丢水和丢氨情况下的碎片离子(2-2-2-1)如果在b离子或y离子中含有S，T，E和D四种氨基酸中的一种，那么产生该离子对应的丢水碎片离子b-H20和y-H20 ；(2-2-2-2)如果在b离子或y离子中含有R，K，Q和N四种氨基酸中的一种，那么产生该离子对应的丢氨碎片离子b-NH3和y-NH3 ；(2-2-3)产生二价的碎片离子，其规则为待分析二级质谱母离子价态是一价的则考虑一价的碎片离子峰，当母离子价态>=2时，并且对应的碎片离子中包含R、K和H三种氨基酸其中一种时，则考虑二价碎片离子峰，在理论图谱中产生其对应的二价的碎片离子峰。所述步骤( 对待分析实验图谱进行去同位素的具体步骤是(3-1-1)初始化，将三个比较峰的mz值和其强度，全部设为0，设三个峰mz值是 mz_l = 0，mz_2 = 0，mz_3 = 0，其峰强对应是 mz丄in = 0，mz_2_in = 0 禾口 mz_3_in = 0，并设置用于存储非同位峰的保留峰容器，并已知测量质量误差m ；(3-1-2)读取一个峰的信息，将其作为第三个峰的值，即mz_3和mz_3_in ；然后判断第三个峰是否是前两个峰的同位素峰，(3-1-2-1)如果以下三个条件任意一个条件成立，则认为是同位素峰，a. mz__3--mz__2--H <=m并且mz__2_in > mz__3_in ；
b. mz_-mz_-H <=m并且mz__l_in > mz__3_in ；
c. mz__2--mz__H< =m并且mz_2_in > mz_3__in，此为相同的峰信息，记录误差，然后进入步骤(3-1-2-3)；(3-1-2-2)如果步骤(3-1-2-1)中各条件均不成立，则认为目前进入第三位置的峰不是同位素峰，将其作为保留峰存入保留峰容器中，然后进入步骤(3-1-2-3)；(3-1-2-3)三个峰向前平移一位，空出第三个峰的位置，即将第一个峰的信息去掉，第三个和第二个峰的信息分别作为新的第二个和第一个峰的信息；(3-1-3)逐个读取下一个峰的信息，重复步骤(3-1-2)，直到处理完一张二级质谱图所有峰信息，最后得到的保留峰容器中的峰即为去同位素峰后的非同位素峰。所述步骤(3)，对待分析实验图谱进行去噪处理，即除去信号峰中的噪声峰，具体步骤是(3-2-1)首先选取局部最强峰，包括以下步骤(3-2-1-1)根据步骤(3-1-3)得到的去同位素后的离子峰，找到全局最强峰，然后以此峰为中心，分别向左右各平移50Da，形成一个搜索窗口，在这IOODa范围内挑选离子峰强度排名前η位的峰，然后记录这η个峰的信息；(3-2-1-2)以已搜索区域为中心，再分别向左右各平移50Da，在左右各形成1个搜索区域，在这IOODa范围内挑选离子峰强度排名前η位的峰，然后记录这η个峰的信息；(3-2-1-3)重复进行(3-2-1-1)和(3_2_1_2)两步，直到该质谱文件所有的质荷比信息被提取完成；
(3-2-2)根据步骤(3-2-1-1)得到的全局最强峰，搜索峰值大于等于全局最强峰峰值*0. 33的峰，作为全局相对高峰，判断这些峰是否已记录在步骤(3-2-1)中，是则不做处理，否则记录峰的信息；(3-2-3)将选取的局部最强峰和全局相对高峰进行合并，得到最终选取的用于鉴定的峰。所述步骤(4)待分析实验图谱和理论图谱进行打分的具体步骤如下；(4-1)待分析实验图谱和理论图谱进行匹配打分的具体步骤是(4-1-1)逐个读取峰信息判断理论图谱和选峰后的实验图谱是否匹配，如果理论图谱与实验图谱对应峰的核质比之差小于等于质谱仪的测量误差，则认为这两个峰匹配，之后记录其匹配的信息；(4-1-2)设E为产生的理论碎片的个数；K为理论图谱和选峰后的实验图谱匹配个数，Q代表随机匹配概率事件，i为随机匹配概率，i = 0. 01*n，P为在E个理论峰中有K个峰匹配的概率，则P由下面二项式分布概率密度函数计算
权利要求
1.一种基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，包括以下步骤(1)虚拟酶解蛋白质数据库序列，并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引；(2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肽段数据库中找出符合要求的候选肽段，并对找到的所有候选肽段产生符合要求的理论图谱；(3)对待分析实验图谱进行去同位素和去噪处理；(4)将步骤(3)得到的待分析实验图谱和步骤O)中得到的每张候选肽段的理论图谱进行匹配打分，选择分值最高的候选肽段作为此实验图谱的鉴定结果；(5)针对所有实验图谱鉴定结果进行整体假阳性控制。
2.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(1)具体包括以下步骤(1-1)读取待分析二级质谱样本中物种蛋白质序列库文件的一条蛋白质序列； (1-2)根据用户设定的蛋白酶，找到蛋白质序列中的酶切位点，在符合规则的酶切位点产生断裂，从而产生没有漏切位点的肽段或存在漏切位点的断裂肽段；(1-3)计算步骤(1- 所得到的各个虚拟酶切后肽段的质量数，根据每个氨基酸的分子量计算每个肽段的质量数；(1-4)将肽段信息写入肽段数据库中以该肽段取整后质量数命名的文件中； (1-5)读取下一条蛋白质序列，重复步骤(1-2)-(1-4)，直到所有的蛋白序列被酶解和存入肽段数据库；(1-6)按文件名的数字从小到大读出文件中的肽段信息，每读一个文件，按照文件中肽段的质量数从小到大进行排序，然后存入一个数据库文件database, ind中，同时，以Ida为单位对所有肽段建立查找索引database, index，其查找索引包括以下信息其质量数，这些肽段在database, ind文件中的开始位置，该区间内的肽段的个数。
3.根据权利要求2所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(1-3)中在计算质量数之前首先对每个氨基酸的质量建立索引，其对20个氨基酸的索引和翻译后修饰的索引方法如下(1-3-1)启用一个与ASCII码等同大小的数组，该数组的下标与氨基酸单字母简写的 ASCII码数值一致，其数组中保存氨基酸的质量数；(1-3-2)把单字母表示氨基酸的肽段序列中每个字母依次转换成其对应ASCII码的数值，然后根据氨基酸索引表的数值计算每条虚拟酶解后的肽段的质量数。
4.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤( 在肽段数据库中找出符合要求的候选肽段的具体步骤是(2-1-1)加载步骤(1-6)中的database, index文件信息到内存数组index，读取待分析二级质谱的母离子核质比值和电荷信息，并计算其母离子去电荷后的质量数；(2-1-2)根据容许的质量误差和步骤(2-1)所述的质量数在index数组中查找相应肽段在文件database, ind中的开始位置和行数，然后加载此区间内的所有肽段信息；(2-1-3)根据用户所采用质谱仪的精确度，对步骤(2-1- 加载到内存的肽段进行进一步的筛�。魑舜治龆吨势椎暮蜓‰亩�。
5.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤O)中产生符合要求的理论图谱具体包括以下步骤(2-2-1)在肽段的上部和下部分别表示出b和y离子的类型，其中b离子是从左边往右标记，y离子是从右往左进行标记，模拟经过离子碎裂过程候选肽段可能产生的理论碎片 b、y离子；(2-2-2)在步骤0-2-1)产生b、y离子基础上，根据下面两条的规则产生b、y离子丢水和丢氨情况下的碎片离子(2-2-2-1)如果在b离子或y离子中含有S，T，E和D四种氨基酸中的一种，那么产生该离子对应的丢水碎片离子b-H20和y-H20 ；(2-2-2-2)如果在b离子或y离子中含有R，K，Q和N四种氨基酸中的一种，那么产生该离子对应的丢氨碎片离子b-NH3和y-NH3 ；(2-2-3)产生二价的碎片离子，其规则为待分析二级质谱母离子价态是一价的则考虑一价的碎片离子峰，当母离子价态>=2时，并且对应的碎片离子中包含R、K和H三种氨基酸其中一种时，则考虑二价碎片离子峰，在理论图谱中产生其对应的二价的碎片离子峰。
6.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(3)对待分析实验图谱进行去同位素的具体步骤是(3-1-1)初始化，将三个比较峰的mz值和其强度，全部设为0，设三个峰mz值是mz_l =0，mz_2 = 0, mz_3 = 0，其峰强对应是 mz_l_in = 0, mz_2_in = 0 和 mz_3_in = 0,并设置用于存储非同位峰的保留峰容器，并已知测量质量误差m ；(3-1-2)读取一个峰的信息，将其作为第三个峰的值，即mz_3和mz_3_in ；然后判断第三个峰是否是前两个峰的同位素峰，(3-1-2-1)如果以下三个条件任意一个条件成立，则认为是同位素峰，a.|mz_3-mz_2_l < = m 并且 mz_2_in > mz_3_in ；b.|mz_3-mz_l_l < = m 并且 mz_l_in > mz_3_in ；c.mz_2-mz_l < = m并且mz_2_in > mz_3_in，此为相同的峰信息，记录误差，然后进入步骤(3-1-2-3)；(3-1-2-2)如果步骤(3-1-2-1)中各条件均不成立，则认为目前进入第三位置的峰不是同位素峰，将其作为保留峰存入保留峰容器中，然后进入步骤(3-1-2-3)；(3-1-2-3)三个峰向前平移一位，空出第三个峰的位置，即将第一个峰的信息去掉，第三个和第二个峰的信息分别作为新的第二个和第一个峰的信息；(3-1-3)逐个读取下一个峰的信息，重复步骤(3-1-2)，直到处理完一张二级质谱图所有峰信息，最后得到的保留峰容器中的峰即为去同位素峰后的非同位素峰。
7.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(3)，对待分析实验图谱进行去噪处理，即除去信号峰中的噪声峰，具体步骤是(3-2-1)首先选取局部最强峰，包括以下步骤(3-2-1-1)根据步骤(3-1-3)得到的去同位素后的离子峰，找到全局最强峰，然后以此峰为中心，分别向左右各平移50Da，形成一个搜索窗口，在这IOODa范围内挑选离子峰强度排名前η位的峰，然后记录这η个峰的信息；(3-2-1-2)以已搜索区域为中心，再分别向左右各平移50Da，在左右各形成1个搜索区域，在这IOODa范围内挑选离子峰强度排名前η位的峰，然后记录这η个峰的信息；(3-2-1-3)重复进行(3-2-1-1)和(3-2-1-2)两步，直到该质谱文件所有的质荷比信息被提取完成；(3-2-2)根据步骤(3-2-1-1)得到的全局最强峰，搜索峰值大于等于全局最强峰峰值 *0. 33的峰，作为全局相对高峰，判断这些峰是否已记录在步骤(3-2-1)中，是则不做处理，否则记录峰的信息；(3-2-3)将选取的局部最强峰和全局相对高峰进行合并，得到最终选取的用于鉴定的峰。
8.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(4)待分析实验图谱和理论图谱进行打分的具体步骤如下； (4-1)待分析实验图谱和理论图谱进行匹配打分的具体步骤是 (4-1-1)逐个读取峰信息判断理论图谱和选峰后的实验图谱是否匹配，如果理论图谱与实验图谱对应峰的核质比之差小于等于质谱仪的测量误差，则认为这两个峰匹配，之后记录其匹配的信息；(4-1-2)设E为产生的理论碎片的个数；K为理论图谱和选峰后的实验图谱匹配个数， Q代表随机匹配概率事件，i为随机匹配概率，i = 0. 01*n，P为在E个理论峰中有K个峰匹配的概率，则P由下面二项式分布概率密度函数计算
9.根据权利要求1所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤( 针对所有实验图谱鉴定结果进行整体假阳性控制，具体包括以下步骤(5-1)统计待分析实验图谱所有二级图谱中的鉴定结果，取出肽段得分最小值和最大值；(5-2)按分数统计待分析图谱的鉴定结果，统计最小值和最大值之间大于各得分中的正库肽段和随机库肽段的个数，设大于等于某一个分值时，其鉴定结果在真实库中的个数为Nn，在随机数据库中的个数为Nk，按照下述公式计算每个分值为阀值时FDR的值，fdr = !1jl Nn(5-3)将产生的FDR <= 0. 01的值最小的分值作为待分析实验图谱的整体阀值； (5-4)以步骤(5- 得到的整体阀值过滤待分析实验图谱的鉴定结果，如果鉴定分数小于此阀值则被过滤掉，其结果作为待分析实验图谱最终鉴定结果。
10.根据权利要求7或8所述的基于概率统计模型的蛋白质二级质谱鉴定方法，其特征在于，所述步骤(3-2-1)和步骤G-1)中的η取值范围为3 6。
全文摘要
本发明公开了一种基于概率统计模型的蛋白质二级质谱鉴定方法，该方法首先虚拟酶解蛋白质数据库序列，并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引；然后根据待分析实验图谱中母离子的核质比在肽段数据库中找出符合要求的候选肽段，并对找到的所有候选肽段产生符合要求的理论图谱；然后对待分析实验图谱进行去同位素和去噪处理；对处理后的待分析实验图谱和每张候选肽段的理论图谱进行匹配打分，选择分值最高的候选肽段作为此实验图谱的鉴定结果；最后针对所有实验图谱鉴定结果进行整体假阳性控制。该方法鉴定有效质谱的数量和蛋白质肽段数量均高于目前现有算法，且可动态选峰，运行速度快。
文档编号G01N27/62GK102495127SQ20111035855
公开日2012年6月13日申请日期2011年11月11日优先权日2011年11月11日
发明者何庆瑜, 刘帅, 肖传乐, 陈晓舟, 马超申请人:暨南大学

亚星游戏官网-www.yaxin868.com

一种基于概率统计模型的蛋白质二级质谱鉴定方法