专利名称:一种提高单同位素峰判断准确率的方法和系统的制作方法
技术领域:
本发明涉及质谱数据预处理技术领域, 特别是涉及一种提高单同位素峰判断准确率的方法和系统。
背景技术:
质谱仪在蛋白质组学中有着广泛的应用。利用质谱仪可以鉴定和定量大规模的蛋白质。典型的蛋白质组学鉴定实验是未知蛋白质样品被酶切成肽段的混合物,经液相色谱分离,进入质谱仪进行质量扫描产生一级质谱,再动态选择一些肽段的离子作为母离子, 扫描母离子碎裂后碎片离子的质荷比和强度,产生串联质谱数据,提交给数据库搜索引擎 (比如pFind、MasCOt、SEQUEST等)鉴定出该串联质谱数据对应的肽段,再从肽段推断出对应的蛋白质。在数据库搜索中,依据母离子的单同位素峰质量过滤候选肽段。一个母离子对应一个肽段,每个肽段对应一个同位素峰簇,同位素峰簇中的第一个峰就是单同位素峰。 如果把同位素峰的质量当作母离子单同位素峰的质量,在高质量精度下候选肽段中就没有正确肽段,即得不到正确的鉴定结果。所以判断母离子的单同位素峰对串联质谱的鉴定非常重要。同位素峰的质量被当作母离子单同位素峰的质量是很常见的现象。这个问题与质谱仪中母离子的获取方式有关。目前常见的母离子获取方式是DDA (数据依赖的获取),即选择同位素峰簇中强度高的峰作为母离子碎裂窗口的中心。但单同位素峰并不一定是同位素峰簇中强度最高的。当母离子的质量大到一定值,比如1500Da时,第二个同位素峰可能比单同位素峰高。研究表明同位素峰的质量被当作母离子单同位素峰的质量的比例高达40%。同位素峰的质量被当作母离子单同位素峰质量的问题不仅严重,还充满挑战。一方面,低强度的母离子质量精度低,而且同位素峰强度分布的变化很大,和理论同位素峰强度分布不一致,两者的距离较大。另一方面,在复杂样品中容易出现多个母离子共洗脱的情况,这会导致对单同位素峰的错误解释。综上所述,在DDA的过程中或者之后,需要确定母离子的单同位素峰。目前已有一些算法和软件来确定母离子的同位素峰簇及其单同位素峰,可以分为以下三类。第一类,基于平均氨基酸模型(averagine model)。averaginemodel的基本方法是从蛋白序列的数据库中根据氨基酸的比例统计一个“平均氨基酸”(其分子式中的元素个数是小数),实验同位素峰簇的平均质量(实验强度分布中强度的加权平均质量)除以 “平均氨基酸”的平均质量,然后用这个倍数乘以“平均氨基酸”的元素个数,并调整成整数, 根据调整后的分子式计算理论同位素峰簇强度分布,计算理论同位素峰簇强度分布和实验同位素峰簇强度分布的距离;减少或增加实验同位素峰簇的平均质量(比如变化的间隔为 IDa),再重复上面的过程计算距离;最后和实验同位素峰簇强度分布最近的分子式对应的单同位素峰质量就是所求的质量。第二类,基于同位素峰的强度比值。Park等人利用同位素峰簇中两两相邻峰的比值和三个相邻峰的乘积比值来判断单同位素峰,先从数据库中统计出前面两种比值随肽段质量的分布,给出这两个分布的最大值、最小值和均值,并拟合出这三个统计值与肽段质量的关系,考虑单同位素峰簇缺失和位置不定的情况,再加上实验同位素峰簇,这三种情况下根据实验比值和拟合的比值的距离计算分数,距离近分数大,选择分数最大的情况对应的质量作为单同位素峰质量。第三类,基于色谱流出曲线(elution prof ile),Cox和Marm利用同位素峰的三维信息(质荷比、强度、色谱保留时间)来判断同位素峰簇,同位素峰簇的质荷比有相近的间隔,强度随保留时间有相似的变化趋势,这两个信息可以确定候选同位素峰簇,再利用“平均氨基酸模型”判断单同位素峰。 上述三类确定母离子的同位素峰簇及其单同位素峰的方法,分别存在如下缺陷第一类averagine model的方法,前提假设是理论和实验同位素峰簇的强度分布相似,但是理论和实验同位素峰簇强度分布的计算都不够准确。比如理论同位素峰簇受蛋白序列数据库、化学标记或者翻译后修饰的影响,而实验同位素峰簇受仪器测量精度的影响。所以这种方法可能导致给出的单同位素峰质量和真实的质量相差几Da。对于大质量的蛋白质,这个精度可能够了,但对小质量的肽段这个精度远远不够,也就说这个方法测量肽段的单同位素峰质量会不准;第二类同位素峰的强度比值的方法,和第一类方法比,理论同位素峰簇强度分布的计算要准确一些。因为强度比值和肽段质量的关系是肽段的固有特性,其根据天然同位素的分布可以理论计算出来,而“平均氨基酸模型”是一个假设的粗略模型,离真实的模型有一定距离。第一类和第二类方法面临的共同问题是实验同位素峰簇受仪器测量精度的影响。当所选母离子的强度低时,母离子的质量精度低,同位素峰簇的强度变化大,和理论的同位素峰簇强度分布相差较远,这两类方法都会给错单同位素峰质量。第三类方法利用了 elution profile,即谱峰的色谱流出曲线,一个谱峰不仅在当前一级质谱上出现,还可能在前后连续的一级质谱上出现,在当前一级质谱上的强度低,在其他一级质谱上的强度可能高,利用高强度谱峰的高质量精度和稳定的强度分布,可以弥补当前低强度谱峰的缺点。所以第三类方法能解决第一类和第二类方法中实验同位素峰簇不准的问题。不过Cox和Marm没有解决第一类方法中理论同位素峰簇不准的问题。
发明内容
本发明的目的在于提供一种提高单同位素峰判断准确率的方法和系统。其能够提高串联谱图的鉴定率和蛋白的覆盖率。为实现本发明的目的而提供的一种提高单同位素峰判断准确率的方法,包括下列步骤步骤100.根据选定的串联质谱,确定候选同位素峰簇;步骤200.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;步骤300.根据所述同位素峰簇的起止,确定单同位素峰的质量;步骤400.判断是否还有串联质谱没有确定单同位素峰,若是,则返回步骤100,否贝1J,结束。所述步骤100,包括下列步骤
步骤110.根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号; 步骤120.根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;步骤130.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170 ; 否则,执行步骤140;步骤140.在当前一级质谱前面的一级质谱上确定候选同位素峰簇;步骤150.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170 ; 否则,执行步骤160;步骤160.在当前一级质谱后面的一级质谱上确定候选同位素峰簇;步骤170.判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,返回步骤110 ;否则,执行步骤200。所述步骤120,包括下列步骤步骤121.根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口 ;步骤122.计算所述当前一级质谱的谱峰强度,确定噪音基线;步骤123.扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音,把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;步骤124.计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。所述步骤122,包括下列步骤计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。对于一级质谱上的每个谱峰,它的信噪比定义为它的谱峰强度除以噪音基线。所述噪音基线是母离子碎裂窗口内谱峰强度的中位数。所述步骤124,包括下列步骤步骤1241.确定一级质谱上质荷比的范围[x-w,x+w],其中χ为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;步骤1242.依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;步骤1243.根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰,或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;步骤1244.扫描完母离子质荷比窗口内的每个峰和每种电荷得到所有的候选同位素峰簇,再检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。
所述步骤200,包括下列步骤 步骤210.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;步骤220.判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,执行步骤300。所述步骤210,包括下列步骤步骤211.为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;步骤212.修正所述色谱流出曲线;步骤213.计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇。所述步骤213,包括下列步骤重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。所述步骤300,包括下列步骤步骤310.对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;步骤320.把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;步骤330.把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;步骤340.将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。所述步骤300,包括下列步骤把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。为实现本发明的目的还提供一种提高单同位素峰判断准确率的系统,所述系统, 包括候选同位素峰簇计算?椋糜诟菅《ǖ拇势祝范ê蜓⊥凰胤宕兀煌凰胤宕丶扑隳?椋糜诟菟龊蜓⊥凰胤宕氐纳琢鞒銮叩南嗨贫群颓慷缺戎担范ㄍ凰胤宕氐钠鹬梗坏ネ凰胤宓闹柿考扑隳?椋糜诟菟鐾凰胤宕氐钠鹬梗范ǖネ凰胤宓闹柿浚慌卸夏?椋糜谂卸鲜欠窕褂写势酌挥腥范ǖネ凰胤澹羰牵虼シ⒑蜓⊥凰胤宕丶扑隳?椋裨颍崾扑。所述候选同位素峰簇计算模块,包括
扫描号获取?椋糜诟菅《ǖ拇势祝范ㄋ∧咐胱拥闹屎杀群投杂σ患吨势椎纳韬牛坏鼻耙患吨势准扑隳?椋糜诟菟錾韬湃范ǖ鼻耙患吨势祝⒃诘鼻耙患吨势咨先范ê蜓⊥凰胤宕兀慌卸献幽?椋糜谂卸纤龊蜓⊥凰胤宕厥欠癜∧咐胱樱羰牵虼シ⒖沾嘏卸夏?椋环裨颍诘鼻耙患吨势浊懊婊蛘吆竺娴囊患吨势咨先范ê蜓⊥凰胤宕兀豢沾嘏卸夏?椋糜谂卸 所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,触发扫描号获取?椋环裨颍シ⑼凰胤宕丶扑隳?。所述当前一级质谱计算?椋ㄋ榱汛翱诨袢∧?椋糜诟莸鼻耙患吨势祝范ㄋ∧咐胱釉谥势滓侵猩柚玫乃榱汛翱 ;谱峰强度计算?椋糜诩扑闼龅鼻耙患吨势椎钠追迩慷龋范ㄔ胍艋撸辉胍羧コ?.用于扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;比值计算?椋糜诩扑闼銎追宓闹柿考涓艉颓慷缺戎道慈范ê蜓⊥凰胤宕。所述谱峰强度计算?榧扑闼龅鼻耙患吨势椎钠追迩慷鹊闹狈酵迹云追迩慷冉10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。所述比值计算?椋ㄖ屎杀鹊姆段Щ袢∧?椋糜谌范ㄒ患吨势咨现屎杀鹊姆段X-w,X+w],其中χ为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;间隔峰查找?椋糜谝来紊柙ど璧牡绾墒段诘拿扛龅绾桑灾屎杀却翱谀诘囊桓龇逦鸬阕魑谝煌凰胤澹檎液退嗖钜桓鐾凰胤寮涓舻姆澹绻涓舴宕π〈翱谀诿挥蟹澹觳橄乱桓龅绾桑环裨颍≡裼肜砺奂涓糁底罱姆逦谝患涓舴澹患扑愕谝患涓舴搴推鸬惴宓那慷缺戎担绻飧霰戎挡辉诟ǖ姆段冢觳橄乱桓龅绾桑环癖碪,第一间隔峰就是候选第二同位素峰;同位素峰标记?椋糜诟萃凰胤寮涓艏绦檎移溆嗟募涓舴澹奔涓舴宕π〈翱谀诿挥蟹澹蛘呒涓舴宄隽四咐胱拥闹屎杀却翱冢檎夜探崾昙敲扛龅绾上潞蜓⊥凰胤宕刂械拿扛龇澹煌凰胤宕乇冉夏?椋糜诩觳楹蜓⊥凰胤宕刂涞陌叵担绻礁龊蜓⊥凰胤宕氐牡ネ凰胤逯屎杀认嘟绾墒嬖诒妒叵担偷绾傻谋桓叩绾傻陌 去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。所述同位素峰簇计算?椋ê蜓⊥凰胤宕毓四?椋糜诟菟龊蜓⊥凰胤宕氐纳琢鞒銮叩南嗨贫群颓慷缺戎倒撕蜓⊥凰胤宕兀豢沾嘏卸献幽?椋糜谂卸瞎撕蟮暮蜓⊥凰胤宕厥欠裎眨羰牵虮A艉醒《咐胱拥暮蜓⊥凰胤宕兀渥魑詈蟮耐凰胤宕兀环裨颍シ⒌ネ凰胤宓闹柿考扑隳?。
所述候选同位素峰簇过滤?椋毓雇晟琢鞒銮咧螅扑阆嗔诹礁龇宓南嗨贫群颓慷缺戎担院蜓⊥凰胤宕啬诘南嗔诜澹冉纤堑纳琢鞒銮撸邢嗤A羰奔涞愕氖萘粝吕矗堑那慷茸槌上蛄浚扑阏饬礁鱿蛄康挠嘞壹薪亲魑嗨贫鹊亩攘恐担扑愫笠桓龇宓南蛄恐陀肭耙桓龇宓南蛄恐偷谋戎底魑慷缺戎担绻嘞壹薪切∮谝桓鲢兄担蛘咔慷缺戎挡辉诜段冢蛲凰胤宕卦诘鼻跋嗔诜宓牡谝桓龇宕νV梗 第一个峰和第二个峰分别属于两个不同的同位素峰簇。所述候选同位素峰簇过滤?椋ㄉ琢鞒銮咧毓鼓?椋糜谖龊蜓⊥凰胤宕刂械拿恳桓龇逯毓雇暾纳琢鞒銮撸恍拚?椋拚錾琢鞒銮撸磺慷缺戎导扑隳?椋糜诩扑愫蜓⊥凰胤宕啬谙嗔诜宓纳琢鞒銮叩那慷缺戎担幌嗨贫燃扑隳?椋糜诩扑愫蜓⊥凰胤宕啬谙嗔诜宓纳琢鞒銮叩南嗨贫。所述单同位素峰的质量计算?椋ü檎?椋糜诙杂谝徽乓患吨势椎哪掣鐾凰胤宕兀淹凰胤宓闹屎杀燃跞ダ砺弁凰胤寮涓舻闹岛蠊檎降ネ凰胤宓闹屎杀龋还橐换?椋糜诎阉鐾凰胤宓那慷茸魑ㄖ担蒙鲜龉檎蟮牡ネ凰胤逯屎杀龋蠹尤ㄆ骄玫剿鐾凰胤宕毓橐换牡ネ凰胤逯屎杀龋缓螅陨琢鞒銮呱系拿空乓患吨势锥记蠊橐换牡ネ凰胤逯屎杀龋坏ネ凰胤逯屎杀燃扑隳?椋糜诎阉錾琢鞒銮叩那慷茸魑ㄖ担蒙鲜錾琢鞒銮呱瞎橐换牡ネ凰胤逯屎杀龋蠹尤ㄆ骄玫阶钪盏牡ネ凰胤逯屎杀龋桓持的?椋糜诮鐾凰胤宕氐牡ネ凰胤逯屎杀群偷绾筛掣杂Φ拇
■i並曰ο所述单同位素峰的质量计算模块把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。本发明的有益效果是1.本发明同时解决了现有技术中理论和实验同位素峰簇强度分布不准确的问题, 计算噪音基线后去除噪音,减小同位素峰簇的误匹配,所以本发明准确率更高。2.本发明除了能把串联质谱母离子赋为同位素峰的情况校正为单同位素峰,还能检测母离子碎裂窗口内的共洗脱离子,从而提高串联谱图的鉴定率和蛋白的覆盖率。
图1是本发明的一种提高单同位素峰判断准确率的方法的步骤流程图;图2是本发明中根据选定的串联质谱确定候选同位素峰簇的步骤流程图;图3是本发明中根据扫描号在当前一级质谱上确定候选同位素峰簇的步骤流程图;图4是谱峰强度的直方图;图5是一级质谱上噪音基线以下的谱峰图。
图6是本发明中强度比值和母离子质量的约束关系图;图7是本发明中确定候选同位素峰簇的步骤流程图;图8是本发明中候选同位素峰簇的示意图;图9是本发明中候选同位素峰簇的色谱流出曲线图;图10是本发明中确定同位素峰簇的步骤流程图;图11是本发明中根据候选同位素峰簇的色谱流出曲线的相似度和强度比值来确定同位素峰簇的步骤流程图;图12是由两个肽段产生的色谱流出曲线图;图13是本发明中根据同位素峰簇确定单同位素峰的质量的步骤流程图;图14是本发明中母离子的单同位素峰质荷比和电荷图;图15是本发明的一种提高单同位素峰判断准确率的系统的结构图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种提高单同位素峰判断准确率的方法和系统进行进一步详细说明。应当理解, 此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明的一种提高单同位素峰判断准确率的方法和系统,首先利用同位素峰簇内相邻峰的强度比值与肽段质量的内在关系,解决平均氨基酸模型中理论同位素峰簇强度分布不准确的问题;其次利用色谱流出曲线中高强度谱峰稳定的强度分布,弥补当前低强度谱峰强度分布不稳定的缺点;另外,通过计算强度的分布来确定噪音基线并去除噪音,减小同位素峰簇的误匹配;并根据在色谱分离中不同肽段的离子容易发生共洗脱的现象,检测母离子窗口内的共洗脱离子,从而提高串联谱图的鉴定率和蛋白的覆盖率。下面结合上述目标详细介绍本发明的一种提高单同位素峰判断准确率的方法,图 1是本发明的一种提高单同位素峰判断准确率的方法的步骤流程图,如图1所示,所述方法,包括下列步骤步骤100.根据选定的串联质谱,确定候选同位素峰簇;图2是本发明中根据选定的串联质谱确定候选同位素峰簇的步骤流程图,如图2 所示,所述步骤100,包括下列步骤步骤110.根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;步骤120.根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;扫描号在所述串联质谱前的一级质谱称为当前一级质谱。图3是本发明中根据扫描号在当前一级质谱上确定候选同位素峰簇的步骤流程图,如图3所示,所述步骤120,包括下列步骤步骤121.根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口 ;步骤122.计算所述当前一级质谱的谱峰强度,确定噪音基线;对于一张一级质谱,先获得谱峰强度的分布,即谱峰强度的直方图。因为最高和最低谱峰强度相差几个数量级,所以先对谱峰强度进行10为底的对数运算,图4是谱峰强度的直方图,图5是一级质谱上噪音基线以下的谱峰图,这时的谱峰强度的直方图如图4所示。把直方图中频率最高的谱峰强度作为噪音基线。在对应的一级质谱上,画出噪音基线以下的谱峰(用不同颜色表示)如图5所示。对于一级质谱上的每个谱峰,它的信噪比定义为它的谱峰强度除以噪音基线。作为一种可实施方式,也可以把母离子碎裂窗口内谱峰强度的中位数作为噪音基线。步骤123.扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,比如 1 (即噪音基线以下),以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰,比如5%,进一步排除噪音的影响。步骤124.计算谱峰的质量间隔和强度比值来确定候选同位素峰簇;去除噪音后,可以用两个标准来确定候选同位素峰簇。一个是候选同位素峰簇中相邻峰的质荷比相差一定间隔,即平均同位素峰间隔1. 00307除以待检查的电荷数。另一个是相邻峰中后一个和前一个的强度比值满足一定约束,即强度比值和母离子质量的约束关系,图6是本发明中强度比值和母离子质量的约束关系图,如图6所示。图7是本发明中确定候选同位素峰簇的步骤流程图,如图7所示,所述步骤124,包括下列步骤步骤1241.确定所述当前一级质谱上质荷比的范围[x-w,x+w],其中χ为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;步骤1242.判断质荷比的范围内的每种电荷是否全部扫描,若是,则执行步骤 1249 ;否则,执行步骤1243 ;步骤1243.扫描预设的电荷数范围内的电荷,以所述质荷比范围内的一个峰为起点,并将该起点作为候选第一同位素峰,查找和它相差一个同位素峰间隔的同位素峰;步骤1244.判断间隔峰的周围小范围内是否没有同位素峰,若是,则检查下一个电荷,返回步骤1242 ;否则,选择与理论间隔值最近的同位素峰为第一间隔峰;步骤1245.计算所述第一间隔峰和候选第一同位素峰的强度比值,判断所述强度比值是否在给定的范围内,若不在,则检查下一个电荷,返回步骤1242;否则,将所述第一间隔峰作为候选第二同位素峰;步骤1246.将所述候选第二同位素峰作为候选第一同位素峰,查找和它相差一个所述同位素峰间隔的同位素峰;步骤1247.判断当前电荷下,间隔峰的周围小范围内是否没有同位素峰,或者间隔峰超出了所述质荷比的范围,若是,执行步骤1248 ;否则,返回步骤1244 ;步骤1248.结束当前电荷下的查找过程,标记当前电荷下候选同位素峰簇中的每个同位素峰。后面扫描到做了标记的峰,就跳过这个峰在这个电荷下的检查,返回步骤 1242 ;步骤1249.检查所述候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇。图8是本发明中候选同位素峰簇的示意图,候选同位素峰簇的确定结果如附图8所示。
步骤130.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170 ; 否则,执行步骤140;当碎裂窗口内谱峰的信噪比低时,可能检测不到候选同位素峰簇,或者候选同位素峰簇没有包含选定母离子。这时先到当前一级质谱前面的一级质谱上查找,如果候选同位素峰簇包含选定母离子,则结束候选同位素峰簇的检测;否则再到当前一级质谱后面的一级质谱上查找。步骤140.在当前一级质谱前面的一级质谱上确定候选同位素峰簇;所述步骤140中确定候选同位素峰簇的方法与步骤120的方法相同,在此不再
一一赘述。步骤150.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170 ; 否则,执行步骤160;步骤160.在当前一级质谱后面的一级质谱上确定候选同位素峰簇;步骤170.所述候选同位素峰簇的查找完成之后,判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,返回步骤110 ;否则,执行步骤200。步骤130和150中如果判断为是,则不为空,进入步骤170检查,必定不为空;步骤 130、150和160中都会出现空的情况,如果步骤160中出现空的情况,进入步骤170检查,就为空;步骤170是进入步骤200的必查步骤。步骤200,确定同位素峰簇;确定候选同位素峰簇之后,单同位素峰的判断还是有困难的,因为它会受噪音的影响。一个选定的肽段(即母离子)对应一个同位素峰簇,一个同位素峰簇包括多个同位素峰,每一个同位素峰对应一条色谱流出曲线。但肽段的同位素峰簇有个特点,即同位素峰簇中每个峰都有色谱流出曲线。由于肽段同位素峰簇的每个峰几乎同时出现和消失,所以它们的色谱流出曲线的变化是相似的,几乎同时升高同时下降,图9是本发明中候选同位素峰簇的色谱流出曲线图,如图9所示。而噪音是仪器随机产生的信号,所以不会有色谱流出曲线,更不会有曲线的变化。利用色谱流出曲线的这个特性就可以区分同位素峰簇和噪音。下面介绍确定同位素峰簇的过程。图10是本发明中确定同位素峰簇的步骤流程图,如图10所示,所述步骤200,包括下列步骤步骤210.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值来确定同位素峰簇;图11是本发明中根据候选同位素峰簇的色谱流出曲线的相似度和强度比值来确定同位素峰簇的步骤流程图,如图11所示,所述步骤210,包括下列步骤步骤211.为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;对于候选同位素峰簇中的一个峰,到当前一级质谱前、后的一级质谱上找是否有相应的峰,如果有相应的峰,继续向离当前一级质谱更远的一级质谱上查找。如果在某个方向上连续两个一级质谱上找不到相应的峰,就停止这个方向的查找,直到两个方向都停止, 就完成了色谱流出曲线的重构,如图9所示。由于噪音没有完整的色谱流出曲线,因此后续会被过滤掉。步骤212.修正所述色谱流出曲线;
在色谱流出曲线上可能会有多个主要的峰形。如果几个主要峰形来自不同肽段, 而每个肽段的质量有差异,则对后面质量的计算是有影响的。图12是由两个肽段产生的色谱流出曲线图,如图12所示,色谱流出曲线上有两个主要的峰形,由两个肽段产生,它们在色谱流出曲线上有相近的质荷比。根据强度判断峰形有困难。原因是噪音引起的毛刺和主要的峰形之间没有明显的分界,根据强度不能正确区分主要峰形和噪音。而从质荷比上看这两个肽段还是有区别的,其中一个肽段的质荷比在一条相近的线上,另一个肽段的质荷比在另一条相近的线上。根据质荷比的均值把它们分开。其中包含当前一级质谱的主要峰形就是所要的色谱流出曲线。213.计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度和强度比值来确定同位素峰簇;重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值。对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值。如果余弦夹角小于一个阈值,比如0. 8,或者强度比值不在如图6所示的范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。按照上面的方法检查所有的候选同位素峰簇,就可以确定同位素峰簇。步骤220.所述候选同位素峰簇有可能被过滤掉,判断所述过滤后的同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇; 否则,执行步骤300。确定同位素峰簇和确定同位素峰簇的起止是同一个过程。在确定同位素峰簇的过程中用了色谱流出曲线的相似度和强度比值来过滤,有可能把所有的候选同位素峰簇都过滤掉了,所以需要判断过滤后是否还有同位素峰簇。步骤300,根据所述同位素峰簇,确定单同位素峰的质量;图13是本发明中根据同位素峰簇确定单同位素峰的质量的步骤流程图,如图13 所示,所述步骤300,包括下列步骤确定同位素峰簇之后,单同位素峰就确定了。这里要计算它的质量,采用同位素峰簇的强度加权平均的方法。步骤310.对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质量,比如,把第二同位素峰的质荷比减去 (2-1)*1. 00307除以电荷数,把第三同位素峰的质荷比减去(3-1)*1. 00307除以电荷数,等等;步骤320.把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;步骤330.把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;步骤340.将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱, 如附图14所示,图14是本发明中母离子的单同位素峰质荷比和电荷图。
作为一种可实施方式,也可以把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。步骤400.判断是否还有串联质谱没有确定单同位素峰,若是,则返回步骤100,否则,结束。相应于本发明的一种提高单同位素峰判断准确率的方法,还提供一种提高单同位素峰判断准确率的系统,图15是本发明的一种提高单同位素峰判断准确率的系统的结构图,如图15所示,所述系统,包括候选同位素峰簇计算模块1,用于根据选定的串联质谱,确定候选同位素峰簇;同位素峰簇计算?2,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;单同位素峰的质量计算?3,用于根据所述同位素峰簇的起止,确定单同位素峰的质量;判断?4,用于判断是否还有串联质谱没有确定单同位素峰,若是,则触发候选同位素峰簇计算模块,否则,结束计算。所述候选同位素峰簇计算?1,包括扫描号获取?11,用于根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;当前一级质谱计算?12,用于根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;判断子模块13,用于判断所述候选同位素峰簇是否包含所选母离子,若是,则触发空簇判断模块14 ;否则,在当前一级质谱前面或者后面的一级质谱上确定候选同位素峰簇;空簇判断?14,用于判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,触发扫描号获取?11 ;否则,触发同位素峰簇计算模块2。所述当前一级质谱计算?12,包括碎裂窗口获取?121,用于根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口;谱峰强度计算?122,用于计算所述当前一级质谱的谱峰强度,确定噪音基线;噪音去除?123.用于扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;比值计算?124,用于计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。作为一种可实施方式,谱峰强度计算?122计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。所述比值计算?124,包括质荷比的范围获取?1241,用于确定一级质谱上质荷比的范围[x-w,x+w],其中X为串联质谱母离子的质荷比,W为碎裂窗口宽度的一半;
17
间隔峰查找?1242,用于依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;同位素峰标记?1243,用于根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰,或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;同位素峰簇比较?1244,用于检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。所述同位素峰簇计算?2,包括候选同位素峰簇过滤?21,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;较佳地,作为一种可实施方式,所述候选同位素峰簇过滤模块21,重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。空簇判断子模块22,用于判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,触发单同位素峰的质量计算?3。所述候选同位素峰簇过滤?21,包括色谱流出曲线重构?211,用于为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;修正?212,修正所述色谱流出曲线;强度比值计算?213,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的强度比值;相似度计算?214,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度。所述单同位素峰的质量计算?3,包括归整?31,用于对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;归一化?32,用于把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;单同位素峰质荷比计算模块33,用于把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;赋值?34,用于将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。作为一种可实施方式,所述单同位素峰的质量计算模块3把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。应用本发明的一种提高单同位素峰判断准确率的方法和系统,在Vanderb i 11 University Medical Center的David Tabb提供的大规模的酵母shotgun蛋白质组数据集上采用PFind和Mascot软件测试的结果表明,本确定单同位素峰方法的准确度高达99%, 比现有软件MaxQuant的94%禾口 BioWorks的89%都高。另外,经过本确定单同位素峰方法的校准和串联质谱的鉴定,母离子原先是同位素峰的串联质谱占所有鉴定的串联质谱的31%,共洗脱母离子的串联质谱占所有鉴定的串联质谱的9%。相比于母离子原先就是单同位素峰的串联质谱,本确定单同位素峰方法的校准能多鉴定2/3,即提高了谱图鉴定率。共洗脱母离子的串联质谱比原来选择母离子的串联质谱多鉴定10%的肽段,因此,本确定单同位素峰的方法还能帮助提高蛋白覆盖率。本发明的有益效果在于1.本发明同时解决了现有技术中理论和实验同位素峰簇强度分布不准确的问题, 计算噪音基线后去除噪音,减小同位素峰簇的误匹配,所以本发明准确率更高。2.本发明除了能把串联质谱母离子赋为同位素峰的情况校正为单同位素峰,还能检测母离子碎裂窗口内的共洗脱离子,从而提高串联谱图的鉴定率和蛋白的覆盖率。通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。
权利要求
1.一种提高单同位素峰判断准确率的方法,其特征在于,所述方法,包括下列步骤 步骤100.根据选定的串联质谱,确定候选同位素峰簇;步骤200.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;步骤300.根据所述同位素峰簇的起止,确定单同位素峰的质量;步骤400.判断是否还有串联质谱没有确定单同位素峰,若是,则返回步骤100,否则,结束。
2.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 100,包括下列步骤步骤110.根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号; 步骤120.根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;步骤130.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170 ;否贝U,执行步骤140 ;步骤140.在当前一级质谱前面的一级质谱上确定候选同位素峰簇; 步骤150.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170 ;否贝U,执行步骤160 ;步骤160.在当前一级质谱后面的一级质谱上确定候选同位素峰簇; 步骤170.判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,返回步骤110 ;否则,执行步骤200。
3.根据权利要求2所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 120,包括下列步骤步骤121.根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口 ; 步骤122.计算所述当前一级质谱的谱峰强度,确定噪音基线; 步骤123.扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;步骤124.计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。
4.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 122,包括下列步骤计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算,把直方图中频率最高的谱峰强度作为噪音基线。
5.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,对于一级质谱上的每个谱峰,它的信噪比定义为它的谱峰强度除以噪音基线。
6.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,所述噪音基线是母离子碎裂窗口内谱峰强度的中位数。
7.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 124,包括下列步骤步骤1241.确定一级质谱上质荷比的范围[x-w,x+w],其中χ为串联质谱母离子的质荷比,W为碎裂窗口宽度的一半;步骤1242.依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;步骤1243.根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰, 或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;步骤1244.扫描完母离子质荷比窗口内的每个峰和每种电荷得到所有的候选同位素峰簇,再检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。
8.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 200,包括下列步骤步骤210.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;步骤220.判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,执行步骤300。
9.根据权利要求8所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 210,包括下列步骤步骤211.为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;步骤212.修正所述色谱流出曲线;步骤213.计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇。
10.根据权利要求8所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 210,包括下列步骤重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。
11.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 300,包括下列步骤步骤310.对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;步骤320.把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;步骤330.把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;步骤340.将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。
12.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤 300,包括下列步骤把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。
13.一种提高单同位素峰判断准确率的系统,其特征在于,所述系统,包括 候选同位素峰簇计算模块,用于根据选定的串联质谱,确定候选同位素峰簇;同位素峰簇计算?椋糜诟菟龊蜓⊥凰胤宕氐纳琢鞒銮叩南嗨贫群颓慷缺戎担范ㄍ凰胤宕氐钠鹬梗坏ネ凰胤宓闹柿考扑隳?椋糜诟菟鐾凰胤宕氐钠鹬梗范ǖネ凰胤宓闹柿浚慌卸夏?椋糜谂卸鲜欠窕褂写势酌挥腥范ǖネ凰胤澹羰牵虼シ⒑蜓⊥凰胤宕丶扑隳?椋裨颍崾扑。
14.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述候选同位素峰簇计算?椋ㄉ韬呕袢∧?椋糜诟菅《ǖ拇势祝范ㄋ∧咐胱拥闹屎杀群投杂σ患吨势椎纳韬牛坏鼻耙患吨势准扑隳?椋糜诟菟錾韬湃范ǖ鼻耙患吨势祝⒃诘鼻耙患吨势咨先范ê蜓⊥凰胤宕兀慌卸献幽?椋糜谂卸纤龊蜓⊥凰胤宕厥欠癜∧咐胱樱羰牵虼シ⒖沾嘏卸夏?椋环裨颍诘鼻耙患吨势浊懊婊蛘吆竺娴囊患吨势咨先范ê蜓⊥凰胤宕兀豢沾嘏卸夏?椋糜谂卸纤龊蜓⊥凰胤宕厥欠裎眨羰牵蚣觳橄乱徽糯势祝シ⑸韬呕袢∧?椋环裨颍シ⑼凰胤宕丶扑隳?。
15.根据权利要求14所述的提高单同位素峰判断准确率的系统,其特征在于,所述当前一级质谱计算?椋ㄋ榱汛翱诨袢∧?椋糜诟莸鼻耙患吨势祝范ㄋ∧咐胱釉谥势滓侵猩柚玫乃榱汛翱 ;谱峰强度计算?椋糜诩扑闼龅鼻耙患吨势椎钠追迩慷龋范ㄔ胍艋撸 噪音去除?.用于扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰, 以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;比值计算?椋糜诩扑闼銎追宓闹柿考涓艉颓慷缺戎道慈范ê蜓⊥凰胤宕。
16.根据权利要求15所述的提高单同位素峰判断准确率的系统,其特征在于,所述谱峰强度计算?榧扑闼龅鼻耙患吨势椎钠追迩慷鹊闹狈酵迹云追迩慷冉10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。
17.根据权利要求15所述的提高单同位素峰判断准确率的系统,其特征在于,所述比值计算?椋ㄖ屎杀鹊姆段Щ袢∧?椋糜谌范ㄒ患吨势咨现屎杀鹊姆段^ ,# ],其中1为串联质谱母离子的质荷比,W为碎裂窗口宽度的一半;间隔峰查找模块,用于依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则, 第一间隔峰就是候选第二同位素峰;同位素峰标记?椋糜诟萃凰胤寮涓艏绦檎移溆嗟募涓舴澹奔涓舴宕π〈翱谀诿挥蟹澹蛘呒涓舴宄隽四咐胱拥闹屎杀却翱冢檎夜探崾昙敲扛龅绾上潞蜓⊥凰胤宕刂械拿扛龇澹煌凰胤宕乇冉夏?椋糜诩觳楹蜓⊥凰胤宕刂涞陌叵担绻礁龊蜓⊥凰胤宕氐牡ネ凰胤逯屎杀认嘟绾墒嬖诒妒叵担偷绾傻谋桓叩绾傻陌サ舻偷绾傻暮蜓⊥凰胤宕兀玫阶钪盏暮蜓⊥凰胤宕。
18.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述同位素峰簇计算?椋ê蜓⊥凰胤宕毓四?椋糜诟菟龊蜓⊥凰胤宕氐纳琢鞒銮叩南嗨贫群颓慷缺戎倒撕蜓⊥凰胤宕兀豢沾嘏卸献幽?椋糜谂卸瞎撕蟮暮蜓⊥凰胤宕厥欠裎眨羰牵虮A艉醒《咐胱拥暮蜓⊥凰胤宕兀渥魑詈蟮耐凰胤宕兀环裨颍シ⒌ネ凰胤宓闹柿考扑隳?椤
19.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述候选同位素峰簇过滤?椋毓雇晟琢鞒銮咧螅扑阆嗔诹礁龇宓南嗨贫群颓慷缺戎担 对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,第一个峰和第二个峰分别属于两个不同的同位素峰簇。
20.根据权利要求18所述的提高单同位素峰判断准确率的系统,其特征在于,所述候选同位素峰簇过滤模块,包括色谱流出曲线重构?椋糜谖龊蜓⊥凰胤宕刂械拿恳桓龇逯毓雇暾纳琢鞒銮撸恍拚?椋拚錾琢鞒銮撸磺慷缺戎导扑隳?椋糜诩扑愫蜓⊥凰胤宕啬谙嗔诜宓纳琢鞒銮叩那慷缺戎担幌嗨贫燃扑隳?椋糜诩扑愫蜓⊥凰胤宕啬谙嗔诜宓纳琢鞒銮叩南嗨贫。
21.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述单同位素峰的质量计算?椋ü檎?椋糜诙杂谝徽乓患吨势椎哪掣鐾凰胤宕兀淹凰胤宓闹屎杀燃跞ダ砺弁凰胤寮涓舻闹岛蠊檎降ネ凰胤宓闹屎杀龋还橐换?椋糜诎阉鐾凰胤宓那慷茸魑ㄖ担蒙鲜龉檎蟮牡ネ凰胤逯屎杀龋蠹尤ㄆ骄玫剿鐾凰胤宕毓橐换牡ネ凰胤逯屎杀龋缓螅陨琢鞒銮呱系拿空乓患吨势锥记蠊橐换牡ネ凰胤逯屎杀龋坏ネ凰胤逯屎杀燃扑隳?椋糜诎阉錾琢鞒銮叩那慷茸魑ㄖ担蒙鲜錾琢鞒銮呱瞎橐换牡ネ凰胤逯屎杀龋蠹尤ㄆ骄玫阶钪盏牡ネ凰胤逯屎杀 ; 赋值?椋糜诮鐾凰胤宕氐牡ネ凰胤逯屎杀群偷绾筛掣杂Φ拇势住
22.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述单同位素峰的质量计算?榘焉琢鞒銮叩那慷茸魑ㄖ担苯永玫ネ凰胤宓纳琢鞒銮叩闹屎杀龋蠹尤ㄆ骄玫阶钪盏牡ネ凰胤逯屎杀。
全文摘要
本发明公开了一种提高单同位素峰判断准确率的方法和系统。所述方法,包括下列步骤根据选定的串联质谱,确定候选同位素峰簇;根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;根据所述同位素峰簇的起止,确定单同位素峰的质量;判断是否还有串联质谱没有确定单同位素峰,若是,则返回选择新的串联质谱,确定候选同位素峰簇,否则,结束。
文档编号G01N27/62GK102445544SQ20101050821
公开日2012年5月9日 申请日期2010年10月15日 优先权日2010年10月15日
发明者付岩, 刘超, 孙瑞祥, 王海鹏, 袁作飞, 贺思敏 申请人:中国科学院计算技术研究所