一种建立蛋白样品swath离子库的方法
【专利摘要】本发明提供一种新的离子库建立方法,该方法可以整合多针DDA质谱鉴定的结果,通过非标定量的肽段保留时间(SWATH?RT)反矫正多针DDA中肽段保留时间的技术可以得到保留时间归一化后的多针DDA鉴定的数据,然后将这些多针DDA数据的肽段信息整合并建立新的离子库。在通过DDA鉴定可信度对离子库容量进行优化,最终可得到最优的库容量的离子库。
【专利说明】—种建立蛋白样品SWATH离子库的方法
【技术领域】
[0001]本发明涉及蛋白质组学研究中的质谱方法领域,更具体地涉及在蛋白质组学研究的质谱方法中的一种建立蛋白样品SWATH离子库的方法。
【背景技术】
[0002]定量蛋白质组学研究可从蛋白质组层面阐释某种生物现象的发生发展原因与规律,对生命科学以及人类自身疾病诊疗有重大意义。如对于抗旱性好的作物与抗旱性差的作物的定量蛋白质组研究,可能发现潜在利于作物抗旱的关键蛋白或蛋白组,用以指导分子育种。对于肿瘤组织与非肿瘤组织的定量蛋白质组研究,则可能发现某种肿瘤特异的蛋白质作为疾病的标志物,用以肿瘤的早期诊断、确诊与分型,知道临床治疗方案的确定。
[0003]目前,有多种成熟的定量蛋白质组技术被广泛应用,如基于标记的定量蛋白质组技术(iTRAQ,SILAC等),基于非标记的定量蛋白质组技术。这些技术主要基于数据依赖性采集质谱技术(Data dependent acquisition, DDA)。近些年,数据非依赖性采集(Dataindependent acquisition, DIA)技术逐渐得以在蛋白质组研究领域应用。由于其可以对所有质谱检测到信号的离子进行二级碎裂与信息捕捉,获得更全面的样本电子化信息,所以基于DIA的定量蛋白质研究技术也得到了进一步发展。连续窗口采集所有理论碎片离子(sequential window acquisition of all the theoretical fragment-1on spectra,SWATH)技术是ABSCIEX公司针对5600质谱仪发展的一种新的基于DIA的定量蛋白质组技术。该技术需要首先建立目标蛋白的离子库(Spectra library, 1n library,也称为“谱图库”、“参考谱图库”等),然后运用目标蛋白离子库对SWATH所采集的数据进行信息提取,结合定量软件进行定量蛋白质组的分析。所以说,SWATH技术中,离子库的建立是非常重要的一步,其容量、质量直接影响到SWATH技术定量蛋白质的数量与质量。
[0004]瑞士分子系统生物学研究所的如德教授(Ruedi Aebersold)研究团队利用DDA鉴定化学合成的目标蛋白的肽段,然后通过搜索引擎搜索之后,从中提取肽段的离子信息与保留时间用以构建离子库。加州大学旧金山分校的博拉特福德教授(Bradford ff.Gibson)团队用DDA鉴定与SWATH分析完全一样的样本,然后根据DDA数据搜索结果,构建目标蛋白的离子库。这些方法的共同特点及只有一种SWATH的离子库的建立方法:对一个真实样品或者合成肽段进行一针DDA质谱分析,之后用搜索软件(如mascot、protein pilot等)搜索,对鉴定到的肽段的电荷数,m/z,碎片离子强度,保留时间等信息进行提取生成离子库。对于一个SWATH数据挖掘而言,使用仅来自于I针DDA鉴定的数据所建立的离子库。
[0005]然而仅来自于一针DDA所建立的离子库库容量有限,对SWATH质谱数据挖掘的能力有限。因此本领域中需要可以整合多针DDA离子库的离子库建库方法。
【发明内容】
[0006]本发明的目的在于通过构建SWATH RT,用一定质量的SWATH RT反矫正多个来源DDA结果的肽段RT,最后归一化多个DDA结果的RT,从而可以整合多个DDA数据,建立库容量更大的离子库。再通过离子库大小优化得到最佳离子库。
[0007]为了实现本发明的目的,
[0008]在一个方面中,本发明提供了一种建立蛋白样品SWATH离子库的方法,其特征在于,所述方法包括:
[0009](a)获取所述蛋白样品的SWATH RT和所述蛋白样品的η个DDA数据;
[0010](b)将所述η个DDA数据进行检索以获取η种来源的DDA数据的保留时间(DDART-n);
[0011](C)将所述SWATH RT与每个所述DDA RT_n进行回归分析,得到η个不同的回归公式yl=f (xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并获得矫正后的DDA RT,记录为)DDA RT-C-1,......,DDA RT-C-n ;
[0012](d)用所述DDA RT-C构建得到η个矫正后的离子库:离子库_1,......,离子库_η ;
和
[0013](e)将所获得η个矫正后的离子库合并,并且用鉴定得分标准优化扩容后离子库,得到不同容量的子库;
[0014]其中η为大于等于I的整数,
[0015]其中任选地,步骤(b)中的检索获得碎片离子质荷比、保留时间、可信度和或相对强度信息,并且将这些信息包含在所述步骤(d)中所获得的矫正后的离子库中。
[0016]在本发明的建立蛋白样品SWATH离子库的方法中,所述步骤(e)中将离子库合并后过滤扩容前对合并后的离子库进行去冗余处理。
[0017]在本发明的建立蛋白样品SWATH离子库的方法中,通过对所述蛋白样品进行η次DDA分析来获取所述蛋白样品的η个DDA数据。
[0018]在本发明的建立蛋白样品SWATH离子库的方法中,η在范围内。
[0019]在本发明的建立蛋白样品SWATH离子库的方法中,所述回归分析为线性回归分析或非线性回归分析。
[0020]在本发明的建立蛋白样品SWATH离子库的方法中,所述去冗余处理包括对于具有m行记录肽段计算m行记录中所述肽段保留时间的中位数作为最终保留的肽段保留时间,并删除其余记录,以使得最终得到离子库中每条肽段只有一行记录。
[0021]在本发明的建立蛋白样品SWATH离子库的方法中,步骤(e)中可通过去除离子库-expanded中搜索引擎鉴定的可信度小于X分的所有肽段来过滤扩容后离子库,其中X可以为 90、80、70、60 或 50。
[0022]在第二方面,本发明提供了根据第一方面所述的方法在蛋白质组学相关研究中的
定量应用。
[0023]在第三方面,本发明提供了一种校对蛋白样品SWATH离子库的方法,其特征在于,所述方法包括:
[0024](a)建立待测蛋白样品的SWATH RT ;
[0025](b)将步骤(a)所述SWATH RT与已有SWATH离子库的每个DDA RT-η进行回归 分析,得到η个不同的回归公式yl=f (xl),......,yn=f (xn),其中y代表DDA RT_n, x代表
SWATH RT,并获得矫正后的 DDA RT,记录为)DDA RT-C-1,......,DDA RT-C-n ;
[0026](c)将所述SWATH RT与每个所述DDA RT_n进行回归分析,得到η个不同的回归公式yl=f (xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并获得矫正后的DDA RT,记录为 DDA RT-C-1,......,DDA RT-C-n ;
[0027](d)用所述DDA RT-C构建得到η个矫正后的离子库:离子库_1,......,离子库_η ;
和
[0028](e)将所获得η个矫正后的离子库合并,并且用鉴定得分标准优化扩容后离子库,得到不同容量的子库;
[0029]其中η为大于等于I的整数,
[0030]其中任选地,步骤(b)中的检索获得碎片离子质荷比、保留时间、可信度和或相对强度信息,并且将这些信息包含在所述步骤(d)中所获得的矫正后的离子库中。
[0031]本文中,“相同来源的蛋白样品”是指蛋白质组研究分析过程中所用蛋白样品为同一初始样品的等份。
[0032]本文中,“不同来源的蛋白样品”是指蛋白质组研究分析过程中所用蛋白样品来自于同一物种的不同个体、同一个体的不同发育阶段、同一个体的不同器官、以及初始相同但经过不同处理方法处理的蛋白样品等。
[0033]在本发明的实施方案中,SWATH RT的提取可以为:首先使用ABSCIEX公司四级杆串联TOF类质谱仪(如5600,4600等)对拟定量样品用SWATH模式和DDA模式各做一次完全相同液相梯度串联质谱的 数据采集,得到一个DDA的数据与一个SWATH数据。利用ABSCIEX的ProteinPi lot软件处理DDA数据,得到搜索结果的GROUP文件。利用ABSCIEX的PeakView软件的SWATH插件,导入GROUP文件与SWATH采集的数据文件,运用默认参数进行分析处理,得到结果文件SWATH-R。解压该文件,从其中的1nlibrary文件中提取肽段与对应保留时间信息作为SWATH RT (如图1所示)。
[0034]在本发明的实施方案中,多种来源的样品的DDA数据的保留时间(DDART)提取可以为:用DDA-1到DDA-n代表η种不同来源的DDA数据。首先用任意一种蛋白质搜索引擎软件(如Mascot, ProteinPilot等)分别搜索DDA-1到DDA-η的每一个数据,得到η个DDA数据的鉴定结果,从鉴定结果中提取肽段以及与肽段对应的保留时间信息,可以得到η个DDA数据各自的保留时间列表,用DDA RT-1到DDA RT-n代表第I个到第η个DDA RT (如图2所示)。
[0035]在本发明的实施方案中,SWATH RT矫正多种来源的DDA RT:如上所述,该发明首先建立一个SWATH RT,然后建立η种来源数据各自的DDA RT。用SWATH RT与每个DDA RT做
回归分析(可以是线性或非线性),得到η个不同的回归公式yl=f (xl),......,yn=f (xn),其
中I代表DDA RT, X代表SWATH RT。根据回归公式计算经过SWATH RT矫正后的DDA RT,记录为 DDA RT-C0 η 个矫正后 DDA RT 记录为 DDA RT-C-1,......,DDA RT-C-n ?
[0036]在本发明的实施方案中,建立多种DDA来源RT矫正后扩增的离子库可以为:从上述多种来源的DDA数据的保留时间(DDA RT)提取中的每个DDA搜索结果中提取肽段的碎片离子强度等信息,结合SWATH RT矫正多种来源的DDA RT中得到的对应DDA数据的肽段RT共同构建得到η个矫正后的离子库,用离子库-1,……,离子库-η代表。将η个离子库用文本编辑器合并到一个文件中,遇到重复肽段的情况只保留一个离子库中的记录,其他记录均删除,其中肽段RT取所有共有离子库中RT的中位数即可。这样得到的离子库记录为离子库-expanded。[0037]在本发明的实施方案中,扩增后离子库优化可以为:用若干种不同的鉴定得分的标准(例如ProteinPilot软件的可信度,Mascot软件的肽段得分等本领域技术人员所熟知的各种参数)过滤扩容后离子库,可以得到不同容量的子库。如去除离子库-expanded中搜索引擎鉴定的可信度小于90分的所有肽段得到子库1,去除离子库-expanded中搜索引擎鉴定的可信度小于80分的所有肽段得到子库2,……子库η。然后运用PeakView软件的SWATH插件,分别用各种子库对要定量的SWATH数据进行肽段的提取(提取设定SWATHFDR〈0.01),η种子库会得到η个提取肽段的数目,最高数目所对应的子库即为优化后的离子库。
[0038]3、有益效果
[0039]I)本发明的方法提取SWATH RT与多个来源DDA数据各自的RT,然后运用SWATHRT矫正DDA RT使得原本无法整合的多种来源的DDA数据可以得到整合,用于扩增离子库的
库容量;
[0040]2)通过鉴定不同可信度的肽段可以(或得分)得到多个子库,进而对子库的比较优化,有效规避了库容量增加带来的冗余信息的增加,进而提高了扩增后离子库的利用率以及软件处理时间。
[0041]附图简述
[0042]图1为SWATH RT提取流程;
[0043]图2为多种来源DDA RT提取流程;
[0044]图3为本发明方法和传统方法所建离子库在SWATH数据中挖掘蛋白数、肽段数的比较图;
[0045]图4为使用本发明方法与传统方法所建离子库挖掘肽段的SWATH得分比较
[0046]图5为使用本发明方法与传统方法所建离子库的定量重复性比较
【具体实施方式】
[0047]实施例1:利用SDS-PAGE分离腾冲嗜热菌蛋白扩增离子库
[0048]1.1材料样本准备
[0049]根据王敬强等人报道(Wang,J.; Zhao, C.;Meng, B.;Xie, J.; Zhou, C.; Chen,X.; Zhao, K.; Shao,J.; Xue,Y.; Xuj N.; Maj Y.; Liu,S.,The proteomic alterationsof Thermoanaerobacter tengcongensis cultured at different temperatures.Proteomics2007, 7(9), 1409-19.),用MB培养基培养腾冲嗜热菌MB4T品系。根据陈真报道方法分别提取细菌的蛋白质2,使用ImM巯基乙醇56摄氏度还原蛋白质45分钟,之后加入45mM碘代乙酰胺避光室温孵育I小时,得到巯基被封闭的蛋白样品。用Bradford蛋白定量方法定量蛋白质,100微克每管分装冻于零下八十度冰箱保存。
[0050]取100微克蛋白,加入2微克胰酶(Promega,质谱级)37摄氏度孵育12小时后,加入终浓度为0.1%三氟乙酸终止反应,称为样品I。
[0051]再取100微克蛋白使用SDS-PAGE分离技术电泳分离,之后凝胶切为15份,分别做胶内酶解,称为样品2。此部分肽段用以扩增离子库的构建。
[0052]1.2利用SDS-PAGE分离蛋白质结合质谱多针DDA鉴定分析扩增离子库:
[0053]质谱仪分析样品:[0054]取5微克样品1,用ABSCIEX Triple-T0F5600的IDA模式进行扫描得到数据,记为IDA-U ;再取5微克样品I用5600的SWATH模式扫描得到数据,记为SWATH-U ;样品2的15个肽段组分分别用5600的IDA模式进行扫描,得到数据分别记为IDA-1,……,IDA_15。质谱仪主要参数如下:
[0055]IDA模式:先进行250毫秒一级扫描,之后选取一级谱中最高的、多电荷的30个离子分别进行隔离与二级碎裂得到二级谱。SWATH模式:先进行250毫秒的一级扫描,之后以25道尔顿为窗口从400到1200荷质比范围依次隔离并碎裂32次得到32张混合二级谱。二级分辨率设为一万五千。
[0056]用ProteinPilot (默认参数)软件分别搜索IDA-1到IDA-15的数据,得到数据分别记为GR0UP-1到GR0UP-15。同“SWATH RT提取”一节的操作一样,可以得到15个IDA数据对应的15个离子库(记为离子库-1到离子库-15),以及对应的保留时间列表,记为DDART-1 到 DDA RT-15。
[0057]SWATH RT 提取
[0058]用ProteinPilot的默认参数软件搜索IDA-U,得到数据记为GR0UP-U。将数据GROUP-U与SWATH-U先后导入PeakView,选取可信度参数大于99,SWATH FDR小于0.01,其他参数使用默认参数,然后点击处理按钮(Process),得到结果文件记为SWATH-R。使用Excel打开SWATH-R中的离子库(1nlibrary),该离子库记为离子库-U。根据离子库-U中的可信度(Confidence)信息,将可信度小于99的所有行全部删除。之后删除除肽段(Peptide)与保留时间(Updated RT)两列外所有列的信息。保存剩余两列为Excel格式文件,命名SWATH RT。
[0059]SWATH RT矫正15针DDA RT得到矫正后离子库:
[0060]以DDA RT-1为例,将SWATH RT与DDA RT-1拷贝到一个excel中,找到两个文件中共有的肽段,以及这些肽段对应的SWATH RT与DDA RT。选取SWATH RT与DDA RT两列数据做散点图,并得到两列数据的拟合公式(如y=ax+b, y=ax2+bx+c等各种拟合方程)。将离子库-1中所有肽段的保留时间代入公式中,可以得到每个肽段对应的新的保留时间,用每个肽段新的保留时间替代原来的保留时间,并加入GR0UP-1数据中的碎片离子强度等信息,即得到矫正后的离子库-1,记录为离子库-1-矫正。同法可以得到其他14个离子库对应的矫正后的离子库。
[0061]用记事本打开15个矫正后离子库,并合并到一起,成为一个大的离子库,记录为“离子库-合并”。将离子库-合并用Excel打开,按照肽段序列排序,如出现某个肽段有η行记录,则计算η行记录中该肽段保留时间的中位数,填写到第一行,其他行删除。同法可以将所有重复肽段进行去冗余,最终得到离子库中每条肽段只有一行记录,记为“离子库-expanded,,。
[0062]离子库容量优化
[0063]用Excel打开离子库-去冗余文件,根据可信度排序,删除其中可信度小于99的所有肽段,剩余部分文件保存为一个字离子库,命名为离子库-99。同法可以得到离子库80,离子库30与离子库-O。用PeakView软件分别这四个离子库与SWATH-U进行肽段挖掘,结果表一所示。表一显示离子库-99所得到的肽段最多,所以该离子库即为该发明最终建立并优化得到的离子库。[0064]1.3扩增离子库质量评估
[0065]本发明扩增后离子库记为离子库-99。目前已知公开的离子库建立仅限于I针DDA数据,与本发明建立过程中的离子库-U相同。所以比较离子库-99与离子库-U,可以实现比较本发明方法与传统方法的目的。
[0066]运用1.2中所述的质谱仪的SWATH模式(以及相同的参数)对5微克样品I再次进行扫描,共做四次重复上机。使用PeakView软件,分别用传统方法与本发明方法的离子库对这四次重复上机的SWATH数据进行质谱信号的挖掘与解析,我们从鉴定肽段数目、鉴定肽段质量、鉴定质谱信号重复性三个角度进行本发明方法与传统方法的比较。
[0067]肽段数目比较:
[0068]如图3所示,运用本发明方法在四次SWATH数据中进行肽段和蛋白的挖掘提取,不论肽段数还是蛋白数,本发明方法均显著高于传统方法。所以本发明可以鉴定到更多肽段和的蛋白质。
[0069]鉴定肽段质量
[0070]上述结果表明,本发明所建立的离子库可以提取到更多的肽段与蛋白质。此外,我们比较了本发明个所建离子库挖掘到肽段的鉴定质量与传统方法的离子库挖掘得到肽段的鉴定质量。SWATH得分代表了离子库中的信息与SWATH数据谱图的匹配程度,所以在此用SWATH得分代表鉴定肽段的质量。如图4所示,本发明所建立离子库提取得到肽段的得分分布(实拟合曲线)比传统方法提取得到肽段的得分分布(虚拟合曲线)偏高。即表明,与传统的离子库建立方法向比较,本发明所建立离子库,可以提取到不但更多,而且肽段质量仍然很好的肽段。
[0071]鉴定质谱信号重复性比较:
[0072]SWATH采集数据的肽段碎片离子的色谱峰面积是用于蛋白定量的基本信息来源,所以我们用传统方法与本发明方法离子库对SWATH数据的肽段的碎片离子的面积进行提取,统计所提取到碎片离子在四次SWATH重复后的变异系数(Coefficient Varies, CV)0此变异系数的高低直接关系到所建立离子库用于定量分析的重复性。如图5所示,可以看出本发明方法与传统方法所建立离子库提取到的质谱信号的变异系数分布趋势基本一致,没有明显差异。表明两种方法提取得到的质谱信号都可以较好用于定量蛋白质组研究。
【权利要求】
1.一种建立蛋白样品SWATH离子库的方法,其特征在于,所述方法包括: Ca)获取所述蛋白样品的SWATH RT和所述蛋白样品的η个DDA数据; (b)将所述η个DDA数据进行检索以获取η种来源的DDA数据的保留时间(DDART-n); (c)将所述SWATHRT与每个所述DDA RT_n进行回归分析,得到η个不同的回归公式yl=f(xl),……,yn=f(xn),其中y代表DDA RT_n,x代表SWATH RT,并获得矫正后的DDART,记录为 DDA RT-C-1,......,DDA RT_C_n ; (d)用所述DDART-C构建得到η个矫正后的离子库:离子库-1,……,离子库-η;和 Ce)将所获得η个矫正后的离子库合并,并且用鉴定得分标准优化扩容后离子库,得到不同容量的子库; 其中η为大于等于I的整数, 其中任选地,步骤(b)中的检索获得碎片离子质荷比、保留时间、可信度和或相对强度信息,并且将这些信息包含在所述步骤(d)中所获得的矫正后的离子库中。
2.根据权利要求1所述的方法,其特征在于,所述步骤(e)中将离子库合并后优化扩容前对合并后的离子库进行去冗余处理。
3.根据权利要求1或2所述的方法,其特征在于,其中通过对所述蛋白样品进行η次DDA分析来获取所述蛋白样品的η个DDA数据。
4.根据权利要求1至3中任一项所述的方法,其特征在于,其中η在1-100之间。
5.根据权利要求1至4中任一项所述的方法,其特征在于,其中用于获取SWATHRT和每一个DDA数据的所述蛋白样品是相同或不同来源的蛋白样品。
6.根据权利要求1至5中任一项所述的方法,其特征在于,其中所述回归分析为线性回归分析或非线性回归分析。
7.根据权利要求2所述的方法,其特征在于,其中所述去冗余处理包括对于具有m行记录肽段计算m行记录中所述肽段保留时间的中位数作为最终保留的肽段保留时间,并删除其余记录,以使得最终得到离子库中每条肽段只有一行记录,其中0〈m ( η。
8.根据权利要求1至7中任一项所述的方法,其中步骤(e)中通过去除离子库-expanded中搜索引擎鉴定的可信度小于X分的所有肽段来过滤扩容后离子库,其中X为 90、80、70、60 或 50。
9.根据权利要求1至7中任一项所述的方法在蛋白质组学相关研究中的定量应用。
10.一种蛋白样品离子库,其特征在于采用如权利要求1至7中任一项所述的方法建立。
11.一种校对蛋白样品SWATH离子库的方法,其特征在于,所述方法包括: Ca)建立待测蛋白样品的SWATH RT ; (b)将步骤(a)所述SWATHRT与已有SWATH离子库的每个DDA RT-n进行回归分析,得到η个不同的回归公式yl=f (xl),......,yn=f (xn),其中y代表DDA RT-n, x代表SWATHRT,并获得矫正后的DDA RT,记录为)DDA RT-C-1,……,DDA RT-C-n ; (c)将所述SWATHRT与每个所述DDA RT_n进行回归分析,得到η个不同的回归公式yl=f(xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并获得矫正后的DDART,记录为 DDA RT-C-1,......,DDA RT-C-n ; (d)用所述DDART-C构建得到η个矫正后的离子库:离子库-1,……,离子库-η;和(e)将所获得η个矫正后的离子库合并,并且用鉴定得分标准优化扩容后离子库,得到不同容量的子库; 其中η为大于等于I的整数, 其中任选地,步骤(b)中的检索获得碎片离子质荷比、保留时间、可信度和或相对强度信息,并且将这些 信息包含在所述步骤(d)中所获得的矫正后的离子库中。
【文档编号】G01N27/62GK103995042SQ201410121349
【公开日】2014年8月20日 申请日期:2014年3月28日 优先权日:2014年3月28日
【发明者】訾金, 林梁, 刘斯奇, 章申燕 申请人:深圳华大基因研究院