科学新闻-大数据转化：蛋白质组学的挑战 _立博体育

作者：Mike May / 文李楠 / 译来源：发布时间：2019-9-5 14:52:22

大数据转化：蛋白质组学的挑战

人体中有大约20000个蛋白质编码基因，能翻译相应数量的蛋白质。然而，通过翻译后修饰会产生更多形态的蛋白质。截至立博体育:年4月4日，人类蛋白质组图谱包含30057种蛋白质。将众多的分子与质谱（MS）这样的分析技术相结合，探索其微妙的联系，会产生海量的“大数据”。由于获得的蛋白质组复杂信息数据量过于庞大，通常需要很多科研人员协作才能解读某一个数据集的信息。

虽然这些数据集无论从体量还是复杂度看都是惊人的，但共享在将来仍是可预期的。位于威斯康星大学麦迪逊分校的国立卫生研究院（NIH）国家复杂系统定量生物学中心主任Joshua Coon说：“作者通常主动的或者是根据要求将蛋白质组学研究的原始数据发送到相应数据库中。但在10年前，情况并非如此，人们的态度已经在改变了。”蛋白质组学界甚至整个学术界都意识到数据透明度提高了研究人员之间的信任程度，即使身处不同领域的人也是如此。

数据共享的困难

在马萨诸塞州比勒利卡的布鲁克公司蛋白质组学业务开发副总裁Gary Kruppa表示，现在产生蛋白质相关的大数据比以往任何时候都容易，但以最有效的方式分享数据却很难。研究人员可以在几天内获取数以TB计的数据，但数据的转移和可视化却很难。甚至储存一个月积累的数据都很困难。

海量数据共享的难点依然在于缺乏有效的方法，而且很难提供足够的实验和生物学相关信息。如果研究人员只想分享蛋白质组学实验的原始数据，以及与数据相关的一些背景和结果，那是非常简单的，位于英国剑桥的欧洲分子生物学实验室——欧洲生物信息学研究所（EMBL—EBI）蛋白质组学团队负责人Juan Antonio Vizcaíno解释说。

越来越多的科研人员参与到数据共享中，随之而来的挑战也在不断增加。例如，仅将信息转储到数据库是不够的。“必须确保上传的数据质量足够高，以便其他同行能够使用这些数据，”加利福尼亚州圣何塞市赛默飞世尔科技公司蛋白质组学解决方案全球营销总监Andreas Huhmer说。此外，除非数据采用某种标准格式，否则数据上传到数据库以后无法方便地进行检索。

分析数据的方法也会影响从中得出的结论。“目前有太多种分析蛋白质组学数据的方法，因此对数据的解释存在主观性，”澳大利亚帕克瓦拉的沃尔特和爱丽莎霍尔医学研究所的系统生物学和个性化医学部门负责人Andrew Webb解释说。

其他专家也赞同数据分析仍然是蛋白质组学研究人员面临的挑战之一。“我们如何有效地将原始数据转化为有意义的东西，仍然是要克服的第一个难题，就算是在同一个实验室里也一样。”英国曼彻斯特沃特世公司健康科学主任James Langridge指出。

即使科研人员们就数据的标准化格式和分析方法达成一致，还是存在很多需要解决的问题。首先，必须根据需要更新数据标准；其次，即使是共享最大的蛋白质组数据集也会出现不足。“为了尽量多的从蛋白质组学数据集中获得科学知识，而且这些知识应该与其基因组和转录组信息进行系统化的整合，”位于马里兰州罗克维尔市的美国国家癌症研究所癌症临床蛋白质组学研究办公室主任Henry Rodriguez说，“通过将蛋白质组学与基因组学、蛋白质基因组学等信息进行整合，这种多组学方法可以获得更多新的生物学知识，这是单一组学数据分析所不能比拟的。”

科学研究的尺度

蛋白质组学大数据集共享的价值在于它们可能带来卫生保健等方面的改善。例如，Rodriguez说：“制药公司将获益于更深入地了解疾病，从而开发出更有效的药物。”

同样，蛋白质组学可以与其他工具结合使用，例如CRISPR等基因编辑技术。“编辑生物系统并观察其表型确实非常惊人，”Langridge说。用基因编辑工具调整系统，并分析其结果将有助于科研人员揭示特定蛋白质的功能。

就目前来说，像EMBL-EBI的PRoteomics IDEntifications（PRIDE）这种专门为数据共享所开发的数据库可能是最有帮助的。它收录了来自50多个国家的超过8400个蛋白质组学数据集，代表了近80000个获取蛋白质组学数据的测试，所有数据总量大约为400TB。

洛桑的瑞士生物信息学研究所开发了neXtProt，这是另一个蛋白质知识库，它记录了超过20000种蛋白质和近20万种翻译后修饰数据。

“最著名的蛋白质知识库是UniProt，当然它不仅仅关注人类蛋白质，”Vizcaíno说。像这样的数据库可以收录各种新的科学知识。“你可以试着找出结合不同实验室数据集的方法，或寻找更具创新性的方法来分析这些数据，”Vizcaíno说。“通常，对蛋白质组学数据的分析是为了回答一组科学问题，当然也可以用其他方法分析这些数据。”因此，如果有人提出一种探索现有数据的新方法，那么其结果可能会揭示新的生物学知识。

除此之外，还有更多关于蛋白质的数据信息有待确定。正如Huhmer所指出的那样，“大约有15000个已知的蛋白质家族。”同一个家族中的蛋白质都存在结构相似性。根据Huhmer的说法，研究人员已经研究了一些家族蛋白的结构，并用X射线晶体学等技术直接测量了大约4500个家族；通过计算机模拟了另外4500个（其中只有大约1000个具有高可信度）；他们还不知道其余6000多个家族蛋白的结构。

技术的进步不断给研究人员提供更多的蛋白质组学数据。例如，Huhmer提到多种无标定量的MS方法可用于每天产生100万个数据点。此外，结合MS与冷冻电镜之类的结构生物学技术，可以确定蛋白质的三维形状，从而用来分析一些现在未被描述的结构。“因此，技术的演化揭示了更多蛋白质结构的信息，并推动了这个领域的更多研究。”

值得高兴的是，一旦蛋白质家族中某一个成员的结构被解析，随后就可以通过计算生物学模拟该家族中的其他成员结构。“这样，蛋白质数据分析结果会呈指数增长，”Huhmer解释道。事实上，计算生物学在推动蛋白质组学数据分析和共享方面发挥着广泛的作用。

技术开发团队和科研课题组的密切协作能够使科研人员更容易共享蛋白质组学数据，并促进项目合作。例如，德国慕尼黑工业大学（TUM）、柏林的JPT Peptide Technologies公司（JPT）、瓦尔多夫的SAP公司和赛默飞世尔科技公司创建了一个联盟，帮助科学家将蛋白质组学数据进行转化，并应用到基础和医学研究。用户在这个叫做ProteomeTools的在线数据库中可免费获得该联盟提交的研究数据。

找出数据间的联结

ProteomeTools联盟的例子清楚地表明，科研人员和机构需要开展新形式的合作，并共享大型蛋白质组学数据集。当然，当科研人员们收集了如此多的数据，而实验和实验结果之间存在多种可能的联结，于是他们比以往更加专注于新的计算工具的开发。

“我认为人工智能，机器学习和深度学习是能够激励研究者们共享大数据的技术领域。这些技术需要大量数据，因此，一定程度上会推动研究界分享大数据，以确保他们的持续发展。”Rodriguez指出。

虽然Rodriguez欣喜于这些工具将辅助科研人员发现那些隐藏的联结，并可能进一步催生出新的科学假设与研究，但他补充说，“我们必须谨记它不仅仅是关于技术本身，也是人们对数据分析方法的进一步解释，审查，挑战与质疑的过程。”

正如Rodriguez解释的那样，“这些计算系统需要更多的合作和开放性科学数据，并以新的方式创造价值。”他列举了三个这种持续和广泛合作的例子：国家癌症研究所（NCI）的临床蛋白质组学肿瘤分析联盟（CPTAC）计划；NCI、国防部和退伍军人事务部合作的应用蛋白基因组学学习和成果共享组织网络（APOLLO）；国际癌症蛋白质组联盟（ICPC），它们都“鼓励通过数据共享向公众提供数据”。

为了进一步发挥合作的效力，分析平台应该具备简化数据采集和共享的技术。在这些方面，沃特世公司开发了一种独立于数据的串联MS数据采集方法——SONAR。Langridge说：“整个思路的核心是能够以稳定一致的方式获取蛋白质组学数据”。对于每个测试样品，该系统都将获取肽段和蛋白质的定量信息。Langridge解释到，“不仅仅是鉴定这些蛋白质，而是在不同的样品中收集它们的丰度值。”此外，用户无需在测试开始之前决定是否要采集数据，因为SONAR会采集所有数据。“靶向实验的挑战在于，你需要预先确定你所关注的东西。但是你也不清楚是否存在脱靶效应，或者是否有其他的生化途径参与其中，”Langridge说。

收集如此多的数据，并以研究人员们可共享、可重新访问的方式存储，将会提高数据集的可持续价值。“许多已经发表的研究果可能再也没有被关注过，”Kruppa指出，“如果数据无法轻易共享，则无法验证数据。”因此，创建数据共享工具可以使得新旧结果互相得到印证。“另外，这些工具让你可以分析来自其他科研人员的数据，并对你的研究进行更有效更广泛的比较。”

以前获得的数据集还可以帮助科学家们开发工具。例如，可以在现有数据集上测试新的分析工具，并在需要时进行调整。Kruppa指出，“许多研究人员正致力于开发包含人工智能分析技术的新工具。只要既有的数据可以轻松共享，这些工具就可以在以前的数据集上进行验证。”

数据是否易于共享取决于其格式。为此，布鲁克开发了捕获型离子淌度——飞行时间质谱（timsTOF Pro MS/MS）平台，以获得格式通用的数据。Kruppa说：“该仪器将采集大量数据，我们需要使其易于使用。如果没有这种数据兼容性，即使是最先进的计算工具也会在尝试数据集比较时遇到障碍。”

查看共享内容

这一点已经很清晰了：蛋白质组学专家们并不缺乏数据。相反，他们中的大多数人可能会同意Coon的观点：“我们被数据淹没了。”

Coon指出，最好是从同一个实验中收集所有原始MS数据并对其进行批量化处理。“大家都希望以同样的方式收集和分析所有的样本，”他说。

完成这项工作，特别是分析部分，往往需要科研人员们开发自己的工具。例如，Coon聘请了一名数据分析专家，用两年时间构建了一个可视化工具。他们的研究团队需要一种方法来分析、组织并结合项目产生的所有蛋白质组学、脂质组学和代谢组学数据集。因此，Coon和他的同事将他们的数据查看器集成到了一个网站中。

“我们首先将一个酵母研究项目的相关数据进行了这样的展示，以方便人们使用这些数据。现在我们为每个项目创建一个这样的网站。”有了Coon的查看器，他们不再需要给访问者提供一个8000列的Excel电子表格，其他研究人员也可以快速地对不同样本来源的数据就行比较。“他们可以非常快速地对数据进行查询。”Coon解释。

虽然Coon说他还没有发现很多与他的办法类似的例子，但他发现这有助于他的团队和其他同行从数据集中提取有用的生物信息，因为他们可以通过查询它，而非常快速地比较样本和数据点。

“大多数实验室需要弄清楚当他们获得如此多的数据之后，如何从原始MS文件中获得有用的信息。他们也许有自己的工具去解决这个问题，”Coon指出。“但目前还没有那么多脱颖而出的选项供大家使用。人们也不像重视硬件那样重视软件。”

然而，为了共享大型蛋白质组学数据集，必须持续优化硬件和软件。此外，科研人员必须保持数据质量。Rodriguez表示，虽然“一提起大数据，数据的大小就会跳出来。但从获取知识的机会来看，从大数据中汲取的信息内容和质量是我理解的大之所在。”■

（译者李楠是立博体育在线:科学院深圳先进技术研究院的副研究员。）

Mike May 是佛罗里达州的自由撰稿人和编辑。
鸣谢：“原文由美国科学促进会（www.aaas.org）发布在立博体育: 年6 月14 日《科学》杂志”。官方英文版请见https://www.sciencemag.org/features/立博体育:/06/
translating-big-data-proteomics-challenge。

《科学新闻》 (科学新闻2019年8月刊科学·生命)

发E-mail给：

| 打印 | 评论 |