医疗保健、农业、能源领域的突破:人工智能揭示了制造人工蛋白质的配方

功能区模型蛋白质

蛋白质的色带模型。信用:emw / wikimediacc by-sa 3.0

蛋白质对细胞至关重要,进行复杂任务和催化化学反应。科学家和工程师长期以来一直试图通过设计可以进行新任务,如治疗疾病,捕获碳或收获能量的人工蛋白质来利用这种能力,但是许多设计用于产生这种蛋白质的过程是缓慢而复杂的,具有很高的故障率。

这一突破可能会影响到医疗保健、农业和能源部门,普利茨克分子工程学院(Pritzker School of Molecular Engineering)的研究人员领导了一个团队芝加哥大学已经开发出一种以人工智能为主导的流程,利用大数据设计新的蛋白质。

通过开发可以回顾基因组数据库中蛋白质信息的机器学习模型,研究人员找到了构建人工蛋白质的相对简单的设计规则。当研究小组在实验室中构建这些人造蛋白质时,他们发现它们的化学反应非常好,可以与自然界中发现的蛋白质相媲美。

“我们都知道进化的简单过程如何导致这种高性能的材料作为一种蛋白质,”生物化学和分子生物学教授Joseph Regenstein教授RaMa Ranganathan说,和分子工程。yabovip2021yabo124“我们发现基因组数据包含有关蛋白质结构和功能的基本规则的大量信息,现在我们已经能够淘汰自然的规则来创建蛋白质。”

研究结果发表在杂志上科学

利用人工智能学习设计规则

蛋白质由数百或数千组成


Amino acids are a set of organic compounds used to build proteins. There are about 500 naturally occurring known amino acids, though only 20 appear in the genetic code. Proteins consist of one or more chains of amino acids called polypeptides. The sequence of the amino acid chain causes the polypeptide to fold into a shape that is biologically active. The amino acid sequences of proteins are encoded in the genes. Nine proteinogenic amino acids are called "essential" for humans because they cannot be produced from other compounds by the human body and so must be taken in as food.
" class="glossaryLink ">氨基酸和这些氨基序列决定了蛋白质的结构和功能。但是,要理解如何构建这些序列来创造新的蛋白质一直是一个挑战。过去的工作已经产生了可以指定结构的方法,但功能已经变得更加难以捉摸。

在过去的15年里,Ranganathan和他的合作者实现了什么是基因组数据库 - 呈指数增长 - 含有关于蛋白质结构和功能基本规则的大量信息。他的小组基于此数据开发了数学模型,然后开始使用机器学习方法来揭示有关蛋白质基本设计规则的新信息。

对于这项研究,他们研究了酸毒素蛋白家族的代谢酶,一种蛋白质,对许多细菌,真菌和植物来说都很重要。使用机器学习模型,研究人员能够揭示这些蛋白质背后的简单设计规则。

该模型表明,仅在氨基酸位置和对氨基酸对的演化中的相关性的情况下足以预测具有蛋白质家族性质的新的人造序列。

“我们一般认为要建立一些东西,你必须首先深入了解它是如何工作的,”朗纳坦坦说。“但是如果您有足够的数据示例,您可以使用深度学习方法来学习设计规则,即使您了解它是如何运作的或为什么它建造的方式。”

然后,他和他的合作者创造了合成基因来编码这些蛋白质,并将它们克隆到细菌中,然后观察细菌使用它们正常的细胞机制来制造合成蛋白质。他们发现,人造蛋白质具有与天然络合物突变酶蛋白相同的催化功能。

“我们发现基因组数据包含有关蛋白质结构和功能的基本规则的大量信息,现在我们已经能够淘汰自然的规则来创建蛋白质。”

-Rama Ranganathan教授

一个了解其他复杂系统的平台

由于设计规则相对简单,研究人员可以用它们制造出的人工蛋白质的数量非常大。

“约束比我们想象的要小得多,”Ranganathan说。“大自然的设计规则有简单性,我们认为类似的方法可以帮助我们在生物系统或大脑中寻找其他复杂系统中的设计模型。”yabo124

尽管人工智能揭示了设计规则,Ranganathan和他的合作者们仍然不能完全理解这些模型的工作原理。接下来,他们将研究这些模型是如何得出这一结论的。“还有很多工作要做,”他说。

与此同时,他们也希望使用这个平台来开发可以解决像气候变化等社会问题的蛋白质。ranganathan和assoc。Andrew Ferguson教授创立了一家名为Evozyne的公司,该公司将通过能源,环境,催化和农业的应用商业化这项技术。Ranganathan与Uchicago的Polsky Centrs合作,以获得企业家精神和创新,以提出档案和许可知识产权。

他说:“这个系统为我们提供了一个平台,以我们一直梦想的方式合理地设计蛋白质分子。”“它不仅能教会我们蛋白质如何工作和进化的物理原理,还能帮助我们找到碳捕捉和能源收集等问题的解决方案。”更普遍地说,蛋白质研究甚至可能帮助我们了解现代机器学习背后的深层神经网络是如何工作的。”

参考:“威廉·米兰·拉莫兹,玛丽亚富子丝,基督徒徒步旅行者,皮埃尔巴拉特,迈克尔索德,彼得卡斯顿,唐纳德希尔弗,雷蒙森,西蒙斯科科,马丁·魏格特和拉玛,迈克尔·索尔(Pierrebers),迈克尔·索罗尔Ranganathan 2020年7月24日,科学
DOI:10.1126 / science.aba3304

论文的其他作者包括德克萨斯大学西南医学中心的威廉·p·拉斯(William P. Russ);法国索邦大学的Martin Weigt、Matteo Figliuzzi和Pierre Barrat-Charlaix;来自苏黎世联邦理工学院的Christian Stocker、Peter Kast、Donald Hilvert;来自巴黎高等师范学院体质实验室的西蒙娜·科科和雷米·莫纳松;还有芝加哥大学的迈克尔·索科利奇。

国家卫生学院提供的本研究提供资金,罗伯特A. Welch基金会,芝加哥大学数据和计算中心,德克萨斯大学系统生物中心绿色中心,欧盟H2020研究和创新计划,Agence Nationale de layabo124recherche和瑞士国家科学基金会。