设为主页 | 加入收藏

机器学习揭示了构建人工蛋白质的方法

编辑推荐:

  芝加哥大学分子工程学院(PME)的研究人员领导的一个研究小组开发了一种人工智能主导的过程,利用大数据设计新的蛋白质,这项突破可能会对医疗、农业和能源部门产生重要影响。

  

蛋白质是细胞生命中必不可少的,执行复杂的任务和催化化学反应。长期以来,科学家和工程师一直试图利用这一能力,设计出可以执行新任务的人工蛋白质,如治疗疾病、捕获碳或获取能量,但设计用于制造此类蛋白质的许多过程缓慢而复杂,失败率很高。

芝加哥大学分子工程学院(PME)的研究人员领导的一个研究小组开发了一种人工智能主导的过程,利用大数据设计新的蛋白质,这项突破可能会对医疗、农业和能源部门产生重要影响。

通过开发机器学习模型审查从基因组数据库中挑选出的蛋白质信息,研究人员发现了构建人工蛋白质的相对简单的设计规则。

当研究小组在实验室中构建这些人工蛋白质时,他们发现它们的化学性质非常好,可以与自然界中的蛋白质相媲美。

分子工程学院生物化学和分子生物学系的Rama Ranganathan教授说:“我们都想知道,像进化这样简单的过程如何能产生蛋白质这样的高性能材料。我们发现基因组数据包含了大量关于蛋白质结构和功能的基本规则的信息,现在我们已经能够将自然界的规则封存起来,自己创造蛋白质。”

研究结果发表在7月24日的《Science》杂志上。

利用人工智能学习设计规则

蛋白质由成百上千个氨基酸组成,这些氨基酸序列决定了蛋白质的结构和功能。但是理解如何构建这些序列来创造新的蛋白质一直是一个挑战。过去的工作已经产生了可以指定结构的方法,但是函数的设定经常让人摸不到头脑。

Ranganathan和他的合作者在过去的15年里认识到,基因组数据库——正呈指数级增长——包含了大量关于蛋白质结构和功能基本规则的信息。他的团队基于这些数据开发了数学模型,然后开始使用机器学习方法来揭示有关蛋白质基本设计规则的新信息。

在这项研究中,他们研究了分支酸变位酶(代谢酶家族的一员),这是一种在许多细菌、真菌和植物中对生命非常重要的蛋白质。利用机器学习模型,研究人员能够揭示这些蛋白质背后的简单设计规则。

该模型表明,只要氨基酸位置保持不变,氨基酸对的进化中的相关性就足以预测具有蛋白质家族性质的新的人工序列。

“我们通常认为,要建造某种东西,首先必须深入了解它的工作原理,”Ranganathan说。“但是,如果有足够的数据示例,就可以使用深度学习的方法来获得设计规则。”

于是他们创造了合成基因来编码蛋白质,将它们克隆到细菌中,观察细菌利用正常的细胞机械制造合成的蛋白质。发现人工蛋白具有与天然分支酸变位酶蛋白相同的催化功能。

了解其他复杂系统的平台

因为设计规则相对简单,研究人员可以用它们创造出的人工蛋白质数量非常多。

“限制比我们想象的要小得多,”Ranganathan说。“自然界的设计规则很简单,我们相信类似的方法可以帮助我们在其他复杂的生物学系统中寻找设计模型,比如生态系统或大脑。”

尽管人工智揭示了设计规则,但Ranganathan和他的合作者仍然不完全理解这些模型的工作原理。接下来,他们将努力了解模型是如何得出这一结论的。“还有很多工作要做。”

同时,他们也希望利用这个平台来解决气候变化问题。Ranganathan和助理教授Andrew Ferguson已经成立了一家名为Evozyne的公司,该公司将在能源、环境、催化和农业等领域将这项技术商业化。Ranganathan曾与芝加哥大学的Polsky创业与创新中心合作,申请专利并向公司授权知识产权。

他说:“这个系统为我们提供了一个平台,可以用我们一直梦想的方式合理地设计蛋白质分子。它不仅可以教我们蛋白质如何工作和如何进化的物理知识,还可以帮助我们找到解决诸如碳捕获和能量收集等问题的方法。更广泛地说,对蛋白质的研究甚至可以帮助我们了解现代机器学习背后的深层神经网络是如何工作的。”

原文检索:An evolution-based model for designing chorismate mutase enzymes



来源:生物通