多伦多大学的研究人员开发了一种人工智能系统,可以使用生成扩散创建自然界中不存在的蛋白质,这与DALL-E和Midjourney等流行图像创建平台背后的技术相同。
该系统将有助于推进生成生物学领域的发展,该领域有望通过使全新治疗性蛋白质的设计和测试更加高效和灵活来加速药物开发。
我们的模型从图像表示中学习,以非常高的速度生成全新的蛋白质。我们所有的蛋白质在生物物理学上似乎都是真实的,这意味着它们折叠成使它们能够在细胞内执行特定功能的配置。”
今天,NatureComputationalScience杂志发表了这一发现,这是同行评议期刊中的首例此类发现。去年夏天,Kim的实验室还通过开放访问服务器bioRxiv发布了该模型的预印本,领先于去年12月的两份类似预印本,即华盛顿大学的RFDiffusion和GenerateBiomedicines的Chroma。
蛋白质由折叠成三维形状的氨基酸链制成,这反过来又决定了蛋白质的功能。这些形状经过数十亿年的演变,变化多样且复杂,但数量有限。随着对现有蛋白质折叠方式的更好理解,研究人员开始设计非自然产生的折叠模式。
但Kim说,一个主要的挑战是想象既可行又实用的折叠。“很难预测哪些折叠是真实的并在蛋白质结构中发挥作用,”金说,他也是多伦多大学分子遗传学和计算机科学系的教授。“通过结合基于生物物理学的表征通过图像生成空间的扩散方法来构建蛋白质结构,我们可以开始解决这个问题。”
研究人员称之为ProteinSGM的新系统从大量现有蛋白质的类图像表示中提取,这些蛋白质准确地编码了它们的结构。研究人员将这些图像输入一个生成扩散模型,该模型逐渐添加噪声,直到每张图像都变成噪声。该模型跟踪图像如何变得更嘈杂,然后反向运行该过程,学习如何将随机像素转换为与全新蛋白质相对应的清晰图像。
Kim实验室的博士生、该论文的第一作者JinSub(Michael)Lee表示,优化图像生成过程的早期阶段是创建ProteinSGM的最大挑战之一。“一个关键的想法是蛋白质结构的适当图像式表示,这样扩散模型就可以学习如何准确地生成新蛋白质,”来自温哥华但之前在韩国获得本科学位并在瑞士获得硕士学位的李说。选择多伦多大学攻读博士学位。
同样困难的是验证ProteinSGM生产的蛋白质。该系统生成许多结构,通常不同于自然界中发现的任何结构。Lee说,根据标准指标,几乎所有这些看起来都是真实的,但研究人员需要进一步的证据。
为了测试他们的新蛋白质,Lee和他的同事首先求助于OmegaFold,这是DeepMind软件AlphaFold2的改进版本。这两个平台都使用AI根据氨基酸序列预测蛋白质的结构。
通过OmegaFold,该团队证实几乎所有新序列都折叠成所需的新蛋白质结构。然后他们选择了一个较小的数字在试管中进行物理创建,以确认这些结构是蛋白质,而不仅仅是杂散的化合物串。
“通过OmegaFold中的匹配和实验室中的实验测试,我们可以确信这些是正确折叠的蛋白质。看到这些在自然界中任何地方都不存在的全新蛋白质折叠得到验证,真是令人惊讶,”Lee说。
Kim说,基于这项工作的下一步包括进一步开发用于抗体和其他具有最大治疗潜力的蛋白质的ProteinSGM。“对于研究和创业来说,这将是一个非常令人兴奋的领域,”他补充道。
Lee说他希望看到生成生物学朝着蛋白质序列和结构的联合设计方向发展,包括蛋白质侧链构象。迄今为止,大多数研究都集中在骨干的生成上,骨干是将蛋白质结合在一起的主要化学结构。
“侧链配置最终决定了蛋白质的功能,虽然设计它们意味着复杂性呈指数级增加,但通过适当的工程设计可能是可能的,”Lee说。“我们希望找出答案。”