Prime编辑和机器学习帮助研究人员确定遗传缺陷的最佳修复方法

WellcomeSangerInstitute的研究人员使用primeediting开发了一种新工具来预测将基因编辑的DNA序列成功插入细胞基因组的可能性。科学家表示,PrimeEditing是CRISPR-Cas9基因编辑技术的一种演变,具有治疗人类遗传病(从癌症到囊性纤维化)的巨大潜力,他们补充说,到目前为止,决定编辑成功的因素尚不清楚.

他们的研究“使用prime编辑将短序列写入基因组的序列和DNA修复决定因素”发表在NatureBiotechnology上,评估了使用prime编辑引入基因组的数千种不同DNA序列。这些数据随后被用于训练机器学习算法,以帮助研究人员设计针对给定遗传缺陷的最佳修复方案,这有望加快将prime编辑带入临床的努力。

这些技术的最终目的是纠正人类基因中的有害突变。超过16,000种小的缺失变异——其中少量DNA碱基已从基因组中移除——与疾病存在因果关系。这包括囊性纤维化,其中70%的病例是由仅三个DNA碱基缺失引起的。2022年,碱基编辑的T细胞成功用于治疗化疗和骨髓移植失败的白血病患者。

在这项新研究中,WellcomeSangerInstitute团队设计了3,604个长度在1到69个DNA碱基之间的DNA序列。这些序列被插入到三种不同的人类细胞系中,在不同的DNA修复环境中使用不同的primeeditor传递系统。一周后,对细胞进行基因组测序,以确定编辑是否成功。

评估每个序列的插入效率或成功率以确定每次编辑成功的共同因素。发现序列的长度是一个关键因素,所涉及的DNA修复机制的类型也是如此。

“成功进行基因组主要编辑的变量很多,但我们开始发现哪些因素可以提高成功的机会。序列的长度是这些因素之一,但它并不像序列越长插入越困难那么简单,”该研究的第一作者、博士生JonasKoeppel说。“我们还发现一种类型的DNA修复阻止了短序列的插入,而另一种类型的修复阻止了长序列的插入。”

检测决定插入成功的模式

为了帮助理解这些数据,研究人员转向机器学习来检测决定插入成功的模式,例如长度和所涉及的DNA修复类型。在对现有数据进行训练后,该算法将在新数据上进行测试,并发现可以准确预测插入成功。

“简而言之,三个DNA字母的几种不同组合可以编码蛋白质中的相同氨基酸,”博士生和该研究的第一作者JulianeWeller补充道。这就是为什么有数百种方法可以编辑基因以在蛋白质水平上实现相同的结果。通过将这些潜在的基因编辑输入到机器学习算法中,我们创建了一个模型来根据它们起作用的可能性对它们进行排名。我们希望这将消除主要编辑中涉及的大部分试验和错误,并大大加快进度。”

该团队的下一步将是为所有已知的人类遗传疾病制作模型,以更好地了解是否以及如何使用primeediting来修复它们。这将涉及桑格研究所的其他研究小组及其合作者。

“原始编辑改善人类健康的潜力是巨大的,但首先我们需要了解进行这些编辑的最简单、最有效和最安全的方法,”该论文的资深作者LeopoldParts博士指出。“这一切都是为了理解游戏规则,这项研究产生的数据和工具将帮助我们做到这一点。”