泛转录组工具包分析全基因组RNA测序数据

导读 分析一个人的基因表达需要将他们的RNA景观映射到标准参考,以深入了解基因开启和在体内执行功能的程度。但是,当参考没有提供足够的信息来

分析一个人的基因表达需要将他们的RNA景观映射到标准参考,以深入了解基因“开启”和在体内执行功能的程度。但是,当参考没有提供足够的信息来进行准确映射时,研究人员可能会遇到问题,这个问题被称为参考偏差。加州大学圣克鲁斯分校(UCSC)的研究人员现在报告了他们提出的第一种使用“全转录组”分析全基因组RNA测序数据的方法,该方法结合了转录组和泛基因组——一种包含来自一群不同的人,而不仅仅是一个线性链。

该团队由UCSC生物分子工程副教授BenedictPaten博士领导,发布了一个工具包,允许研究人员将个人的RNA数据映射到更丰富的参考,解决参考偏差并导致更准确的映射。

“这是泛基因组加转录组——这种组合以前从未真正做过,”JordanEizenga博士说,他是研究人员发表的论文的共同第一作者,也是UCSC计算基因组学实验室的博士后学者。“这是第一次有人尝试将泛基因组纳入RNA测序图谱的标准特征。”研究人员已经使这些工具公开可用——可通过Github访问——并表示他们将帮助致力于通过RNA测序分析了解基因表达的科学家。“泛转录组由一组单倍型特异性转录本(HST)组成,是通过将转录本注释中的转录本投射(提升)到一组已知的单倍型上而构建的,”他们在发表在《自然方法》(NatureMethods)上的报告中总结道。

“通过这个工具包,我们正在利用我们现在可以从泛基因组中获得的更多样化的数据来改进基因表达数据的测量,这在个体之间可能存在很大差异,”Paten说。“目的是让这种更多样化的数据对正在研究基因表达的研究产生影响,从而更好地分析细胞模型、类器官模型和其他研究应用。”

Paten、Eizenga及其同事在一篇题为“使用拼接的泛基因组图进行单倍型感知转录组分析”的论文中描述了新工具包的开发,他们在文中指出,“我们的生物信息学管道为全转录组分析提供了一整套工具。它可以构建泛转录组,将RNA-seq读数映射到这些泛转录组,并通过单倍型分辨率量化转录。

RNA最普遍认可的功能是将DNA转化为蛋白质,但科学家们现在了解到,绝大多数RNA是非编码的,不会制造蛋白质,而是可以发挥影响细胞结构或调节基因等作用。整个RNA景观统称为转录组,对其进行映射可以让研究人员更好地了解个体的基因表达。“通过RNA测序(RNA-seq)进行的转录组分析已经成熟为研究细胞状态的标准且必不可少的工具,”作者指出。“用于处理RNA-seq数据的生物信息学工作流程通常从将读数与参考基因组或参考转录组进行比较开始。这是一种权宜之计,可用于分析高通量测序产生的大量数据。”

泛转录组建立在基因组学领域中新兴的“泛基因组学”概念之上。通常,在评估个体基因组数据的变异时,科学家会将个体的基因组与由单条线性DNA碱基链组成的参考基因组进行比较。使用泛基因组可以让研究人员同时将个体的基因组与遗传多样性的参考序列队列进行比较,这些参考序列来自代表生物地理祖先多样性的个体。这为科学家们提供了更多的比较点,以便更好地了解个体的基因组变异。“计算泛基因组学已成为减轻参考偏差的有力方法,”该团队继续说道。“泛基因组学方法在很大程度上依赖于丰富的、

映射RNA测序数据以了解基因表达可能很困难,因为RNA序列是由细胞机制拼接的,这意味着一组RNA数据可能来自基因组的非连接区域,这使得将它们与参考正确对齐变得具有挑战性。这些剪接位点在人群中并不统一,而是因人而异。也很难知道RNA来自哪种单倍型——这组基因是特异地来自从个体母亲遗传的染色体组,还是从父亲遗传的染色体组。

新的开源工具管道允许研究人员获取个体RNA的拼接片段,绘制它们在泛基因组上的对齐位置,确定数据属于哪种单倍型,并分析基因表达。

首先,管道识别RNA测序数据来自基因组的哪些区域,包括剪接位点,并在泛基因组参考上标记这些点。然后将这些标记点与泛转录组进行比较,该转录组由泛基因组中包含的参考数据生成的单倍型特异性转录本组成。这一步需要专门的、具有挑战性的算法方法。

最后,它根据映射数据和泛转录组中的转录本之间的这种比较生成基因表达水平的估计值,并确定基因来自哪些单倍型。“我们的工具链由VG工具包和独立工具RPVG组成,可以构建拼接的泛基因组图,将RNA测序数据映射到这些图,并对泛转录组中的转录本进行单倍型感知表达量化,”研究人员写道.“首先,VGRNA可以结合基因组变异数据和转录本注释来构建拼接的泛基因组图。接下来,VGMPMAP可以高精度地将RNA-seq读数与这些图对齐。最后,RPVG可以使用来自VGMMPAP的比对来量化单倍型特异性转录本表达。”

“这绝对是一项非常具有前瞻性的研究,因为其他全基因组表达方法尚未真正利用泛基因组和单倍型信息,”JonasSibbesen博士说,他是该研究的共同第一作者,也是UCSCComputational的前博士后学者基因组学实验室,现为哥本哈根大学助理教授。“我们现在正在考虑泛基因组学可能在转录组分析中额外带来什么。”

该团队在他们的论文中指出,一些下游应用已经很明显。该管道可用于研究单倍型特异性差异表达的原因。“我们通过研究基因组印迹展示了一个这样的例子,揭示了亚型水平印迹复杂模式的暗示性证据,”他们指出。科学家进一步建议,该管道可类似地用于研究单倍型特异性差异表达的其他来源。

另一个应用是从RNA-seq数据中表征编码区的基因型和单倍型。“我们通过调用基因型和HLA双倍型证明了这种能力,”他们指出,并承认“仍然需要努力提高HLA区域的计算效率和准确性。”尽管如此,研究人员表示,“对于所有这些应用,VGMPMAP–RPVG流程增加了无需配对基因组测序即可从RNA-seq数据中获得的信息。这将使低成本的研究设计和对现有数据的更深入的再分析成为可能。”

展望未来,研究人员有兴趣进一步开发这些工具以用于下游信息学分析,并针对单细胞数据研究的特殊性定制工具。目前,该小组希望他们的新工具包能够展示使用泛基因组学衍生分析的有用性。

“我们需要能够向一些研究人员解释泛基因组参考将如何使他们受益,”Paten说。“对于RNA、功能数据和表达数据,这条管道真的是第一次尝试。”