首页>>健康 >>内容

新的统计方法改进了基因组分析

发布时间:2022-11-15 09:41:27编辑:愉快的缘分来源:

一种新的统计方法提供了一种更有效的方法来揭示跨越多种条件(例如细胞类型或组织)的基因组数据中具有生物学意义的变化。

新的统计方法改进了基因组分析

全基因组研究产生了大量的数据,从数百万个单独的DNA序列到关于数千个基因的表达位置和数量的信息,再到功能元件在基因组中的位置。由于数据的数量和复杂性,比较不同的生物条件或不同实验室进行的研究在统计上具有挑战性。

宾夕法尼亚州立大学统计学副教授李群华说:“当你有多个条件时,困难在于如何以一种既具有统计功能又具有计算效率的方式一起分析数据。”

“现有方法的计算成本很高,或者产生的结果难以用生物学解释。我们开发了一种名为CLIMB的方法,它改进了现有方法,计算效率高,并产生了生物学上可解释的结果。我们对从中收集的三种基因组数据测试了该方法造血细胞——与血液干细胞有关——但该方法也可用于分析其他‘组学’数据。”

研究人员在NatureCommunications杂志上发表的一篇论文中描述了CLIMB(CompositeLIkelihoodeMpiricalBayes)方法。

“在信息如此多但来自相对较少的个体的实验中,能够尽可能有效地使用信息是有帮助的,”希拉里科赫说,她在研究期间是宾夕法尼亚州立大学的一名研究生,现在是一名高级统计学家在现代。“能够一起查看所有内容甚至使用相关实验的信息具有统计优势。CLIMB使我们能够做到这一点。”

CLIMB方法使用两种传统技术的原理来分析多种条件下的数据。一种技术使用条件之间的一系列成对比较,但随着附加条件的添加,解释变得越来越具有挑战性。

一种不同的技术将每个受试者在不同条件下的活动模式组合成一个“关联向量”,例如,一个基因在许多细胞类型中被上调、下调或没有变化。关联向量直接反映了条件特异性的模式,易于解释。

然而,由于即使只有少数几个条件,许多不同的组合也是可能的,因此计算量非常大。为了克服这一挑战,第二种方法本身就如何简化并不总是正确的数据做出了假设。

“CLIMB使用了这两种方法的各个方面,”科赫说。“我们最终分析关联向量,但首先我们使用成对分析来识别可能预先存在的模式。我们没有对数据做出假设,而是使用成对信息来消除数据不强烈支持的组合。这极大地减少了跨条件的可能模式空间,否则会使计算变得如此密集。”

在编译了减少的可能关联向量集之后,该方法将跨条件遵循相同模式的主题聚类在一起。例如,结果可以告诉研究人员一组基因,这些基因在某些细胞类型中集体上调,但在其他细胞类型中下调。

研究人员使用一种称为RNA-seq的技术对从实验中收集的数据测试了他们的方法,该技术可以测量细胞中表达的所有基因所产生的RNA的数量,以检查某些基因是否有助于确定造血干细胞的类型细胞最终变成。

“与流行的成对方法相比,我们的结果更加具体,”李说。“我们的基因列表更简洁,在生物学上也更相关。”

虽然传统的成对方法确定了六到七千个感兴趣的基因,但CLIMB产生了一个范围更窄的两到三千个基因的列表,其中至少有1000个基因在这两种分析中被识别出来。

“不同的血细胞类型具有多种功能——一些变成红细胞,另一些变成免疫细胞——我们想知道哪些基因更有可能参与决定每种不同的细胞类型,”T.RossHardison说。宾夕法尼亚州立大学MingChu生物化学和分子生物学教授。

“CLIMB方法提取了一些重要的基因;其中一些我们已经知道,另一些则增加了我们的知识。但不同之处在于,这些结果比以前的分析结果更具体,也更容易解释。”

研究人员还将CLIMB用于不同实验技术ChIP-seq产生的数据,该技术可以识别某些蛋白质在基因组中与DNA结合的位置。他们探索了一种名为CTCF的蛋白质(一种有助于在细胞核中建立基因调控所需的相互作用的转录因子)的结合如何在全部源自同一造血干细胞的17个细胞群中发生或不发生变化。

CLIMB分析确定了不同类别的CTCF结合位点,一些揭示了该转录因子在所有血细胞中的作用,另一些则显示了在特定细胞类型中的作用。

最后,该团队探索了另一种名为DNase-seq的实验技术的数据,该技术可以识别调控区域的位置,以比较38种人类细胞类型中染色质(一种DNA和蛋白质的复合物)的可及性。

“对于所有三项测试,我们想看看我们的结果是否具有生物学相关性,因此我们将我们的结果与独立数据进行了比较,例如组蛋白修饰和转录因子足迹的高通量测序研究,”Koch说。

“在每种情况下,我们的结果都与这些其他方法相对应。接下来,我们希望提高我们方法的计算速度并增加它可以处理的条件数量。例如,染色质可及性数据可用于更多细胞类型,所以我们很乐意增加CLIMB的规模。”