Cell Genom | 如何利用三维基因组图谱和机器学习识别胰腺疾病的驱动增强子
胰腺疾病(糖尿病、胰腺炎和胰腺癌)影响全球超过10%的人口,造成巨大的健康和经济负担。胰腺由外分泌(腺泡和导管细胞)和内分泌(α、β、δ细胞)两个功能区组成,这些细胞在发育过程中源自共同祖细胞,但具有高度特化的功能。增强子作为非编码调控元件,在建立和维持细胞身份中发挥关键作用。然而,GWAS研究发现超过90%的疾病相关SNP位于非编码区,其中80%以上位于增强子区域,我们不清楚这些非编码变异影响哪些增强子、这些增强子调控哪些靶基因、以及这种调控在哪种细胞类型中发挥作用。
尽管已有研究通过开放染色质分析和表观遗传标记在人类胰腺中鉴定了候选增强子区域,但缺乏大规模、细胞类型特异性的增强子-启动子3D互作图谱。现有少数3D染色质研究要么局限于整体胰岛分析而无细胞类型分辨率,要么样本量过小。此外,在固体器官如胰腺中进行细胞类型特异性的增强子功能验证极具挑战性。因此,迫切需要一套系统性方案来绘制增强子互作图谱、预测增强子功能重要性,并在原代组织中实现单细胞水平的实验验证,从而为解析胰腺疾病的遗传学基础提供工具和资源。
DOI:10.1016/j.xgen.2025.101040
2025年10月16日,美国NIH国家癌症研究所H. Efsun Arda课题组在《Cell Genomics》发表题为“Predictive prioritization of enhancers associated with pancreatic disease risk”的研究论文。该研究通过整合多组学技术(包括ATAC-seq和HiChIP),测绘了五种人类胰腺细胞类型(α、β、δ、腺泡和导管细胞)的增强子-启动子三维互作图谱,并创新性地开发了机器学习算法EPIC,以预测和优先排序增强子对细胞特异性基因表达的功能影响。通过在原代细胞中进行CRISPR功能验证,该框架成功将与糖尿病、胰腺癌等疾病相关的遗传风险位点与特定的细胞类型、候选增强子及其靶基因相连接,其中一项关键发现是,胰腺癌的遗传风险与腺泡细胞的调控元件表现出比导管细胞更强的关联性,为理解疾病机制提供了新的视角。
研究思路/技术路线
向下滑动或点击放大查看所有内容
关键研究结果
绘制胰腺细胞特异性的三维基因组互作图谱
该研究首先建立了高分辨率、细胞类型特异性的染色质互作图谱。研究人员从28位器官捐赠者的胰腺组织中,通过FACS分离出五种高纯度的细胞群体:α-细胞、β-细胞、δ-细胞、腺泡细胞和导管细胞。随后,他们对这些细胞同时进行了ATAC-seq和H3K27ac HiChIP测序分析。HiChIP结果鉴定出349,749个染色质互作,这些互作涉及80,947个增强子和35,802个启动子,覆盖116,935个开放染色质区域。不同细胞类型展现出高度特异的互作模式:内分泌细胞(α、β、δ)之间的互作模式相似度较高,而外分泌细胞(腺泡和导管)则呈现截然不同的调控网络。其中73%的增强子跳过最近的基因进行远程调控,互作中位距离达到125 kb,这表明简单的"最近基因"注释策略会导致大量误判。通过ATAC-seq分析结果发现启动子的染色质互作连接性远高于增强子:90%的启动子参与多个互作(中位数7个连接),而增强子仅34%参与多个互作。
构建“增强子-启动子树”模型以解析基因调控网络
为了系统性地解析复杂的染色质互作数据,研究人员引入了基于图论的“增强子-启动子树”模型。在该模型中,每个基因的启动子被定义为“树根”,所有与之发生染色质互作的增强子则构成“树枝”上的节点,而互作本身则为连接节点的“边”。这种建模方式使得对基因调控的复杂性和层次性进行定量分析成为可能。
分析这些“树”模型揭示了几个关键的调控规律。首先,绝大多数增强子通过直接的染色质环与启动子相连(即E1增强子),并且这些直接互作的增强子往往比间接互作的增强子(E2)更能跨越更长的线性基因组距离。
其次,超过80%的增强子会跳过其线性距离上最近的基因,而去调控一个更远端的基因;这些被远端调控的基因,其表达水平和细胞类型特异性通常显著高于被跳过的基因。此外,一个基因所连接的增强子数量(即tree size)与其表达丰度和特异性呈正相关。
开发EPIC机器学习模型以预测关键增强子
在树模型的基础上,研究开发了一种名为EPIC(Enhancer Prioritizer using Integrated Chromatin data)的机器学习算法,其核心目标是预测并排序对基因表达贡献最大的增强子。该算法使用k-近邻(k-NN)分类器,整合了来自树模型的多种染色质特征(如增强子的ATAC-seq信号强度、HiChIP互作频率等)作为输入变量,用以预测一个基因是否具有细胞类型特异性表达。
EPIC算法最具创新性的一点在于其评估增强子功能重要性的方法。通过在模型中以迭代的方式模拟删除每一个增强子节点,并计算该删除操作对模型预测准确性造成的影响,算法能够为每个增强子赋予一个量化的“效应值”。
效应值越高的增强子,意味着其对维持靶基因的特异性表达贡献越大。为了验证EPIC的预测能力,研究人员在原代胰腺细胞中利用CRISPRa技术激活EPIC预测出的高效应值增强子,并通过RNA-FISH单细胞成像技术观察到靶基因(PCSK1和PCSK2)表达的显著上调,实验结果与模型的预测高度吻合。
链接胰腺疾病遗传风险位点与候选功能元件
最后,该研究将建立的分析框架应用于解析胰腺相关疾病的遗传基础。通过将GWAS发现的疾病风险SNPs与细胞特异性的增强子图谱进行整合分析。结果发现,2型糖尿病(T2D)的风险SNPs如预期般在胰岛细胞(尤其是β-细胞)的增强子中显著富集。
重点是,与胰腺导管腺癌(PDAC)相关的遗传风险变异,在腺泡细胞增强子中的富集程度显著高于传统的嫌疑细胞——导管细胞。
为了验证这一关联,研究团队锁定了一个位于XBP1基因座的腺泡细胞特异性增强子,该增强子富含PDAC风险SNPs,且被EPIC预测为高效应值。通过CRISPRi技术抑制该增强子的活性,他们成功地在原代腺泡细胞中观察到XBP1基因转录水平的显著下降,从而证实了该风险位点与靶基因之间的功能联系。这一系列结果证明,该研究建立的技术路线能够有效地将GWAS发现的抽象风险位点,转化为具体的细胞类型、功能元件和靶基因,为深入理解疾病的发病机制提供了关键线索。
- - - 推荐阅读 - - -

Cancer cell | ecDNA利用其超级增强子驱动相分离形成核内凝聚体,高效激活致癌转录
科学家们发现,ecDNA不仅仅通过增加癌基因拷贝数来促癌,它们还具有一种更隐秘的能力——充当"移动增强子"【6】。这些环状DNA携带的超级增强子区域,可以跨越染色体疆界,与远处的染色体基因建立联系,像遥控器一样远程激活这些基因的表达。
2025-10-24

Nature | 大脑如何变老?基因组-转录组变化洞察人脑衰老的演化
研究的核心结论是,健康大脑的衰老并非源于神经元功能身份的丧失,而是一场由基因“使用成本”驱动的、普遍性的细胞基础维护能力下降。
2025-10-11

Science | 靶基因如何限制其增强子的作用范围?基因调控新发现
基因调控新发现
2025-09-26