具有转录活性的常染色质特点构象捕获技术的特点是什么?

直系师兄一直在做染色体结构表观遗传和疾病之间的关系。前一段时间师兄让我在组会上分享关于三维基因组学的一些内容,部分内容整理如下:首先介绍一下三维基因组学的诞生我们知道我们所在的空间是一个三维空间,而不是一个二维平面的东西。我们的染色质也并不是平铺在我们的细胞核内,而是在空间内有一个立体的结构。我们在学习有丝分裂的时候会注意到染色质解螺旋变成染色体,而在平时就是高度螺旋化的状态。结构决定功能,这样高度螺旋化的空间结构势必会对生命体复杂的功能造成影响。那么我们的染色质结构到底是什么样的呢?下面我们来介绍真核生物中染色质的结构[1]:真核生物细胞核内染色质的结构我们知道对于染色质结构的认识是非常漫长也非常复杂的:我们从一级结构开始分析,在这一层面我们能够检测到的就是碱基序列的排布,也就是我们通常进行的基因组测序信息的分析,在这些序列上会有一些甲基化的修饰,这些修饰可以通过BS-seq检测到。除了能够检测到的碱基序列和表观修饰之外,我们还发现DNA会缠绕在组蛋白八聚体上形成一个核小体结构,在核小体上面也会携带一系列的表观修饰,包括甲基化修饰或者乙酰化修饰等,这些组蛋白修饰可以通过ChIP-seq检测到。我们知道这些核小体的分布在染色质的有一些地方是致密的有一些是疏松的,而疏松的地方会空出很多裸露的片段,这些裸露的片段恰恰就是转录发生的地方,也就是我们所谓的开放区域,这个开放结构我们可以通过ATAC-seq检测到。再往上走,我们的染色质结构会缠绕成三维立体的高级结构,从电镜我们可以看到有些地方比较深,有些地方比较浅。这也就是我们所说的常染色质和异染色质。常染色质易被碱性染料染成浅色,常位于细胞核的中心,而异染色质易被碱性染料染成深色,常位于细胞核的边缘和核仁周围。这些一系列的层次结构就组成了我们细胞核内的静态画面。从以上的描述中,可以看到我们对于基因组的序列、表观修饰等方面都有了长足的认知。我们对基因组学的研究越来越深入,因此染色质的结构与基因组功能间的关系越来越成为大家关注的焦点,三维基因组学应运而生。首先介绍一下三维基因组学的概念:它是基因组三维空间结构与功能研究的简称,旨在考虑基因组序列、基因结构、调控元件的同时,对基因组序列在细胞核内的三维空间结构,及其在基因转录、调控、复制和修复等生物过程中的功能进行研究。三维基因组学的进展史也可以说是我们对于染色质结构分辨率的不断提升的过程,最开始我们认识到染色质在细胞核内分布的并不是随机分布的,而是不同染色体占据不同的空间。这就是所谓的CT疆域(chromosome territories)。随着染色质构建捕获技术(看的是染色体上不同位点的相互作用)的不断发展,从3C-4C-5C-Hi-C。最早的3C只能研究一个位点对另外一个位点的相互作用(一对一)。而后又发展出了4C(一对全),5C(多对多),Hi-C(全对全)等技术。三维基因组技术发展图不同技术的比较:我重点介绍一下Hi-C技术。什么是Hi-C,Hi-C (High-through chromosome conformation capture) 是以整个细胞核为研究对象,利用高通量测序技术,结合生物信息分析方法, 研究全基因组范围内整个染色质DNA在空间位置上的关系, 获得高分辨率的染色质调控元件相互作用图谱。Hi-C技术的流程[2]:用甲醛对细胞进行固定,使 DNA 与蛋白,蛋白与蛋白之间进行交联(图中DNA片段:蓝色,红色。中间的环状的是protein);进行酶切(HindIII),使交联两侧产生粘性末端;末端修复,引入生物素标记,连接;解交联,使 DNA 和蛋白、蛋白和蛋白分开,提取DNA,打断,捕获带有生物素标记片段,进行建库;高通量测序Hi-C的数据分析流程:前期raw reads过滤(跟一般二代测序数据处理基本一致)序列比对。建议采用pair-end模式定位酶切位点。比对寻找到reads pairs在基因组物理位置之后,通过插入片段大小的限制搜索reads pairs两端每条read所对应的最近的酶切片段。酶切片段的位置代表了DNA交互产生的大致位置筛选出有效的比对片段。配对的reads位于酶切位点两端且mapped的方向相反整合DNA片段交互强度。DNA片段交互矩阵标准化。compartments分析TAD分析显著互作分析常用软件:通过技术的不断发展,人们对染色质空间结构的认知不断加深。我们发现了A/B compartments、TAD和loop结构。A/B compartments的划分是根据染色质的活性来划分的。A compartments:开放的染色质,表达活跃,基因丰富,具有较高的GC含量,包含用于主动转录的组蛋白标记,通常位于细胞核的内部。B compartments:关闭的染色质,表达不活跃,基因缺乏,结构紧凑,含有基因沉默的组蛋白标志物,位于核的外围在染色质区室中,我们还会发现互相作用相对频繁的基因组区域,这些就是拓扑相关结构域 TAD。在哺乳动物基因组中,TAD通常由CTCF这个转录抑制因子给分割开来。CTCF还会和Cohesin蛋白复合物结合,帮助基因组形成相对稳定的三维结构。正由于此,两个TAD之间的转录活性是非常低的(转录需要打开DNA),而结合CTCF等转录抑制因子的DNA元件,也被称为insulator(绝缘子)。在TAD内部是非常活跃的。CTCF在帮助基因组DNA凹造型的同时,把DNA元件给绑到了一起。而这样相互作用的元件,通常是enhancer(增强子)和promoter(启动子),他们往往分布在相距很远的染色质区域,却因为CTCF蛋白在三维空间中聚集在一起,我们把这种结构称之为loop[3]。我们进一步从空间结构上来认识loop、TAD和compartments之间的关系[4]。compartments内有很多活跃的区域构成了很多的TAD,TAD内有loop。因此我们通过Hi-C分析三维基因组时常常是从loop、TAD和compartments三个层次的拓扑结构来进行解析。下面得到的是Hi-C中最经典的一张图:染色体位点互作图Hi-C染色体位点互作图红色代表位点间相关作用强,依次我们会有一些认知:蓝色是A区室,黄色是B区室。不同compartments之间的相关作用是比较低的,更多的是compartments内部的相关作用。红色区域也就是活跃区域就是我们所谓的TAD区域,就是图中放大了的三角形。每一个三角形是一个TAD。不同的TAD区域之间更多是独立的。因此对于TAD的边界定义是非常重要的。真核生物TAD边界通过会有CTCF蛋白结合,如果边界不能结合CTCF蛋白,也就意味着边界的模糊和损坏,不同的TAD之间的相关作用就会增强,就可能会发生一个TAD内某些不应该被表达的基因被另外一个的enhance激活[5]。Joanna Achinger-Kawecka;Epigenomics (2017) 9(1), 47–55绿色代表enhancer,粉色圆圈代表TAD边界的CTCF结合位点,棕色代表promoter。红色长方形代表癌基因。Darío et al. 2015, Cell如上图所示,手指发育畸形就与TAD边界的缺失有关。其他Hi-C分析常见的图片:cis/trans互作比例:染色体间和染色体内的互作关系图哺乳动物内染色体内部的互作要远远大于染色体间的互作,如果发现染色体间的互作更大,很可能发生了一些融合或者其他的现象。compartments进行区室外之间的互作关系分析:不同区室之间的互作关系是比较弱的,如果发生了区室间的相关作用,是否考虑区室的偏移问题。TAD分析结合ChIP-seq可以分析TAD的边界以及TAD内部相关作用。Hi-C技术应用:解析全基因组互作模式辅助基因组组装宏基因组学研究基因组分型分析……^Yadav et al. 2018, Science^Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome. Erez Lieberman-Aiden et al. science 2009^Rao et al. 2014, Cell^Large-Scale Topological Changes Restrain
Malignant
Progression in Colorectal Cancer^Darío et al. 2015, Cell}
前言基因组是生命体完整的遗传信息。而基因组学则是研究基因组结构、功能与进化的学科。自上世纪八九十年代以来,随着技术的发展,基因组学取得长足发展:从过去获得核酸的序列,到如今对序列功能的描绘。生物学中有一个基本观点:结构与功能相适应。尽管提到核酸链的结构,绝大多数人的第一反应是“双螺旋”模型,但是,基因组的物理结构,却远比双螺旋来得复杂——核酸链会在蛋白质的辅助下,形成更加高级的结构。这也催生了基因组学中一门子学科的诞生:三维(3D)基因组学。在正式介绍3D基因组学之前,不妨先来回顾人类对遗传奥秘探索的历程。这将有助于我们认识,我们走过了哪些路,如今处在什么位置,而未来还能朝何处走。1.
一点历史背景倘若仅是回望基因组学本身的发展历程——从1977年首个生物基因组噬菌体φX174序列被测定,到2003年人类基因组计划完成,再到2012年ENCODE计划完成——还不足以代表人类解读生命遗传奥秘的历史。我们更应该回顾和基因组学不分家的遗传学之发展历程。高中的生物学课堂就已经学到,Gregor Johann Mendel(孟德尔)是遗传学的奠基人,他的“豌豆杂交实验”(1856-1863年),依然是中学生物考题的常用材料。随后,对孟德尔由路转粉的Thomas Hunt Morgan(摩尔根)利用果蝇的突变体,首次确认基因位于染色体上,提出“连锁互换定律”,成为了现代遗传学的奠基人(1908-1915;摩尔根的贡献非常多,这个时间段只是一个粗略的标记)。对如今的我们来说,不难理解DNA与RNA是携带遗传信息的物质。不过在上世纪中期以前,世人还认为蛋白质才是遗传物质。1928年,Frederick
Griffith(格里菲斯)的“肺炎双球菌转化实验”,提出了转化因子学说。但直到1944年,Oswald Avery、Colin MacLeod和Maclyn McCarty三人通过比较蛋白质、多糖与DNA等的转化效应,才逐渐树立了DNA是遗传物质的地位。到了1952年,Alfred Hershey与Martha Chase利用同位素分别标记蛋白质和DNA,最终确认了DNA是遗传物质。早在DNA发现之初(1869年,Friedrich Miescher),科学家便展开了对其物理结构的鉴定。但一直到1953年,才由James Watson和Francis Crick阐明了DNA的双螺旋结构。真核生物的基因组含有大量的结合蛋白,包括组蛋白。在原核生物中,也有组蛋白样的DNA结合蛋白。1974-1976年间,科学家首次获得DNA缠绕在组蛋白上的电镜照片(Science.
1974 Jan 25;183(4122):330-2.,Exp Cell Res. 1976
Jan;97:101-10.),并最终在1997年获得结晶结构(Nature.
1997 Sep 18;389(6648):251-60.)。DNA-组蛋白这种beads on
a string“串珠式”的结构,能够显著缩短DNA链在一维水平的尺度,大概7倍。形象一些,对于人类全部DNA而言,将DNA链线性展开,能得到约为2米的长链,再经串珠式压缩,也还有约29厘米。显然,这对于袖珍的细胞核来说,这种结构依然太大了。对染色体的形态观察也提示,DNA与结合蛋白一定形成了更加高级的结构。2005年,Timothy J.
Richmond团队首次报道了chromatin fiber(染色质纤维)的结构。2014年,中国科学家Ping Zhu和Guohong Li小组得到了更加精确的染色质纤维结构。他们的研究都证明,DNA-组蛋白的串珠式结构,还会进一步被压缩成直径仅有30纳米的纤维结构。而在目前的理论模型中,这些染色质纤维还会在包括Cohesin、CTCF等蛋白的帮助之下,扭曲成环,形成更加复杂的结构,最终被压缩成染色体。(如下图所示。以及参考这个有点魔性的视频:DNA Molecule: How DNA is Packaged (Advanced))2.
3D基因组学的时代讲了半天历史,目的是为了让各位读者能够得到这样一个基本认识:生命体的遗传功能元件,包括编码基因、非编码基因、顺式调控元件等,在空间结构上,并不是在染色体上呈线性地一字依次排开,而是随着DNA形成复杂高级结构的同时,具备了三维组织形式。为了加深印象,我们不妨再来看下方另外一幅染色体结构的卡通。简而言之,DNA双链就跟纠缠在一起的电话线一般,一圈圈地绕行、压缩,最终形成了染色体。也正因为有这种绕圈圈的压缩方式,我们不难想象,DNA能够密密麻麻地形成许多环状结构。这些环状结构还能再继续绕圈压缩下去。换句话说,在DNA一维层面上相隔比较远的区域,反而有可能靠得更近。比方说下图中的ABCD四个点,若以A为参照物,C比B远,但由于基因组形成了高级结构,反而把A和C拉得更近。这个示意图还提示了另外一个问题,即同一条染色体上的某些区域,可能很难互相接触,比如B和D之间就,被环状结构给隔开了。DNA这种相对稳定的高级结构,是由蛋白质来维持的。这同时也为破解基因组的三维结构奠定了技术基础。我们再来利用上面那个ABCD四个小点的图来理解这一项技术。假如说,A和C是帮助DNA凹造型的蛋白,并且它们靠得很近,甚至有蛋白-蛋白相互作用。这时,我们使用甲醛等交联剂,就可以把DNA-结合蛋白以及他们之间形成的高级结构给固定下来。但这种复合物体积非常庞大,为了方便测序建文库,我们需要将DNA利用超声或限制性内切酶打碎。这时候我们得到的,就是许许多多由蛋白质紧紧锁住的包含缺口的小结构。我们再用酶把这些断裂的DNA给修复回去,就会得到许多能够发生相互作用的、具备环状结构DNA了。最后,我们再通过测序的方法就能发现,原本中间隔了个B的A和C位点,居然靠到一起,而C和D虽然很靠近,但却可能测不到它们在一起。上面所述的方法,便是染色质构象捕获(Chromatin Conformation Capture)技术。大致的流程,可以看下面的图片。最早的技术路线(简称3C,源自英文名首字母),只能研究一个位点对另外一个位点的相互作用(一对一)。而后又发展出了4C(一对全),5C(多对多),Hi-C(全对全),Capture-C(多重一对一)等技术。只是随着复杂度的提高,分辨率也会降低。相关综述可以看这篇文章Unraveling the 3D genome: genomics tools for multi-scale exploration,这里就不详述了。3.
基因组的三维结构形成遗传功能结构域通过构象捕获技术,从全基因组的角度而言,科学家都得到了什么样的发现呢?许多小组都发现了一个共同现象:如下图所示,基因组的相互作用,因其三维的物理结构,形成了许多分区。为了读懂这个图,我们需要先理解它是如何绘制。假设线性的染色体座位的蓝、橙、绿三点之间能够发生相互作用,我们就用线段把它们连起来,形成一个等腰三角形,并在线段的交叉点,用颜色的深浅,来代表相互作用的频率,或者说强度。通过这种方法作图,可以得到许多三角形结构,密集排布在染色体之上。有些小的三角形,颜色比较深,代表着这个三角形内部的相互作用更频繁,同时它们之间甚至有些“泾渭分明”地相邻排布,即甚少与相邻区域发生相互作用,从而形成不同的结构域。科学家将这样的结构域称为Topologically Associating Domain(TAD,中文名姑且翻译为“拓扑相关结构域”)。但又不是说,小结构域之间就绝对不会发生相互作用了,只是频率会比较低。数个相邻且又能发生相互作用的TAD,就形成了Superdomain(超结构域)。随着在染色体上的物理距离增大,相互作用的频率会呈负指数式降低。TAD里面会是些什么东西呢?在哺乳动物基因组中,TAD通常由CTCF这个转录抑制因子给分割开来。CTCF还会和Cohesin蛋白复合物结合,帮助基因组形成相对稳定的三维结构。正由于此,两个TAD之间的转录活性是非常低的(转录需要打开DNA),而结合CTCF等转录抑制因子的DNA元件,也被称为insulator(绝缘子)。不过,在TAD内部可就热闹了。CTCF在帮助基因组DNA凹造型的同时,就把线性展开时距离较远的DNA元件给绑到了一起。而这样相互作用的元件,通常是enhancer(增强子)和promoter(启动子)。这样做有两个好处。一是缩短了enhancer和promoter之间的空间距离,增强了基因的转录。二是给调控元件合理分区,使得基因转录在不同发育阶段、不同生理条件下,受到特定enhancer的调控。比方说,在胚胎发育早期,干细胞那套基因的表达会占主导。随着发育的进行,表达模式会逐渐替换成特定lineage的基因,再到成熟细胞的基因。倘若没有这样的动态调整的三维分区,这种基因的空间与时序性表达机制,估计就很难实现了。当然,这里并不是在表达一种设计论的观点。这种精致的调控机制,是在漫长的进化过程中,逐渐选择、适应的结果。TAD除了形成相对稳定的遗传信息表达功能结构之外,还有其他重要的生物学意义。比如它同样也是细胞周期S期时,DNA复制的结构单元。在不久的将来,科学家还将发现更多的三维基因组功能。4.
基因组的三维结构与人类疾病读到这里,我想各位读者应该不难理解,假设基因组的三维结构出了差错,后果可是相当严重。这里本司机举两个例子来说明。首先,维系正常的基因组三维结构,对保持正常的发育进程有重要的意义。早有文献通过经典的遗传学方法,将F syndrome(表现为手指、脚趾、腭和胸骨发育异常)这种遗传疾病定位到了染色体2q36处。这个区域含有对发育具有重要意义的IHH、WNT6A、WNT10A、PAX3和STK36等基因。如下图所示,最近的研究证明,在有些F syndrome的病例中,WNT6A基因所在的TAD边界染色体区域发生了翻转,使得相邻TAD的增强子跑到WNT6A所在的TAD之中,导致WNT6A异常表达。在小鼠模型中,用CRISPR敲除PAX3基因所在TAD的边界,同样会导致相邻TAD的增强子跑过来调控PAX3,使其表达量异常升高,造成小鼠指骨发育异常。与此对照,用CRISPR敲除相邻TAD内部的序列,不碰及PAX3所在TAD的边缘,PAX3基因的表达水平就不会异常升高,也不会有发育异常现象。第二个例子来自于癌症。肿瘤细胞的基因组是非常混乱的,有许多扩增、缺失和易位。拿原癌基因为例,它的高表达可以来自于原癌基因本身的拷贝数增加,也可以是其表达调控机制得到了增强。这篇综述(Copy number alterations unmasked as enhancer hijackers.)为我们详解,非编码区域拷贝数的异常,是如何导致原癌基因的过度表达的。比如说,MYC基因座位的易位,导致它跑到一个IGH增强子附近(a)。MYB基因附近的染色体区域缺失,把远处的QKI增强子给带到它身边(b)。TAL1所在TAD边缘的染色体区域缺失,导致相邻增强子越俎代庖(e)。IGF2基因座位跨TAD的倍增,导致原本不能调控IGF2的、来自隔壁TAD的增强子,推动了IGF2的表达(f)。其他的机制,就请读者自行读图。而这种现象,科学家将其命名为enhancer
hijacking(增强子绑架)。结语自孟德尔以来,遗传学与基因组学的历史不过百余年。但也就在这百余年中,这两个领域的发展如同其他生物学学科一般,可谓突飞猛进。对80后而言,我们在中学课堂方才学到人类基因组计划,但转眼之间,基因组学就进入了3D的时代。而在六七十年前,人类甚至还搞不清楚DNA是一种遗传物质。虽然研究基因组三维结构的染色质构象捕获技术3C早在2002年就诞生了,但直到近年更高复杂度的捕获技术的出现,3D基因组领域才变得火热起来。毫无疑问,3D基因组学也面临着和经典基因组学同样的挑战:如何将结构与功能联系起来。在不久的将来,科学家们还必须回答另外一个问题,即如何结合3D基因组学的成果,用于治疗人类疾病。}

我要回帖

更多关于 简述真核生物转录水平的调控机制 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信