全面的基因图谱揭示了30000个人类疾病区域的回路

DNA基因图谱概念

在一项新的研究中,来自麻省理工学院(MIT)的一组研究人员公布了迄今为止最全面的非编码DNA图谱。非编码DNA占人类基因组的98%以上。

分析显示遗传控制元素与数百种人类特征相关联。

20年前的这个月,人类基因组的第一份草案公开发布。该项目的主要惊喜之一是发现人类基因组中只有1.5%是由蛋白质编码基因组成的。

在过去的二十年里,很明显那些非编码的延伸DNA它在发育和基因调控中发挥着关键作用。在2021年2月3日发表的一项新研究中,来自麻省理工学院发表了迄今为止最全面的非编码DNA图谱。

这张图提供了表观基因组标记的深入注释——修饰表明不同类型的细胞中哪些基因被打开或关闭——涵盖了833种组织和细胞类型,比之前的研究有了显著的增加。研究人员还发现了一组控制特定生物程序的调控元素,并发现了与540个特定性状相关的约3万个遗传变异的候选作用机制。

“我们提供的实际上是人类基因组的电路。二十年后,我们不仅有基因,我们不仅有非编码注释,但我们有模块,上游监管机构、下游目标,疾病变异,这些疾病变异的解释,“计算机科学教授Manolis凯利斯说,麻省理工学院计算机科学和人工智能实验室和麻省理工和哈佛大学的新研究的资深作者。

麻省理工学院研究生Carles Boix是这篇论文的第一作者,论文发表于2021年2月3日自然。该论文的其他作者是麻省理工学院的研究生本杰明·詹姆斯(Benjamin James)和前麻省理工学院博士后朴永进(Yongjin Park)和沃特·莫尔曼(Wouter Meuleman),他们现在分别是英属哥伦比亚大学(University of British Columbia)和阿尔提乌斯生物医学研究所(Altius Institute for Biomedical Sciences)的首席研究员。研究人员把他们所有的数据公开供更广泛的科学界使用。

外遗传性控制

在人类基因组的顶层——构成遗传密码的核苷酸序列——是表观基因组。表观基因组由化学标记组成,这些化学标记有助于确定哪些基因在不同的时间和不同的细胞中表达。这些标记包括组蛋白修饰,DNA甲基化,以及给定DNA片段的可及性。

“表观基因组学直接读取我们细胞使用的标记,以记住在每一种细胞类型和我们身体的每一种组织中开启和关闭什么。它们就像便利贴、荧光笔和下划线一样,”凯利斯说。“表观基因组学让我们能够了解每种细胞类型中被标记为重要的细胞,从而理解基因组实际上是如何工作的。”

映射这些表观基因组注释可以揭示遗传控制元素,以及不同元素活跃的细胞类型。这些控制元素可以被分成集群或模块,共同作用来控制特定的生物功能。其中一些元素是增强因子,它们与激活基因表达的蛋白质结合,而另一些是抑制因子,关闭基因。

新的地图,EpiMap(多个注释项目的表观基因组整合),建立并结合了几个大型地图联盟的数据,包括ENCODE、路线图表观基因组学和基因调控基因组学。

研究人员总共收集了833个生物样本,代表了不同的组织和细胞类型,每一个样本都用略微不同的表观基因组标记子集进行映射,这使得在多个联盟中完全整合数据变得困难。然后,他们将类似标记和生物样本的可用数据结合起来,填补了缺失的数据集,并利用833个生物样本中10,000个标记的结果汇编来研究基因调控和人类疾病。

研究人员对200多万个增强子位点进行了注释,只覆盖了每个生物样本的0.8%,而总共覆盖了基因组的13%。他们根据它们的活动模式将它们分为300个模块,并将它们与它们控制的生物过程、控制它们的调控因子以及调节这种控制的短序列基序相联系。研究人员还预测,基于它们的协调活动模式,控制元件和目标基因之间有330万个联系,这代表了迄今为止人类基因组中最完整的回路。

疾病的链接

自2003年人类基因组最终草案完成以来,研究人员已经进行了数千项全基因组关联研究(GWAS),揭示了使携带者易于染上某种特定特征或疾病的常见遗传变异。

这些研究产生了大约12万个变异,但其中只有7%位于蛋白质编码基因内,剩下93%位于非编码DNA区域。

然而,由于许多原因,非编码变体的行为是非常难以解决的。首先,基因变异是成组遗传的,这使得在每个疾病相关区域的几十个变异中找出致病变异变得困难。此外,非编码变异可以远距离作用,有时在数百万个核苷酸之外,这使得很难找到它们的作用靶基因。它们也具有极强的动态性,这使得我们很难知道它们在哪个组织中起作用。最后,了解它们的上游监管机构仍然是一个未解决的问题。

在这项研究中,研究人员能够解决这些问题,并为超过30000个非编码GWAS变异提供候选的机制见解。研究人员发现,与同一特性相关的变异倾向于在与该特性生物学相关的特定组织中富集。例如,与智力相关的基因变异出现在大脑中活跃的非编码区域,而与胆固醇水平相关的变异出现在肝脏中活跃的区域。

研究人员还表明,一些性状或疾病受到许多不同组织类型中活性增强剂的影响。例如,他们发现与冠心病(CAD)相关的基因变异在脂肪组织、冠状动脉、肝脏和许多其他组织中都很活跃。

在这些全基因组预测的指导下,凯利的实验室现在正与不同的合作者合作,寻求在特定疾病方面的领先地位。他们正在分析冠状动脉疾病患者的心脏组织,小胶质细胞阿尔茨海默氏症以及肥胖患者的肌肉,脂肪和血液,这些都是根据当前论文和他的实验室预测的这些疾病的介质以前的工作

许多其他实验室已经在使用EpiMap数据进行各种疾病的研究。凯利斯说:“我们希望我们的预测能广泛应用于工业和学术界,以帮助阐明基因变异及其作用机制,帮助将治疗方法定位到最有希望的靶点,并帮助加速许多疾病的药物开发。”

参考:Carles A. Boix, Benjamin T. James, Yongjin P. Park, Wouter meulleman and Manolis Kellis, 2021年2月3日,自然
DOI: 10.1038 / s41586 - 020 - 03145 - z

这项研究是由美国国立卫生研究院资助的。

第一个发表评论关于“全面的基因图谱揭示30000个人类疾病区域的回路”

留下你的评论

邮箱地址可选。如果提供,您的电子邮件将不会被发布或共享。