科学家终于填补了人类基因组的8%差距

经过:加布里埃尔·哈特利(Gabrielle Hartley)|

人类基因组“width=
超过一半的人基因组包含重复的DNA序列,其功能仍未完全理解。Adam Gault/Getty图像

当。。。的时候人类基因组项目宣布他们在2003年完成了第一个人类基因组,这是一个重大成就 - 首次是脱氧核糖核酸人类生活的蓝图被解锁了。但是它带有一个捕获 - 他们实际上无法整理所有的遗传基因组中的信息。有差距:未填充的,通常是重复的地区,这些区域太混乱了,无法拼凑在一起。

随着技术可以处理这些重复序列的进步,科学家最终在2021年5月填补了这些空白,第一个端到端的人类基因组是正式出版于2022年3月31日

我是一个基因组生物学家谁研究重复的DNA序列及其在整个进化史中如何塑造基因组。我是帮助团队的一员表征重复序列基因组缺少。现在,有了一个真正完整的人类基因组,这些未发现的重复区域终于首次全面探索。

广告

缺少的拼图

德国植物学家汉斯·温克勒(Hans Winkler)创造了这个词。基因组“ 1920年,将“基因”一词与后缀“ -Ome”相结合,意思是“完整集”,以描述每个单元中包含的完整DNA序列。研究人员仍然在一个世纪后使用该词来指代遗传材料组成一种有机体。

描述基因组的外观是将其与参考书进行比较。在这个类比中,基因组是一部包含DNA生命指示的选集。它由包装成染色体(章节)的大量核苷酸(字母)组成。每个染色体都包含是DNA区域的基因(段落),它们为允许生物体起作用的特定蛋白质编码。

尽管每个生物体都有一个基因组,但该基因组的大小因物种而异。大象使用与肠道中的草和细菌相同的遗传信息。但是没有两个基因组看起来完全一样。有些很短,例如昆虫居住细菌的基因组鼻虫在112,000个核苷酸中只有137个基因。有些,例如开花植物的1490亿个核苷酸巴黎Japonica,很长时间,很难了解其中包含多少基因。

但是,传统上被理解的基因 - 是蛋白质代码的DNA,只是生物体基因组的一小部分。实际上,他们弥补了不到人类DNA的2%

人类基因组大约包含大约30亿个核苷酸,不到20,000次蛋白质编码基因,估计占基因组总长度的1%。其余99%是不产生蛋白质的非编码DNA序列。有些是调节组件,可作为控制其他基因工作方式的总和板。其他是假基因,或失去其功能能力的基因组遗物。

超过一半人类基因组的重复性是重复的,具有近乎相同序列的多个副本。

广告

什么是重复的DNA?

重复的DNA的最简单形式是在称为串联的一遍又一遍地重复的DNA块卫星。尽管多少卫星DNA给定的基因组的人因人而异,它们经常聚集在称为区域的染色体末端端粒。这些区域可保护染色体在DNA复制过程中免受降解。他们也在中心染色体,一个区域,有助于在细胞分裂时保持遗传信息完整。

研究人员仍然对卫星DNA的所有功能缺乏清晰的了解。但是,由于卫星DNA在每个人中形成独特的模式,因此法医生物学家和家谱学家使用了这一点基因组“指纹”匹配犯罪现场样本并跟踪血统。超过50种遗传疾病与卫星DNA的变化有关,包括亨廷顿氏病

人类基因组“width=
卫星DNA倾向于在其端粒中朝着染色体的末端聚集。在这里,有46种人类染色体是蓝色的蓝色,带有白色端粒。
NIH图片库/flickr(CC BY-NC)

另一种重复的DNA类型是转座元素,或可以在基因组中移动的序列。

一些科学家将它们描述为自私的DNA,因为无论后果如何,它们都可以在基因组中插入任何地方。随着人类基因组的发展,许多可转座序列收集了突变压抑他们采取行动避免有害中断的能力。但是有些人可能仍然可以走动。例如,转座元素插入链接到许多血友病病例,一种遗传出血障碍。

但是,可转移的元素不仅是破坏性的。他们可以监管功能这有助于控制其他DNA序列的表达。当他们的时候集中在中心粒中,它们还可能有助于维持细胞生存基础的基因的完整性。

他们也可以为进化做出贡献。研究人员最近发现,将转座元件插入对开发重要的基因中的插入可能是为什么一些灵长类动物,包括人类,包括人类,不再有尾巴。由于转座元素引起的染色体重排甚至与新物种的起源有关东南亚的长臂猿澳大利亚的小袋鼠

广告

完成基因组拼图

直到最近,许多这些复杂区域都可以与月球的最远地区进行比较:已知存在,但看不见。

当。。。的时候人类基因组项目技术局限性于1990年首次推出,因此无法完全揭示基因组中的重复区域。可用的测序技术一次只能读取约500个核苷酸,这些短片段必须相互重叠以重新创建完整序列。研究人员使用这些重叠的段来识别序列中的下一个核苷酸,一次逐步扩展了基因组组装一个片段。

这些重复的差距区域就像将1000件套的拼图放在一个阴天的天空中:当每个作品看起来都一样,您如何知道一个云的开始和另一个云的末端?随着许多斑点的几乎相同的重叠伸展,零碎的基因组完全不可行。数百万个核苷酸仍然隐藏在人类基因组的第一次迭代中。

从那时起,序列斑块逐渐逐渐填补了人类基因组的空白。在2021年,端粒到居组(T2T)财团,一个国际科学家联盟,致力于从头到尾完成人类基因组议会,宣布所有剩余的差距均为终于充满了

通过改进的测序技术使这成为可能读取更长的序列长度的数千个核苷酸。有了更多信息,可以将重复的序列放置在更大的情况下,因此更容易识别其在基因组中的适当位置。就像简化了1000件拼图到100件拼图一样,长阅读序列使它成为可以组装首次重复区域。

随着长阅读DNA测序技术的越来越多的力量,遗传学家可以探索基因组学的新时代,这是首次与人群和物种之间无障碍的复杂重复序列。一个完整的,无差异的人类基因组为研究人员提供了一种宝贵的资源,以研究塑造遗传结构和变异,物种进化和人类健康的重复区域。xf187手机版

但是一个完整的基因组并不能全部捕获这一切。努力继续创建多种基因组参考,完全代表人口地球上的生活。凭借更完整的“端粒到凝聚力群”的基因组参考,科学家对DNA重复性暗物质的理解将变得更加清晰。

加布里埃尔·哈特利(Gabrielle Hartley)是博士学位康涅狄格大学分子和细胞生物学的候选者。她获得了国家科学基金会的资金。

本文从谈话在创意共享许可下。你可以找到来源文章这里。

广告

游戏

广告

加载...