由千人基因组计划协会领导的一个国际科学家小组,构建出了世界上*大的人类基因组变异目录,可为研究人员提供有价值的线索帮助他们确立一些人容易罹患各种疾病的原因。此前,由Brendan Frey教授领导的加拿大研究小组,开发出了*种方法基于活细胞“读取”DNA的方式来“排列”遗传突变,由此揭示出任何特定变异致病的可能性。他们利用自己的方法发现了自闭症、遗传性癌症和脊髓性肌萎缩症的一些意外遗传决定因子(genetic determinants),可谓找到了解读人类基因组“天书”的金钥匙。
*近,美国宾夕法尼亚大学Perelman医学院的科学家发现,在人类基因组中新突变的类型、发生的有多频繁、以及发生的位置,都取决于其附近的DNA构建模块,相关研究结果发表在本周的《Nature Genetics》杂志。
本文资深作者、系统药理学和转化治疗学系以及遗传学系的助理教授Benjamin F. Voight博士指出:“我们开发了一种数学模型,可根据人类基因组中附近的DNA‘字母’序列——称为核苷酸,来估算突变率。这种新模式不仅为突变过程提供了线索,而且有助于发现影响复杂人类疾病(如自闭症谱系障碍)的可能遗传危险因素。”
本文主要集中研究人类基因组中任何给定核苷酸——DNA字母表中四个字母中的一个(A、C、G或T为腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶)——被改变的可能性。Voight专注于*简单的突变类型,一个“点”突变——一段给定序列中的一个单一字母被改变。这些变化中的大多数——通常被称为单核苷酸多态性(SNPs),或“剪刀”,通常对人体的功能无害。不过,Voight调查了为什么某些序列更容易发生变异,而其他一些序列则没有。
Voight说:“本文的关键是,突变率对核苷酸距离SNP两侧一个、两个或三个碱基的依赖性。我们已经知道,基因组中的DNA序列——其中甲基基团附着在胞嘧啶核苷酸,也被称为CpG位点,是突变的热点区域。但是,除此之外,还有其他类型的局部序列吗?”
为了解决这个问题,Voight和研究生Varun Aggarwala,设计了一种数学模型,可适用于人类身上发现的SNP数据。他们的方法利用来自全球各地数千名人类受试者的公开数据,即来自1000个基因组计划。作为国际倡议的一部分,这些人进行了测序,以表征自然发生在人类种群中的遗传变异。
他们的发现是惊人的:了解一个给定SNP两侧的三个核苷酸,总共为七个核苷酸,在个体(他们的基因组序列是在基因组项目数据库中)的一段给定序列中寻找一个SNP的时候,可预测多达百分之93的变异性。此外,他们的模型发现了几个与众不同的局部核苷酸序列,以前它们被认为不容易发生突变。
Voight说:“原来在CpG位点之外,确实有DNA序列也容易发生变异。其中的原因仍不明确。需要更深入地研究初始速率和我们的模型,以破译诱导人类基因组中突变的基本机制。”
另一个发现质疑一个假设:甲基化的CpG位点总是有相同的突变率。Voight说:“我认为,人们普遍假设所有CpG序列以同样的速度发生变异,但我们的研究结果表明,有比我们预期更多的变异。”Voight和Aggarwala利用另一个公开的数据库,在几个人当中测量CpG位点上的甲基化状态,他们发现,不同序列被甲基化的频率,不能完全解释这些位点的突变率差异。Voight说:“这当然表明了在CpG热点上发生额外遗传突变现象的可能性,可改变这些位点如何易于发生变异,例如,DNA修复机制如何能够修正可能会出现的新突变?”
除了找到“突变发生的不同方式”的线索之外,Voight和Aggarwala也检测了他们这种模型在人类疾病中的应用,为“确定临床研究中新发现的突变,哪个*有可能导致疾病”,提供了见解。像这些计算性、预测性的测量值,可用来帮助从后续调查中发现罕见的或新的基因变异。Voight和Aggarwala集中在一组自闭症测序研究,在自闭症患儿中寻找具有过量新突变的基因。当他们将该模型应用到这些数据时,他们发现了现有方法的一种改进,可用于预测哪些罕见或新的突变与人类疾病相关。
Voight说:“我们能够将重点放在后续工作中一些有可能致病的变异,尽管我们需要更多的工作来精确查明自闭症或阿尔茨海默氏症的正确变异和基因,而这些疾病的测序数据是现成的”。
他不仅相信大量的公开数据,而且也在一个较长的时期内仔细和专门研究,作为主要影响因素,能够评估和改进他们提出的数学模型。“这项工作令人兴奋的部分不只是我们已经发现的结果,而且在于,我们将在未来几年系统地解决新问题的范围。虽然建立坚实的基础需要时间,但是,建立在这些基础上的未来科学“摩天楼”,绝对会坚持更长的时间,并因此达到更高的高度。”