近日,GPB以封面文章发表了中国科学院北京基因研究所题为“WholeGenomeAnalysesofChinesePopulationandDeNovoAssemblyofANorthernHanGenome”的研究论文。我们的“要文译荐”栏目很高兴邀请到项目主要负责人员为大家解读中国人群队列研究及中国人参考基因组的最新研究成果。

背景

从年正式启动并于年宣布完成的人类基因组计划,与曼哈顿原子弹计划和阿波罗登月计划并称为三大科学计划,是人类科学史上的一个具有划时代意义的伟大工程。其宗旨在于测定人类染色体的30亿个碱基对的DNA序列,绘制人类基因组图谱,破译人类遗传信息。人类基因组计划获得了第一套染色体水平的参考基因组,在基因组学和生物信息学等领域中发挥着举足轻重的作用,经过多年的修补完善,至今已更新到GRCh38版本。但由于该参考基因组基于高加索人的遗传背景,对于分析其他人群的遗传数据可能产生一定程度的偏差。为了更好地理解不同种族人群的疾病遗传基础及促进个体化精准医疗的发展,世界各国开始建立针对本国人群的人类参考基因组,例如年发布的韩国人参考基因组AK1。近年来,中国人群的两个参考基因组YH2.0和HX1也相继发布,但两者均基于中国南方汉族个体,并且相比国际人类参照基因组在序列完整性上还存在很大差距。基于DNA标记和单核苷酸多态性(SNP)阵列分析的研究表明,中国南北方人群早在史前农业文明时期就开始经历显著的遗传分化。考虑到中国南北方人群的遗传多样性以及进一步提高中国人参照基因组的完整性,从头建立一套中国北方人群的参考基因组将很大程度造福于今后的大规模人群队列研究。

另一方面,为了揭示疾病及生理表型的遗传机制需要建立大规模人群队列,开展基于高通量测序的全基因组遗传变异分析。随着二代、三代测序技术的快速发展,测序通量飞速提高,测序成本大幅降低,为开展大规模人群队列研究提供了一个前所未有的契机。从最初的国际人类基因组单体型图计划(HapMap)和千人基因组计划(1KGP)开始,世界各国先后开展了大规模人群队列的基因组研究,例如英国的万人(UK10K)和十万人基因组计划、美国万人基因组计划、日本千人基因组计划(1KJPN)等。作为拥有世界1/5人口的大国,我国目前尚缺乏基于大规模人群、高深度全基因组测序的队列研究。面向我国发展精准医学研究的重大需求,年中国科学院北京基因组研究所牵头启动了中科院精准医学研究计划(CASPMI),目标是建立一个高质量、大规模的中国职业人群前瞻性队列,开展全基因组遗传变异分析、疾病及重要表型的关联分析,构建中国人群遗传变异图谱,形成中国人基因组变异数据库体系和精准医学知识库;以此为基础构建标准化的电子健康档案和报告系统,实现对于中国人群重要慢病的风险预测预警,最终建立一套精准医学研究范式体系。

本文主要报道了CASPMI项目一期的研究成果,包括中国北方汉族参考基因组组装和中国人群遗传变异图谱的绘制,并分析了中国人群特异的遗传变异位点、南北方人群的遗传差异以及全基因组大片段结构变异。

结果与分析建立基于北方汉族的中国人参考基因组(NH1.0)

针对目前基因组学研究多以高加索人基因组序列作为参考,缺少中国人特别是北方汉族的参照基因组序列这一状况,本项目对一个北方汉族男性个体综合采用PacBio、10XGenomics、HiSeq和Bionano等多种平台进行了高深度的全基因组测序。在基因组拼接中,采用自主开发10XGenomics与PacBio融合拼接的denovo基因组拼接方法,充分利用各种测序平台的优势,基因组拼接N50长度达到46.6Mb,大大提高了基因组拼接的完整性(表1)。本项目中建立的中国人参考基因组NH1.0是国际上首次发布北方汉族参考基因组,大大提高了中国汉族参考基因组序列的组装水平,将scaffoldN50值提高了两倍以上,并将组装Gap减少到九千以下。将NH1.0与GRCh38版本的参考基因组进行比较,两者呈现相当高的共线性,并且NH1.0还可填补GRCh38的99个缺口,进一步提高了人类参考基因组的完整性。

建立中国人群遗传变异图谱

为了建立中国人群全基因组遗传变异图谱,CASPMI人群覆盖了中国30个省份和自治区,共计完成了个健康个体的全基因组测序和遗传变异分析,平均测序深度达30X。通过标准的GATK变异分析流程,共获得24.85百万(M)个单核苷酸变异(SNVs)及3.85M插入删除位点(indels),其中有10.20MSNVs和1.55Mindels为新发现的遗传变异位点(图1A),说明大样本量和高测序深度对于发现新的或罕见的变异位点有很大帮助。通过统计变异位点在人群中的频率分布,有22.9%SNVs和33.0%的indels属于常见变异(发生频率≥5%);变异注释结果显示高达90%的变异位于基因间区或内含子区。另外,此项目还基于SNVs和indels构建了一套高质量的单倍体型图谱。

图1SNVs与相关项目的统计比较和基因KAT8中代谢相关的SNP位点rs人群特异SNPs及代谢相关的表型关联分析

通过与南亚、欧美、非洲人群的遗传变异位点频率比较,鉴定了中国人群(东亚人群)特异性高频多态位点,包含55,个SNPs和6,个indels,这些位点富集于代谢性状相关的生物学途径中(图1B)。通过基因型和表型的关联分析,本研究发现,在这些中国人群特异性高频多态位点中,一些变异位点与代谢相关表型存在显著关联,例如位于基因KAT8的SNP位点rs与男性腰围显著相关,位于基因NR2F2-AS1的rs与女性高血压显著相关。对于KAT8上的rs位点,在其他人群中T等位基因的频率约在10%–40%,但在中国人群中则高达92%,具有T/T基因型的北方男性倾向具有较大的腰围。通过配对末端标签测序分析染色质相互作用(ChIA-PET)数据分析发现,rs通过所处的增强子元件对基因FUS和HSD3B7的启动子发挥调控作用,并且这种调控作用在表达数量性状基因座(eQTL)数据库GTEx中得以证实:rs是一个eQTL位点,这个位点的多态性可以影响HSD3B7基因的表达水平(图1C–F)。

南北方人群的遗传差异性分析

本研究通过计算南北方人群间的固定指数(Fixationindex,Fst)进一步分析了两个人群的遗传差异位点。计算得到的南北方人群的Fst均值为0.,其中有个SNPs的Fst≥0.(较大差异)。这些差异位点在6、11、14、19号染色体的分布上存在一些明显的峰值,这些峰值多与免疫功能相关,例如14号染色体上的免疫球蛋白重链基因区域(IGH)、6号染色体上的主要组织相容性复合体(MHC)基因区域等。此外,在基因MTHFR、TCN2、FADS1、FADS2上也存在明显的峰值,这些基因与叶酸、维生素B12和脂代谢相关(图2A–C)。位于基因MHTFR上的多态位点rs存在较大的南北方分化,基因MTHFR的产物亚甲基四氢叶酸还原酶,主要作用是在叶酸代谢通路中将5,10-亚甲基四氢叶酸转化为具有生物学功能的5-甲基四氢叶酸,而这个基因上rs位点的变异会导致亚甲基四氢叶酸还原酶的活性大大降低。结合全球不同地区人群的基因型频率数据,本研究首次提出rs位点的T等位基因(MTHFRT)在北纬35-45度之间存在一个高频区域,在这个区域两侧随着纬度上升/下降频率逐渐降低(图2D)。这种地理分布的形成机制尚不清楚,部分原因可能由于在北纬45度以北的寒冷地区从食物中摄取的叶酸相对较少,因而需要这个酶保持高活性,以产生足量的有生物活性的5-甲基四氢叶酸。

另外,通过对于CASPMI人群低频突变分析发现,南北方汉族在突变特征谱上存在一定差异,主要表现在南方汉族具有更高比例的CpG位点的CT突变,提示南方汉族人群具有更长的平均世代时间或更大的有效群体。

图2中国南北方人群之间的遗传差异

CASPMI人群的结构变异

本研究还采用多种软件鉴定了全基因组的大片段结构变异(SVs,长度在50bp以上),一共得到,个缺失(deletion)、个插入(insertion)、38个倒位(reversion)及个拷贝数变异(CNV),其中65,个是新发现的结构变异(与DGV和dbVar数据库比较)。总的来看,88.6%的缺失在人群中发生频率小于0.05,属于低频突变。各种类型的结构变异均有接近或超过50%含有重复序列(主要是散在重复序列)。

总结与讨论

本项目首次发布了中国北方汉族参考基因组,采用PacBio、10XGenomics、HiSeq和Bionano多平台结合的基因组拼接方法,将scaffoldN50值提高了两倍以上,大大提高了中国人参考基因组序列的组装水平;基于约六百人的全基因组深度测序,建立了中国人群全基因组遗传变异图谱和单倍体型图谱;鉴定了中国人群(东亚人群)特异性高频多态位点,通过基因型和表型的关联分析,发现基因KAT8的SNP位点rs与男性腰围显著相关;分析了中国南北方人群的遗传差异位点,首次提出叶酸代谢相关基因MHTFR上的多态位点rs的T等位基因(T)在北纬35-45度之间存在一个高频区域,在这个区域两侧频率逐渐降低。这些研究成果将为中国精准医学研究提供重要支持。

文章编译来源:ZhenglinDu,LiangMa,HongzhuQu,WeiChen,BingZhang,XiLu,etal.WholeGenomeAnalysesofChinesePopulationandDeNovoAssemblyofANorthernHanGenome.GenomicsProteomicsBioinformatics,17(3).英文全文详见:







































白癜风品牌影响力医院
白癜风品牌影响力医院


转载请注明地址:http://www.zhongguoxiaofua.com/gmxf/3100.html