中国人自己的基因组数据库

2017-07-06    编辑:诺禾致源

中国人自己的

基因组数据库

2500人高深度基因组数据库

由于人种的特异性,遗传背景的差异性,一些突变位点可能在千人基因组中或欧美人群中属
于低频突变,但对于中国人群来说却是常见突变。本着不断创新的理念,经过长期的积累,
诺禾致源自建属于中国人自己的基因组数据库——Novo-Zhonghua Genomes。

Novo-Zhonghua Genomes的必要性

疾病研究驱动人种针对性数据库建立

单核苷酸多态性(SNP)和单体型图信息为揭示人类健康和疾病的遗传机理提供巨大帮助。低频突变,尤其是罕见突变逐渐成为疾病研究的热点[1]。许多国家在构建针对本国人群的高深度测序基因组数据库(表1)。

表1 不同国家针对本国人群的基因组数据库

项目 期刊 时间 IF
英国万人全基因组测序[1] Nature 2015年9月 41.46
冰岛2636人全基因组测序[2] Nature Genetics 2015年3月 29.35
日本东北1070人全基因组测序[3] Nature Communications 2015年8月 11.47

目前中国人的单基因病致病位点与复杂疾病关联位点的研究水平还远低于对欧美人群基因组的研究[4](图1)。因此作为人口大国,构建中国人群基因组数据库,以便更好地进行以中国人为研究对象的疾病研究,是当今疾病研究的趋势,对疾病研究具有深远的影响意义。

图1 ClinVar和GWAS Catalog等数据库中记录的东亚人群疾病相关位点数据明显低于欧洲人群

单一人种数据注释显著降低假阳性率

分别引入国际千人基因组和单一人种数据库对Moyamoya病进行分析[3],发现单一人种数据库(右图)避免了多人种数据库(左图)所引入的大量假阳性偏差,更好地锁定目标。

图2 国际千人基因组(左)和单一人种数据库(右)的GWAS分析结果比较

Novo-Zhonghua Genomes的特点

人种针对性强 | 所有样本来自正常中国人,助力中国人群研究

与国际千人数据库相比,Novo-Zhonghua Genomes数据库的PCA结果可以很好的与千人数据库中的CHB和CHS聚集在一起(图3),充分体现了其极强的人种针对性。

图3 Novo-Zhonghua和千人数据库PCA结果

(注:CHB:Han Chinese in Beijing, China;CHS:Han Chinese South;CEU:Utah residents (CEPH) with Northern and Western European ancestry;TSI:Toscani in Italy;LWK:Luhya in Webuye, Kenya;YRI:Yoruba in Ibadan, Nigeria;NovoDB: Novo-Zhonghua Genomes)

高深度测序 | 平均测序深度大于30×的WGS和大于100×的WES数据

样本数量多 | 高达2500的样本,其数量超过千人基因组

Novo-Zhonghua Genomes数据库涵盖了2500个正常中国人的样本,其性别组成均一无偏好(图4),年龄分布广泛(图5)。

图4 Novo-Zhonghua Genomes
数据库样本性别分布

图5 Novo-Zhonghua Genomes
数据库样品年龄分布

位点丰富 | 包含超过2800万个SNPs和超过800万个InDels

Novo-Zhonghua Genomes的应用

频率注释 | 对中国人疾病研究的突变位点进行频率注释

关联分析 | 作为control对中国人疾病研究进行关联分析

Novo-Zhonghua Genomes
助力中国人HLA分型研究

诺禾致源还基于Novo-Zhonghua Genomes数据,建立HLA分型数据库,目前已经成功完成对1000例样本的27个HLA基因的分型分析。该数据库可实现对HLA基因型别的频率注释,以此为参考来评估致病性。

参考文献

[1]  The UK10K Consortium. The UK10K project identifies rare variants in health and disease. Nature. 2015, 526: 82-90.阅读原文>>
[2]  Gudbjrtson DF, helgason H, Gudjonsson SA, et al. Large-scale whole-genome sequencing of the Icelandic population. Nat Genet. 2015,47: 435-444. 阅读原文>>
[3]  Nagasaki M, Yasuda J, Katsuoka F, et al. Rare variant discovery by deep whole-genome sequencing of 1070 Japanese individual. Nat Commun. 2015, 6: 8018. 阅读原文>>
[4]  1000 Genomes Project Consortium. An integrated map of genetic variation from 1092 human genomes. Nature. 2012, 491: 56-65. 阅读原文>>