全基因组关联分析

产品介绍常见问题经典案例结果展示


结果展示

SNP检测、注释及过滤

SNP(单核苷酸多态性) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。我们采用SAMTOOLS软件进行样本SNP的检测及过滤,获得高质量的SNP。有效的高质量SNP通过以下过滤标准进行过滤:
1. 测序深度过滤;
2. MAF(Minor allele frequency)>0.01(0.05);
3. Call rate>90%(80%)。

SNP检测及注释结果统计

Category Number of SNPs
Upstream 203,062
Exonic Stop gain 2,142
Stop loss 564
Synonymous 247,194
Non-synonymous 167,809
Intronic 321,306
Splicing 1,471
Downstream 189,867
upstream/downstream 51,199
Intergenic 986,703
ts 1,256,052
tv 915,265
ts/tv 1.372
Total 2,171,317

群体分层分析

获取群体分群信息,降低结果假阳性

1. 系统进化树

系统进化树(phylogenetic tree,又称evolutionary tree,进化树)是描述群体间进化顺序的分支图或树,用来表示群体间的进化关系。根据群体的物理或遗传学特征等方面的共同点或差异可以推断出它们的亲缘关系远近,即群体个体间由于共同祖先而产生的相互关系。

2. 群体主成分分析

主成分分析(PCA)是一种纯数学的运算方法,可将多个相关变量经过线形转换选出较少个数的重要变量。PCA方法被广泛运用于多学科,在遗传学中,主要用于聚类分析,它是基于个体基因组SNP差异程度,按照不同性状特征将个体按主成分聚类成不同亚群,同时用于和其它方法做相互验证。

连锁不平衡分析

决定关联分析的精度和所标记的数目

连锁不平衡(linkage disequilibrium,LD),指群体内不同基因座位上等位基因间的非随机组合。通常所说的LD多是指染色体内的LD,它是关联分析的基础。LD的水平可以决定关联分析的精度、所选标记的数目。

全基因组关联分析

找到与目标性状关联的区域

全基因组关联分析(Genome-wide association study,GWAS)是一种对全基因组范围内的
常见遗传变异(单核苷酸多态性和拷贝数)基因总体关联分析的方法。
采用GWAS技术在全基因组范围内进行研究,能够一次性对多个性状进行定位,
适用于定位性状关联区间、功能基因研究、开发性状选育标记等方面的研究。

1. 性状关联分析

GWAS分析过程中,个体亲缘关系和群体分层是造成假阳性关联的主要因素。因此,采用混合线性模型进行性状关联分析,群体遗传结构作为固定效应,个体亲缘关系作为随机效应,以校正群体结构和个体亲缘关系的影响。

2. 多重假设检验矫正

多重假设检验会导致I型错误扩大和假阳性关联,这是影响GWAS分析可靠性的重要因素。多重假设检验的次数取决于基因组包含SNPs的数量,我们采用Bonferroni校正法来校正GWAS分析中多重假设检验后的P值以降低假阳性的概率。

3. 目标性状相关区域基因功能注释

根据连锁不平衡衰减距离分析结果,对显著SNP位点所在物理位置上下游一定区域内(如50 Kb)的相关基因进行功能注释(连锁不平衡衰减距离具有物种特异性,一般自花授粉植物会较大,也与样品群体有关,一般野生群体会最小,栽培品系或选育品系会较大)。

构建单体型图谱

利用全基因组范围内高密度的SNPs构建单倍型图谱,可以将关联位点定位到相对应的单倍型上,有利于在关联分析中寻找和定位功能位点。通过图谱可以直接观测显著关联SNP位点之间的LD关系以及候选基因内各SNP位点之间的LD关系,从而更准确地鉴定性状功能位点。