全基因组de novo测序

产品介绍常见问题经典案例结果展示


结果展示

基因组组装

组装策略

1. 二代测序组装策略

2010年,以诺禾致源创始人李瑞强博士为第一作者而研发的SOAPdenovo软件,主要针对简单基因组组装,使得整个组装流程更加简单、精准,且在国际上得到广泛应用。SOAPdenovo组装流程示意图(右图)。
2014年,由诺禾致源资深分析团队自主研发的软件NovoHeter,该软件主要针对杂合基因组组装,使整个分析更为高效,所得的信息更加全面、优质,已占据行业领域制高点。

2. 2+3组装策略

诺禾致源团队在成熟的组装技术基础上,开发出2+3数据组装流程,通过二代数据和三代数据相互补充和提升,在保证组装质量的基础上很大程度地提升了组装指标。

3. 三代测序策略

三代测序技术具有测序读长长、测序速度快、无GC偏好等优势,诺禾致源团队研发出针对三代数据的组装流程,极大的提升了三代数据组装的运算效率,并且,结合10X Genomics,BioNano等新技术,能够得到更加完整的基因组,Contig N50,Scaffold N50更长,甚至获得近染色体级别的基因组序列图谱。

基因组组装

组装结果评估

1. 序列一致性评估

在为了评估组装的准确性,选取一定量的测序数据与组装基因组比对,统计reads的比对率、覆盖基因组的程度以及深分布情况,由此评估组装的效果。

2. GC含量分析

组装的基因序列计算其GC含量和平均深度,根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。

3. BAC/fosmid评估

通过一定数量的BAC/fosmid克隆序列对基因组进行评估,检查拼接序列对克隆序列的覆盖度水平。


4.CEGMA评估

CEGMA(Core Eukaryotic Genes Mapping Approach) 评估是根据广泛存在于大量真核生物中的保守蛋白家族集合(248个core gene),对组装得到基因组进行评估,评估组装基因组中的core gene的准确性和完整性(见下表)

Species Complete Complete+Partial
Prots %Completeness Prots %Completeness
Cli 179 72.18 213 85.89
Mun 180 72.58 210 84.68
Mga 175 70.56 209 84.27
Gga 186 73.39 201 81.85

基因组注释

注释流程

基因组注释主要包括四个方面:重复序列注释、基因结构注释、基因功能注释、非编码RNA注释。
重复序列注释方法分为同源序列比对和从头预测两类;基因结构预测通常会结合多种预测方法,
主要有同源预测、de novo 预测和其他证据支持的预测;基因功能注释是将基因结构注释得到的基因集,
利用比对软件与已知蛋白数据库比对,得到基因的功能信息;非编码RNA的注释包括tRNA、rRNA、miRNA和
snRNA注释,各个方面的注释结果都可以以数据统计或图像的形式体现出来。

1. 重复序列注释

重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类,分别用de novo 预测和同源预测的方法对基因组进行repeat注释。

2. 基因结构注释

基因结构de novo 预测中用于比对的同源物种包括多个物种,可以预测多种元件情况。

3. 基因功能注释

将基因结构注释得到的基因集与已知蛋白数据库比对,得到基因的功能信息。常用的蛋白数据库有SwissProt,TrEMBL,KEGG,Go和InterPro”配表如下:

Number Percent(%)
Total 28355 -
InterPro 18417 64.951508
KEGG 18670 65.843767
Swissprot 21329 75.221301
TrEMBL 22920 80.832305
GO 14767 52.078998
Annotated 23045 81.273144
Unanotated 5310 18.726856

4. 非编码RNA(ncRNA)注释

非编码RNA,指不翻译蛋白质的RNA,如rRNA、tRNA等,这些RNA都具有重要的生物学功能。通过与已知ncRNA库进行比对得到基因组的ncRNA信息(统计结果如下表)。

Type Copy(w) Average length(bp) Total length(bp) % of genome
miRNA 536 139.341417910448 74687 0.001834
tRNA 1238 75.218901453958 93121 0.002287
rRNA rRNA 6758 186.523527670909 1260526 0.030954
18S 688 871.928779069767 599887 0.014731
28S 572 121.784965034965 69661 0.001711
5.8S 275 125.298181818182 34457 0.000846
5S 5223 106.551981619759 556521 0.013666
snRNA snRNA 381 118.968503937008 45327 0.001113
CD-box 99 107.060606060606 10599 0.000260
HACA-box 19 135.631578947368 2577 0.000063
splicing 263 122.247148288973 32151 0.000790

生物学分析

标准分析

1. 基因家族分析

基于基因家族聚类的结果,鉴定物种特有的基因或者基因家族;发生显著扩增/收缩的基因家族;重要基因家族深入分析等(下图 左)。

2. 系统进化分析

构建物种进化树,在全基因组水平上评估物种间进化关系;探讨整体进化地位和物种起源问题,估算与其他近缘物种之间的分化时间。

3. 正选择分析

通过自然选择某些有利的基因被固定下来,受到了正选择的基因,往往在该物种对环境的适应性方面有重要作用,全基因组测序能充分挖掘正选择基因。

4. 共线性分析

根据重复基因的进化动态或基因组共线性分析,追溯古老的基因组重复事件;根据染色体共线性关系,追溯染色体进化历史,如重排、融合(下图 右)。

生物学分析

个性化分析

全基因组测序完成后不仅可进行常规标准分析,还可针对所研究物种的个性化生物学问题进行分析,
针对某一类或特定一个物种的自身特点,结合转录组、重测序信息展开深入分析。
如对金丝猴基因组的分析,对其植食性机制进行了深入研究;
对于藏猪基因组分析,重点探讨了藏猪基因组中与高原适应性相关基因。
这些方面与物种的独特生物学特征息息相关,一些生物学亮点也成为全基因组测序的研究重点。

有参考基因组de novo 测序

一些物种,虽然已经有参考基因组,但是一些性状定位工作仍然进行困难,
一部分原因是与该性状相关的基因在参考基因组中不存在,另外一部分原因是性状相关基因处于基因组中的快速进化区域,
使用传统手段难以进行鉴定。因此,在一个物种已有参考基因组情况下,对具有重要性状的品种展开de novo 测序,
以获得品种特有的基因并对高变区域进行变异检测,有很大的必要性。

1. 特有基因检测

不同品种及同一品种不同个体都会有自己特有的基因,这些特有的基因与其性状密切相关,同一作物不同品种之间的变异远比我们想象的要大。充分了解这些信息之后,在农业研究中将有重要的价值。通过基因组de novo 研究可充分检测到与差异性状相关的基因。

2. 变异检测

各类栽培作物的基因组中存在大量在进化过程中受到强烈人工选择的区段,这些区段往往是快速进化的区域,传统手段难以检测。在野生品种和栽培品种之间存在大量碱基变异,通过当前高通量测序技术,可全面、快速、准确的检测到变异区域。对于通过重测序技术无法判别的变异区,通过基因组de novo 可准确的识别出高变区域内的所有变异位点。