对于组装的结果,除了保证Contig N50和Scaffold N50两项指标外,还需要对组装质量进行评估。如利用EST数据和RNA数据进行完整性评估,即评估组装出来的基因的完整性;利用BAC数据检验是否有装断或装错的情况,以及利用保守基因评估(CEGAM评估/BUSCO评估)基因组组装的完整性。
高重复基因组特点:重复序列的比例很高,长度较长,很难连接成较长的序列,在构建de Brujin图时, 会出现右图所示的情况:
在化简de Brujin图时,若随机选择重复序列进行连接比如A-E-D,A-E-B可能会导致连接错误。若不进行随机选取,在分叉位点将序列截断,会造成contig长度太短,无法进行后续组装。
对于二倍体杂合基因组,组装一般只组装一套染色体出来,那么对于序列中的杂合位点,如下图所示,如何区分杂合部分和纯合部分,并且确定哪些杂合部分属于同一套基因序列是杂合基因的组装难点。
诺禾致源 de novo 团队针对复杂基因组(高重复或高杂合)开发了多种组装策略,包括纯二代,二加三,纯三代等,并搭配新技术,成功解决了高重复或高杂合基因组的组装困难情况。此外,针对超高杂合的基因组,自主研发了NovoHeter软件,极大的缩短的组装的周期和成本。具体策略及组装指标见前文介绍。
(Survey和基因组 de novo 所用DNA是否需要一样的?)
原则上进行 Survey 和 de novo 使用的 DNA 是来自一个个体的。如果DNA量不足以满足整个de novo项目,则建议小片段文库的DNA必须来自同一个体,大片段文库使用同一群体的另一个个体。
若老师那边样品提取困难或者样品量不足,有以下几种策略:
1. 小片段采用一个个体,大片段库采用同一群体的另一个个体;
2. 若一个个体的样品量不足建小片段库,可以将一个世系的样品混样进行提取;
3. 可以通过全基因组扩增技术,只需要少量的全基因组DNA,经过特殊的扩增过程,对扩增产物进行文库构建。但是全基因组扩增的缺点是对于污染部分有偏好性,若污染序列较多,扩增会增加污染的比例。
样品污染对后续组装及分析都有较大的影响,会提高组装难度,可以通过Survey分析对样品中的污染进行初步评估,在组装过程中将目标物种和污染序列分开。
1. 网站查询
查询植物基因组大小的网站:http://data.kew.org/cvalues
查询动物基因组大小的网站:http://www.genomesize.com
2. 流式细胞仪方法
流式细胞仪是目前比较常用的估计基因组大小的实验方法。可以老师自己做流式评估,也可以我们帮助老师联系相关公司去做。
3. Survey评估
Survey分析,即将测序得到的reads打断成K-mer,通过K-mer分析,从数学的角度评估基因组的大小,杂合以及重复等信息。并进行初步组装,从初步组装的Contig的GC分布图上,判断该物种是否有污染等信息,从而为后续组装策略的制定提供可靠的依据。