全基因组Survey

产品介绍常见问题结果展示


结果展示

基因组大小预估

K-mer深度分布服从泊松分布,根据曲线获得K-mer深度期望值,用于估计基因组大小。
一般来说我们会选择K-mer分布最多的峰为主峰,主峰所对应的深度值为K-mer深度期望值。
基因组大小=K-mer总数/K-mer期望深度值。

K-mer K-mer number K-mer Depth Genome Size(Mbp) Revised Genome Size (Mbp)
17 47,719,794,696 62 769.67 763.41

杂合度和重复率评估

在理想的数据模型中,即不存在重复序列或者杂合的情况,
一套基因组上的每个K-mer应该只出现唯一一次,也就是说,对于基因组上的所有的K-mer来说,它的频率数均为1;
而在实际样品的基因组中,会存在杂合和重复序列的情况,因此每个K-mer对应的频数不确定。
K-mer可以根据其出现的频率数来分类,基于贝叶斯模型和K-mer所有的频率数和深度属性,
可以得到并且通过迭代来修正,由此反映基因组的杂合率和重复序列的情况。

GC含量分布图

横坐标表示GC含量,纵坐标表示测序深度,右方是contig覆盖深度分布,上方是GC含量分布,我们选取长度在2Kb以上的contig序列,根据其GC分布以及覆盖深度信息绘制散点图,其中红色的部分代表该散点图中点的密度比较大的部分,可以看到在红色区域部分,该物种的GC分布呈现出两部分的区域分布,两部分的重心分别在深度20左右和40左右,即对应右边的contig覆盖分布,在20位置的小峰为杂合峰,在40位置的为纯合峰。对应红色的散点图,深度在20左右的红色区域是杂合contig的GC分布区域;再看上方的GC含量分布,主峰在35的位置,和我们计算得到的基因组的GC含量基本一致,且红色的散点也分布在GC含量在35%附近,说明该基因组没有受到其他外源物种的污染。

SSR标记开发

简单重复序列(以下简称SSR)是分子生物学中一种重要的分子标记,可以运用于遗传图谱构建,功能基因定位及QTL定位等许多方面。检测DNA序列中简单重复序列使用SR search软件。

同源注释

基于初步组装的结果,采用同源预测的方法对被测物种进行基因预测。将已知的同源物种的编码蛋白序列与被测物种的基因组序列进行比对。用基因结构预测得到的蛋白质序列与已知蛋白数据库比对,如:Swissprot、KEGG以及Trembl等。