Hi-C测序

产品介绍常见问题经典案例结果展示


结果展示

(互作图谱构建、三维结构重构、调控元件开发)

数据比对过滤

Hi-C实验会产生一定的噪声,比如再连、自连等无效数据,为确保数据的可靠性和随后结果分析的准确性,需过滤测序所得数据。

染色体内和染色体外的互作信息

对过滤后的Hi-C read pairs进行统计,可以获得顺式和反式作用的信息。Cis为同一条染色体上的互作,Trans为不同染色体之间的互作。

Cis和trans数目统计

All Di-Tags Unique Di-Tags
Reads Pairs 3,653,968 3,206,221
Cis-close(<10kbp) 84,752 74,431
Cis-far(>10kbp) 2,697,317 2,365,435
Trans 871,899 766,355

互作图谱构建

1. 构建观测互作矩阵

观测互作矩阵 (observed interaction matrix),也称为原始互作矩阵(raw interaction matrix),是对最终有效的contacts按照一定的分辨率进行统计后的互作矩阵;分辨率即是特定的窗口大小,按照该窗口大小对染色体进行等分。

2. 观测互作矩阵标准化和可视化

酶切片段长度、GC含量和比对率等因素导致观测互作矩阵并不能最佳反映染色体的真实的互作,因此需要利用最大似然法对观测互作矩阵进行标准化处理排除这些因素,以确保结果真实。

TAD分析

TAD边界存在基因富集

TAD(topologically associating domains)是拓扑关联域,
一般指具有“特殊生物学功能”的相互作用“方块”,一般区域内部的互作频率显著高于毗邻的两个区域的互作频率,
是基因组在空间结构中基本的组织形式,在不同的细胞类型间和物种间存在较高的保守性。CTCF是调控基因编码的转录因子的蛋白序列,
与绝缘体的活性有关。TAD的边界形成需要多种蛋白质的参与
(CTCF和TFIIIC能够募集其他蛋白质参与边界形成,稳固TAD的结构)。

三维结构重构

展现基因组三维空间结构

基于染色体全部的互作信息,利用一定的数学模型,将二维的染色体互作信息转化成三维空间结构的物理坐标,构建全基因组的三维空间结构,基因组范围内的三维空间结构反映染色体间的互作情况。也可以基于单条染色体内部的互作信息,利用一定的数学模型,将二维的染色体互作信息转化成三维空间结构的物理距离坐标,从而构建每条染色体的三维结构。

调控元件的开发

调控元件在Hi-C研究中具有重要作用,如CTCF,CTCF是CCCTC结合因子,
与基因的表达调控、绝缘子的活性和染色质构建紧密相关。首先进行基因组范围内的CTCF的预测,
预测得到的CTCF结合位点信息结合TAD进行分析,研究TAD的边界区域的CTCF富集情况。

结果展示 二

(构建染色体跨度单体型)

SNP检测、注释及过滤

开发SNP标记、注释并SNP过滤

SNP(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。我们采用SAMTOOLS软件进行样本SNP的检测及过滤,获得高质量的SNP。

SNP检测及注释结果统计

Category Number of SNPs
Total 36,721,247
Upstream 453,623
Exonic Stop gain 189,311
Stop loss 2,242
Synonymous 403
Non-synonymous 374,359
Intronic 11,644,971
Splicing 2,077
Downstream 450,284
upstream/downstream 15,970
Intergenic 23,567,936

InDel检测、注释及过滤

开发InDel标记、注释并进行InDel过滤

InDel是指基因组中小片段的插入和缺失序列。利用 SAMTOOLs检测长度小于50bp的小片段插入与缺失(InDel),然后用ANNOVAR软件对检测出的InDel进行注释。

InDel检测及注释结果统计

Category Number of Indels
Upstream 1,702
Exonic Stop gain 9
Stop loss 2
Frameshift deletion 100
Frameshift insertion 59
Non-frameshift deletion 143
Non-frameshift insertion 121
Intronic 5,242
Splicing 12
Downstream 1,716
Upstream/Downstream 157
Intergenic 168,379
Insertion 88,295
Deletion 90,584
Het Rate 0.563
Total 178,879

构建染色体跨度单体型

单个样本构建染色体跨度单体型

利用高通量测序技术,结合生物信息学分析方法,
Hi-C可以捕获很多物理位置相距很远的互作,使用Hi-C文库可以构建染色体跨度的个体单体型。
基于Hi-C技术,将高通量测序与生物信息学技术结合起来,
根据染色体边界的存在构建出了染色体跨度水平的单体型(Haplotype),
与传统的单体型构建相比,利用Hi-C技术构建染色体跨度的单体型图谱,跨度更长,完整性更高。

单体型分析结果统计表

Chromatin len phased SPAN Completments Resolution
2575,694208,658248,945,03699.9836.24
3519,155180,762224,276,94710034.82
4291,052108,924119,205,43399.9637.42
5246,94586,677107,895,61399.9935.1
6282,677103,681117,029,83510036.68
7246,73391,009100,055,84299.9836.89
8219,08280,84690,628,16599.9336.9
9230,24384,38894,724,04710036.65
10212,46480,35186,437,29399.9937.82
11142,44645,91062,225,38099.9632.23
12192,50969,56178,860,88499.736.13
13198,16770,61583,026,63199.9435.63
14152,26955,64862,702,51299.9736.55
15192,59666,75380,618,85399.6234.66
16174,42464,20071,698,57499.9736.81
17170,04258,68072,276,37699.9934.51
18159,35857,36368,587,39999.9736
19146,23250,47860,358,96499.8334.52
20136,65851,19151,142,46599.9337.46
21122,17342,84949,975,24599.835.07
22129,38247,55950,773,36699.8836.76
23153,70857,46162,327,07999.9937.38
2495,58431,45741,862,04099.5932.91
25121,87143,76245,356,59299.9835.91
26112,55442,02844,075,15099.9937.34