拷贝数变异测序
拷贝数变异测序(Copy Number Variation Sequencing, CNV-seq)是一种基于高通量测序技术,用于检测基因组中DNA拷贝数变异(CNV)的分子生物学方法。CNV是指基因组中大于1kb的DNA片段的拷贝数增加或减少,包括缺失、重复、插入等结构变异,是基因组结构变异的重要组成部分。CNV测序技术通过对全基因组或目标区域进行深度测序,结合生物信息学分析,能够高精度地识别CNV的位置、大小和拷贝数变化,为疾病诊断、基因功能研究和进化分析提供重要信息。
技术发展历程
早期CNV检测技术
早期CNV检测主要依赖于荧光原位杂交(FISH)、比较基因组杂交(CGH)和基于微阵列的比较基因组杂交(aCGH)等技术,但这些方法分辨率有限,无法检测小片段的CNV。
基于NGS的CNV检测
随着二代测序技术(NGS)的出现,基于测序深度的CNV检测方法逐渐发展,通过计算特定区域的测序reads数量与参考基因组的比对情况,实现CNV的检测,大大提高了分辨率和准确性。
生物信息学工具的发展
多种CNV分析算法和工具相继开发,如CNVnator、CNVkit、Control-FREEC等,能够处理不同测序平台产生的数据,并针对不同类型的样本(如肿瘤、胚胎等)进行优化。
三代测序技术的应用
三代测序技术(如PacBio、Nanopore)的发展,提供了更长的读长和更高的结构变异检测能力,进一步推动了CNV检测技术的发展。
基本原理
测序深度与拷贝数关系
CNV测序的核心原理是基于测序深度(Read Depth, RD)与基因组拷贝数的线性关系。在理想情况下,基因组中每个区域的测序reads数量与该区域的拷贝数成正比。通过比较样本与参考基因组或对照样本的测序深度差异,可以推断出CNV的存在及其拷贝数变化。
断点检测
除了基于测序深度的方法,CNV测序还可以通过检测断裂点(Breakpoints)来识别CNV。当基因组发生结构变异时,会在断点处产生异常的测序reads比对模式,如跨断裂点的嵌合reads(Split Reads)或异常的配对末端reads(Paired-End Reads)距离,这些特征可用于精确定位CNV的边界。
生物信息学分析流程
CNV测序的生物信息学分析流程通常包括:原始数据质量控制、reads比对到参考基因组、测序深度标准化、CNV区域识别、断点精确定位、CNV注释和功能分析等步骤。
CNV测序技术类型
全基因组测序(WGS)
对整个基因组进行测序,能够检测全基因组范围内的CNV,分辨率取决于测序深度,通常为1-10kb。适合发现未知CNV和复杂结构变异。
外显子组测序(WES)
选择性捕获和测序基因组中的外显子区域,对编码区CNV检测具有较高的灵敏度和性价比,但无法检测非编码区的CNV。
目标区域测序
针对特定基因或区域进行深度测序,适合已知致病CNV的验证或特定疾病相关CNV的筛查,成本低、灵敏度高。
低覆盖度全基因组测序
以较低的测序深度(通常1-5X)对全基因组进行测序,通过增加样本量和统计分析来检测CNV,适合大规模人群CNV研究。
数据分析方法
基于测序深度的方法
通过计算基因组区域的测序reads数量,与参考基因组或对照样本进行比较,识别拷贝数变化区域。常用工具包括CNVnator、CNVkit、ExomeDepth等。
基于断裂点检测的方法
通过分析异常比对的reads(如split reads和abnormal paired-end reads)来识别CNV的断裂点,精确定位CNV边界。常用工具包括Pindel、Delly等。
基于单核苷酸多态性(SNP)的方法
通过分析SNP位点的等位基因频率,识别杂合性缺失(LOH)和拷贝数中性的杂合性丢失(cnLOH)。常用工具包括PennCNV、QuantiSNP等。
整合多种信号的方法
结合测序深度、断裂点和SNP信息,提高CNV检测的准确性和分辨率。常用工具包括Manta、Lumpy等。
技术优势与挑战
优势
- 高分辨率:可检测小至几十bp的CNV,远高于传统方法
- 全基因组覆盖:能够检测全基因组范围内的CNV,包括编码区和非编码区
- 精确定位:可准确确定CNV的断裂点位置,提供详细的结构信息
- 同时检测多种变异:除CNV外,还可检测SNP、插入缺失(Indel)等变异
- 适用于多种样本类型:包括血液、组织、细胞系、FFPE样本等
挑战
- 数据分析复杂:需要专业的生物信息学知识和工具来处理高维数据
- 假阳性和假阴性:测序深度不均一、重复序列区域等因素可能导致误判
- 低水平嵌合CNV检测困难:肿瘤样本中的亚克隆CNV或体细胞嵌合变异检测灵敏度有限
- 成本较高:全基因组测序成本相对较高,限制了大规模应用
- CNV功能注释困难:许多CNV的临床意义和功能尚未明确
应用领域
遗传病诊断
CNV测序可检测染色体微缺失/微重复综合征、单基因病相关的CNV,如杜氏肌营养不良症(DMD)、脊髓性肌萎缩症(SMA)等。
肿瘤基因组学
检测肿瘤相关的CNV,如原癌基因扩增(如HER2)、抑癌基因缺失(如TP53),为肿瘤的诊断、预后评估和靶向治疗提供依据。
产前诊断
通过无创产前检测(NIPT)分析母血中的游离胎儿DNA,检测胎儿染色体非整倍体和大片段CNV。
药物基因组学
检测药物代谢相关基因的CNV,如CYP450家族基因,指导个性化用药。
进化与群体遗传学
研究物种间和群体内的CNV差异,了解基因组进化和适应性。
技术流程
样本制备
提取高质量的基因组DNA,确保DNA浓度和完整性符合测序要求。
文库构建
将DNA片段化,连接测序接头,根据测序目标选择全基因组、外显子组或目标区域捕获。
测序
使用高通量测序平台(如Illumina、PacBio、Nanopore)进行测序,生成原始测序数据。
数据分析
包括数据质量控制、比对、CNV检测、注释和功能分析等步骤。
结果验证与解读
通过Sanger测序、qPCR、MLPA等方法验证CNV,结合临床表型进行功能和临床意义解读。
常用工具与数据库
分析工具
- CNVnator - 基于全基因组测序数据的CNV检测工具
- CNVkit - 用于外显子组和目标区域测序的CNV检测工具
- Control-FREEC - 用于肿瘤样本的CNV和LOH检测工具
- Genome STRiP - 基于全基因组测序的结构变异检测工具
- Manta - 用于检测插入缺失和结构变异的工具
数据库
- DECIPHER - 与疾病相关的CNV和表型数据库
- dbVar - NCBI的基因组结构变异数据库
- GWAS Catalog - 全基因组关联研究数据库
- ClinVar - 与疾病相关的基因变异数据库
- Database of Genomic Variants (DGV) - 正常人群CNV数据库