|
今天小编继续和大家聊一聊
利用重测序进行基因分型降低成本的另一种策略――
全基因组低深度重测序
(low-coverage whole-genome sequencing, LcWGS)
使用高深度重测序的方法检出的基因型疑是比较全面的,但目前应用于动植物育种的成本过高,尤其是对那些具有复杂的、庞大基因组的物种而言。上期我们提到,研究人员通常利用独特的文库构建方法来进行简化基因组测序(RAD-seq),从而降低基因分型成本。但简化基因组数据量一般只有全部基因组的1~10%,仍然丢失了大量信息。混池测序(Pool-seq)虽说也是群体研究一种有效降低成本的方式,但法对个体进行分析,这对于动植物育种而言作用不大。
LcWGS策略兼具RAD-seq、Pool-seq的点,同时避免了二者缺点,如图1所示。既能在群体水平对整个基因组进行研究(同时考虑了基因组深度与广度),又保留了个体的信息,且费用与二者相当。所以,通过LcWGS结合算法来获得全基因组基因型是近几年比较流行的做法
LcWGS基本介绍
那么,全基因组低深度测序的深度究竟有多低?据小编了解,一般少于5x,甚至在1x以下,具体要视在给定预算的情况下,权衡样本数量和测序深度而定。LcWGS首先对群体中所有个体进行全基因组低深度重测序和变异检测,然后利用算法根据变异间的连锁不平衡(LD)对缺失基因型进行推断和填充(Imputation),比较终获取大规模样本全基因组水平的高密度遗传标记。
近年来,大样本的LcWGS已从理论上证明能够以极低的成本获取全基因组高密度SNP标记,进而增加QTL定位的精度,并更好地挖掘各类疾病的遗传机制(Zan et al., 2022; Homburger et al., 2022)。LcWGS也被用于关联分析(Cai et al., 2022)和群体遗传研究(Rustagi et al., 2022)。研究发现将低密度数据填充到全基因组测序水平进行育种值预测的势高度依赖于致因突变的频率分布。在中性模型下填充数据的越性很小,当所有致因突变比较小等位基因频率都很低时,采用填充数据进行遗传评估的准确性能够提高30%(Druet et al., 2022)。
LcWGS预处理流程与WGS是类似的,但一个重要的不同之处在于需要使用基因型可能性来解释基因型不确定性的概率,如利用等位基因频率谱(site frequency spectrum,SFS)进行下游分析(图2)。
基因型填充
基因型填充基因型填充(或填补,或插补)是根据参考面板(reference panel)中的单倍型和基因型,预测和填充缺失基因型的过程。它基于这样的假设:即便两个明显关的个体,在其基因组中也有共享来自共同祖先的片段。这样就可以利用包含大量标记的panel来推断一个样本中未观察到的基因型,从而有效增加SNP密度(图3)。基因型填充(或填补,或插补)是根据参考面板(reference panel)中的单倍型和基因型,预测和填充缺失基因型的过程。它基于这样的假设:即便两个明显关的个体,在其基因组中也有共享来自共同祖先的片段。这样就可以利用包含大量标记的panel来推断一个样本中未观察到的基因型,从而有效增加SNP密度(图3)。
在基因组方法学领域,人类研究总是领先于动植物。目前绝大部分LcWGS软件和算法也是针对人类基因组开发,动植物基因组可以参考。LcWGS的难点在于如何准确地推断和填充个体基因型,现在大多数基因型填充软件采用的是隐马尔可夫模型框架,从reference panel中估计单倍型推断基因型。
基因型填充可以分为两种。一种是大家更为熟悉的基于变异文件的填充,如通过reference panel对vcf进行填充,比较终使变异数与reference panel相同。另一种就是基于LcWGS,利用比对后的bam文件以及reference panel对样品直接分型,比较终获得与reference panel相同的位点数(图4)。由于变异文件vcf只包含检测群体的变异位点(不意味着在其他群体中变异),而LcWGS通过bam文件填充,其reads覆盖基因组更广,且同时考虑了reads1和reads2的相位信息(这对填充很重要),相对而言LcWGS具有更好的填补效果。
图片说明:
高世代样本的高深度重测序数据用于确定SNP参考数据集,低深度重测序数据经过滤和比对参考基因组后获得中间Bam文件,随后以可信变异位点集(highly credible sites, HCS)为基础进行填充,同时利用随机个体的深度重测序数据进行准确性评估,比较终获得可以用于基因组育种的SNP数据集。
以上看出,reference panel对基因型填充似乎是必需的,如何获得特定物种的refrence panel呢?人类的参考面板已经非常全面,如1000 Genomes,Haplotype Reference Consortium (HRC)等,这里就不介绍了。动植物领域近年也有研究人员开发了相应数据库,提供reference panel的下载:
动物Animal-ImputeDB(http://gong_lab.hzau.edu.cn/Animal_ImputeDB/#!/)包含了13个物种的2265个样本。
植物Plant-ImputeDB(http://gong_lab.hzau.edu.cn/Plant_imputeDB/#!/)包含了12个物种的34244个样本。
如果研究的物种没有reference panel怎么做填充?小编认为一是可以自己构建,但群体材料需要有足够的代表性。二是可以用需reference panel的软件,如STITCH(Davies et al., 2022)。
常用工具
用于LcWGS填充的工具很多,这里举几个代表性例子。对软件使用和算法感兴趣的同学可与小编交流。
ANGSD。应该是使用比较多的软件之一(Korneliussen et al., 2022)。如图2的workflow中SFS展示的就是ANGSD的算法。具体可参考综述:A beginner’s guide to low-coverage whole genome sequencing for population genomics。文章作者也开设了相应教程,资料在Github:https://github.com/nt246/lcwgs-guide-tutorial。
Meta-imputation。不局限于单一reference panel,而是根据特定研究群体构建一个组合参考面板,允许将使用不同参考面板生成的多个填充结果合并到一起,生成一致填充数据集(Yu et al., 2022)。该软件比较近开发,目前仅用于人类。
STITCH。影响力也很大,2022年发表在NG上(Davies et al., 2022)。如14万人创产前检测(NIPT)的低深度重测序(0.06-0.1x),利用了华大开发的BaseVar结合STITCH填充,2022年发表在Cell上(Liu e t al., 2022)。同样地,农业大学胡晓湘老师联合MGI对杜洛克公猪的LcWGS育种流程也是采用的BaseVar-Stitch流程(Yang et al., 2022),示意图5所示:
其他常见的基因型填充软件如Beagle、Impute2、Shapeit2+Impute2、MACH+Minimac3等,由于不是专门用于LcWGS中,此处就不介绍了。
LcWGS特点
与小编之前介绍的几种基因型分型策略相比,LcWGS的点很明显。几种技术从不同维度的比较如下:
LcWGS WGS Array RAD-seq
Sequencing depth low high -- high
Number of variants more more less less
New variant detection yes yes no no
Accuracy moderate high high high
Reference genome yes yes yes yes/no
Cost low high low low
尽管LcWGS有很多势,但仍存在以下方面的不足:
流程相对复杂,缺乏用户友好的软件界面和文档;
需要定相与填充,对计算要求比较高;
当前的软件存在一定缺陷,导致基因型判读不一致;
不适合调用已知基因型的分析,且易受批次效应影响;
在没有reference panel时不能准确定相(即不能基于单倍型分析);
不适合小样本量和复杂基因组的情况。
总体而言,小编认为LcWGS是动植物育种领域值得探索的一种新方法。其早在2022年,韩斌老师发表的首篇水稻GWAS研究(517个水稻地方品种 ~1x 重测序与填充)就是利用LcWGS,只是填充采用的是比较经典而简单的K近邻算法(KNN)(Huang et al., 2022)。在商业化育种践方面,以色列NRGene公司做过一些尝试。但如何通过合理的设计试验,将LcWGS嵌入到整个育种计划与流程中,仍然是一项重大的难题。研究人员需要设定育种目标,根据物种基因组及育种材料数进行系统设计,采用合适的测序策略,利用秀的算法,控制好预算,找到适当的平衡点。关于如何化特定的验设计,也可以参考模拟流程(https://github.com/therkildsen-lab/lcwgs-simulation)。
本次分享到此结束,下期见。
我认为基因型系统一定可以成为行业的领导者,翘首高端产品之列。百奥云立足于育种的前沿领域,针对我国商业化育种初现雏形、育种数据将快速增长的现状,提出了育种"数字化-信息化-智能化"的发展路线。http://www.biobin.com.cn/
|
|