1.怎样评估研究物种的基因组大小?
- (1)网站查询
查询植物基因组大小的网站:http://data.kew.org/cvalues
查询动物基因组大小的网站:http://www.genomesize.com
(2)流式细胞仪方法br 流式细胞仪是目前比较常用的估计基因组大小的实验方法。可以老师自己做流式评估,也可以我们帮助老师联系相关公司去做。
(3)Survey 评估
Survey分析,即将测序得到的 reads 打断成 K-mer,通过 K-mer 分析,从数学的角度评估基因组的大小,杂合以及重复等信息。并进行初步组装,从初步组装的 Contig 的 GC 分布图上,判断该物种是否有污染等信息,从而为后续组装策略的制定提供可靠的依据。为什么一定要做Survey?
2.Survey是评估基因组的有效手段,对于没有参考基因组的物种,在启动de novo 项目之前,对基因组特征评估是十分必要的,基因组大小及复杂状况直接影响到项目价格,周期以及后续的组装策略等。 Survey评估和流式细胞仪评估有什么区别?
- 两者都可以对基因组的大小进行评估,Survey评估中的K-mer分析是从数学角度上进行分析的,得到的信息更为全面和准确。而流式则是通过实验的手段,主要通过已知内参物种基因组大小来 评估被测物种的基因组大小。由于内参选择不同,实验预估基因组大小与实际会有一些偏差。
3.做了基因组Survey是否就一定不用做流式了呢?
- 不是。我们一般建议老师在做Survey之前先做一下流式对基因组大小有个初步的预估。原因如下:K-mer分析中,我们把K-mer分布最多的峰为主峰,主峰前的1/2的峰称为杂合峰,把主峰后2倍的位置 的峰称为重复峰。若出现主峰判断不清的时候,一般可以结合流式的结果来对我们的判断进行验证。
4.K-mer分析时,为何选的K-mer长度不一样?
- 一般来说,用来预估基因组大小的k-mer我们选取17-mer,其原因是ATCG四种不同的碱基若组成长度为17的核苷酸片段,在经过不同的排列组合可出现417种可能性,也就是17G足以覆盖一般的正常基因组;如果选择15的话,则只有415,只有1G的可能,对于正常的基因组可能覆盖度不够。导致估计不准确,当然对于较大的基因组(>15G),我们会尝试采用19-mer进行评估。 由于Reads上存在错误碱基,K-mer并非越大越好,若K-mer选择的越大,则包含这个错误位点的K-mer的个数就会越多。 另外为了避免回文序列,K-mer分析选择K长度均为奇数。而对于高重复的重复,我们通常会选择一些长度较长的K-mer,这是因为较大的K-mer能够跨过一些高重复区域,对于组装具有较好的结果。