常见问题
Q1:转录组测序需要多少数据量?
A:这个因研究的物种和研究需求而异。常规的动植物物种我们一般推荐6G数据量,基因组比较小的原核生物或真菌推荐可测3G。而对于部分基因数目较多的物种、老师关注的基因表达丰度较低的项目、病原宿主互作项目,可根据情况适当增加数据量。
Q2:有参比对到基因组还是转录本?
A:有参物种有两种选择:
1)比对基因组;
2)比对到转录本,理论上这两种选择的分析结果应该是大同小异的。
Q3:对于参考基因组不好的情况下,选择无参还是有参?
A:只要有参考基因组,优先推荐使用参考基因组来做分析。对于基因组拼接来说比较难的部分是重复区,基因组装质量不好主要是因为重复序列。基因组编码区的序列无论是杂合率或重复性都比较好,所以相对容易拼接。编码区的组装质量一般较好。所以优先使用参考基因组。
Q4:转录组找snp 或者编辑位点要去RNA 冗余吗?
A:不需要。重测序的话,的确需要去除PCR导致的冗余。但RNA-seq产生的read 冗余,可能是真实的冗余。这是因为RNA-seq的测序深度大大高于重测序。RNA-seq call SNP要解决的问题主要不是reads 冗余,其主要有2个问题会影响SNP 准确性:
1)基因编辑,基因编辑的存在会导致很多SNP变异并不是DNA层面的,而是转录过程中修饰导致新的碱基,
2)RNA-seq存在大量可变剪切,容易导致比对错误而产生很多大量假阳性SNP。如果RNA-seq要call SNP,需要把内含子及外显子边界周围(例如5bp以内)的SNP去除掉,因为这些区域的SNP假阳性比较高。
转录组是指某个物种特定细胞或组织在某一状态下所转录出来产生的所有转录本的集合。对真核有参生物进行转录组测序,既可定量测定每个转录本在生长过程中和不同的条件下的表达水平的变化,还可以对基因结构进行分析,研究SNP、可变剪切、基因结构优化等信息。通过新一代高通量测序,能够全面快速地获得某一物种特定组织或者器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。 |
1. 基因表达水平研究 2. 基因结构水平研究 |
技术路线
分析内容
基础分析 1. 测序质量评估与原始数据过滤,去除接头序列及低质量reads 2. 比对参考基因组或参考基因序列 3. 测序与比对评估(数据比对统计,测序饱和度分析,测序随机性分析) 4. 基因表达统计(基因覆盖度,表达量,表达量丰度分布) 5. 新基因的转录本预测及注释(需有参考基因组,限动植物) 6. 样本关系分析(主成分分析(PCA)、相关性检验、样本聚类图) 7. 差异表达基因分析(两个或两个以上样品) 7.1 差异表达基因筛选 7.2 差异基因火山图 7.3 差异基因表达模式聚类分析(热图) 7.4 差异基因GO功能显著性富集分析 7.5 差异基因Pathway显著性富集分析 7.6 差异基因Reactome显著性富集分析(限部分物种) 7.7 差异基因DO显著性富集分析(限人)互作网络分析 7.8 GSEA分析(GO/KEGG/Reactome/DO) | 高级信息分析1. SNP分析 2. 基因结构优化 3. 基因可变剪切鉴定 4. 趋势分析
|