- Seqprep 和Sickle进行质控后数据统计基于原始测序数据,使用相应软件对其进行数据质控剪切掉数据中的低质量及含N的reads,获得后续分析需要的高质量序列
- Multiple_Megahit 最短contig长度 ≥ 300 bp 拼接组装与基因预测。通过相应的拼接软件选择拼接效果最佳的序列,对结果进行ORF预测选择核酸长度大于等于100bp的基因,并将其翻译为氨基酸序列
- MetaGene通过相应的拼接软件,选择拼接效果最佳的序列对结果进行ORF预测。选择核酸长度大于等于100bp的基因并将其翻译为氨基酸序列。
- CD-HIT 基因序列聚类相似度(Identity)≥ 0.95 基因序列聚类覆盖度 (Coverage)≥ 0.9通过CD-HIT软件对样本预测出来的基因序列进行聚类,构建非冗余基因集得到非冗余基因集基因的碱基序列。
- SOAPaligner 最大/最小插入片段长度:500/300 bp 基因丰度计算相似度(Identity)≥ 0.95针对SOAPaligner比对后的信息,统计基因在各个样本中的丰度信息
-
Diamond 比对类型: blastp E-value ≤ 1E-5,NR物种注释基于基因的物种分类学注释比对NR数据库获得样本物种的分类学注释信息。