Snakemake-пайплайн для сборки, бининга и аннотации метагеномных данных
Автоматизированный пайплайн для анализа метагеномных данных эукариот (например, миноги Petromyzon marinus) с поддержкой:
- Illumina данных
- Контроля качества
- De novo сборки
- Таксономической классификации
- Аннотации генов
- прописать все пути до начала использования пайплайна в config.yaml
- Miniconda/Anaconda
- Рекомендуется Mamba для ускорения:
conda install -n base -c conda-forge mamba
---
git clone https://github.com/heskad/.task-2
cd .task-2
cd envs
chmod +x install_envs.sh
./install_envs.sh
Перед запуском основного пайплайна необходимо выполнить контроль качества с помощью FastQC в два этапа:
- До тримминга и удаления адаптеров:
fastqc -o qc/fastqc/raw/ data/raw/*.fastq
После первого FastQC анализа необходимо выполнить предварительную обработку чтений с помощью Trimmomatic:
trimmomatic PE -threads {threads} \
data/raw/{sample}_R1.fastq data/raw/{sample}_R2.fastq \
qc/trimmed/{sample}_R1.trimmed.fastq qc/trimmed/{sample}_R1.unpaired.fastq \
qc/trimmed/{sample}_R2.trimmed.fastq qc/trimmed/{sample}_R2.unpaired.fastq \
ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10 SLIDINGWINDOW:4:20 MINLEN:50
Параметры обработки:
ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10
- удаление адаптеров Illumina TruSeq3SLIDINGWINDOW:4:20
- фильтрация по качеству с использованием скользящего окнаMINLEN:50
- удаление чтений короче 50 нуклеотидов
- После тримминга и удаления адаптеров:
fastqc -o qc/fastqc/trimmed/ qc/trimmed/*.trimmed.fastq
Это позволит оценить качество данных на разных этапах обработки и убедиться в эффективности удаления адаптеров и фильтрации.
запуск пайплайна
Snakemake -j <"кол-во задач">
Этап анализа | Инструменты | Выходные файлы |
---|---|---|
Контроль качества | FastQC, Trimmomatic, Cutadapt | results/qc/trimmed/*.fastq |
Сборка генома | MEGAHIT (Illumina), | results/assembly/final_assembly.fasta |
Таксономия | Kraken2, Kaiju, BUSCO | results/taxonomy/kraken_out.txt |
Биннинг | MetaBAT2, CONCOCT | results/binning/metabat2/bins/ |
Аннотация | Prokka, BLAST | results/annotation/prokka.gff |
Визуализация | QUAST, MultiQC | results/quast/report.html |