Skip to content

heskad/.task-2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Метагеномный анализ эукариот (на примере миноги)

Snakemake-пайплайн для сборки, бининга и аннотации метагеномных данных


Обзор

Автоматизированный пайплайн для анализа метагеномных данных эукариот (например, миноги Petromyzon marinus) с поддержкой:

  • Illumina данных
  • Контроля качества
  • De novo сборки
  • Таксономической классификации
  • Аннотации генов

Установка

Предварительные требования

  • прописать все пути до начала использования пайплайна в config.yaml
  • Miniconda/Anaconda
  • Рекомендуется Mamba для ускорения:
conda install -n base -c conda-forge mamba
---

git clone https://github.com/heskad/.task-2
cd .task-2
cd envs
chmod +x install_envs.sh
./install_envs.sh

Контроль качества

FastQC анализ

Перед запуском основного пайплайна необходимо выполнить контроль качества с помощью FastQC в два этапа:

  1. До тримминга и удаления адаптеров:
fastqc -o qc/fastqc/raw/ data/raw/*.fastq

Тримминг и удаление адаптеров

После первого FastQC анализа необходимо выполнить предварительную обработку чтений с помощью Trimmomatic:

trimmomatic PE -threads {threads} \
    data/raw/{sample}_R1.fastq data/raw/{sample}_R2.fastq \
    qc/trimmed/{sample}_R1.trimmed.fastq qc/trimmed/{sample}_R1.unpaired.fastq \
    qc/trimmed/{sample}_R2.trimmed.fastq qc/trimmed/{sample}_R2.unpaired.fastq \
    ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10 SLIDINGWINDOW:4:20 MINLEN:50

Параметры обработки:

  • ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:10 - удаление адаптеров Illumina TruSeq3
  • SLIDINGWINDOW:4:20 - фильтрация по качеству с использованием скользящего окна
  • MINLEN:50 - удаление чтений короче 50 нуклеотидов
  1. После тримминга и удаления адаптеров:
fastqc -o qc/fastqc/trimmed/ qc/trimmed/*.trimmed.fastq

Это позволит оценить качество данных на разных этапах обработки и убедиться в эффективности удаления адаптеров и фильтрации.


запуск пайплайна

Snakemake -j <"кол-во задач"> 

Этапы анализа

Этап анализа Инструменты Выходные файлы
Контроль качества FastQC, Trimmomatic, Cutadapt results/qc/trimmed/*.fastq
Сборка генома MEGAHIT (Illumina), results/assembly/final_assembly.fasta
Таксономия Kraken2, Kaiju, BUSCO results/taxonomy/kraken_out.txt
Биннинг MetaBAT2, CONCOCT results/binning/metabat2/bins/
Аннотация Prokka, BLAST results/annotation/prokka.gff
Визуализация QUAST, MultiQC results/quast/report.html

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published