DE-nf : Pipeline V1.0

Un pipeline nextflow pour réaliser une analyse d'expression différentielle RNAseq sur un ensemble d'individus.

Description

Ce pipeline a été développé en vue de réaliser des analyses RNAseq complètes à partir de fichiers FASTA issus de séquençage NGS.

Voici un résumé de la méthode :

Réalisation d'un index (optionnel).
Alignement des reads sur le génome de référence.
Intersection des fichiers SAM sur l'annotation de référence.
Élaboration de la matrice finale de comptage brute.
Analyse d'expression différentielle sur R via le package DESeq2.

Veuillez consulter la section "Usage" pour tester le pipeline avec un ensemble de données.

Dépendences

Le pipeline est fonctionnel sous les distributions de Linux.

Ce pipeline est entièrement basé sur l'utilisation de Nextflow. Il est fortement recommandé de prendre connaissance de son installation et de son utilisation avant d'exécuter le pipeline.
Software à installer :
- STAR (version 2.7.7a)
- BWA (version 0.7.17-r1188)
- samtools (version 1.9)
- fastqc (version 0.11)
- multiqc (version 1.8)
- htseq-count (version 0.13.5)
- R (version 4.0.3)
- Package R : DESeq2, edgeR, pheatmap, RColorBrewer, ggbeeswarm, genefilter, biomaRt, stringr, ggplot2, NMF, tidyverse.
Fichier complémentaire nécessaire :
- Fichier d'annotation GTF : hg38 ou Aedes albopictus
- Fichier FNA pour l'index : hg38 ou Aedes albopictus
- Fichier XLS : Métadonnée (voir dossier data/ pour Aedes albopictus)
Autre : Des containers Docker et Singularity ont également été élaboré en vue de permettre aux utilisateurs de lancer le pipeline sans avoir à installer toutes les dépendances nécessaires de la partie 2. Les installations des outils Docker et Singularity sont nécessaire au préalable. Voir la dernière section de "Usage" pour plus de détails.

Input

Type	Description
Fichier FASTA/FASTQ	Corresponds aux fichiers FASTA/FASTQ d'intérêt compressés au format .gz.

Paramètres

Paramètres obligatoires :

Nom	Exemple	Description
--input	/input/	Chemin vers le dossier où se trouvent les fichiers FASTA à utiliser pour l'analyse. Assurez-vous de n'avoir que les fichiers FASTA d'intérêts dans ce dossier et rien d'autre.
--output	/output/	Chemin vers le dossier où se trouveront les différents résultats issus du pipeline.
--GTF	/data/fichier.gtf	Chemin où se trouve le fichier d'annotation à utiliser pour l'index via STAR et l'intersection via htseq-count.

Paramètres obligatoires complémentaires pour l'index :

Nom	Exemple	Description
--index	/data/index	Chemin vers le dossier où se trouve l'index STAR à utiliser pour le pipeline. Si cette option n'est pas utilisée, merci de vous assurer de fournir l'option --FNA en plus de l'option --GTF pour réaliser l'index. Par défaut, null.
	Ou bien :
--FNA	/data/fichier.fna	Chemin où se trouve le fichier .fna à fournir obligatoirement pour réaliser l'index si l'option --index n'est pas fourni.

Paramètres optionelles/complémentaires :

Nom	Exemple	Description
--mapper	STAR/BWA	Mapper à utiliser. Par défaut BWA (MEM).
--thread	N	Nombre de thread à utiliser pour le pipeline. Par défaut 1.
--R	on/off	Option pour réaliser ("on") ou non ("off") l'analyse d'expression différentielle sur R par défaut sur pipeline. Par défaut, off.
--metadata	/data/metadata.xls	Chemin où se trouve le fichier de métadonnées à utiliser pour l'analyse d'expression différentielle sur R. Obligatoire si l'option --R est mis sur "on"

Usage

Lancement basique du pipeline, dans le cas où toutes les dépendances sont installées localement.

nextflow run Lipinski-B/DE-nf --input /input/ --GTF /data/fichier.gtf --FNA /data/fichier.fna --output /output/

La matrice de comptage résultant correspond au fichier finale.txt dans le dossier "/output/merge/finale.txt".

Un script DE.R est mis à votre disposition dans le dossier "bin/" de ce répertoire git, afin de vous permettre de réaliser par vous-même l'analyse de l'expression différentielle. Vous aurez donc besoin de la matrice finale pour terminer l'analyse mais aussi d'un fichier XLS répertoriant les métadonnées des échantillons d'intérêts.

Le script DE.R se lance comme ceci :

Rscript bin/DE.r finale.txt /data/Metadata.xls

Vous pouvez utiliser votre propre fichier XLS, dans ce cas il est recommandé de suivre comme template le fichier "Metadata.xls" que vous trouverez dans le dossier "data/" de ce répertoire. Le but ici étant de pouvoir permettre à l'utilisateur de réaliser ses propres analyses exploratoires d'expression différentielle à partir du template fourni dans le script DE.R

Vous pouvez également lancer le pipeline avec la réalisation d'une analyse d'expression différentielle par défaut sur R de façon automatique, via l'option --R.

nextflow run Lipinski-B/DE-nf --input /input/ --GTF /data/fichier.gtf --FNA /data/fichier.fna --R on --metadata /data/metadata.xls --output /output/

Un rapport sera mis à votre disposition dans le dossier "/output/R/".

Dans le cas où toutes les dépendances sont installées localement et vous souhaitez utiliser votre propre index STAR pour l'analyse, vous pouvez suivre cette procédure. Attention pour des raisons de compatibilité, l'index ajouté avec l'option --index doit être réalisé avec la même version du mapper que celle utilisée pour l'alignement.

nextflow run Lipinski-B/DE-nf --input /input/ --GTF /data/fichier.gtf --index /data/mapper_index --output /output/

Enfin vous pouvez lancer le pipeline via l'utilisation de containers Docker/Singularity via l'option -profile.

nextflow run Lipinski-B/DE-nf -profile docker --input /input/ --GTF /data/fichier.gtf --FNA /data/fichier.fna --output /output/

ou

nextflow run Lipinski-B/DE-nf -profile singularity --input /input/ --GTF /data/fichier.gtf --FNA /data/fichier.fna --output /output/

Contributions

Name	Email	Description
Lipinski Boris	[email protected]	Developeur à contacter pour support

Name		Name	Last commit message	Last commit date
Latest commit History 133 Commits
bin		bin
data		data
modules/local		modules/local
DE.nf		DE.nf
Dockerfile		Dockerfile
README.md		README.md
Singularity		Singularity
analyses-nf.png		analyses-nf.png
analyses-nf.svg		analyses-nf.svg
environnement.yml		environnement.yml
nextflow.config		nextflow.config

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DE-nf : Pipeline V1.0

Un pipeline nextflow pour réaliser une analyse d'expression différentielle RNAseq sur un ensemble d'individus.

Description

Dépendences

Input

Paramètres

Paramètres obligatoires :

Paramètres obligatoires complémentaires pour l'index :

Paramètres optionelles/complémentaires :

Usage

Contributions

About

Releases 1

Packages

Languages

Lipinski-B/DE-nf

Folders and files

Latest commit

History

Repository files navigation

DE-nf : Pipeline V1.0

Un pipeline nextflow pour réaliser une analyse d'expression différentielle RNAseq sur un ensemble d'individus.

Description

Dépendences

Input

Paramètres

Paramètres obligatoires :

Paramètres obligatoires complémentaires pour l'index :

Paramètres optionelles/complémentaires :

Usage

Contributions

About

Resources

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages