Περιγραφή¶
FastQ Screen allows you to screen a library of sequences in FastQ format against a set of sequence databases so you can see if the composition of the library matches with what you expect.
FastQScreen 0.15.3¶
Παράδειγμα χρήσης¶
Καταρχάς τοποθετούμε τα αρχεία εισόδου κάπου στο $HOME
μας (ας πούμε ότι τοποθετούμε τον φάκελο απευθείας στο home directory). Για το παρακάτω παράδειγμα χρησιμοποιήσαμε το test dataset του λογισμικού, το οποίο μπορούμε να κατεβάσουμε και να αποσυμπιέσουμε ως εξής:
cd # go to home directory
wget http://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/fastq_screen_test_dataset.tar.gz
tar xavf fastq_screen_test_dataset.tar.gz
Ομοίως τοποθετούμε κάπου στο $HOME
και τα γονιδιώματα αναφοράς (ας πούμε ότι τοποθετούμε τον φάκελο απευθείας στο home directory). Για το παράδειγμά μας, έχουμε πάρει τα default γονιδιώματα αναφοράς, εκτελώντας:
cd # go to home directory
fastq_screen --get_genomes
Το script υποβολής της εργασίας θα έχει την ακόλουθη μορφή:
SLURM submission script
#!/bin/bash
#SBATCH -J FastQScreen-0.15.3-case
#SBATCH -p batch
#SBATCH --nodes 1
#SBATCH --ntasks-per-node 2
#SBATCH -t 0:05:00
#export align_function=bwa
#export align_function=bowtie
export align_function=bowtie2
module load gcc/13.2.0-iqpfkya fastq-screen
module load $align_function
#module load bismark # if we want to use bisulfides
capital_align_function=${align_function^^}
root_folder_variable=${capital_align_function}_ROOT
# prepare configuration file
echo -e "$capital_align_function ${!root_folder_variable}/bin/$align_function">>my_configuration_file_$SLURM_JOB_ID.conf
#echo -e "BISMARK $BISMARK_ROOT/bin/bismark">>my_configuration_file_$SLURM_JOB_ID.conf # if we want to use bisulfides
echo -e "THREADS $SLURM_NTASKS">>my_configuration_file_$SLURM_JOB_ID.conf
echo -e "DATABASE Human $HOME/FastQ_Screen_Genomes/Human/Homo_sapiens.GRCh38">>my_configuration_file_$SLURM_JOB_ID.conf
echo -e "DATABASE Mouse $HOME/FastQ_Screen_Genomes/Mouse/Mus_musculus.GRCm38">>my_configuration_file_$SLURM_JOB_ID.conf
# run FastQScreen on test dataset with bowtie2 aligner using the above configuration
fastq_screen --force $HOME/fastq_screen_test_dataset/fqs_test_dataset.fastq.gz --conf $PWD/my_configuration_file_$SLURM_JOB_ID.conf --aligner $align_function
Warning
Το συγκεκριμένο λογισμικό δεν δέχεται σχετικές διευθύνσεις. Με άλλα λόγια, δεν μπορούμε να δώσουμε ../fakelos/arxeio.xx
(όμως το $HOME/fakelos/arxeio.xx
γίνεται δεκτό) ούτε σκέτο ypofakelos/arxeio.xx
(στην θέση του τελευταίου, χρησιμοποιούμε το $PWD/ypofakelos/arxeio.xx
, το οποίο θα περάσει στο πρόγραμμα ως πλήρης διεύθυνση). Επίσης, στο configuration file στις διευθύνσεις δεν γίνονται δεκτά τα εισαγωγικά, οπότε θα πρέπει να προσέξουμε καμία διεύθυνση που χρησιμοποιούμε να μην περιέχει κενά.
Note
Προς διευκόλυνσή σας, για την δημιουργία του configuration file έχουμε δημιουργήσει το bash script fastq_conf
, το οποίο μπορείτε να χρησιμοποιήσετε εφόσον έχετε κάνει module load gcc/13.2.0-iqpfkya fastq-screen
. To script δέχεται ως είσοδο αφενός το όνομα του configuration file (με το flag -f
) και αφετέρου τα γονιδιώματα αναφοράς (καθένα με flag -d
), τα οποία και γράφει στο configuration file. Επίσης γράφει στο αρχείο τον αριθμό THREADS
ίσο με την τιμή του αντίστοιχου SBATCH directive (ntasks
), καθώς και τις διευθύνσεις των εκτελέσιμων αρχείων εφόσον έχουν γίνει load τα αντίστοιχα module (από τα bowtie2
, bowtie
, bwa
, bismark
).
Στο παράδειγμά μας (FastQScreen-0.15.3-case.sh
), η προετοιμασία του configuration file (το μπλοκ με τις εντολές echo
) μπορεί να αντικατασταθεί από την παρακάτω εντολή:
# fastq_conf -f $PWD/my_configuration_file_$SLURM_JOB_ID.conf -d Human $HOME/FastQ_Screen_Genomes/Human/Homo_sapiens.GRCh38 -d Mouse $HOME/FastQ_Screen_Genomes/Mouse/Mus_musculus.GRCm38
Note
Το FastQScreen χρησιμοποιεί μόνο 1 node.
Στο $HOME
μας στο login node, δημιουργούμε ένα νέο φάκελο όπου τοποθετούμε το script υποβολής της εργασίας, έστω FastQScreen-0.15.3-case.sh`.
# mkdir FastQScreen-0.15.3-case
# cd FastQScreen-0.15.3-case
Η υποβολή της εργασίας γίνεται με την εντολή sbatch <filename.sh>
ως εξής:
# sbatch FastQScreen-0.15.3-case.sh
Παρακολουθούμε με την εντολή squeue
την εξέλιξη της εργασίας.
Eφόσον η εργασία έχει εκκινήσει μπορούμε να ελέγχουμε την πρόοδο της επίλυσης μέσω των αρχείων εξόδου. Π.χ.:
# tail -f *.out