Περιγραφή GATK¶
Genome Analysis Toolkit: Variant Discovery in High-Throughput Sequencing Data
GATK 4.3.0¶
Getting Started Technical Documentation
Παράδειγμα χρήσης¶
Στο $HOME
μας στο login node, δημιουργούμε ένα νέο φάκελο όπου τοποθετούμε τα αρχεία εισόδου και το script υποβολής της εργασίας, έστω gatk-4.3.0-case.sh
.
# mkdir gatk-4.3.0-case
# cd gatk-4.3.0-case
Έστω ότι το αρχείο εισόδου λέγεται sample1.bam
και το αρχείο αναφοράς λέγεται reference.fasta
. Το script υποβολής της εργασίας θα έχει την ακόλουθη μορφή:
SLURM submission script
#!/bin/bash
#SBATCH --job-name=gatk-4.3.0-case.sh
#SBATCH --partition=batch
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=4
#SBATCH --time=1:00:00
module load gcc/12.2.0 gatk/4.3.0
# gcc/9.4.0 may be used instead of gcc/12.2.0
# for this example, we shall use samtools to prepare the indexed reference file
# replace samtools with your preferred software
module load samtools/1.16
# create reference.fasta.fai
samtools faidx reference.fasta
# create dictionary reference.dict
gatk CreateSequenceDictionary -R reference.fasta
# call germline SNPs and indels via local re-assembly of haplotypes
# write output to variants.vcf
gatk HaplotypeCaller --native-pair-hmm-threads $SLURM_NTASKS_PER_NODE -R reference.fasta -I sample1.bam -O variants.vcf
ΠΡΟΣΟΧΗ
Εάν παραλειφθεί η παράμετρος --native-pair-hmm-threads
τότε το GATK θα χρησιμοποιήσει 4 νήματα (που είναι το default), οπότε θα πρέπει να έχουμε θέσει #SBATCH --ntasks-per-node=4
. Αν θέλουμε να χρησιμοποιηθεί μόνο 1 νήμα (σειριακή εκτέλεση) μπορεί να παραλειφθεί η --ntasks-per-node
αλλά πρέπει στην εντολή gatk
να δώσουμε --native-pair-hmm-threads 1
.
Η υποβολή της εργασίας γίνεται με την εντολή sbatch gatk-4.3.0-case.sh
ως εξής:
# sbatch gatk-4.3.0-case.sh
Παρακολουθούμε με την εντολή squeue
την εξέλιξη της εργασίας.
Eφόσον η εργασία έχει εκκινήσει μπορούμε να ελέγχουμε την πρόοδο της επίλυσης μέσω των αρχείων εξόδου. Π.χ.:
# tail -f *.out