Μετάβαση στο περιεχόμενο

Περιγραφή GATK

Genome Analysis Toolkit: Variant Discovery in High-Throughput Sequencing Data

HOME Page

GATK 4.3.0

Getting Started Technical Documentation

Παράδειγμα χρήσης

Στο $HOME μας στο login node, δημιουργούμε ένα νέο φάκελο όπου τοποθετούμε τα αρχεία εισόδου και το script υποβολής της εργασίας, έστω gatk-4.3.0-case.sh.

# mkdir gatk-4.3.0-case
# cd gatk-4.3.0-case

Έστω ότι το αρχείο εισόδου λέγεται sample1.bam και το αρχείο αναφοράς λέγεται reference.fasta. Το script υποβολής της εργασίας θα έχει την ακόλουθη μορφή:

SLURM submission script
#!/bin/bash
#SBATCH --job-name=gatk-4.3.0-case.sh
#SBATCH --partition=batch
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=4
#SBATCH --time=1:00:00

module load gcc/12.2.0 gatk/4.3.0
# gcc/9.4.0 may be used instead of gcc/12.2.0

# for this example, we shall use samtools to prepare the indexed reference file
# replace samtools with your preferred software
module load samtools/1.16

# create reference.fasta.fai
samtools faidx reference.fasta

# create dictionary reference.dict
gatk CreateSequenceDictionary -R reference.fasta

# call germline SNPs and indels via local re-assembly of haplotypes
# write output to variants.vcf
gatk HaplotypeCaller --native-pair-hmm-threads $SLURM_NTASKS_PER_NODE -R reference.fasta -I sample1.bam -O variants.vcf

ΠΡΟΣΟΧΗ

Εάν παραλειφθεί η παράμετρος --native-pair-hmm-threads τότε το GATK θα χρησιμοποιήσει 4 νήματα (που είναι το default), οπότε θα πρέπει να έχουμε θέσει #SBATCH --ntasks-per-node=4. Αν θέλουμε να χρησιμοποιηθεί μόνο 1 νήμα (σειριακή εκτέλεση) μπορεί να παραλειφθεί η --ntasks-per-node αλλά πρέπει στην εντολή gatk να δώσουμε --native-pair-hmm-threads 1.

Η υποβολή της εργασίας γίνεται με την εντολή sbatch gatk-4.3.0-case.sh ως εξής:

# sbatch gatk-4.3.0-case.sh

Παρακολουθούμε με την εντολή squeue την εξέλιξη της εργασίας.

Eφόσον η εργασία έχει εκκινήσει μπορούμε να ελέγχουμε την πρόοδο της επίλυσης μέσω των αρχείων εξόδου. Π.χ.:

# tail -f *.out