Nefeli Partitions¶

Το Google Cloud cluster Nefeli αποτελείται προς το παρόν από τα εξής partitions:

Ουρά εργασιών (partition)	Πλήθος Κόμβων (nodes)	Πλήθος CPU Cores ανά κόμβο	Μνήμη ανά κόμβο[GB]	GPUs
highcpu	2	56	224	-
a100	1	96	1360	4 x NVIDIA A100 (40GB DDR6 RAM)

Partition Limits¶

Για τα παραπάνω partitions της συστοιχίας Nefeli ισχύουν τα ακόλουθα όρια χρήσης:

Ουρά εργασιών	Max CPUs per user	Max Running jobs per user	Max Submitted jobs per user	Max Runtime per job	Max GPUs per job
`highcpu`	112	20	60	7 days	N/A
`a100` *	48	2	10	6 days	2

Limits & GPU Jobs¶

Για παραγωγικές GPU εργασίες, το Google cluster "Νεφέλη" υποστηρίζει το a100 partition.

Πλήθος GPUs ανά εργασία

Με την παράμετρο --partition καθορίζουμε σε ποιό partition θέλουμε να δρομολογηθεί μία εργασία.
Η παράμετρος --gpus καθορίζει τον αριθμό των GPU καρτών που θέλουμε να δεσμευτούν από τον scheduler (slurm) για αυτή την εργασία.

Στο παρακάτω παράδειγμα, θα γίνει allocate για την εργασία μας η κάρτα γραφικών του partition a100.

#SBATCH --partition=a100
#SBATCH --gpus=1

Ο αριθμός των GPUs που έχουμε δεσμεύσει δίνεται από την παράμετρο $SLURM_GPUS.

Προσοχή!

Για όλα τα GPU partitions ισχύει ελάχιστο όριο μίας (1) GPU ανά εργασία. Επομένως, η παράμετρος #SBATCH --gpus=1 είναι απαραίτητη για την υποβολή εργασιών σε αυτά τα partitions.

Περισσότερες πληροφορίες είναι διαθέσιμες στις αναλυτικές οδηγίες για τα Slurm directives.

Συχνές Ερωτήσεις¶

1. Προσπαθώ να υποβάλλω μια εργασία, όμως λαμβάνω το σφάλμα `sbatch: error: QOSMinGRES`. Γιατί γίνεται αυτό;¶

Απάντηση

Το παραπάνω σφάλμα οφείλεται στο γεγονός ότι δεν έχει ορίσει στο script υποβολής ο ελάχιστος αριθμός GPUs που θέλετε να χρησιμοποιηθούν.

Nefeli Partitions¶

Partition Limits¶

Limits & GPU Jobs¶

Συχνές Ερωτήσεις¶

1. Προσπαθώ να υποβάλλω μια εργασία, όμως λαμβάνω το σφάλμα sbatch: error: QOSMinGRES. Γιατί γίνεται αυτό;¶

1. Προσπαθώ να υποβάλλω μια εργασία, όμως λαμβάνω το σφάλμα `sbatch: error: QOSMinGRES`. Γιατί γίνεται αυτό;¶