Nefeli Partitions¶
Το Google Cloud cluster Nefeli αποτελείται προς το παρόν από τα εξής partitions:
| Ουρά εργασιών (partition) | Πλήθος Κόμβων (nodes) | Πλήθος CPU Cores ανά κόμβο | Μνήμη ανά κόμβο[GB] | GPUs |
|---|---|---|---|---|
| highcpu | 2 | 56 | 224 | - |
| a100 | 1 | 96 | 1360 | 4 x NVIDIA A100 (40GB DDR6 RAM) |
Partition Limits¶
Για τα παραπάνω partitions της συστοιχίας Nefeli ισχύουν τα ακόλουθα όρια χρήσης:
| Ουρά εργασιών | Max CPUs per user | Max Running jobs per user | Max Submitted jobs per user | Max Runtime per job | Max GPUs per job |
|---|---|---|---|---|---|
highcpu |
112 | 20 | 60 | 7 days | N/A |
a100 * |
48 | 2 | 10 | 6 days | 2 |
Limits & GPU Jobs¶
Για παραγωγικές GPU εργασίες, το Google cluster "Νεφέλη" υποστηρίζει το a100 partition.
Πλήθος GPUs ανά εργασία
- Με την παράμετρο
--partitionκαθορίζουμε σε ποιό partition θέλουμε να δρομολογηθεί μία εργασία. - Η παράμετρος
--gpusκαθορίζει τον αριθμό των GPU καρτών που θέλουμε να δεσμευτούν από τον scheduler (slurm) για αυτή την εργασία.
Στο παρακάτω παράδειγμα, θα γίνει allocate για την εργασία μας η κάρτα γραφικών του partition a100.
#SBATCH --partition=a100
#SBATCH --gpus=1
- Ο αριθμός των GPUs που έχουμε δεσμεύσει δίνεται από την παράμετρο
$SLURM_GPUS.
Προσοχή!
Για όλα τα GPU partitions ισχύει ελάχιστο όριο μίας (1) GPU ανά εργασία. Επομένως, η παράμετρος #SBATCH --gpus=1 είναι απαραίτητη για την υποβολή εργασιών σε αυτά τα partitions.
Περισσότερες πληροφορίες είναι διαθέσιμες στις αναλυτικές οδηγίες για τα Slurm directives.
Συχνές Ερωτήσεις¶
1. Προσπαθώ να υποβάλλω μια εργασία, όμως λαμβάνω το σφάλμα sbatch: error: QOSMinGRES. Γιατί γίνεται αυτό;¶
Απάντηση
Το παραπάνω σφάλμα οφείλεται στο γεγονός ότι δεν έχει ορίσει στο script υποβολής ο ελάχιστος αριθμός GPUs που θέλετε να χρησιμοποιηθούν.