Nefeli Partitions¶
Αρχιτεκτονική συστοιχίας Nefeli

Το Google Cloud cluster Nefeli αποτελείται προς το παρόν από τα εξής partitions:
| Ουρά εργασιών (partition) | Πλήθος Κόμβων (nodes) | Πλήθος CPU Cores ανά κόμβο | Μνήμη ανά κόμβο[GB] | GPUs |
|---|---|---|---|---|
| highcpu | 10 | 56 | 224 | - |
| highmem | 4 | 56 | 896 | - |
| l4 | 1 | 24 | 96 | 2 x NVIDIA L4 Tensor Core GPU |
| a100 | 1 | 96 | 1360 | 16 x NVIDIA A100 (40GB DDR6 RAM) |
| h100 | 1 | 52 | 460 | 2 x NVIDIA H100 (80GB DDR6 RAM) |
Partition Limits¶
Για τα παραπάνω partitions της συστοιχίας Nefeli ισχύουν τα ακόλουθα όρια χρήσης:
| Ουρά εργασιών | Max CPUs per user | Max Running jobs per user | Max Submitted jobs per user | Max Runtime per job | Max GPUs per job |
|---|---|---|---|---|---|
highcpu |
280 | 20 | 60 | 7 days | N/A |
hihgmem |
112 (up to 2 nodes) | 4 | 10 | 7 days | N/A |
a100 * |
48 | 2 | 10 | 6 days | 8 |
l4 * |
24 | 2 | 10 | 6 days | 2 |
h100 * |
52 | 1 | 5 | 6 days | 2 |
Limits & GPU Jobs¶
Το Google cluster "Νεφέλη" υποστηρίζει τρία (3) partitions κατάλληλα για παραγωγικές GPU εργασίες:
- το
l4partition, - το
a100partition καθώς και - το
h100partition.
Πλήθος GPUs ανά εργασία
- Με την παράμετρο
--partitionκαθορίζουμε σε ποιό partition θέλουμε να δρομολογηθεί μία εργασία. - Η παράμετρος
--gpusκαθορίζει τον αριθμό των GPU καρτών που θέλουμε να δεσμευτούν από τον scheduler (slurm) για αυτή την εργασία.
Στο παρακάτω παράδειγμα, θα γίνει allocate για την εργασία μας μία gpu (έστω στο partition a100)
#SBATCH --partition=a100
#SBATCH --gpus=1
- Ο αριθμός των GPUs που έχουμε δεσμεύσει δίνεται από την παράμετρο
$SLURM_GPUS.
Προσοχή!
Για όλα τα GPU partitions ισχύει ελάχιστο όριο μίας (1) GPU ανά εργασία. Επομένως, η παράμετρος #SBATCH --gpus=1 είναι απαραίτητη για την υποβολή εργασιών σε αυτά τα partitions.
Περισσότερες πληροφορίες είναι διαθέσιμες στις αναλυτικές οδηγίες για τα Slurm directives.
Συχνές Ερωτήσεις¶
1. Προσπαθώ να υποβάλλω μια εργασία, όμως λαμβάνω το σφάλμα sbatch: error: QOSMinGRES. Γιατί γίνεται αυτό;¶
Απάντηση
Το παραπάνω σφάλμα οφείλεται στο γεγονός ότι δεν έχει ορίσει στο script υποβολής ο ελάχιστος αριθμός GPUs που θέλετε να χρησιμοποιηθούν.