Μετάβαση στο περιεχόμενο

Nefeli Partitions

Αρχιτεκτονική συστοιχίας Nefeli

Nefeli_GA

Το Google Cloud cluster Nefeli αποτελείται προς το παρόν από τα εξής partitions:

Ουρά εργασιών (partition) Πλήθος Κόμβων (nodes) Πλήθος CPU Cores ανά κόμβο Μνήμη ανά κόμβο[GB] GPUs
highcpu 10 56 224 -
highmem 4 56 896 -
l4 1 24 96 2 x NVIDIA L4 Tensor Core GPU
a100 1 96 1360 16 x NVIDIA A100 (40GB DDR6 RAM)
h100 1 52 460 2 x NVIDIA H100 (80GB DDR6 RAM)

Partition Limits

Για τα παραπάνω partitions της συστοιχίας Nefeli ισχύουν τα ακόλουθα όρια χρήσης:

Ουρά εργασιών Max CPUs per user Max Running jobs per user Max Submitted jobs per user Max Runtime per job Max GPUs per job
highcpu 280 20 60 7 days N/A
hihgmem 112 (up to 2 nodes) 4 10 7 days N/A
a100 * 48 2 10 6 days 8
l4 * 24 2 10 6 days 2
h100 * 52 1 5 6 days 2

Limits & GPU Jobs

Το Google cluster "Νεφέλη" υποστηρίζει τρία (3) partitions κατάλληλα για παραγωγικές GPU εργασίες:

  • το l4 partition,
  • το a100 partition καθώς και
  • το h100 partition.

Πλήθος GPUs ανά εργασία

  • Με την παράμετρο --partition καθορίζουμε σε ποιό partition θέλουμε να δρομολογηθεί μία εργασία.
  • Η παράμετρος --gpus καθορίζει τον αριθμό των GPU καρτών που θέλουμε να δεσμευτούν από τον scheduler (slurm) για αυτή την εργασία.

Στο παρακάτω παράδειγμα, θα γίνει allocate για την εργασία μας μία gpu (έστω στο partition a100)

#SBATCH --partition=a100
#SBATCH --gpus=1
  • Ο αριθμός των GPUs που έχουμε δεσμεύσει δίνεται από την παράμετρο $SLURM_GPUS.

Προσοχή!

Για όλα τα GPU partitions ισχύει ελάχιστο όριο μίας (1) GPU ανά εργασία. Επομένως, η παράμετρος #SBATCH --gpus=1 είναι απαραίτητη για την υποβολή εργασιών σε αυτά τα partitions.

Περισσότερες πληροφορίες είναι διαθέσιμες στις αναλυτικές οδηγίες για τα Slurm directives.

Συχνές Ερωτήσεις

1. Προσπαθώ να υποβάλλω μια εργασία, όμως λαμβάνω το σφάλμα sbatch: error: QOSMinGRES. Γιατί γίνεται αυτό;
Απάντηση

Το παραπάνω σφάλμα οφείλεται στο γεγονός ότι δεν έχει ορίσει στο script υποβολής ο ελάχιστος αριθμός GPUs που θέλετε να χρησιμοποιηθούν.