Μετάβαση στο περιεχόμενο

Πρόγραμμα εργασιών συντήρησης συστοιχίας

Για τις ανάγκες τακτικής συντήρησης και ενημέρωσης του λογισμικού των συστημάτων της συστοιχίας, όσο και για τις ανάγκες ενσωμάτωσης νέων υπηρεσιών, τεχνικών ρυθμίσεων, κτλ, απαιτούνται ενέργειες που μπορεί να επιφέρουν αστάθειες ή άλλες μη αναμενόμενες παρενέργειες στη λειτουργία της συστοιχίας και των παρεχόμενων υπηρεσιών.

Προκειμένου τέτοιου είδους δυσλειτουργίες να προκύπτουν ελεγχόμενα, ορίζεται ένα 8-ωρο ή 4-ωρο παράθυρο συντήρησης της υπολογιστικής συστοιχίας "Αριστοτέλης" κάθε 3η Τρίτη ζυγού μήνα.

Για το έτος 2024 τα προγραμματισμένα παράθυρα συντήρησης είναι τα εξής:

Ημερομηνία Ώρες Τύπος Παρατηρήσεις
20 Φεβρουαρίου 2024 09:00 - 17:00 Full day Αναβάθμιση slurm scheduler (23.02.7), Ενημερώσεις λογισμικού (OS + kernel) όλων των nodes (login και compute), Ενημερώσεις firmware κόμβων ουρών rome, ampere, gpu και batch, ενημερώσεις λογισμικού και firmware σε storage servers (GlusterFS και NFS)
16 Απριλίου 2024 09:00 - 13:00 Half day
18 Ιουνίου 2024 09:00 - 17:00 Full day
27 Αυγούστου 2024 09:00 - 13:00 Half day
15 Οκτωβρίου 2024 09:00 - 17:00 Full day
17 Δεκεμβρίου 2024 09:00 - 13:00 Half day

Στην περίπτωση που ένα παράθυρο συντήρησης συμπίπτει με αργία ή ημέρα που για άλλο λόγο (π.χ. ανωτέρα βία) είναι αδύνατη η τέλεση των απαραίτητων ενεργειών, η ομάδα διαχείρισης του ΚΗΔ ενδέχεται να μεταφέρει το παράθυρο συντήρησης σε άλλη ημερομηνία ή να το αναβάλλει.

Παράθυρα συντήρησης έτους 2023

Για το έτος 2023 τα προγραμματισμένα παράθυρα συντήρησης που έλαβαν χώρα ήταν τα εξής:

Ημερομηνία Ώρες Τύπος Παρατηρήσεις
21 Φεβρουαρίου 2023 09:00 - 17:00 Full day Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις firmware κόμβων ουρών rome, ampere και batch, ενημερώσεις λογισμικού σε storage servers (GlusterFS και NFS)
25 Απριλίου 2023 09:00 - 13:00 Half day Ενημερώσεις λογισμικού (OS + kernel)
20 Ιουνίου 2023 09:00 - 17:00 Full day Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις firmware κόμβων ουρών rome, gpu και batch, αντικατάσταση storage controller σε NFS server, Ενημέρωση slurm scheduler
22 Αυγούστου 2023 09:00 - 13:00 Half day Ενημερώσεις λογισμικού (OS + kernel), Αναβάθμιση Open OnDemand υπηρεσίας σε έκδοση 3.0.1
17 24 Οκτωβρίου 2023 09:00 - 17:00 Full day Αναβάθμιση slurm scheduler, Μετακίνηση home directories χρηστών, Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις NFS και GlusterFS storage servers, Αναβάθμιση υπηρεσίας Open OnDemand, Firmware updates κόμβων ουρών ampere, gpu και batch
19 Δεκεμβρίου 2023 09:00 - 13:00 Half day Ενημερώσεις λογισμικού (OS + kernel), Ενεργοποίηση μηχανισμού power off των Idle nodes
Παράθυρα συντήρησης έτους 2022

Για το έτος 2022 τα προγραμματισμένα παράθυρα συντήρησης που έλαβαν χώρα ήταν τα εξής:

Ημερομηνία Ώρες Τύπος Παρατηρήσεις
15 Φεβρουαρίου 2022 08:00 - 17:00 Full day Ενημερώσεις λογισμικού (OS + kernel), Προετοιμασία κόμβων ουράς rome
19 Απριλίου 2022 08:00 - 17:00 Full day Μετατέθηκε στις 4 Μαϊου λόγω αδειών (Πάσχα)
4 Μαϊου 2022 08:00 - 17:00 Full day Ενημερώσεις λογισμικού (OS + kernel), Ενημέρωση slurm (20.02), Downsizing υποστηρικτικών συστημάτων και υπηρεσιών
21 Ιουνίου 2022 08:00 - 17:00 Full day Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις firmware κόμβων ουρών batch και gpu, Ενημέρωση slurm (21.08), Προετοιμασία κόμβου ουράς ampere
16 Αυγούστου 2022 08:00 - 12:00 Half day Αναβάλλεται λόγω αδειών
18 Οκτωβρίου 2022 08:00 - 17:00 Full day Ενημερώσεις λογισμικού (OS + kernel), Προσθήκη καρτών 10Gb σε storage servers GlusterFS και αναβάθμιση συνολικού εύρους από 4Gbps σε 20Gbps, Ενημερώσεις firmware storage κόμβων GlusterFS
20 Δεκεμβρίου 2022 08:00 - 12:00 Half day Ενημερώσεις λογισμικού (OS + kernel)

Διαδικασία με reservation (Full day)

Εφόσον για τις εργασίες χρειάζεται να "αδειάσει" το cluster τότε μία εβδομάδα πριν το εκάστοτε παράθυρο συντήρησης θα προηγείται ενημέρωση:

  • μέσω της mailing list χρηστών της συστοιχίας
  • με την έκδοση ενός σχετικού δελτίου περιγραφής εργασιών στη σελίδα του ΚΗΔ ΑΠΘ και
  • με την επικαιροποίηση του motd (message of the day) στα login nodes και στο ondemand (web διεπαφή).

Η διαδικασία "αδειάσματος" ενεργοποιείται μέσω slurm reservation στο οποίο έχουν πρόσβαση μόνο διαχειριστές της υποδομής. Έτσι, σταδιακά, πριν το εκάστοτε παράθυρο συντήρησης σταματάνε να δρομολογούνται προς εκτέλεση (παραμένουν δηλαδή στην ουρά) εργασίες με εκτιμώμενο χρόνο ολοκλήρωσης μέσα στο reservation. Οι εργασίες αυτές δρομολογούνται μετά την λήξη των εργασιών συντήρησης (οπότε και αίρεται το reservation) με την ίδια σχετική προτεραιότητα που είχαν κατά την υποβολή τους.

Αν παρά το σχεδιασμό υπάρχουν εργασίες ακόμα σε εκτέλεση (runtime) κατά την εκκίνηση του παραθύρου συντήρησης τότε αυτές θα θα τερματίζονται (kill), χωρίς δυνατότητα restart/reset, όταν αυτό δεν προβλέπεται από την εφαρμογή μέσω κάποιας διαδικασίας save state.

Διαδικασία χωρίς reservation (Half day)

Εφόσον οι προγραμματισμένες εργασίες δεν απαιτούν να γίνει drain το cluster, τότε γίνονται δυναμικά στο προκαθορισμένο χρονικό παράθυρο συντήρησης. Όσες εργασίες εκτελούνται ή είναι scheduled στην ουρά δεν επηρεάζονται από αυτές.