Πρόγραμμα εργασιών συντήρησης συστοιχίας¶
Για τις ανάγκες τακτικής συντήρησης και ενημέρωσης του λογισμικού των συστημάτων της συστοιχίας, όσο και για τις ανάγκες ενσωμάτωσης νέων υπηρεσιών, τεχνικών ρυθμίσεων, κτλ, απαιτούνται ενέργειες που μπορεί να επιφέρουν αστάθειες ή άλλες μη αναμενόμενες παρενέργειες στη λειτουργία της συστοιχίας και των παρεχόμενων υπηρεσιών.
Προκειμένου τέτοιου είδους δυσλειτουργίες να προκύπτουν ελεγχόμενα, ορίζεται ένα 8-ωρο ή 4-ωρο παράθυρο συντήρησης της υπολογιστικής συστοιχίας "Αριστοτέλης" κάθε 3η Τρίτη ζυγού μήνα.
Για το έτος 2024 τα προγραμματισμένα παράθυρα συντήρησης είναι τα εξής:
Ημερομηνία | Ώρες | Τύπος | Παρατηρήσεις |
---|---|---|---|
20 Φεβρουαρίου 2024 | 09:00 - 17:00 | Full day | Αναβάθμιση slurm scheduler (23.02.7 ), Ενημερώσεις λογισμικού (OS + kernel) όλων των nodes (login και compute), Ενημερώσεις firmware κόμβων ουρών rome , ampere , gpu και batch , ενημερώσεις λογισμικού και firmware σε storage servers (GlusterFS και NFS) |
16 Απριλίου 2024 | 09:00 - 13:00 | Half day | Ενημερώσεις λογισμικού (OS + kernel) όλων των nodes (login και compute) |
17-19 Ιουνίου 2024 ~~18 Ιουνίου 2024~~ | 09:00 - 17:00 | Full day (x3) | Firmware updates σε μηχανήματα των ampere , batch , gpu και rome partitions καθώς και στα login nodes. Εγκατάσταση νέου λειτουργικού συστήματος στα μηχανήματα των ampere , batch , gpu και rome partitions καθώς και στα login nodes. Επανεγκατάσταση σε νέο λειτουργικό σύστημα υπηρεσιών slurm (job scheduler) και Open OnDemand. |
27 Αυγούστου 2024 | 09:00 - 13:00 | Half day | Ενημερώσεις λογισμικού (OS + kernel) όλων των nodes (login και compute) |
22 Οκτωβρίου 2024 ~~15 Οκτωβρίου 2024~~ | 08:00 - 17:00 | Full day | Προγραμματισμένες ενημερώσεις λογισμικού (OS + kernel) και firmware σε compute, login και storage servers. |
17 Δεκεμβρίου 2024 | 09:00 - 13:00 | Half day |
Στην περίπτωση που ένα παράθυρο συντήρησης συμπίπτει με αργία ή ημέρα που για άλλο λόγο (π.χ. ανωτέρα βία) είναι αδύνατη η τέλεση των απαραίτητων ενεργειών, η ομάδα διαχείρισης του ΚΗΔ ενδέχεται να μεταφέρει το παράθυρο συντήρησης σε άλλη ημερομηνία ή να το αναβάλλει.
Παράθυρα συντήρησης έτους 2023
Για το έτος 2023 τα προγραμματισμένα παράθυρα συντήρησης που έλαβαν χώρα ήταν τα εξής:
Ημερομηνία | Ώρες | Τύπος | Παρατηρήσεις |
---|---|---|---|
21 Φεβρουαρίου 2023 | 09:00 - 17:00 | Full day | Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις firmware κόμβων ουρών rome , ampere και batch , ενημερώσεις λογισμικού σε storage servers (GlusterFS και NFS) |
25 Απριλίου 2023 | 09:00 - 13:00 | Half day | Ενημερώσεις λογισμικού (OS + kernel) |
20 Ιουνίου 2023 | 09:00 - 17:00 | Full day | Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις firmware κόμβων ουρών rome , gpu και batch , αντικατάσταση storage controller σε NFS server, Ενημέρωση slurm scheduler |
22 Αυγούστου 2023 | 09:00 - 13:00 | Half day | Ενημερώσεις λογισμικού (OS + kernel), Αναβάθμιση Open OnDemand υπηρεσίας σε έκδοση 3.0.1 |
09:00 - 17:00 | Full day | Αναβάθμιση slurm scheduler, Μετακίνηση home directories χρηστών, Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις NFS και GlusterFS storage servers, Αναβάθμιση υπηρεσίας Open OnDemand, Firmware updates κόμβων ουρών ampere , gpu και batch |
|
19 Δεκεμβρίου 2023 | 09:00 - 13:00 | Half day | Ενημερώσεις λογισμικού (OS + kernel), Ενεργοποίηση μηχανισμού power off των Idle nodes |
Παράθυρα συντήρησης έτους 2022
Για το έτος 2022 τα προγραμματισμένα παράθυρα συντήρησης που έλαβαν χώρα ήταν τα εξής:
Ημερομηνία | Ώρες | Τύπος | Παρατηρήσεις |
---|---|---|---|
15 Φεβρουαρίου 2022 | 08:00 - 17:00 | Full day | Ενημερώσεις λογισμικού (OS + kernel), Προετοιμασία κόμβων ουράς rome |
08:00 - 17:00 | Full day | Μετατέθηκε στις 4 Μαϊου λόγω αδειών (Πάσχα) | |
4 Μαϊου 2022 | 08:00 - 17:00 | Full day | Ενημερώσεις λογισμικού (OS + kernel), Ενημέρωση slurm (20.02 ), Downsizing υποστηρικτικών συστημάτων και υπηρεσιών |
21 Ιουνίου 2022 | 08:00 - 17:00 | Full day | Ενημερώσεις λογισμικού (OS + kernel), Ενημερώσεις firmware κόμβων ουρών batch και gpu , Ενημέρωση slurm (21.08 ), Προετοιμασία κόμβου ουράς ampere |
08:00 - 12:00 | Half day | Αναβάλλεται λόγω αδειών | |
18 Οκτωβρίου 2022 | 08:00 - 17:00 | Full day | Ενημερώσεις λογισμικού (OS + kernel), Προσθήκη καρτών 10Gb σε storage servers GlusterFS και αναβάθμιση συνολικού εύρους από 4Gbps σε 20Gbps, Ενημερώσεις firmware storage κόμβων GlusterFS |
20 Δεκεμβρίου 2022 | 08:00 - 12:00 | Half day | Ενημερώσεις λογισμικού (OS + kernel) |
Διαδικασία με reservation (Full day)¶
Εφόσον για τις εργασίες χρειάζεται να "αδειάσει" το cluster τότε μία εβδομάδα πριν το εκάστοτε παράθυρο συντήρησης θα προηγείται ενημέρωση:
- μέσω της mailing list χρηστών της συστοιχίας
- με την έκδοση ενός σχετικού δελτίου περιγραφής εργασιών στη σελίδα του ΚΗΔ ΑΠΘ και
- με την επικαιροποίηση του
motd
(message of the day) στα login nodes και στο ondemand (web διεπαφή).
Η διαδικασία "αδειάσματος" ενεργοποιείται μέσω slurm reservation στο οποίο έχουν πρόσβαση μόνο διαχειριστές της υποδομής. Έτσι, σταδιακά, πριν το εκάστοτε παράθυρο συντήρησης σταματάνε να δρομολογούνται προς εκτέλεση (παραμένουν δηλαδή στην ουρά) εργασίες με εκτιμώμενο χρόνο ολοκλήρωσης μέσα στο reservation. Οι εργασίες αυτές δρομολογούνται μετά την λήξη των εργασιών συντήρησης (οπότε και αίρεται το reservation) με την ίδια σχετική προτεραιότητα που είχαν κατά την υποβολή τους.
Αν παρά το σχεδιασμό υπάρχουν εργασίες ακόμα σε εκτέλεση (runtime) κατά την εκκίνηση του παραθύρου συντήρησης τότε αυτές θα θα τερματίζονται (kill), χωρίς δυνατότητα restart/reset, όταν αυτό δεν προβλέπεται από την εφαρμογή μέσω κάποιας διαδικασίας save state.
Διαδικασία χωρίς reservation (Half day)¶
Εφόσον οι προγραμματισμένες εργασίες δεν απαιτούν να γίνει drain το cluster, τότε γίνονται δυναμικά στο προκαθορισμένο χρονικό παράθυρο συντήρησης. Όσες εργασίες εκτελούνται ή είναι scheduled στην ουρά δεν επηρεάζονται από αυτές.