Skip to content

Συχνές Ερωτήσεις

1. Το μέγεθος της μνήμης που μπορεί να χρησιμοποιήσει μία εργασία καθορίζεται από των αριθμό των επεξεργαστών που δεσμεύονται μέσω της παραμέτρου --ntasks;

Ναι. Στο batch partition αντιστοιχούν περίπου 6GB RAM/CPU core, ενώ στο vnc partition αντιστοιχούν 2GB RAM/CPU core. Το μέγεθος αυτό προκύπτει από την διαίρεση της συνολικής μνήμης με τον αριθμό των επεξεργαστών (CPU cores).

Για μία γενική εικόνα της αντιστοιχίας μνήμης ανά επεξεργαστή, μπορείτε να ανατρέξετε στις πληροφορίες για τους διαθέσιμους πόρους.

Προσθέτοντας στην sbatch την παράμετρο --mem είναι δυνατόν να οριστεί συγκεκριμένο μέγεθος μνήμης για μία εργασία, ανεξάρτητα από τον αριθμό των επεξεργαστών που δεσμεύονται.

Για παράδειγμα, χρησιμοποιώντας το εξής directive:

#SBATCH --mem=120G

ή απευθείας κατά την υποβολή της εργασίας:

$ sbatch --mem 120G submission_file.sh
2. Υπάρχει κάποια εντολή με την οποία μπορώ να βλέπω τους διαθέσιμους πυρήνες στο σύστημα;

Ναι. Για να δείτε γενικές πληροφορίες όσον αφορά την διαθεσιμότητα των πόρων της συστοιχίας, μπορείτε να χρησιμοποιήσετε την εντολή:

$ sinfo

Η συγκεκριμένη εντολή δίνει πληροφορία σχετικά με το πόσα nodes σε κάθε partition είναι:

  • allocated (δηλαδή έχουν πλήρως δεσμευμένους τους πόρους τους)
  • mixed (δηλαδή είναι allocated μόνο ένα μέρος των πόρων τους)
  • idle (δηλαδή οι πόροι τους είναι πλήρως διαθέσιμοι)

Με την παρακάτω εντολή μπορούμε να δούμε τον συνολικό αριθμό διαθέσιμων CPUs για ένα partition:

$ sinfo -p <partition name> -o %C

Όπου <partition name> θέτουμε μία από τις εξής επιλογές: batch, vnc, gpu, htc.

Η συγκεκριμένη εντολή δίνει ως αποτέλεσμα τους αριθμούς που αντιστοιχούν στο header: CPUS(A/I/O/T). Κατά σειρά, τα αρχικά στην παρένθεση αντιστοιχούν σε allocated/idle/other/total.

3. Σε τι αναφέρεται η τελευταία στήλη στην εντολή squeue με τον τίτλο NODELIST(REASON);

Στην στήλη NODELIST, στο αποτέλεσμα της εντολής squeue, εμφανίζεται το node στο οποίο τρέχει μία εργασία.

Εάν η εργασία δεν βρίσκεται σε εκτέλεση, αλλά παραμένει στην ουρά, στην παρένθεση (REASON) αναφέρεται ο λόγος για τον οποίο η εργασία δεν έχει ξεκινήσει να τρέχει.

4. Πώς μπορώ να γνωρίζω εάν το λογισμικό ή μία βιβλιοθήκη που θα χρειαστώ για τις εργασίες μου έχει εγκατασταθεί στην υπολογιστική συστοιχία;

Για να διαπιστώσετε εάν κάποιο συγκεκριμένο πακέτο λογισμικού είναι διαθέσιμο στην υπολογιστική συστοιχία, μπορείτε να συνδεθείτε στο login node και να χρησιμοποιήσετε την παρακάτω εντολή, η οποία εμφανίζει τα διαθέσιμα modules:

$ module avail

Για να αναζητήσετε κάποιο συγκεκριμένο πακέτο λογισμικού, μπορείτε να χρησιμοποιήσετε την εντολή:

$ module spider <package name>

Όπου <package name> θέτουμε το όνομα του πακέτου λογισμικού που μας ενδιαφέρει, όπως για παράδειγμα: matlab, netcdf, r, ggplot ή numpy.

Επιπλέον, στην τεκμηρίωση της υπολογιστικής συστοιχίας του ΑΠΘ μπορείτε να βρείτε μία αναλυτική λίστα του διαθέσιμου λογισμικού

5. Το μέγεθος των δεδομένων εισόδου ή των δεδομένων εξόδου που προκύπτουν από τις εργασίες μου ξεπερνάει την τάξη των 100άδων GB. Θα μπορούσα να χρησιμοποιήσω για τα δεδομένα αυτά το διαμοιραζόμενο volume scratch_a ;

Σχετικά με το θέμα αυτό μπορείτε να δείτε τις πληροφορίες σχετικά με τους αποθηκευτικούς και υπολογιστικούς πόρους για ερευνητικές ομάδες.

6. Παρόλο που κάνω module load openblas, όταν πάω να κάνω compile τον κώδικα μου εμφανίζεται σφάλμα cblas.h not found και το compile τερματίζεται ανεπιτυχώς. Τι μπορώ να κάνω;

θα χρειαστεί να είναι φορτωμένα τα modulefiles της gcc και της openblas και επιπλέον να καθορίζεται στον compiler που να βρει τα header files της βιβλιοθήκης (π.χ. cblas.h). Αν το compilation γίνεται από γραμμή εντολών π.χ. αντί για:

# gcc code.c

θα χρειαστεί να δώσουμε:

# gcc -Ι$OPENBLAS_ROOT/include code.c

Αν χρησιμοποιείται κάποιο Makefile θα πρέπει να γίνουν οι αντίστοιχες τροποποιήσεις εκεί μέσα.

7. Μπορώ να έχω μία εκτίμηση σχετικά με το πότε θα ξεκινήσει η εργασία μου;

Γενικά, μπορείτε να έχετε μία αίσθηση του εκτιμώμενου queueing time χρησιμοποιώντας το flag --test-only στην sbatch.

Π.χ. αν το job file έχει όνομα job.sh η εντολή είναι η εξής:

$ sbatch --test-only job.sh

Η παραπάνω εντολή δεν θα υποβάλει το job αλλά θα επιστρέψει μία εκτίμηση του χρόνου κατά τον οποίο θα ξεκινήσει το job.

Επιπλέον, για να έχετε μία γενικότερη εικόνα της κατάστασης στις διάφορες ουρές (π.χ. τα pending jobs ή τα idle/αδρανή CPUs και nodes) μπορείτε να παρακολουθείτε τα γραφήματα που αφορούν την χρήση της συστοιχίας. Τα γραφήματα ενημερώνονται ωριαία.

8. Πως μπορώ να βλέπω μόνο τις δικές μου εργασίες στο οutput της squeue;

Μπορείτε να προσθέσετε στην εντολή squeue το flag -u <username>. Έστω ότι το username σας είναι gkochyli, η εντολή είναι η εξής:

$ squeue -u gkochyli
       JOBID PARTITION NAME             USER        TIME TIME_LIMIT ST  NODES  CPUS NODELIST(REASON)
      549316   testing sleepJob     gkochyli        0:04      10:00 R   1      1    cn117
9. Πως μπορώ να βλέπω το CPU Time και τον πραγματικό χρόνο που ολοκληρώθηκε η εργασία μου;

Για πληροφορίες σχετικά με εργασίες που έχουν υποβληθεί στη συστοιχία, μπορείτε να χρησιμοποιείτε την εντολή sacct.

Για να δείτε τις ζητούμενες πληροφορίες, CPU Time και πραγματικό χρόνο εκτέλεσης των εργασιών σας και έστω το username σας είναι gkochyli, η εντολή είναι η εξής:

$ sacct -u gkochyli
       JobID              JobName              Submit               Start    Elapsed        CPUTime                 End      State Partit NodeLis      User NN NCPU  MaxVMSize     MaxRSS 
------------ -------------------- ------------------- ------------------- ---------- -------------- ------------------- ---------- ------ ------- --------- -- ---- ---------- ---------- 
78542_61                 sleepJob 2019-10-02T17:03:50 2019-10-02T17:03:51   00:00:31       00:00:31 2019-10-02T17:04:22  COMPLETED    htc   cn109  gkochyli  1    1                       
78542_61.ba+                batch 2019-10-02T17:03:51 2019-10-02T17:03:51   00:00:31       00:00:31 2019-10-02T17:04:22  COMPLETED          cn109            1    1    221148K      1872K 
78542_62                 sleepJob 2019-10-02T17:03:50 2019-10-02T17:03:51   00:00:31       00:00:31 2019-10-02T17:04:22  COMPLETED    htc   cn109  gkochyli  1    1                       
78542_62.ba+                batch 2019-10-02T17:03:51 2019-10-02T17:03:51   00:00:31       00:00:31 2019-10-02T17:04:22  COMPLETED          cn109            1    1    221152K      1876K

Οι ζητούμενες τιμές φαίνονται στις στήλες CPUTime και Elapsed.

Παρατηρήσεις

  • H παραπάνω εντολή δείχνει εργασίες έως μία ημέρα πριν.

Για να ορίσετε το χρονικό διάστημα για το οποίο θέλετε να δείτε πληροφορίες, μπορείτε να χρησιμοποιήσετε τα flags για αρχή χρονικού διαστήματος, -S <time> ή --starttime=<time> και τελικού χρονικού διαστήματος, -E <time> ή --endtime=<time>, ως εξής:

$ sacct -S 2020-01-01 -E 2020-10-10 -u gkochyli
       JobID              JobName              Submit               Start    Elapsed        CPUTime                 End      State Partit NodeLis      User NN NCPU  MaxVMSize     MaxRSS 
------------ -------------------- ------------------- ------------------- ---------- -------------- ------------------- ---------- ------ ------- --------- -- ---- ---------- ---------- 
548625             VNC-Server-Job 2020-02-03T12:17:21 2020-02-03T12:17:22   00:02:10       00:02:10 2020-02-03T12:19:32 CANCELLED+    vnc   cn123  gkochyli  1    1                       
548625.batch                batch 2020-02-03T12:17:22 2020-02-03T12:17:22   00:02:10       00:02:10 2020-02-03T12:19:32  CANCELLED          cn123            1    1  22426320K    543588K

Για να δείτε πληροφορίες, ενώ γνωρίζετε το JobID μιας εργασίας, π.χ. jobID 78542, η εντολή είναι η εξής:

$ sacct -j 78542
       JobID              JobName              Submit               Start    Elapsed        CPUTime                 End      State Partit NodeLis      User NN NCPU  MaxVMSize     MaxRSS 
------------ -------------------- ------------------- ------------------- ---------- -------------- ------------------- ---------- ------ ------- --------- -- ---- ---------- ----------
78542                    sleepJob 2019-10-02T17:03:50 2019-10-02T17:03:51   00:00:30       00:00:30 2019-10-02T17:04:21  COMPLETED    htc   cn112  gkochyli  1    1                       
78542.bat+                  batch 2019-10-02T17:03:51 2019-10-02T17:03:51   00:00:30       00:00:30 2019-10-02T17:04:21  COMPLETED          cn112            1    1    221136K      2148K