Ceci est une ancienne révision du document !
Table des matières
Configuration actuelle du cluster
Partitions
Il y a actuellement 6 partitions :
- normal : jobs limités à 7 jours
- court : jobs limités à 24 heures
- long : jobs limités à 30 jours
- extra-long : jobs limités à 60 jours
- crypto : jobs limités à 48 heures (ATTENTION : cette partition peut devenir indisponible pendant plusieurs mois)
- GPU-nvidia : serveurs avec GPU NVIDIA, jobs limités à 30 jours
NB. Il est possible de préciser plusieurs partitions dans les options de votre script ou de srun. Dans ce cas SLURM lance votre job sur la première partition disponible.
Partition | Temps max | liste des noeuds |
---|---|---|
normal (défaut) | 7 jours | django, iroise, molene168, nodes 22 à 25, 31 à 33 |
court | 24 heures | kephren |
long | 30 jours | nodes 22 à 25 et node 30 |
extra-long | 60 jours | django |
crypto | 48 heures | bob (Attention : parfois indisponible) |
Pour voir quelles machines sont dans quelle partition utilisez la commande sinfo -N (à partir de frontalhpc).
sinfo -N affiche également l'état des nœuds, les états possibles sont :
- alloc : le nœud est entièrement utilisé
- mix : le nœud est en partie utilisé
- idle : aucun job ne tourne sur le nœud
- drain : le nœud termine les jobs qui lui ont été soumis mais n'en accepte plus d'autres (typiquement le nœud est sur le point d'être arrêté pour une opération de maintenance)
Features
Chaque noeuds possède son propre nom comme feature. Les machines homogènes possèdent, de plus, une feature commune :
- xeon25 pour les noeuds 30 à 33
- xeon26 pour les noeuds 22 à 28
Ressources allouées par défaut
Par défaut les jobs sont envoyés dans la partition normal. Les ressources allouées par défaut sont :
- 1 CPU
- 2 Go de RAM par CPU
- partition "normal" : 7 jours de temps de calcul (les jobs sont tués automatiquement si la limite est dépassée)
Priorité des jobs
La priorité d'un job dépend de :
- la quantité de ressources demandée (CPU, RAM, temps) : plus on demande moins on est prioritaire
- la quantité de ressources déjà utilisée par les jobs précédents de l'utilisateur (Fair Share : plus on utilise moins on est prioritaire)
La commande sprio permet de voir la priorité des jobs en attente.