Configuration actuelle du cluster

Partitions

Il y a actuellement 6 partitions :

normal : jobs limités à 7 jours
court : jobs limités à 24 heures
long : jobs limités à 90 jours
crypto : jobs limités à 90 jours (réservée équipe crypto)
GPU-nvidia : serveurs avec GPU NVIDIA, jobs limités à 30 jours

NB. Il est possible de préciser plusieurs partitions dans les options de votre script ou de srun. Dans ce cas SLURM lance votre job sur la première partition disponible.

Partition	Temps max	liste des noeuds
normal (défaut)	7 jours	django, molene168, nodes 22 à 25, 30 à 33
court	24 heures	kephren, dellware
long	30 jours	nodes 22 à 25 et node 30
extra-long	60 jours	node24, 25, 32, 33
crypto	90 jours	bob (réservé équipe crypto)
GPU-nvidia	30 jours	opale

Pour voir quelles machines sont dans quelle partition utilisez la commande sinfo -N (à partir de frontalhpc).

sinfo -N affiche également l'état des nœuds, les états possibles sont :

alloc : le nœud est entièrement utilisé
mix : le nœud est en partie utilisé
idle : aucun job ne tourne sur le nœud
drain : le nœud termine les jobs qui lui ont été soumis mais n'en accepte plus d'autres (typiquement le nœud est sur le point d'être arrêté pour une opération de maintenance)

Features

Chaque noeuds possède son propre nom comme feature. Les machines homogènes possèdent, de plus, une feature commune :

xeon25 pour les noeuds 30 à 33
xeon26 pour les noeuds 22 à 28

Ressources allouées par défaut

Par défaut les jobs sont envoyés dans la partition normal. Les ressources allouées par défaut sont :

1 CPU
2 Go de RAM par CPU
partition "normal" : 7 jours de temps de calcul (les jobs sont tués automatiquement si la limite est dépassée)

Priorité des jobs

La priorité d'un job dépend de :

la quantité de ressources demandée (CPU, RAM, temps) : plus on demande moins on est prioritaire
la quantité de ressources déjà utilisée par les jobs précédents de l'utilisateur (Fair Share : plus on utilise moins on est prioritaire)

La commande sprio permet de voir la priorité des jobs en attente.