Configuration actuelle du cluster

Partitions

Il y a actuellement 4 partitions :

normal : jobs limités à 7 jours
court : jobs limités à 48 heures
long : jobs limités à 90 jours
crypto : jobs limités à 90 jours (réservée équipe crypto)

NB. Il est possible de préciser plusieurs partitions dans les options de votre script ou de srun. Dans ce cas SLURM lance votre job sur la première partition disponible.

Pour voir quelles machines sont dans quelle partition utilisez la commande sinfo -N (à partir de frontalhpc).

sinfo -N affiche également l'état des nœuds, les états possibles sont :

alloc : le nœud est entièrement utilisé
mix : le nœud est en partie utilisé
idle : aucun job ne tourne sur le nœud
drain : le nœud termine les jobs qui lui ont été soumis mais n'en accepte plus d'autres (typiquement le nœud est sur le point d'être arrêté pour une opération de maintenance)

Ressources allouées par défaut

Par défaut les jobs sont envoyés dans la partition normal. Les ressources allouées par défaut sont :

1 CPU
2 Go de RAM par CPU
partition "normal" : 7 jours de temps de calcul (les jobs sont tués automatiquement si la limite est dépassée)

Priorité des jobs

La priorité d'un job dépend de :

la quantité de ressources demandée (CPU, RAM, temps) : plus on demande moins on est prioritaire
la quantité de ressources déjà utilisée par les jobs précédents de l'utilisateur (Fair Share : plus on utilise moins on est prioritaire)

La commande sprio permet de voir la priorité des jobs en attente.