Outils pour utilisateurs

Outils du site


config

Configuration actuelle du cluster

Partitions

Il y a actuellement 4 partitions :

  • normal : jobs limités à 7 jours
  • court : jobs limités à 48 heures
  • long : jobs limités à 90 jours
  • crypto : jobs limités à 90 jours (réservée équipe crypto)

NB. Il est possible de préciser plusieurs partitions dans les options de votre script ou de srun. Dans ce cas SLURM lance votre job sur la première partition disponible.

Pour voir quelles machines sont dans quelle partition utilisez la commande sinfo -N (à partir de frontalhpc).

sinfo -N affiche également l'état des nœuds, les états possibles sont :

  • alloc : le nœud est entièrement utilisé
  • mix : le nœud est en partie utilisé
  • idle : aucun job ne tourne sur le nœud
  • drain : le nœud termine les jobs qui lui ont été soumis mais n'en accepte plus d'autres (typiquement le nœud est sur le point d'être arrêté pour une opération de maintenance)

Ressources allouées par défaut

Par défaut les jobs sont envoyés dans la partition normal. Les ressources allouées par défaut sont :

  • 1 CPU
  • 2 Go de RAM par CPU
  • partition "normal" : 7 jours de temps de calcul (les jobs sont tués automatiquement si la limite est dépassée)

Priorité des jobs

La priorité d'un job dépend de :

  • la quantité de ressources demandée (CPU, RAM, temps) : plus on demande moins on est prioritaire
  • la quantité de ressources déjà utilisée par les jobs précédents de l'utilisateur (Fair Share : plus on utilise moins on est prioritaire)

La commande sprio permet de voir la priorité des jobs en attente.


config.txt · Dernière modification : 2021/04/23 14:00 de hetoussa