Outils pour utilisateurs

Outils du site


config

Ceci est une ancienne révision du document !


Configuration actuelle du cluster

Partitions

Il y a actuellement 6 partitions :

  • normal : jobs limités à 7 jours
  • court : jobs limités à 24 heures
  • long : jobs limités à 30 jours
  • extra-long : jobs limités à 60 jours
  • crypto : jobs limités à 48 heures (ATTENTION : cette partition peut devenir indisponible pendant plusieurs mois)
  • GPU-nvidia : serveurs avec GPU NVIDIA, jobs limités à 30 jours

NB. Il est possible de préciser plusieurs partitions dans les options de votre script ou de srun. Dans ce cas SLURM lance votre job sur la première partition disponible.

PartitionTemps maxliste des noeuds
normal (défaut)7 joursdjango, iroise, molene168, nodes 22 à 25, 31 à 33
court24 heureskephren
long30 joursnodes 22 à 25 et node 30
extra-long60 joursdjango
crypto48 heuresbob (Attention : parfois indisponible)

Pour voir quelles machines sont dans quelle partition utilisez la commande sinfo -N (à partir de frontalhpc).

sinfo -N affiche également l'état des nœuds, les états possibles sont :

  • alloc : le nœud est entièrement utilisé
  • mix : le nœud est en partie utilisé
  • idle : aucun job ne tourne sur le nœud
  • drain : le nœud termine les jobs qui lui ont été soumis mais n'en accepte plus d'autres (typiquement le nœud est sur le point d'être arrêté pour une opération de maintenance)

Features

Chaque noeuds possède son propre nom comme feature. Les machines homogènes possèdent, de plus, une feature commune :

  • xeon25 pour les noeuds 30 à 33
  • xeon26 pour les noeuds 22 à 28

Ressources allouées par défaut

Par défaut les jobs sont envoyés dans la partition normal. Les ressources allouées par défaut sont :

  • 1 CPU
  • 2 Go de RAM par CPU
  • partition "normal" : 7 jours de temps de calcul (les jobs sont tués automatiquement si la limite est dépassée)

Priorité des jobs

La priorité d'un job dépend de :

  • la quantité de ressources demandée (CPU, RAM, temps) : plus on demande moins on est prioritaire
  • la quantité de ressources déjà utilisée par les jobs précédents de l'utilisateur (Fair Share : plus on utilise moins on est prioritaire)

La commande sprio permet de voir la priorité des jobs en attente.


config.1517559572.txt.gz · Dernière modification : 2018/10/11 20:49 (modification externe)