suivi
Suivi des jobs
SLURM dispose de nombreuses commandes pour le suivi des jobs, et chaque commande a de nombreuses options. On donne ici les principales.
File d'attente
- squeue affiche les jobs en cours et en attente dans l'ordre de leur priorité
- squeue -u <user> affiche les jobs en cours et en attente pour l'utilisateur user
- squeue -p <nomPart> affiche les jobs en cours et en attente pour la partition demandée
- squeue -i <sec> actualise la liste des jobs en cours toutes les sec secondes
- sprio donne la priorité des jobs en attente (les jobs les plus prioritaires ont la priorité la plus élevée)
Suppression d'un job
- scancel <jobID> supprime le job <jobID> (en cours ou en attente)
- scancel -u <user> supprime les jobs de l'utilisateur <user> (en cours ou en attente)
Etat d'un job
- sacct affiche l'état des jobs de l'utilisateur qu'ils soient en cours ou déjà terminés. Les principaux états possibles sont :
- CA, cancelled : le job a été annulé par l'utilisateur ou l'administrateur
- CD, completed : le job s'est terminé avec succès
- CG, completing : job en cours
- F, failed : le job s'est terminé avec un échec
- PD, pending : le job attend des ressources
- R, running : le job est en cours d'exécution
- TO, timeout : le job s'est terminé car il a atteint son temps d'exécution limite
- sstat <jobID> donne des informations sur la consommation de ressources d'un job en cours d'exécution
- scontrol show job <jobID> donne des informations détaillées sur le job <jobID>
suivi.txt · Dernière modification : 2018/10/11 20:49 de 127.0.0.1