Outils pour utilisateurs

Outils du site


premierspas

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
premierspas [2017/06/16 10:26]
toussain
premierspas [2021/06/04 12:33] (Version actuelle)
hetoussa
Ligne 1: Ligne 1:
-====== Utilisation du gestionnaire de ressources SLURM ======+ 
 +====== Utilisation du cluster et de SLURM ====== 
 + 
 +Un **cluster** est un regroupement de machines dédiées au calcul. Il est composé d'une machine frontale ("porte d'entrée" du cluster) et de plusieurs machines de calcul, appelées nœuds, et éventuellement hétérogènes ([[:machines|voir les nœuds du cluster du LIMOS]]). 
 + 
 +  
 + 
 + 
 +=====Accès au cluster===== 
 +On accède au cluster en se connectant (en ssh) sur le serveur **frontalhpc2020** et en utilisant le login / mot de passe de son compte habituel. Pour exécuter un programme sur un nœud de calcul, l'utilisateur doit obligatoirement passer par l'ordonnanceur de tâches SLURM (voir section suivante).  
 + 
 + 
  
 ===== Qu'est-ce que SLURM ? ===== ===== Qu'est-ce que SLURM ? =====
  
-SLURM (Simple Linux Utility for Resource Management) est un gestionnaire de ressources et ordonnanceur de tâches pour des clusters LINUX. Il permet de répartir au mieux les ressources de calcul (CPU, GPU, RAM) entre utilisateurs en gérant des files d'attente avec priorité. Une documentation complète est disponible sur le site de SLURM : [[http://slurm.schedmd.com/|http://slurm.schedmd.com/]].+SLURM (Simple Linux Utility for Resource Management) est un gestionnaire de ressources et ordonnanceur de tâches pour des clusters LINUX. Il permet de répartir au mieux les ressources de calcul (CPU, GPU, RAM) entre utilisateurs en gérant des files d'attente avec priorité.  
 + 
 +Les processus d'un utilisateur sont confinés aux ressources (CPU notamment) qu'il a réservées : il ne peut pas accéder aux CPU réservés par d'autres utilisateurs. Cela permet d'assurer une certaine reproductibilité des exécutions d'un même programme, notamment au niveau des temps de calcul (contrairement à ce qu'il se passe sur des machines en libre accès). 
 + 
 + 
 +Une documentation complète est disponible sur le site de SLURM : [[http://slurm.schedmd.com/|http://slurm.schedmd.com/]].
  
 ==== Le vocabulaire ==== ==== Le vocabulaire ====
Ligne 18: Ligne 35:
   * avec l'hyperthreading : 1 cœur physique = 2 CPU SLURM   * avec l'hyperthreading : 1 cœur physique = 2 CPU SLURM
  
-[{{  :socket.jpg?direct&  | Définition Socket, core, thread - extrait de [[https://slurm.schedmd.com/mc_support.html|https://slurm.schedmd.com/mc_support.html]]}}]+[{{  :socket.jpg?direct& **Définition Socket, core, thread** - extrait de [[https://slurm.schedmd.com/mc_support.html|https://slurm.schedmd.com/mc_support.html]]}}]
  
 === Les jobs et les tasks === === Les jobs et les tasks ===
Ligne 36: Ligne 53:
 Pour soumettre un job (demande d'allocation de ressources pour exécuter un programme), l'utilisateur doit : Pour soumettre un job (demande d'allocation de ressources pour exécuter un programme), l'utilisateur doit :
  
-  * soit définir son job dans un script et le lancer à l'aide de la commande sbatch (voir section 2.2.1); +  * soit définir son job dans un script et le lancer à l'aide de la commande sbatch, 
-  * soit lancer directement son job en ligne de commande à l'aide de la commande srun (voir section 2.2.2).+  * soit lancer directement son job en ligne de commande à l'aide de la commande srun.
  
 ==== Soumettre un job en utilisant un script ==== ==== Soumettre un job en utilisant un script ====
  
-L'utilisateur crée un script bash (.sh) dans lequel il précise les ressources dont il a besoin puis appelle son programme. Ce script est ensuite soumis à SLURM via la commande sbatch qui affecte un numéro au job.+L'utilisateur crée un script bash (.sh) dans lequel il précise les ressources dont il a besoin puis appelle son programme (étape 1). Ce script est ensuite soumis à SLURM via la commande sbatch qui affecte un numéro au job (étape 2).
  
-=== 1Description du job dans un fichier bash (.sh) ===+**Etape Description du job dans un fichier bash (.sh)**
  
 Un script de soumission SLURM est composé de deux parties : Un script de soumission SLURM est composé de deux parties :
Ligne 83: Ligne 100:
   * la priorité d'un job dépend, entre autre, de la quantité de ressources demandées : plus un utilisateur demande de ressources, plus la priorité de son job tend à être faible.   * la priorité d'un job dépend, entre autre, de la quantité de ressources demandées : plus un utilisateur demande de ressources, plus la priorité de son job tend à être faible.
  
-=== 2. Soumission du job via la commande sbatch ===+**Etape 2. Soumission du job via la commande sbatch**
  
 Le job décrit dans un script est soumis via la commande sbatch suivie du nom du script. SLURM affecte alors un numéro au job et le place dans la file d'attente (celle par défaut si l'utilisateur n'a pas précisé dans quelle partition il désirait soumettre son job, celle correspondant à la partition demandée sinon). Le job est exécuté quand les ressources sont disponibles. Le job décrit dans un script est soumis via la commande sbatch suivie du nom du script. SLURM affecte alors un numéro au job et le place dans la file d'attente (celle par défaut si l'utilisateur n'a pas précisé dans quelle partition il désirait soumettre son job, celle correspondant à la partition demandée sinon). Le job est exécuté quand les ressources sont disponibles.
Ligne 91: Ligne 108:
 Submitted batch job 2906757 Submitted batch job 2906757
 </code> </code>
 +
 +==== Soumettre directement avec srun ====
 +
 +La commande srun permet de définir une étape dans un script mais on peut aussi l'utiliser en ligne de commande pour soumettre directement un job (sans écrire de script). Le résultat d'exécution s'affiche alors directement à l'écran (il n'y a pas de création de fichier résultat). Les options sont les mêmes qu'avec le script, elles sont passées en ligne de commande. 
 +Exemple de soumission d'un exécutable (exe) dans la partition court pour 10 minutes :
 +
 +<code powershell>
 +[toussain@frontalhpc ~]$ srun --partition=court --time=10:0 ./exe 
 +</code>
 +
  
  
premierspas.1497608766.txt.gz · Dernière modification: 2018/10/11 20:49 (modification externe)