User Tools

Site Tools


Sidebar

strutture:pi:computing_center:theocluster:job:compilazione

DEBUG DEI JOBS


Il Debug di un job prima della sottomssione può essere fatta tramite due code distinte. Nello specifico avremo una prima coda chiamata debug e indirizzata su un nodo dedicato non appartenente all'architettura delle 32 macchine di zefiro e dotata di 2 processori ciascuno con 16 core per un totale quindi pari a 32 core e 256 Gb di ram; i core di questa macchina sono stati raggruppati in bunch da 1 core considerato quindi un jobslot. Avremo disponibili quindi un totale di 32 JOBSLOT. La seconda coda utilizzabile invece è la coda longDebug indirizzata sullo stesso cluster di Zefiro dove i core sono stati raggruppati in bunch da 32core che corrispondono ai core fisici di due dei 4 processori di una macchina. Ogni bunch da 32core è considerato un jobslot. Quindi ogni nodo in questo caso ha 2 JOBSLOT. Le caratteristiche delle due code saranno nello specifico:

debug: (openmpi-1.6 / num.max job previsti per utente pari a 2 / WallTime max pari a 30 min / num.max jobslot richiedibili per job pari a 4(128core) / switch -Is per uso interattivo):

 bsub -G <Nome gruppo Iniziativa specifica d'appartenenza> -q debug -a openmpi -n <number of slots> <percorso a mpirun> <file mpi eseguibile> 

L'opzione per l'uso interattivo permette di aprire una shell sul nodo di calcolo cui fa capo la coda debug direttamente dalla propria home user; mediante comando 'ls' è possibile infatti trovare tutti i file presenti sulla stessa. In questo caso il comando diventerebbe:

 bsub -G <Nome gruppo Iniziativa specifica d'appartenenza> -q debug -Is /bin/bash 


longDebug: (openmpi-1.6 / num.max job previsti per utente pari a 2 / WallTime max pari a 30 min / num.max jobslot richiedibili per job pari a 2(64core) / Non è consentita la Reservation / è permesso il Backfill):

 bsub -G <Nome gruppo Iniziativa specifica d'appartenenza> -q longDebug -a openmpi -n <number of slots> <percorso a mpirun> <file mpi eseguibile> 


Solo per la coda longdebug:

Per la assegnazione di jobslot sullo stesso nodo di calcolo, è necessario includere la seguente striga al comando di sottomissione del proprio job.

 -R "span[hosts=1]"  


Alti parametri di sottomissione utili per tutte le code

Nella home directory dell'utente verranno generati il file nomefile.out.err (elenco errori nella esecuzione), nomefile.out.out(tutte le informazioni di output della esecuzione).


Se non viene inserito il nome di uno dei gruppi o Iniziative specifiche d'appartenenza, il sistema assegnerà le risorse considerando il monte ore dell'iniziativa specifica a più alta priorità; se invece l'utente appartiene ad un singolo gruppo e questa non viene inserita tramite l'apposita opzione del comando di sottomissione, non saranno riservate le risorse richieste.

NOTA BENE
il percorso a mpirun.lsf è
/usr/local/lsf/9.1/linux2.6-glibc2.3-x86_64/bin/mpirun.lsf
Gli altri eseguibili e compilatori mpi stanno in
/usr/lib64/openmpi/bin/

I compilatori non sono presenti sulle User Interface ma soltanto sugli host del Cluster, per la compilazione quindi è necessario sottomettere tramite le apposite code predisposte (vedi Sez. 'DEBUG DEI JOBS' e 'COMPILAZIONE')

Esempio


Assistenza

Per qualsiasi dubbio o informazione potete mandare una mail all'IT Division all'indirizzo:

localq-support@lists.pi.infn.it

Verrete contattati al più presto dal gruppo.






english version

DEBUGGING


Before submission, the user can do the debugging of the job using two distinct queues. The first was called debug and addressed on a dedicated node that is not part of Zefiro. This dedicated node have 2 processors each with 16 cores for a total of 32 cores and 256 GB of RAM , the cores of this machine are grouped into 1 bunch core then considered a jobslot. So 32 JOBSLOT are avaliable. The second queue il called longDebug and work on cluster Zefiro where the cores are grouped into bunch of 32core that correspond to physical cores of two of the 4 processors of a machine. Each bunch of 32core is considered a jobslot. So each node have 2 JOBSLOT. The characteristics of the two queues are:

debug: (openmpi-1.6 / 2 allowed jobs max number / 30 min WallTime max / 4(4core) available jobslot max number / switch -Is option for interactive uses):

 bsub -G <Group or membership initiative> -q debug -a openmpi -n <number of slots> <mpirun path> <mpi file> 

The option to use the interactive more allows to open a shell on the compute node used by the queue directly from the home user; by command 'ls' it is possible to find all the files on the home user .

In this case the submission command will be:

 bsub -G <Group or membership  initiative> -q debug -Is /bin/bash 


longDebug: (openmpi-1.6 / 2 allowed jobs max number / 30min WallTime max / 2(64core) available jobslot max number / No Reservation / YES Backfill):

 bsub -G <Group or membership initiative> -q longDebug -a openmpi -n <number of slots> <mpirun path> <mpi file> 


Only for longdebug:

For the assignment of all jobslot on the same node, user must include the following string to the submission command.

 -R "span[hosts=1]"  


Other useful optional submission parameters for the queues

In the user's home directory the files generated will be called filename.out.err (list of errors) and filename.out.out (all output information of the running phase).

If user do not enter the name of one of the groups or Specific initiatives, the system will assign the resources considering the number of hours of the specific initiative with the highest priority. If user belongs to a single group, and this is not inserted through the appropriate submission option, resources will not be assegned.

NOTE
the path to mpirun.lsf is
/usr/local/lsf/9.1/linux2.6-glibc2.3-x86_64/bin/mpirun.lsf
The executables and other mpi compilers are in
/usr/lib64/openmpi/bin/

The compilers are not present on the User Interface, but only on the hosts so to build, user must submit through the appropriate queues (see 'DEBUG OF JOBS' and 'COMPILATION')

Example


to request help

For any questions or information users can send an email to the IT Division:

localq-support@lists.pi.infn.it

You'll be contacted asap by a member's group.

strutture/pi/computing_center/theocluster/job/compilazione.txt · Last modified: 2014/10/16 08:10 by carusog@infn.it