User Tools

Site Tools


strutture:pi:computing_center:theocluster:job:sottomissione_dei_job

SOTTOMISSIONE - SUBMISSION


La sottomissione di un job verrà fatta tramite tre code specifiche chiamate parallel , longparallel e neparallel e indirizzate su Zefiro dove i core sono stati raggruppati in bunch da 32core che corrispondono ai core fisici di due dei 4 processori di una macchina. Ogni bunch da 32core è considerato un jobslot. Quindi ogni nodo in questo caso ha 2 JOBSLOT. Le caratteristiche delle due code saranno nello specifico:

parallel: (Openmpi-1.6 / nessun limite di job che un utente può sottomettere / un totale di jobslot massimo richiedibile pari a 8 (256core) / walltime pari a 360 min (6h) / Non è consentita la Reservation / è permesso il Backfill / switch -Is per uso interattivo).

 bsub -G <Nome gruppo Iniziativa specifica d'appartenenza> -q parallel -a openmpi -n <number of slots> <percorso a mpirun> <file mpi eseguibile>  

L'opzione per l'uso interattivo permette di aprire una shell sul nodo di calcolo cui fa capo la coda debug direttamente dalla propria home user; mediante comando 'ls' è possibile infatti trovare tutti i file presenti sulla stessa. In questo caso il comando diventerebbe:

 bsub -G <Nome gruppo Iniziativa specifica d'appartenenza> -q parallel -Is /bin/bash 

longparallel: (Openmpi-1.6 / nessun limite di job che un utente può sottomettere / un totale di jobslot massimo richiedibile pari a 16 (512 core) / walltime pari a 1440 min (24h) / è consentita la Reservation massima pari a 24 ore).

 bsub -G <Nome gruppo Iniziativa specifica d'appartenenza> -q longparallel -a openmpi -n <number of slots> <percorso a mpirun> <file mpi eseguibile>  

neparallel: (Openmpi-1.6 / la coda ammette un limite di job, che un utente può sottomettere, in relazione a quanti jobslot ciascuno di questi richede affinchè il totale dei jobslot sia al massimo pari a 4(128 core) / walltime pari a 1440 min (24h) estendibile fino ad una settimana / è consentita la Reservation massima pari a 24 ore).

 bsub -G <Nome gruppo Iniziativa specifica d'appartenenza> -q neparallel -a openmpi -n <number of slots> <percorso a mpirun> <file mpi eseguibile>  


Per la assegnazione di jobslot sullo stesso nodo di calcolo(nel caso di un numero di jobslot richiesti pari a 2), è necessario includere la seguente striga al comando di sottomissione del proprio job.

 -R "span[hosts=1]"  

Nel caso di un numero di jobslot multipli di 2, per l'assegnazione di nodi interi, è necessario includere la seguente stringa al comando di sottomissione del proprio job

 -R "span[ptile=2]" 

Solo per la coda neparallel, se si vuole estendere il walltime (di default è pari a 24h), fino ad un massimo di 1 settmana(10080 minuti), è necessario aggiungere il parametro -W 10080(massimo) al comando si sottomissione


Alti parametri di sottomissione utili per tutte le code

Se nel comando di sottomissione vengono inseriti anche le opzioni -e -o nella home directory dell'utente verranno generati il file nomefile.out.err (elenco errori nella esecuzione), nomefile.out.out(tutte le informazioni di output della esecuzione).

Se non viene inserito il nome di uno dei gruppi o Iniziative specifiche d'appartenenza, il sistema assegnerà le risorse considerando il monte ore dell'iniziativa specifica a più alta priorità; se invece l'utente appartiene ad un singolo gruppo e questa non viene inserita tramite l'apposita opzione del comando di sottomissione, non saranno riservate le risorse richieste.

NOTA BENE
il percorso a mpirun.lsf è
/usr/local/lsf/9.1/linux2.6-glibc2.3-x86_64/bin/mpirun.lsf
Gli altri eseguibili e compilatori mpi stanno in
/usr/lib64/openmpi/bin/

I compilatori non sono presenti sulle User Interface ma soltanto sugli host del Cluster, per la compilazione quindi è necessario sottomettere tramite le apposite code predisposte (vedi Sez. 'DEBUG DEI JOBS' e 'COMPILAZIONE')

Esempio


Assistenza

Per qualsiasi dubbio o informazione potete mandare una mail all'IT Division all'indirizzo:

localq-support@lists.pi.infn.it

Verrete contattati al più presto dal gruppo.






english version

SUBMISSION


The submission of a job will be done by three specific queues called parallel , longparallel and neparallel and directed on Zefiro cluster where the cores were grouped bunch of 32core that correspond to physical cores of two of the four processors a machine. Each bunch of 32core is considered a jobslot. So each node have 2 JOBSLOT. The characteristics of the available queues are:

parallel: (Openmpi-1.6 / no limit allowed jobs / 8(256core) available jobslot max number / 480min (8h) WallTime max / NO Reservation / YES Backfill/switch -Is option for interactive uses):

 bsub -G <Group or membership initiative> -q parallel -a openmpi -n <number of slots> <mpirun path> <mpi file> 

The option to use the interactive more allows to open a shell on the compute node used by the queue directly from the home user; by command 'ls' it is possible to find all the files on the home user .

In this case the submission command will be:

 bsub -G <Group or membership  initiative> -q parallel -Is /bin/bash 

longparallel: (Openmpi-1.6 / no limit allowed jobs / 16(512core) available jobslot max number / 1440min (24h) WallTime max / 24h Max Reservation time):

 bsub -G <Group or membership initiative> -q longparallel -a openmpi -n <number of slots> <mpirun path> <mpi file> 

neparallel: (Openmpi-1.6 / the queue permit a job limit, in relation to how many jobslot each of these request for the total jobslot is at most equal to 4 (128 cores) / 1,440 minutes (24 hours) of walltime that can be extended up to one week / 24h Max Reservation time):

 bsub -G <Group or membership initiative> -q neparallel -a openmpi -n <number of slots> <mpirun path> <mpi file>  


For the assignment of all jobslot on the same node, user must include the following string to the submission command.

 -R "span[hosts=1]"  

Ff the number of jobslot is a multiple of 2, for the allocation of entire nodes, users is necessary includes the following string at the submission command

 -R "span[ptile=2]" 

Only for neparallel, if user wants to extend the walltime (default 24h), up to a maximum of 1 weeks(10080 minutes), is necessary add the parameter -W 10080(massimo) to bsub command


Other useful optional submission parameters

In the user's home directory the files generated will be called filename.out.err (list of errors) and filename.out.out (all output information of the running phase) if the option -e and -o are used.

If user do not enter the name of one of the groups or Specific initiatives, the system will assign the resources considering the number of hours of the specific initiative with the highest priority. If user belongs to a single group, and this is not inserted through the appropriate submission option, resources will not be assegned.

NOTE
the path to mpirun.lsf is
/usr/local/lsf/9.1/linux2.6-glibc2.3-x86_64/bin/mpirun.lsf
The executables and other mpi compilers are in
/usr/lib64/openmpi/bin/

The compilers are not present on the User Interface, but only on the hosts so to build, user must submit through the appropriate queues (see 'DEBUG OF JOBS' and 'COMPILATION')

Example


to request help

For any questions or information users can send an email to the IT Division:

localq-support@lists.pi.infn.it

You'll be contacted asap by a member's group.

strutture/pi/computing_center/theocluster/job/sottomissione_dei_job.txt · Last modified: 2014/10/16 08:13 by carusog@infn.it

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki