User Tools

Site Tools


strutture:pi:computing_center:theocluster:job:particular_submission_option

ALTRI PARAMETRI DI SOTTOMISSIONE UTILI:

opzion rerun:

Il rerun automatico di un job utente, avviene quanto un nodo di calcolo diventa non disponibile durante l'esecuzione del job stesso. Non avviene se il job va in crash.

Le seguenti condizioni causano il rerun di un job:

-Un nodo di calcolo diventa non disponibile durante l'esecuzione del job

- Il sistema va in crash mentre un job è in esecuzione

Per utilizzare l'opzione del rerun, è necessario aggiungere l'opzione -r nella stringa di sottomissione di un job

opzione requeue:

Le seguenti condizioni causano il requeue di un job:

-NFS stale handle errors,

-disk full errors,

-process table full errors,

-network connectivity problems,

-external conditions (problemi di licenza software), o un bug software.

Per utilizzare l'opzione del requeue, è necessario aggiungere l'opzione -Q nella stringa di sottomissione di un job e lo specifico exit code(o la lista degli exit code) che identificano lo specifico problema del job.

es. bsub -Q "all ~1 ~2 " myjob

(questa stringa di sottomissione considera tutti gli exit code ad esclusione dell'exit code 1 e 2)

Assistenza

Per qualsiasi dubbio o informazione potete mandare una mail all'IT Division all'indirizzo:

localq-support@lists.pi.infn.it

Verrete contattati al più presto dal gruppo.






english version

OTHER USEFUL OPTIONAL SUBMISSION PARAMETERS:

rerun options:

Automatic job rerun occurs when the execution host becomes unavailable while ajob is running. It does not occur if the job itself fails.

The following conditions cause LSF to rerun the job:

-The execution host becomes unavailable while a job is running

-The system fails while a job is running

To use this option is necessary adding the option -r in the job submission string

requeue options:

The following conditions cause LSF to requeue the job:

-NFS stale handle errors,

-disk full errors,

-process table full errors,

-network connectivity problems,

-external conditions such as a software license problems, or an occasional failure due to a bug in your application

To use this option is necessary adding the option -Q in the job submission string and the specific exit code that identify the specific problem.

i.e bsub -Q "all ~1 ~2 " myjob

(this submission string involve all the exit code excluding the exit code 1 and 2)


to request help

For any questions or information users can send an email to the IT Division:

localq-support@lists.pi.infn.it

You'll be contacted asap by a member's group.

strutture/pi/computing_center/theocluster/job/particular_submission_option.txt · Last modified: 2014/10/16 08:04 by carusog@infn.it

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki