INFN wiki

Alta disponibilità

Un po' di storia all'INFN

Infrastructure HA

Setting up HA in opennebula: http://blog.opennebula.org/?p=1523
OpenStack:

VM HA

VM HA in proxmox: http://pve.proxmox.com/wiki/High_Availability_Cluster
VM HA in opennebula: http://opennebula.org/documentation:rel4.2:ftguide
VM HA in WMware vSphere (http://www.vmware.com/products/datacenter-virtualization/vsphere/high-availability.html)
Linux heartbeat (http://www.linux-ha.org/wiki/Main_Page). Una soluzione che viene da prima della virtualizzazione degli host, ma si applica benissimo alle VM. Usato solitamente assieme a meccanismi di ridondanza dei dati (DRBD, file system di rete con replica dei dati, DB replica,…)

Service HA

Molto spesso l'importanza di una VM e` legata alla sua capacita` di erogare efficacemente dei servizi sulla rete (es. servizi web, servizi di autenticazione e/o autorizzazione, accesso ai dati attraverso la rete, …). In questi casi non basta sapere che una VM sia in esecuzione, bisogna sapere che sta erogando un determinato servizio senza errori e con una tempistica accettabile.

Linux Virtual Server (http://www.linuxvirtualserver.org/) o LVS implementa un cluster di server ridondati che vengono contattati dai client attraverso dei nodi, anch'essi ridondati, con funzione di load balancer. Il cluster LVS non ha punti critici (Single Point Of Failure) e l'uso delle risorse e` ottimizzato perche` tutti i server correttamente funzionanti, tranne il load balancer di backup, sono sempre attivi. LVS usa un sistema di monitoring dei servizi per certi versi simile a quello di nagios: ci sono script standard per il monitoring delle risorse ma e` data facolta` all'amministratore del sistema di, usare i propri.
LVS e` nato prima che la virtualizzazione e le tecnologie cloud prendessero il sopravvento, ma e` indubbio che possa solamente trarre vantaggio da queste tecniche che ne rendono l'implementazione sostenibile sia dal punto di vista economico che da quello dello sforzo gestionale richiesto.

Cisco SLB (http://www.cisco.com/en/US/docs/ios/12_2/ip/configuration/guide/1cfsflb.html) implementa in hardware sui suoi switch un meccanismo simile a quello di LVS. Il vantaggio di usare una soluzione come questa e` la minore complessita` del cluster ad alta disponibilita`, lo svantaggio e` la minor flessibilita` nel configurare i controlli sul corretto funzionamento dei servizi.

Nagios (http://www.nagios.org/) e` uno strumento che nasce per il monitoring della rete ma e` altamente personalizzazbile. Al CNAF Nagios e` configurato per monitorare lo stato di pool di server che hanno la stessa funzione e per i quali il load balancing viene realizzato attraverso il DNS. Se Nagios riscontra un malfunzionamento su uno dei server del pool (o sui servizi che il server dovrebbe erogare) puo` triggerare un aggiornamento del DNS in modo da eliminare l'associazione tra IP del server malfunzionante e nome dell'host che fornisce il servizio.

Storage HA

DRBD (http://www.drbd.org/) e` la soluzione storica per realizzare la ridondanza dei dati su un cluster basato su linux heartbeat.
GlusterFS (http://www.gluster.org/) e` una soluzione molto usata oggi per ridondare i dati in ambienti cloud perche` e` totalmente open-source, non richiede infrastrutture hardware dedicate ed e` di semplice realizzazione e gestione.
GPFS (http://www-03.ibm.com/systems/software/gpfs/ e http://www.infn.it/CCR/workshop/ws2006/presentazioni/brunengo.ppt) soluzione proprietaria molto in uso nell'INFN.
DB replica (su vari tipi di DB, ad esempio MySQL, LDAP, kerberos, …)