Differences

This shows you the differences between two versions of the page.

--- cn:ccr:cloud:ha [2013/02/18 09:51] – stalio@infn.it
+++ cn:ccr:cloud:ha [2013/09/25 09:11] (current) – fzani@infn.it
@@ Line 1: / Line 1: @@
+===== Alta disponibilità =====
+__Un po' di storia all'INFN__
+  * [[https://agenda.infn.it/getFile.py/access?contribId=2&sessionId=2&resId=0&materialId=slides&confId=65|Virtualization and High Availability - CCR WS 2007]]
+  * [[http://agenda.infn.it/getFile.py/access?contribId=48&sessionId=3&resId=0&materialId=slides&confId=2488|Continuità operativa dei servizi informatici presso i LNGS - CCR WS 2008]]
+  * [[http://agenda.infn.it/getFile.py/access?contribId=59&sessionId=4&resId=0&materialId=slides&confId=1324|Alta affidabilita' con la virtualizzazione – CCR WS 2009]]
+  * [[http://agenda.infn.it/getFile.py/access?contribId=48&sessionId=3&resId=0&materialId=slides&confId=2488|Highly available services on virtual hosts - CCR WS 2010]]
+  * [[http://agenda.infn.it/conferenceOtherViews.py?view=standard&confId=3530|VI sessione: HIGH AVAILABILITY - CCR WS 2011]]
+__Infrastructure HA__
+  - Setting up HA in opennebula: http://blog.opennebula.org/?p=1523
+  - OpenStack:
+    * [[http://docs.openstack.org/trunk/openstack-ha/openstack-ha-guide-trunk.pdf|OpenStack HA official guide]]
+    * [[http://www.alexfu.it/tutorials/build-an-ha-openstack-cloud-cluster-setup-part-1.html|Build an HA Openstack cloud]]
+    * [[http://www.mirantis.com/blog/ha-platform-components-mysql-rabbitmq/|High Availability (HA) for OpenStack Platform Services MySQL + rabbitMQ]]
+    * [[http://www.mirantis.com/blog/117072/|Understanding your options: Deployment topologies for High Availability (HA) with OpenStack]]
+__VM HA__
+  - VM HA in proxmox: http://pve.proxmox.com/wiki/High_Availability_Cluster
+  - VM HA in opennebula: http://opennebula.org/documentation:rel4.2:ftguide
+  - VM HA in WMware vSphere (http://www.vmware.com/products/datacenter-virtualization/vsphere/high-availability.html)
+  - Linux heartbeat (http://www.linux-ha.org/wiki/Main_Page). Una soluzione che viene da prima della virtualizzazione degli host, ma si applica benissimo alle VM. Usato solitamente assieme a meccanismi di ridondanza dei dati (DRBD, file system di rete con replica dei dati, DB replica,...)
+__Service HA__
+  Molto spesso l'importanza di una VM e` legata alla sua capacita` di erogare efficacemente dei servizi sulla rete (es. servizi web, servizi di autenticazione e/o autorizzazione, accesso ai dati attraverso la rete, ...). In questi casi non basta sapere che una VM sia in esecuzione, bisogna sapere che sta erogando un determinato servizio senza errori e con una tempistica accettabile.
+    * Linux Virtual Server (http://www.linuxvirtualserver.org/) o LVS implementa un cluster di server ridondati che vengono contattati dai client attraverso dei nodi, anch'essi ridondati, con funzione di load balancer. Il cluster LVS non ha punti critici (Single Point Of Failure) e l'uso delle risorse e` ottimizzato perche` tutti i server correttamente funzionanti, tranne il load balancer di backup, sono sempre attivi. LVS usa un sistema di monitoring dei servizi per certi versi simile a quello di nagios: ci sono script standard per il monitoring delle risorse ma e` data facolta` all'amministratore del sistema di,  usare i propri.\\ LVS e` nato prima che la virtualizzazione e le tecnologie cloud prendessero il sopravvento, ma e` indubbio che possa solamente trarre vantaggio da queste tecniche che ne rendono l'implementazione sostenibile sia dal punto di vista economico che da quello dello sforzo gestionale richiesto.
+    * Cisco SLB (http://www.cisco.com/en/US/docs/ios/12_2/ip/configuration/guide/1cfsflb.html) implementa in hardware sui suoi switch un meccanismo simile a quello di LVS. Il vantaggio di usare una soluzione come questa e` la minore complessita` del cluster ad alta disponibilita`, lo svantaggio e` la minor flessibilita` nel configurare i controlli sul corretto funzionamento dei servizi.
+    * Nagios (http://www.nagios.org/) e` uno strumento che nasce per il monitoring della rete ma e` altamente personalizzazbile. Al CNAF Nagios e` configurato per monitorare lo stato di pool di server che hanno la stessa funzione e per i quali il load balancing viene realizzato attraverso il DNS. Se Nagios riscontra un malfunzionamento su uno dei server del pool (o sui servizi che il server dovrebbe erogare) puo` triggerare un aggiornamento del DNS in modo da eliminare l'associazione tra IP del server malfunzionante e nome dell'host che fornisce il servizio.
+__Storage HA__
+    * DRBD (http://www.drbd.org/) e` la soluzione storica per realizzare la ridondanza dei dati su un cluster basato su linux heartbeat.
+    * GlusterFS (http://www.gluster.org/) e` una soluzione molto usata oggi per ridondare i dati in ambienti cloud perche` e` totalmente open-source, non richiede infrastrutture hardware dedicate ed e` di semplice realizzazione e gestione.
+    * GPFS (http://www-03.ibm.com/systems/software/gpfs/ e http://www.infn.it/CCR/workshop/ws2006/presentazioni/brunengo.ppt) soluzione proprietaria molto in uso nell'INFN.
+    * DB replica (su vari tipi di DB, ad esempio MySQL, LDAP, kerberos, ...)