Sistemi di Backup e business continuity – un caso pratico: backup con TimeMachine di un server Mac OS X

 

Questo articolo fa parte di una serie che tratterà di problematiche di Business Continuity in ambito PMA (Piccole e Medie Aziende), identificando come PMA le realtà non dotate di un proprio CED strutturato e con budget del reparto IT non estremamente elevato (seguirà un post di approfondimento sul tema Budget IT e Business Continuity nelle PMA).

Alla base di ogni valutazione di costo, quando si analizza un sistema di backup per un server aziendale, deve esserci un’analisi preventiva di rischio (Risk Management) (seguirà un post di approfondimento su Risk Management) seguita poi da valutazioni degli impatti economici che comportano i fattori di ripristino:

[list type=bullets-red ]

  • CB – costo implementazione soluzione di backup e recover
  • CR – costo di ripristino (costo vivo determinato dall’intervento tecnico esterno)
  • TR – tempo di ripristino (costo indiretto sotto forma di ore fermo macchina con relativo blocco della produttività)
  • TB – (time to backup) frequenza dei backup, tempo minimo di dato recuperabile (indica il costo che si attribuisce a quanto giorni/ore di lavoro che si è disposti a perdere in caso di restore) ed a quanti punti di ripristino del backup posso risalire.

[/list]

 

In questo esempio reale, ricavato da un caso di un nostro cliente ma che ritengo possa definirsi molto comune nelle PMA, il server del cliente che viene utilizzato come unità centrale di archiviazione per una decine di persone risiede su di un Mac OS X desktop (una configurazione Tower) e dispone di una architettura di storage basato su 3 dischi rigidi:

[list type=bullets-blue ]

  • un disco interno per il sistema operativo Server
  • un disco esterno da 1 TB utilizzato come Archivio Principale
  • un disco esterno da 1 TB usato come Backup con Time Machine

[/list]

Configurazione dischi rigidi del server preso in esame

 

Analizzando i parametri di RM (Risk Management) più comuni ed indicandoli in ordine di probabilità, troviamo:

  1. cancellazione accidentale da parte di un utente
  2. rottura fisica di uno dei dischi rigidi
  3. perdita logica di uno dei dischi rigidi (cancellazione della directory o TOC del disco)
  4. corruzione del sistema operativo a seguito di un aggiornamento software
  5. corruzione del sistema operativo a seguito di un problema di alimentazione/hardware/software
  6. attacco informatico e relativa perdita di dati
  7. problema elettrico su impianto/fulmine
  8. caduta/rottura accidentale
  9. furto
  10. incendio
  11. allagamento locali
  12. terremoto/altro disastro naturale (qui prevediamo tutto quello non previsto sopra)

rischipc

[hr style=dashed-line margin_top= margin_bottom=]

Per ognuna di queste cause di rischio possono essere implementate delle contro misure atte a ripristinare il servizio in caso di guasto, ma che devono anche essere valutate rispetto ai parametri sopra citati:

[alert color=blue align=center]CB: costo della soluzione + CR: Costo di ripristino

Senza perdere di vista  i due parametri TR & TB (tempo di ripristino e  frequenza di backup[/alert]

Facendo un esempio concreto nel caso preso in esame, la soluzione di backup basato su di un disco rigido su TM locale comporta in caso di un guasto al disco dati principale i seguenti fattori:

CB: basso (circa 120 euro per un disco da 2 TB  + software di backup gratuito)

CR: medio (un intervento di un tecnico sistemista con un costo medio di 200 euro + sostituzione del disco rotto (altri 120 euro)) = 320 euro

TR: alto, in quanto per ripristinare l’intero backup da TM ci vogliono molte ore (quasi un giorno di fermo macchina) con un costo per l’azienda molto elavato (lascio a voi valutare quanto costi all’azienda tenere 1 giorno fermo l’intero ufficio)

TB: è basso (ovvero positivo) intendendo che la soluzione di backup di Time Machine è in grado di effettuare una copia ogni ora con un effettivo ripristino dei dati dell’ufficio completo o per lo meno con perdite trascurabili.

[hr style=dashed-line margin_top= margin_bottom=]

Come si può facilmente capire da questa breve esempio illustrato nel caso in esame, la soluzione adottata dal cliente ha indubbio vantaggio di essere economicamente vantaggiosa in fase di implementazione avendo un costo iniziale di circa 120 euro una tantum.

La soluzione è valida secondo la scala di rischio presentata fino al livello 5 con alcune implementazioni utili anche nei casi successivi con le dovute eccezioni:

6.attacco informatico: se l’attacco è completo essendo il disco di backup connesso al server è possibile che venga compromesso anche lui durante l’attacco (probabilità del 75%)

7. guasto elettrico: in caso di guasto elettrico le probabilità che possa coinvolgere anche gli altri dispositivi del server, fra cui il disco di backup sono del 50%

In tutti gli altri casi superiori al 7. il backup locale è inefficiente.

[alert color=yellow align=center]Si nota comunque come la soluzione basata su Time Machine e disco locale risulta meno efficiente e più costosa negli altri fattori: CR e soprattutto TR, con un esborso da parte dell’azienda non indifferente in caso di guasto effettivo.

[/alert]

Si potrebbe obbiettare che l’imprenditore in questo caso si è preso un rischio calcolato valutando la probabilità che l’evento si realizzi (è evidente che la scala dei rischi ha un tasso di probabilità che è inversamente proporzionale al grado del rischio: la probabilità di subire le conseguenze di un terremoto o di un allagamento sono inferiori a quella che si rompa un disco rigido) ed ha deciso di trasferire il costo di recover dei dati al momento dell’intervento stesso, piuttosto che implementare una soluzione diversa più efficiente ma più costosa.

[hr style=dashed-line margin_top= margin_bottom=]

 

Proviamo ora ad analizzare uno scenario diverso in cui il sistema di backup tenti di  rispondere in modo più efficiente alle  problematiche di business continuity e contemporaneamente tenga conto di un minore costo di ripristino del server:

Se ad esempio al posto del disco esterno basato su di una singola unità prevedessimo un disco di tipo RAID (per semplicità ipotizziamo un RAID 1 che copia automaticamente i dati su due dischi fisici) ed una unità di backup rimovibile basata su RDX o in alternativa un backup su server remoto avremo uno scenario diverso:

 

Se il rischio che si concretizza è compreso fra 1.e 4.

CB: medio (diciamo circa 400 euro per una soluzione RAID di qualità  + software di backup gratuito)

CR: basso (in caso di guasto sarà sufficiente ordinare un disco sostitutivo e inserirlo nell’unità del RAID per ripristinare tutto) circa 150 euro per disco spare

I due altri fattori sono:

TR: basso (il server di fatto non si ferma mai e la sostituzione del disco guasto comporta un intervento minimo che può essere seguito anche da un addetto interno)

TB: è basso (ovvero positivo) intendendo che la soluzione di backup di Time Machine è in grado di effettuare una copia ogni ora con un effettivo ripristino dei dati dell’ufficio completo o per lo meno con perdite trascurabili.

 

Se il rischio è superiore invece (da 5. in su) si può prevedere un recover dei dati archiviati su supporto removibile (RDX) o da remoto ed i parametri  da prendere in considerazione diventano:

Nel caso del RDX removibile

CB: medio (diciamo circa 700 euro per una soluzione RDX  con 2 cartucce da 1,5 TB e un lettore esterno  + software di backup a pagamento)

CR: medio/alto (al secondo del tipo di danno potrebbe essere richiesto l’intervento di un tecnico per il ripristino dei dati dall’unità di backup)

Gli altri due  fattori sono:

TR: alto (il server di fatto si può fermare per qualche ora/giorno fino a ripristino dei dati)

TB: è alto (con un backup remoto su removibile si può presumere che ci sia una alternanza settimanale dei media di backup con la perdita quindi di dati pari all’ultimo backup remoto fatto)

 

Nel caso del backup su server remoto/cloud:

CB: basso/medio (diciamo che il servizio è molto variabile e dipende dalle varie soluzioni scelte)

CR: alto (in caso di guasto bisognerà richiedere l’intervento di un tecnico per il ripristino dei dati dall’unità di backup)

I due altri fattori sono:

TR: molto alto (il server di fatto si ferma per diversi giorni fino a ripristino dei dati che da remoto può essere molto lento o costoso)

TB: è basso (con un backup remoto online si può eseguire un backup temporizzato orario o giornaliero con minima perdita di dati)

[hr style=double-line margin_top= margin_bottom=]

Conclusioni

Come si comprende da questa veloce analisi, i problemi connessi ad una corretta analisi di rischio per la gestione di un server aziendale è una materia piuttosto complessa che coinvolge un numero di variabili notevole e richiede una competenza tecnica non comune: per questo motivo consigliamo sempre di consultare un professionista IT che sarà in grado di fornire anche soluzioni diverse ed al passo con l’evoluzione tecnologica.

Risulta anche evidente che spesso se si risparmia in fasi di implementazione della procedura di disaster recover si finisce poi per perdere dei dati preziosi per l’impresa oppure si spende molto di più in costi di ripristino o in tempo di fermo macchina.

I sistemi di sicurezza della business continuity aziendale sono dati da molteplici fattori e strumenti, ed in questo post ne abbiamo citati solo alcuni: in una veloce carrellata vorrei ricordare: gruppo di continuità, backup locale su disco, backup locale su NAS, backup removibile, backup remoto, antivirus, firewall, software di backup, spare parts server, contratti di manutenzione 24×7 con sostituzione parti di ricambio, sistemi virtuali e repliche server.

E tu che esperienza di disaster un-recover hai vissuto? Raccontala commentando questo post e potremmo sviluppare eventualmente altri casi pratici concreti in futuri articoli.