Problemi sulla rete di servizi internet (DNS) risolti

Oggi 24 luglio 2012, ho il piacere di confermare che i problemi relativi ai nostro fornitore primario di servizi DNS (zerigo) occorsi nella giornata di ieri, sono rientrati, ed attualmente tutti i nostri servizi internet (posta e website) risultano funzionanti.

Ma cosa è successo effettivamente ieri, e come possiamo impedire che questo succeda nuovamente: innanzitutto credo sia opportuno spiegare meglio come funziona l’architettura di internet e dei sui servizi.

Quando navighiamo un sito internet, o inviamo una email, il primo server che si occupa di svolgere il suo lavoro, per garantire che tutto funzioni perfettamente, è il server DNS (Domain Name System); infatti quando si acquista un dominio internet, operazione che viene eseguita presso una struttura chiamata Registar, il nostro nome a dominio viene depositato presso un sistema di server DNS che hanno il compito di garantire che tutta internet sia in grado di raggiungere il nostri strumenti.

Dentro al DNS, pertanto, vengono poi definiti quali sono gli indirizzi effettivi del nostro server www, e quali sono i servizi di posta elettronica.

Risulta chiaro che se non funziona il server DNS, tutti i nostri strumenti internet (posta, sito internet, servizi intranet ed ftp) potranno non funzionare parzialmente o anche completamente, e quindi si comprende come il servizio DNS sia fondamentale che operi perfettamente ed ininterrottamente.

Noi della Farnedi  ICT, abbiamo un’esperienza pluriennale nella gestione di servizi internet e DNS, che risale al 1996, ed in questi anni abbiamo imparato che la scelta dei giusti partner tecnologici è fondamentale per garantire un buon servizi a tutti i nostri clienti.

Per questo motivo, la scelta di utilizzare un servizio DNS esterno alla rete di servizi di hosting, e totalmente dedicato, come Zerigo, che ci fornisse la massima ridondanza dei server (Zerigo dispone 6 server di distribuiti in 3 diversi continenti).

Purtroppo, per quanto questo tipo di architettura possa essere progettata per rispondere a situazioni di emergenza e guasti, esistono casi, come quello occorso ieri lunedi 23 luglio, che non è facile prevenire e gestire. Infatti ieri TUTTI i server DNS di Zerigo sono stati attaccati da un DDOS, una forma di aggressione informatica, condotta da sconosciuti.

Tale attacco ha messo in ginocchio i server del nostro provider di servizio, dalle ore 9:30 circa del mattino, fino a parte del pomeriggio, per un totale di circa 8 ore di disservizio generale.

Di questo tipo di attacco internet è comune, e si ricordano ancora gli echi dei problemi occorsi a servizi di grandissima portata come Amazon o Twitter, fino ai clamorosi blackout dei servizi di posta di Rim. Tutti i provider possono essere soggetti a questo tipo di disservizio, e l’unica effettiva soluzione consiste nel cercare di progettare sempre più sicuri ed affidabili sistemi per la gestione dei nostri dati.

Con questo spirito noi di Farnedi ICT selezioniamo i nostri fornitori di servizio, e come per il DNS abbiamo affidato la gestione dei nostri server a Zerigo, per la posta ci affidiamo a Google Apps e per i servizi di hosting a RackSpaceCloud: questi fornitori in comune hanno tutti il fatto che sono organizzazioni totalmente dedicate a garantire un servizio di altissima qualità con il minimo livello di disservizio possibile.

Quando, come nel caso di ieri, non funziona il server DNS principale e tutti i secondari, il vostro dominio non è in grado di far funzionare né la posta, né il sito internet: ma analizziamo più nel dettaglio cosa succede esattamente.

Il sito internet risulterà totalmente non funzionante e non raggiungibile: l’utente che tentasse di visitarlo, riceverebbe un errore.

La posta elettronica, invece, avrebbe un disservizio solo parziale e temporaneo: infatti i servizi di Google continuerebbero a funzionare, accedendo sia via web all’indirizzo http://www.google.com/a/nomedominio che attraverso i protocolli POP & IMAP via client.

Infatti i server relativi sono registrati sui DNS di Google, e pertanto i servizi di base risulterebbero comunque raggiungibili, nel caso di un guasto DNS ai nostri server principali.

Sarà possibile quindi inviare posta, e leggere la posta ricevuta fino al momento del guasto, o ricevere posta interna fra utenti dello stesso dominio se inviata tramite i server smtp.google.com.

Non sarà possibile, però ricevere i messaggi che gli altri utenti ci stanno inviando, che rimarranno online, tipicamente 24/48 ora, e quindi verranno comunque recapitati alla nostra casella non appena i servizi DNS riprendono a funzionare.

Pertanto durante il periodo di circa 8 ore (con alcune intermittenze) il black-out dei servizi DNS ha provocato un ritardo nella ricezione della posta elettronica (di circa 4-8 ore massimo) e l’impossibilità di essere raggiunti sul proprio sito per lo stesso periodo di tempo.

I servizi di posta PEC con dominio personalizzato, possono aver avuto lo stesso tipo di problema, mentre quelli su dominio legalmail.it non hanno risentito di alcun ritardo o disservizio.

Ma in tutto questo frangente, come ha reagito Farnedi ICT, e come si poteva intervenire meglio?

I nostri sistemi di allarme hanno segnalato il problema verso le ore 9:30 am di lunedi 23 luglio, ed appena diagnosticato il danno, un nostro tecnico si è  attivato per gestire l’emergenza: una segnalazione a tutti i clienti (per via telefonica o email o tramite il sito) non era possibile in quanto i servizi primari risultavano scollegati e non raggiungibile, e chiamare TUTTI i clienti uno per uno avrebbe creato un allarmismo eccessivo, e portato via tempo prezioso alla soluzione del problema (oltre che risultare logisticamente poco fattibile visto l’alto numero di clienti coinvolti).

Appena possibile abbiamo segnalato il guasto sul nostro profilo twitter e sulla home page del servizio di assistenza (help.farnedi.it) ed abbiamo dedicato ogni energia per la ricerca di una soluzione in funzione della perdurata del guasto.

Infatti una delle opzioni, addottata per un paio di servizi di e-commerce e servizi primari, era quella di “trasferire” il DNS su di un server diverso da quello di Zerigo: purtroppo questo tipo di operazione comporta comunque dei problemi, e si è deciso di attendere prima le canoniche 4 ore prima di valutare se questo tipo di intervento fosse opportuno per tutti i clienti di Farnedi ICT.

Il cambio di DNS, infatti, comporta una “latenza” nella gestione del server, che avrebbe potuto costituire un problema di disfunzione peggiore del problema originale (il cambio di dns infatti può comportare un tempo che va dagli 8 alle 48 ore).

Comunque il nostro staff era pronto ad eseguire l’intervento su tutti gli indirizzi durante la serata del 23 luglio, se il sistema di Zerigo non avesse ripreso a funzionare entro la giornata (cosa che invece è avvenuta).

I nostro centralino (0547-030003) è stato pronto a ricevere le varie chiamate (in realtà ne abbiamo ricevuto solo alcune) dei clienti che richiedevano chiarimenti e supporto, ed una email di spiegazione è stata inviata a tutti i clienti con servizi di hosting.

Farnedi ICT, ha anche deciso di risarcire i clienti che hanno subito il disservizio di uno dei principali servizi di rete (posta o sito internet) con uno sconto pari al 5% del costo totale annuo del contratto di hosting relativo ai servizi soggetti al problema – sconto che verrà comunicato ai singoli interessati ed erogato al momento della fattura di rinnovo.

Anche se i nostri servizi non sono soggetti ad una formale SLA (Service Level Agreement) riteniamo opportuno dimostrare il grande valore ed impegno che mettiamo per raggiungere la massima soddisfazione dei nostri clienti.

L’impegno a continuare comunque nel modo migliore, per ottenere sempre servizi di alta affidabilità ed il massimo impegno nel selezionare nel mondo i fornitori di servizio migliore, rimarranno comunque una priorità della nostra azienda.

Franco Farnedi

Amministratore e Fondatore

Farnedi ICT srl