Disaster Recovery

Disaster Recovery

La terminologia informatica sta diventando sempre più di uso comune, una logica conseguenza della grande rivoluzione digitale che ha coinvolto praticamente tutte le categorie di utenti: dalla Pubblica Amministrazione alle imprese private, passando per i singoli cittadini. Oggi sentire parlare di Information Technology, server, software, desktop, account, banner, email, backup e di altri molti termini riconducibili alle tecnologie informatiche è ormai un’abitudine giornaliera.

Terminologia a parte, conoscere a grandi linee la funzionalità degli strumenti tecnologici è una buona regola per approcciarsi al mondo della rete con maggiore coscienza e per essere pronti a rispondere in tempo a eventuali problematiche. Molto probabilmente in tanti hanno sentito parlare anche di Disaster Recovery, ma non tutti sanno in realtà di cosa si tratta. Con questa guida proveremo ad approfondire questo argomento proprio per comprendere la reale importanza del Disaster Recovery ai fini della sicurezza informatica: di cosa si tratta, perché è importante per un’organizzazione di lavoro e reali finalità.

Per Disaster Recovery (Recupero del Disastro) in informatica e, particolarmente in ambito della sicurezza informatica, ci si riferisce alle misure tecnologiche propedeutiche al ripristino di sistemi, delle infrastrutture e dei dati funzionali alle organizzazioni di lavoro. Un ripristino necessario in tutti quei casi in cui si manifestano emergenze gravi che possono seriamente compromettere le attività delle organizzazioni di lavoro. Praticamente il Disaster Recovery consiste nell’approccio adottato da una qualsiasi organizzazione al fine di rispristinare l’accesso e le funzioni dell’infrastruttura tecnologica, in seguito a fatti disastrosi provocati dall’uomo, come attacchi informatici o guasti, oppure in seguito a eventi naturali. Appare chiaro da queste prime righe che trattasi di una tematica molto delicata, in quanto alcune circostanze potrebbero mettere a serio rischio il regolare svolgimento di un’intera attività lavorativa. Il Disaster Recovery è quindi una misura di primaria importanza per un’unità organizzativa di lavoro, anche perché i rischi per i sistemi e le infrastrutture informatiche non mancano mai.

La serie di eventi dannosi che può causare un disastro è davvero lunga e preoccupante. In tale logica è sufficiente ricordare alluvioni, terremoti, incendi, attacchi informatici, disservizi dei sistemi e furti. Quindi stiamo parlando di eventi di carattere naturale e riconducibili a responsabilità dell’uomo. Eventi naturali, ma soprattutto gli errori umani sono la causa della stragrande maggioranza di disastri aziendali. Situazioni per un’impresa molto gravose e responsabili di ingenti danni economici. Oggi buona parte di un’attività di un’organizzazione di lavoro viene portata avanti con il supporto dei sistemi informatici, quando questi ultimi vengono compromessi bisogna intervenire al più presto. L’interruzione di un’attività lavorativa e la perdita di importanti dati aziendali comportano negative conseguenze economiche e anche la perdita della reputazione aziendale. Non riuscire a fornire in tempo un cliente a causa dell’interruzione del settore produttivo non aiuta sicuramente a migliorare la reputazione di un’impresa. La continuità del flusso dei dati di un’azienda riveste un ruolo di primo piano, in quanto anche un’interruzione di breve tempo potrebbe portare a ingenti perdite in termini di produttività e vendite. Un discorso che vale per le piccole organizzazioni di lavoro come per le grandi imprese.

Per prevenire e contrastare efficacemente situazioni del genere è opportuno un piano adeguato di Disaster Recovery, molto indicato al fine di proteggere l’operatività di un’azienda. Stiamo parlando della stesura di un piano particolarmente dettagliato, nel quale definire i probabili livelli di disastro e individuare le possibili criticità per tutelare al massimo l’attività e il volume di affari di un’impresa. Un progetto strutturato in maniera tale da prevedere le misure di sicurezza da intraprendere in tutti quei casi in cui le circostanze lo richiedano. Un progetto di Disaster Recovery è articolato e complicato perché comprensivo di azioni preventive per allontanare determinati rischi e di misure correttive da mettere in campo al momento di ripristinare i sistemi informatici. Un piano inclusivo di punto di ripristino (RPO) e di tempo di ripristino (RTO). Dove il valore RPO sta ad indicare la frequenza dei backup dei dati richiesta, mentre il valore RTO specifica la massima durata di down time che un’organizzazione è capace di gestire. Non dare la giusta importanza a un piano simile significherebbe commettere una grave leggerezza e non tutelarsi adeguatamente.

Abbiamo visto prima come per difendere un’attività lavorativa è importante stabilire un efficace progetto di Disaster Recovery, ma quali sono gli obiettivi di un piano del genere? Di seguito ecco un elenco delle finalità che un piano strutturato correttamente deve prevedere:

  • identificazione dei sistemi e dei dati critici e importanti per l’operatività di un’organizzazione di lavoro;
  • classificazione dei sistemi e dei dati critici a seconda dei livelli di importanza;
  • prevedere un grado di accettabilità della perdita dei dati sopportabile per un’impresa, un livello noto come Recovery Point Objective.

Il Disaster Recovery è assolutamente fondamentale per qualunque tipo di organizzazione di lavoro e personalizzabile secondo le peculiarità di ogni azienda. A dimostrare la riconosciuta valenza del Disaster Recovery sono i crescenti investimenti fatti negli ultimi anni in tale direzione, investimenti destinati in futuro a crescere ancora. I dati del mercato del Disaster Recovery sono inequivocabili e descrivono una crescita consistente e veloce. Il giro di affari di questi servizi nel giro di qualche anno ha raggiunto livelli impensabili. Un volume di affari in aumento giustificato dal fatto che di questi tempi privarsi dei sistemi informatici per un buon andamento dell’operatività di un’azienda è impossibile, come impossibile è non tutelare tali infrastrutture con un appropriato piano di Disaster Discovery.

La garanzia della continuità per un’attività lavorativa e la capacità di rispondere, da parte dei sistemi informatici, in maniera corretta ed efficace a situazioni di disastro sono aspetti vitali per le organizzazioni di lavoro. Il Disaster Recovery risponde proprio a queste necessità perché comprende una serie di misure utile per tutelare gli apparati di Information Technology da eventuali eventi critici. Il fine è quindi quello di scongiurare il pericolo che un incidente possa mettere a repentaglio le funzioni delle strutture organizzative. In particolare, il Disaster Recovery, prevede il ripristino dei dati e delle funzioni operative dopo un disastro, di qualunque natura esso sia. Come visto, però, le procedure da mettere in atto con un buon piano non sono mirate solamente a garantire il recupero dei dati in tempi compatibilmente brevi, ma anche ad evitare il verificarsi di certe situazioni con la prevenzione dei fattori rischiosi. In un contesto di lavoro affidabile e funzionale il Disaster Recovery è assolutamente indispensabile.

Lo stretto legame che intercede tra l’organizzazione di una attività e i sistemi informatici ha inizio nel XX secolo, allorché i responsabili dei centri di calcolo ne presero conoscenza. Da quel momento in poi si è compreso quanto fosse indispensabile attuare delle procedure atte a preservare i dati successivamente a un imprevisto o a un danno improvviso e a renderli nuovamente disponibili in breve tempo, sino alla formulazione delle Disaster Recovery. È da queste misure tecnologiche di reazione agli imprevisti, che spiegheremo i concetti di RPO e RTO.

RPO (Recovery Point Objective)

RPO è l’acronimo di Recovery Point Objective, traducibile con Obiettivo del Punto di Ripristino. Per comprendere appieno il contenuto di questa sigla dobbiamo conoscere il significato della parola ripristino nel campo dell’Information Technology, concetto che nello specifico indica il recupero di determinate informazioni che un utente digitale ha voluto preservare. Ogni dispositivo come computer e cellulare è dotato di un sistema di backup e ripristino, che consiste per l’appunto nel salvataggio di sicurezza dei dati e delle informazioni appartenenti all’utente per renderle successivamente disponibili in caso di danni e imprevisti. Inoltre, esistono altri metodi per il salvataggio dei dati: un esempio potrebbe consistere nelle piattaforme online gratuite o a pagamento messe a disposizione sulla rete, oppure nelle semplici applicazioni cloud installate di default sul proprio telefono cellulare; tuttavia sono presenti diversi livelli di importanza di salvataggio di dati e, nello specifico, le informazioni e i file gestiti dalle aziende potrebbero possedere un valore elevato tanto da richiedere un sistema atto a mantenere continuativamente il loro accesso anche in caso di grossi disastri. Il funzionamento di una piattaforma e-commerce, ad esempio, deve prescindere dal funzionamento di un singolo server, deve garantire l’accesso e l’acquisto online da parte dei clienti che utilizzano tale piattaforma, pena la perdita di ricavi che avrebbero dovuto esigersi attraverso il pagamento del cliente o del cliente stesso, che avrà deciso di non riporre più fiducia in quell’azienda.

Ed ecco che comprendiamo quanto sia importante il concetto di RPO, che può essere spiegato con le seguenti accezioni:

  • rappresenta un parametro di misura del tempo che intercorre tra l’ultimo salvataggio compiuto dal sistema (in cui tutto è correttamente utilizzabile) e il danno;
  • si spiega anche come il numero di volte cui è necessario compiere il backup dei dati affinché non vi sia una perdita ingente per il sistema;
  • è significativo della massima consistenza di dati cui si è disposti a perdere a causa di un problema (che sia esso esterno alla tecnologia, naturale o antropico, oppure interno ad essa, come un guasto o un hackeraggio).

Questo punto di backup e ripristino viene quindi regolato sulla base delle necessità che l’operatore ha, pertanto esso potrebbe essere innescato a distanza di giorni, ore o secondi, in stretta relazione all’importanza dei dati da preservare, sino ad un tempo nullo per garantire il completo funzionamento. Ovviamente, più corto è il tempo di RPO, più sono indispensabili politiche e sistemi altamente performanti e costosi.

Impostare un tempo di ripristino di 24 ore significa rischiare di perdere al massimo i dati prodotti nelle ultime 24 ore, e dunque il massimo che ci si aspetterebbe di perdere è proprio relazionato al tempo intercorrente tra un punto di recovery e l’altro, all’interno del quale può verificarsi il danno.

Implementare degli RPO è solitamente più semplice rispetto a quella degli RTO per via delle poche variabili disponibili, ma bisogna considerare l’alta variabilità del tempo di ripristino: infatti, tale tempo può dipendere dall’orario del giorno o da un particolare giorno nella settimana in cui avviene un disastro. Inoltre, il rispristino non è riferito solo ai dati, ma all’intera operazione. Per spiegare meglio, può accadere che il disastro imprevisto avvenga durante l’operazione di recovery, così interrompendola e causando una perdita di informazioni e operatività doppia rispetto a quello che si aspetta.

A tal proposito si è nominato anche il RTO, acronimo il cui significato è Recovery Time Objective, ovvero il tempo necessario affinché l’utente possa tornare effettivamente operativo, inclusivo dell’operazione di ripristino. Dunque, azzerare questo tempo significa permettere al sistema di non perdere neanche un secondo di disservizio. Anche in questo caso sono diverse le politiche di Disaster Recovery, tanto più costose e specifiche quanto più il tempo di ripristino desiderato è ridotto.

Qual è la differenza tra RPO ed RTO? Semplicemente l’oggetto cui fanno riferimento: mentre gli RPO hanno come oggetto i dati, e dunque la frequenza con la quale è necessario proteggerli affinché se ne perdano il meno possibile, gli RTO si basano sul tempo, essenziale per ritornare operativi sul sistema. Queste due soluzioni rappresentano in concreto una risoluzione delle due problematiche principali, ovvero l’interruzione dell’attività dell’utente/dell’azienda e la perdita di dati essenziali, causate dall’avvento di un danno al sistema.

Ma come si possono calcolare i tempi dell’RPO e dell’RTO massimi sui quali è necessario investire?

Un primo passo consiste nella elencazione di tutte le attività, le applicazioni, i sistemi sfruttati dall’azienda, così come degli utenti che le utilizzano, sino a comprenderne la reale utilità e importanza di ciascuna rispetto alle altre, giungendo così a stilare una lista di priorità, sulle quali indirizzare la maggior parte delle risorse. Effettuata questa prima operazione si deve provvedere a studiare i rischi incombenti, o meglio, annoverare tutte le perdite probabili e calcolare quelle massime che si è disposti a rinunciare. Durante il calcolo bisogna mettere in conto il periodo dell’anno o del mese in cui può avvenire il disastro imprevisto ed anche la singola applicazione come ne risentirebbe; questo permette di considerare tutte le probabili combinazioni fattori interferenti. Se tutte le applicazioni del sistema sono ugualmente influenti, allora il tempo di RPO e di RTO da attuare rappresenta la media tra tutti quelli calcolati, altrimenti ad incidere è il tempo riferito all’applicazione più influente (in percentuale). Terminate queste operazioni è possibile indagare sulla natura del business, dipendente dal sistema; dunque porsi delle domande in riferimento ai clienti, alla produzione, alla predisposizione e all’utilizzo di piattaforme che mettono in contatto azienda e cliente. In sostanza, è necessario comprendere il legame di causa effetto tra il danno e la propria utilità e per farlo può essere d’aiuto anche un corretto e costante svolgimento di simulazioni per testare le proprie soluzioni e prepararsi alle eventualità.

Per tirare le somme, è assolutamente importante essere a conoscenza delle politiche di Disaster Recovery al fine di poter preservare i propri dati e garantirsi un tempo adeguato di operatività successivamente ad un danno. La scelta studiata delle informazioni da proteggere influisce sulla corretta selezione dei tempi di RPO e di RTO e di conseguenza degli investimenti da compiersi per il conseguimento di degli obiettivi prefissati.

RTO (Recovery Time Objective)

RTO è l’acronimo di Recovery Time Objective, traducibile con Obiettivo del Tempo di Ripristino, ovvero uno dei parametri più importanti qualora si ponga l’esigenza di effettuare un ripristino di emergenza dei dati. Le aziende, per tale motivo, devono sempre affidarsi a specialisti e piani di backup che possano intervenire nel migliore dei modi per il recupero. Nello specifico si parla di RTO per indicare il tempo per il recupero dell’operatività di un sistema, quindi in sostanza del downtime.

A livello pratico si indica il Recovery Time Objective come la tempistica per la scrittura del backup effettuato su un disco. Per capire concretamente di cosa si parla, basti pensare che tale parametro risponde alla domanda: in quanto tempo possiamo tornare operativi? Ogni azienda ha un valore che si determina tenendo conto di tutti i passaggi che servono per l’IT. Può quindi essere un numero che interpreta pochi secondi o un investimento di margine più elevato. La differenza spesso è connessa alla tipologia di azienda e al tipo di reparto IT che lavora al problema. Ci sono priorità e rischi differenti ma l’obiettivo è ridurre questo tempo al minimo poiché è direttamente proporzionale alla perdita di denaro, soprattutto per le grandi aziende.

Per determinare il valore di RTO si tiene conto dell’esigenza reale dell’azienda e si studia quanto tempo questa può effettivamente sopravvivere in caso di down. Ovviamente è importante che vi sia un allineamento con chi si occupa di IT per determinare la velocità e confrontare la fattibilità dell’intervento. Se ad esempio c’è un problema che richiede un ripristino di due ore non è possibile chiedere al comparto IT di effettuarlo in un’ora.

Gli RTO sono molto complessi e impegnativi, l’obiettivo di tutti coloro che lavorano a livello professionale è ottenere un valore che sia zero o che si avvicini il più possibile. Cosa può creare un’emergenza e quindi un ripristino? In realtà, qualunque cosa. Da un blackout del sistema ad un furto, ad un danneggiamento del server fino ad attacchi informatici. La lista è veramente lunga e bisogna essere preparati al peggio per intervenire al meglio. I problemi sono inevitabili, la grandezza di un professionista che lavora bene nel suo business è sapere come fronteggiarli.

Si parla spesso di Recovery Point Objective ovvero il punto finale, prima della perdita dei dati. In pratica, quello che comunemente viene definito come ultimo backup. Questi solitamente sono periodici per le aziende e per gli enti e determinanti per la salvaguardia dei dati. Per strutturare un piano di Disaster Recovery in modo opportuno bisogna valutare una perfetta sinergia e pianificazione, prima ancora di intervenire sulle tempistiche di risoluzione.

La sicurezza in ambito informatico permette di preservare i sistemi, i dati e le infrastrutture e quindi di rendere funzionali e attivi business, imprese, associazioni. Negli anni l’idea di dover avere un piano di supporto e comunque delle dinamiche di risposta al problema molto basse ha acquisito un nuovo valore. Dagli anni Ottanta la consapevolezza e il valore del cloud computing è cambiata. Al punto che si è giunti a classificare la tipologia di problemi che può decretare la necessità di un intervento: da una parte casistiche naturali (tornado, inondazioni e simili), dall’altra guasti, bug informatici, cambiamenti improvvisi. Per lavorare bene bisogna avere la consapevolezza dei livelli del proprio disastro (qualora questo avvenga) e la criticità dei sistemi.

Da un punto di vista tecnico, per arrivare a comprendere l’impatto del Recovery Rime Objective bisogna controllare i meccanismi e le procedure da includere in un piano di Disaster Recovery. L’impresa pianifica in questo modo tutte le applicazioni da compiere in caso di problemi. A questo bisogna poi affiancare un Business Continuity Plan che permette di individuare tutti quegli aspetti legati all’IT (la parte che interviene e che determina appunto il valore RTO). Le misure che è possibile adottare, variare e migliorare per portare il livello di RTO vicino allo zero sono:

  • Misure di tipo preventivo: avere un’ottima struttura che permetta di evitare attacchi di tipo informatico, danni ai sistemi, blackout e comunque ogni tipologia di falla tecnica. Questa è l’unica modalità, dal momento che problemi derivanti da cause naturali non si possono prevedere.
  • Misure di tipo investigativo: controlli costanti dei sistemi, verifiche, relazioni su possibili eventi indesiderati, funzionalità del comparto IT.
  • Misure di tipo correttivo: sono tutte quelle che andranno compiute per ripristinare il sistema, è quindi fondamentale che vi sia massima cooperazione da parte dell’IT e soprattutto capacità di azione molto rapide.

Questi tre controlli devono lavorare in sincronia per ottimizzare al meglio gli interventi dell’IT e soprattutto ridurne i tempi.

Perché in caso di emergenza è importante che il valore RTO sia pari a zero o molto vicino? Basti pensare al valore che le aziende danno al comparto IT. Questo assorbe nei business che lavorano al meglio, almeno il 2% della spesa globale. Le imprese non possono permettersi la perdita dei dati, un disastro pesante, come dimostra il passato, può costare una perdita rilevante non solo in termini economici. Le stime ci dicono infatti che il 43% delle imprese che ha subito una notevole perdita di dati non ha mai più ripreso la sua attività, che il 51% ha chiuso entro i due anni e che solo il 6% è riuscita a sopravvivere.

Oggi sono tante le possibilità per coloro che vogliono affrontare e valutare le soluzioni di Disaster Recovery per portare i valori RTO al minimo. Un valore elevato può essere la causa della distruzione del piano stesso e di perdite ingenti. La metrica deve essere chiara e definita e soprattutto mappata all’interno dell’infrastruttura IT per definire strategie di intervento mirate come:

  • backup su dispositivi locali e su dispositivi da inviare fuori dalla sede fisica (Backup Remoto Delocalizzato);
  • sistema di archiviazione ad alta disponibilità per il mantenimento dei dati.
  • replica dei dati su apposite tecnologie che permettano facilmente di ripristinare i dati in caso di perdita;
  • Data center interni ed esterni per eseguire nell’immediato un failover sul sistema locale;

RTO è un valore che richiama sicuramente in campo RPO. Anche questo è un parametro molto importante, tuttavia è connesso ma indipendente da esso. RTO riflette in modo concreto le esigenze dell’azienda e quindi la sua sopravvivenza, è pertanto molto diverso da RPO che misura solo un insieme di dati. Esso ha un costo impegnativo ma è comunque fondamentale perché coinvolge tutta l’infrastruttura e non esclusivamente i dati. Valori bassi sono difficili da raggiungere, soprattutto se si vuole lavorare in modo esclusivamente automatizzato. Resta chiaro che è importante affidarsi a professionisti con esperienza per allineare tale valore alla fattibilità di ripristino in tempi stretti. Per lavorare al meglio bisogna implementare un’azione che consenta di risparmiare denaro e investire su RPO e RTO, gestendo in modo ottimale le risorse e le tempistiche.

Le tecnologie e le conoscenze moderne in realtà forniscono un’ancora di salvezza importante per le strategie di ripristino. Ciò vuol dire che con un buon lavoro è possibile diminuire i tempi RTO e quindi di inattività del sistema. La preparazione al problema è proprio la prima fase di navigazione, tuttavia questo è un concetto orchestrale, che ha valore solo nell’insieme di misure atte a prevenire e poi contrastare eventuali problemi. Non si può quindi pensare di massimizzare solo i livelli di intervento se non ci si adopera correttamente per la manutenzione e prevenzione su ogni livello di servizio.

Info sull'autore

Andrea Masella author