2. 2
Disaster Recovery - Agenda
DOPORUČENÍ NÚKIB
- Vypracujte Distaster Recovery Plán (DRP)
a mějte po ruce i kontakty na všechny další administrátory, nadřízené pracovníky
a členy CERT/CSIRT týmů
- Pravidelně zálohujte důležitá a citlivá data
a pravidelně testujte obnovu a funkčnost obnovených dat
3. 3
Disaster Recovery Plán (DRP)
˃ Strukturovaný dokument
˃ Orientace na IT infrastrukturu
˃ Důležitá součást Business Continuity Plánu
˃ Býva často sestavován po RI (risk analysis) a BIA (business impact analysis)
˃ Udavá jasné RO (recovery objectives)
˃ Obsahuje jednotlivé IMP (incident management plány)
˃ Stanovuje strategii zálohování
4. 4
DRP – Možné výpadkem postižené cíle
˃ Aplikace
˃ Komunikace (síť)
˃ Datové Centrum
˃ Budova
˃ Campus
˃ Město
˃ Region
˃ Kontinent
5. 5
Typy DRP - Virtualizační
˃ Virtualizační DRP
- jednodušší na realizaci
- velké možnosti testování (Fire Drill)
- rychlé obnovy
- možnosti spuštení VM přímo ze zálohy
- integrované HA
6. 6
Typy DRP - Síťový
˃ Síťový DRP
- vyžaduje kompletní schéma sítě
- měl by obsahovat step-by-step návod
- zálohy konfigurace síťových prvků
- hard-print nastavení prvků
- redundance
7. 7
Typy DRP - Cloudový
˃ Cloudový DRP
- sahá od zálohy souborů do cloudu až po kompletni DR site v cloudu
- náročnější na vytvoření a provoz
- finanční náročnost
- možnost využití sofistikovanějších toolů pro realizaci
8. 8
Typy DRP – Datové centrum
˃ DC DRP
- zaměřený jak na infrastrukturu IT tak i na samotnou budovu DC
- měl by obsahovat všechny možné scénáře výpadků
- záložní zdroje
- klimatizace
- záložní konektivita
- fyzické zabezpeční
9. 9
DRP – Rozsah a cíle
˃ Některé DRP mívají i více než 100 stran
˃ Možnost stažení vzorových DRP z internetu
˃ Prioritizace kritických aplikací, služeb, sítí
˃ Stanovení RTO a RPO u jednotlivých služeb
˃ Návaznost na další služby (restarty, rekonfigurace dalších komponent atd.)
˃ Posloupnost vzájemných závislostí služeb
˃ Zajištění minimálního dopadu na další služby
10. 10
DRP - Checklist
˃ Scope of Recovery
˃ Sběr konfigurace síťových prvků
˃ Identifikace největších hrozeb a zranitelností
˃ Review historie předchozích výpadků a jejich vyřešení
˃ Identifikace aktuálních strategií Disaster Recovery
˃ Sestavení týmu zodpovědného za provedení DR
˃ Schválení a validace nadřízeným
˃ Testování DRP
˃ Implementace a Audit DRP
˃ Pravidelná aktualizace DRP
11. 11
DRP – co by v něm nemělo chybět
˃ Obsah
˃ Historie změn
˃ Přehled všech kontaktů (interní + externí) a jejich zodpovědností
˃ Diagram kdo informuje koho v případě incidentu nebo disasteru
˃ Uložení a hard-copies DRP
˃ Zálohovací/záložní strategie (site-mirror, passive DR, off-site backup)
˃ Informační strategie (interní, externí, média)
˃ Kompletní dokumentace o konfiguraci serverů/zařízení (jméno, FS, LAN, aplikace…)
˃ Různé scénáře výpadků (malware, OS, HW, kompletní disaster)
˃ Jednotlivé kroky nutné pro znovuzprovoznění
˃ Podklady (templates) pro finální reporting (akce, časy, výsledek, ponaučení) a pro předání zpět do
běžného provozu
13. 13
High Availability
˃ Lokální Cluster (active/pasive)
˃ Campus Cluster
˃ Metro Cluster
˃ Global Cluster
˃ Hybrid Cluster
˃ Replikace dat (synchronní/asynchronní)
14. 14
Archivace
˃ Nenahrazuje zálohování, i archiv je potřeba zálohovat
˃ Odlehčuje primární systémy
˃ Zkracuje potřebný čas pro zálohování i obnovy
˃ Šetří náklady
˃ Není prioritou při DR obnově dat
15. 15
Zálohování
˃ RTO (recovery time objective)
˃ RPO (recovery point objective)
˃ Správná volba software dle potřeb zákazníka
˃ Správný sizing zálohovacího HW (servery, diskové úložiště, pásky, cloud…)
˃ Hardening celého backup řešení
˃ Kopie záloh a jejich umístění a dostupnost
17. 17
Jak jsou ohrožena data úložištích
˃ Zašifrování lokálně připojeného disku
˃ Zašifrování jednotlivých disků v SAN nebo sdílených adresářů v NAS
˃ Zašifrování všech sdílených disků a adresářů v SAN a NAS nebo celých
datastorů
˃ Prolomení administrativních účtů na centrálním úložišti - důsledky
Při ransomware útoku
18. 18
Více otázek než odpovědí ?
Zašifrovanými daty a požadavkem výkupného problém nezačal
˃ Jaké a kam získal útočník přístupy
˃ Kam může?
˃ Co může vypnout?
˃ Může vypnout mojí ochranu?
˃ Jak na to přijdu, dříve než si řeknou o výkupné?
˃ Jak to zastavím?
˃ Jak můžu data obnovit a jak rychle?
19. 19
Zmírnění dopadů - na čem záleží
Na SPOLEHLIVOSTI a RYCHLOSTI obnovy záloh
˃ Zálohování musí být jednoduché a automatizované
˃ Odolné - imunní proti nechtěným změnám či ztrátám
˃ Rychlost – bude obnova dat trvat dny, hodiny, sekundy?
˃ Kdy jste naposledy vyzkoušeli jak dlouho by trvala obnova celé kapacity vašeho
centrálního úložiště?
20. 20
Co by mělo moje uložiště umět?
A má zásadní význam pro zmírnění následků útoku
˃ Robustní RBAC politiky pro zajištění přístupu k poli
˃ Efektivní snapshoty, které nemají dopad na výkon či funkčnost pole a jsou
neporušitelné či nesmazatelné (uživatelem/administrátorem)
˃ Politiky pro tvorbu snapshotů a jejich replikaci či integraci se zálohovacím sw
˃ Pokud má pole redukční mechanismy (deduplikace, komprese), pak reporting
poměru redukce na úrovni volume/snapshotu
21. 21
Nevratné operace administrátorů?
A jaj, teď jsem se ukliknul / co když se „uklikne“ útočník
˃ „Odpadkový koš“ – smazání objektů na poli nemá okamžitý účinek a smazané
objekty lze obnovit, např. do x hodin
˃ Safe mode – vypnutí možnosti manuálního „vysypání koše“ (i pro a hlavně pro
administrátora)
˃ K nevratnému odstranění objektu dojde až po uplynutí ochranné lhůty
22. 22
Virtualizace
Co je oříšek a co možnost
˃ Obří datastory – výzvou flexibilita a možnosti rychlých obnov i velkých VM >TB
˃ Live migration: Jak vůbec rychle najdu ve kterém snapshotu jsou data požadované VM a v jakém
stavu?
˃ VM A má data ok před 24h, ale VM B má ok data ve snapshotu před 25h…
˃ vVOL – datové svazky (disky) VM ve formě svazků (LUNů) na poli
˃ Využijí veškeré vlastnosti, které pole poskytuje (snapshot svazku přímo na poli, pravidla,
replikace atd.)
˃ Undelete – libovolný svazek jednoduše obnovitelný i po smazání
˃ Restore – jednoduchý a rychlý návrat k předchozímu stavu z lokálních snapshotů
23. 23
Pole s redukčními vlastnostmi
Proč je dobré pole s deduplikací a kompresí v boji s ransomware
˃ Tradičně: nejen snapshoty, ale i kopie svazků nezabírají žádné další místo nebo
jen minimum – možnost častějších snímku a lepší ochrany
˃ Je jedno jestli si snapshot dělá aplikace sama na úrovni FS – na poli budou duplicitní data
vždy jen jednou
˃ Netradičně: Napadený, zakryptovaný volume, vykazuje redukci dat 1:1 místo
původních 5:1 (například) –> rychlé odhalení napadených disků
29. 29
Na co se ptát dodavatele centrálního pole
A co mi zajistí alepoň trochu více klidu a jistoty
˃ Tradičně: rychlost (all flash), bezpečnost (šifrovaní dat na discích, správa klíčů,
zabezpečení admin přístupu), zabezpečení dat (snapshoty, replikace, offload do S3,
NFS, cloud), vysoká dostupnost (active/active, SPOF, synchronní replikace ->
clustering)
˃ Navíc ale nutně:
˃ to co je výše, umí to moje pole použít současně a na všech objektech?
˃ Bez dopadu na výkon?
˃ S jednoduchou administrací! – nejvíce chyb dělají administrátoři
˃ Nejlépe automatizovaně pomocí přiřazených politik
30. 30
Na co se ptát dodavatele centrálního pole
Klíčové pro eliminaci dopadu ransomware
˃ Snapshoty – 100vky – 1000 na poli současně bez dopadu na výkon all flash
˃ Replikace a offloading – nativně i v integraci se zálohovacím sw
˃ Rychlý restore z lokálních snapshotů – ŽÁDNÉ kopírování dat mezi volumy
˃ Nesmazatelné objekty (volumy + snapshoty) i v případě kompromitace admin
přístupu na pole
˃ Možnost replikace na jinou storage, která je schopna obnovit celé datové
centrum, tedy v řádu 1 – 10 TB/h ( máme řešení i pro 270TB/h ☺ )