BACKUP - Dell EMC Data Domain


Rodzina nowoczesnych urządzeń deduplikujących, służących jako podstawowa pamięć masowa do celów składowania kopii zapasowych. Urządzenia zbudowane są w oparciu o wydajny system procesorów i pamięci, z dołączonym repozytorium dyskowym.

Systemy Data Domain stanowią najszybszą w branży pamięć masową z deduplikacją. Zapewniają przepustowość do 31 TB/godz., co umożliwia wykonanie większej liczby kopii zapasowych w krótszym czasie. W celu zminimalizowania wymagań dotyczących miejsca na dysku systemy Data Domain deduplikują dane przed zapisem - w trakcie procesu tworzenia kopii zapasowej lub archiwizowania. Dlatego dane zapisywane na dysku są już unikatowe.

Deduplikacja zmniejsza ilość pamięci masowej wymaganej do przechowywania i zabezpieczenia danych, przeciętnie od 10 do 30 razy. Zapisywanie na dysku wyłącznie unikatowych danych oznacza również, że można je ekonomicznie replikować przez istniejące sieci do odległych ośrodków w celu zapewnienia bezpiecznego i niezawodnego odzyskiwania sprawności po awarii bez użycia taśm.

Weryfikacja zapisu i odczytu "w locie" chroni przed utratą integralności danych podczas wykonywania tych operacji i jednocześnie umożliwia automatyczne jej przywracanie. Wychwytywanie i korygowanie błędów wejścia/wyjścia przed zapisem podczas procesu tworzenia kopii zapasowej eliminuje potrzebę powtarzania tego procesu. Funkcje ciągłego wykrywania błędów i samoleczenia zapewniają możliwość odzyskania danych w ciągu całego cyklu ich życia.

Data Domain zapewniają jednoczesną obsługę wielu metod dostępu, w tym NFS, CIFS, VTL, NDMP i Data Domain Boost ze wszystkich aplikacji i narzędzi można korzystać w jednym systemie Data Domain w tym samym czasie. Dzięki temu zwiększa się konsolidacja zabezpieczającej pamięci masowej. System może być widoczny dla użytkowników i aplikacji jako serwer plików zapewniający dostęp z użyciem protokołów NFS i CIFS w sieci Ethernet, jako biblioteka taśm wirtualnych dostępna za pośrednictwem protokołu Fibre Channel, jako serwer taśm NDMP w sieci Ethernet lub jako dyskowe miejsce docelowe przy użyciu interfejsów specyficznych dla aplikacji, takich jak Data Domain Boost.

Pojedynczy system Data Domain można wykorzystać do tworzenia kopii zapasowych i odzyskiwania danych całego przedsiębiorstwa (m.in. na platformach Oracle, Microsoft i VMware oraz w środowiskach IBM lub komputerach mainframe), jak również w zastosowaniach związanych z archiwizacją (na przykład plików, poczty e-mail, korporacyjnych systemów zarządzania treścią czy baz danych).

Zasada działania DD

  1. Dane wysłane do DD w pierwszej kolejności są przetwarzane w NVRAM, gdzie są dzielone na bloki wielkości od 4 do 12 KB
  2. De-duplikacja danych tworzy kontenery 4,5 MB wypełnione blokami powielonymi z NVRAM
  3. Sprawdzana jest zgodność sum kontrolnych SHA-1 bloków w kontenerze i NVRAM-ie - jeżeli jest zgodna to bloczek z NVRAM jest usuwany co zwalnia pamięć i umożliwia obróbkę kolejnych danych.
  4. Sprawdzony kontener z bloczkami jest skompresowany
  5. Zapis danych na HDD

Uwagi

  • Wąskim gardłem DD jest procesor. Jeżeli zajętość procesora będzie powyżej 70% należy zastanowić się nad zakupem wyższego modelu. Podmiana na wyższy model w dużym uproszczeniu polega na wymianie "główki" na moduł z silniejszym procesorem. (HOME -> Realtime Charts)
  • De-duplikacja zmiennym blokiem przyspiesza zapis danych zmniejszając obciążenie procesora DD
  • HDD SSD znacząco przyspieszają odtwarzanie danych - restor, ich wydajność nie ma większego wpływu w przypadku zapisu.
  • Każda półka musi być obsadzona 15 HDD - 14 HDD RAID 6 i 1 HDD SPARE
  • De-dublikacja na źródle - proces tworzony przez protokół BOOST oraz DD - mechanizm działający niezależnie od programu do backupu, programy obsługujące BOOST jedynie inicjują proces
  • Czasy opóźnień przesyłu w sieci nie są problemem dla DD - wydłuży się jedynie czas wykonania backupu. Problemem jest utrata pakietów powyżej 2%
  • Garbin colection - DD robi raz na tydzień samoczyszczenie ze zbędnych danych zapisanych na HDD
  • W przypadku nagłego wzrostu zajętości HDD należy sprawdzić czy nie zalegając snapshoty lub nie ma problemów z wirusami typu ransomware
  • Na dzień dzisiejszy wirusy typu ransomware nie rozpowszechniają się po protokole BOOST. Zagrożenie występuje przy udostępnionych zasobach po CIFS i NTFS
  • Dodatkowym zabezpieczeniem przed wirusami i atakami hackerskimi jest ustawienie Retention lock. Zadeklarowanie daty przed upłynięciem której nie można skasować ani zmodyfikować wykonanego backupu

Utrata danych:

  • 3 HDD uszkodzone w jednej grupie RAID 6
  • zalanie DD

Backup

Pierwszy backup zajmuje ok 30% danych oryginalnych. Kolejne będą zajmowały od 0,1 do 3% danych oryginalnych.

Na przykładzie pierwszego backupu

ssh> filesys show compression /data/coll/SQL

Orginal Bytes 335,581,430 ; ilość danych do backupu
Globally Compressed 63,506,174 ; unikatowe dane - po de-duplikacji (utworzone kontenery)
Localy Compressed 58,690,609 ; skompresowane, unikatowe dane zachowane przez DD na HDD

Statystyki pisania protokołu boost do DD

ssh> ddboost show stats interval 1

Backup - ilość danych do backupu

Network in - ilość danych przesłanych do DD

Do przeglądania zawartości backupu służy narzędzie eCDM

Obsługiwane protokoły

  • VTL - wykorzystywany do emulacji bibliotek taśmowych - najsłabsze osiągi DD
  • CIFS - udostępnianie plików w sieciach Windows bezpośrednio z poziomu macierzy, przy jednoczesnej integracji z Active Directory
  • NFS - protokół zdalnego udostępniania systemu plików na systemach Uniksowych
  • BOOST - protokół umożliwiający de-duplikacje na źródle i przesłania danych za pomocą kanału szyfrowanego. Cały backup jest obrabiany lokalnie, kontenery tworzone są na źródle, wyliczone sumy kontrolne bloków są wysyłane do DD. DD weryfikuje, które bloki są dla niego unikatowe i wymagają przesłania.
    Finalnie jedynie DELTA (unikatowe dane) są przesyłane po sieci (FC lub LAN) do DD i zapisane na HDD - co stanowi ok. 1 - 3% danych backupowanych. W trakcie de-duplikacji wzrost obciążenia procesora lokalnego jest o ok 15%.
    Maksymalnie można zadeklarować tyle strumieni ile wątków ma procesor maszyny lokalnej - fizyczną barierą jest zasób dyskowy maszyny backupowanej, jego wydajność. Dla jednego wątka, szybkość backupu jest ok 150MB/s. Procesor DD obciąża ilość strumieni którą musi przyjąć i przetworzyć.

Spis treści

Artykuły powiązane:

BACKUP
Dell EMC Data Domain sprzętowe rozwiązanie deduplikujące, pamięć masowa
Dell EMC Avamar programowe rozwiązanie de-duplikujące
Dell EMC Avamar - grupy tworzenie polityk, zadań

Copyright ©2021 Tomasz Blauth