RAID 5 to jeden z najpopularniejszych poziomów macierzy dyskowych, który w założeniu łączy zalety rozproszenia danych (striping) oraz bezpieczeństwa (parity). Macierz RAID 5 może przetrwać awarię pojedynczego dysku – jednak gdy dojdzie do awarii dwóch lub więcej dysków jednocześnie, przywrócenie sprawności staje się dużo trudniejsze lub wręcz niemożliwe. Niemniej istnieją procedury, które można zastosować, aby zminimalizować ryzyko utraty danych i – w niektórych przypadkach – odtworzyć macierz. W poniższym artykule omówimy:
- Jak działa macierz RAID 5 i dlaczego jest podatna na awarie wielu dysków
- Typowe przyczyny jednoczesnych awarii kilku dysków w dużej macierzy
- Sposoby diagnozy problemów i przygotowania do odzyskiwania
- Metody naprawy uszkodzonej macierzy RAID 5
- Zapobieganie awariom i rekomendacje na przyszłość
1. Zasada działania macierzy RAID 5
W macierzy RAID 5 dane są rozdzielane na co najmniej trzy dyski, gdzie w każdym „pasie” (ang. stripe) jeden blok jest wykorzystywany do przechowywania informacji o parytecie (tzw. blok parzystości). Dzięki temu można odtworzyć utracone dane w sytuacji awarii jednego dysku. Podstawowe cechy RAID 5 to:
- Rozproszenie danych (striping) zapewnia szybszy odczyt i zapis (choć nie tak szybki, jak w RAID 0).
- Mechanizm parzystości (ang. parity) umożliwia odtworzenie zawartości jednego uszkodzonego dysku.
- Kosztuje nas to przestrzeń rzędu 1 dysku na parzystość (np. w macierzy składającej się z 5 dysków o rozmiarze 4 TB każdy, całkowita pojemność użytkowa to 4 × 4 TB = 16 TB, a nie 20 TB).
Jeśli awarii ulegnie drugi dysk, macierz RAID 5 staje się w klasycznym ujęciu niezdatna do pracy i grozi to utratą danych. Istnieją jednak scenariusze, w których pewna forma częściowego odzysku może być możliwa.
2. Typowe przyczyny jednoczesnych awarii kilku dysków w dużej macierzy
W dużych macierzach (zawierających wiele dysków twardych, np. 6, 8, 10, 12 lub więcej) rośnie ryzyko wystąpienia awarii wielokrotnych. Do najczęstszych przyczyn możemy zaliczyć:
- Seria dysków z tej samej partii produkcyjnej – jeśli wdrożono dyski od jednego producenta i tej samej partii, mogą się one starzeć w podobnym tempie i ulegać awariom w krótkim odstępie czasu.
- Brak regularnej wymiany dysków – dyski mechaniczne (HDD) mają ograniczony czas życia, często określany jako Mean Time Between Failures (MTBF). Po przekroczeniu pewnego progu godzin pracy (lub zapisanych TB) ryzyko awarii rośnie wykładniczo.
- Błędy logiczne i uszkodzenia systemu plików – czasem nawet jeśli dysk nie jest fizycznie uszkodzony, uszkodzenie logiczne (np. wskutek nagłego wyłączenia prądu, błędów kontrolera RAID, wadliwego oprogramowania) może prowadzić do oznaczenia dysku jako „uszkodzony” i wyłączenia go z macierzy.
- Zbyt mała odporność na URE (Unrecoverable Read Error) – podczas procesu odbudowy (rebuild) macierzy RAID 5 może wystąpić błąd nie do odczytania (URE) na innym dysku, co może skutkować zepchnięciem całej macierzy w stan offline, szczególnie w przypadku bardzo dużych pojemności (tzw. capacity point).
- Błędy ludzkie – nieumiejętne próby wymiany dysku, aktualizacji firmware czy konfiguracji kontrolera RAID mogą prowadzić do równoczesnego wyłączenia więcej niż jednego dysku z macierzy.
3. Ostrzeżenie
Pamiętaj, że opisane niżej procedury nie służą odzyskiwaniu danych. Są niebezpieczne i mogą wprowadzić nieodwracalne problemy, które znacznie utrudnią lub wręcz uniemożliwią odzyskanie danych. Można je stosować w środowiskach testowych, podczas szkoleń, ale nie mają one nic wspólnego z profesjonalnymi procedurami wykorzystywanymi w naszym laboratorium.
W profesjonalnej pracy do naprawy dysków używa się PC3000 – systemu składającego się z specjalistycznego oprogramowania i kontrolera blokującego możliwość zapisu na dyskach użytkownika. Dodatkowo system ten w locie zabezpiecza dane, potrafi komunikować się na poziomie serwisowym z uszkodzonymi dyskami i ma wiele innych użytecznych funkcji, których nie posiadają ogólnie dostępne programy do odzyskiwania danych z macierzy RAID.
4. Diagnoza problemów i przygotowanie do odzyskiwania
Jeżeli zauważamy, że macierz RAID 5 działa w trybie degradacji (ang. degraded) lub jest całkowicie offline wskutek awarii wielu dysków, pierwszym krokiem jest spokojna diagnoza i zebranie jak największej ilości informacji:
- Zidentyfikuj dyski fizycznie uszkodzone – sprawdź diody LED dysków w serwerze/NAS-ie lub komunikaty z kontrolera RAID (np. w BIOS/UEFI, oprogramowaniu RAID czy logach systemowych). Dowiedz się, ile dysków faktycznie uległo awarii i w jakim stopniu (czy są to awarie fizyczne, czy może dysk ma jedynie bad sektory, czy system go błędnie rozpoznaje).
- Sprawdź status logiczny dysków – wiele kontrolerów RAID lub narzędzi systemowych (np.
mdadmw systemach Linux) oznacza dysk jako „uszkodzony” z powodu błędu zapisu/odczytu, który może być incydentalny. Czasem udaje się przywrócić dysk do życia krótkotrwałymi narzędziami diagnostycznymi, co pozwala na odzyskanie dodatkowych bloków danych. - Przeprowadź kopię binarną (sektor w sektor) – w przypadku dużych zasobów i cennych danych warto wykonać klon dysków lub przynajmniej obraz (tzw. image) każdego dysku na osobny nośnik. Zapobiegnie to dalszemu pogarszaniu się stanu przy kolejnych próbach odzysku. Jeżeli danych jest bardzo dużo i nie dysponujemy wystarczającą ilością nośników, należy dążyć do stworzenia chociaż obrazu uszkodzonych dysków.
- Zbadaj dane SMART – parametry SMART (Self-Monitoring, Analysis and Reporting Technology) dla każdego dysku mogą wskazać np. liczbę realokowanych sektorów, błąd kalibracji czy inne niepokojące atrybuty. Pozwoli to ocenić, czy dany dysk rzeczywiście jest w bardzo złym stanie, czy tylko doszło do pojedynczego błędu.
Ważne: Jeśli dane są bardzo cenne, rozważ oddanie całego systemu do profesjonalnej firmy zajmującej się odzyskiem danych (ang. data recovery laboratory). Próby napraw na własną rękę mogą pogorszyć sytuację.
5. Metody naprawy uszkodzonej macierzy RAID 5
Choć RAID 5 w przypadku wielu awarii dysków jest generalnie uznawany za nie do naprawienia na poziomie kontrolera, istnieje kilka metod, które mogą w pewnych sytuacjach pomóc w częściowym lub pełnym odzyskaniu danych.
5.1. Przywrócenie online dysku „logicznie” wykluczonego
Zdarza się, że kontroler RAID (lub system typu Linux mdadm) oznacza dysk jako uszkodzony, chociaż rzeczywiste uszkodzenia są niewielkie lub przejściowe. W takim przypadku:
- Wyłącz serwer i ostrożnie przepnij dysk do innego portu lub wymień kable SATA/SAS, upewniając się, że kable oraz zasilacz są sprawne.
- Uruchom narzędzia diagnostyczne producenta dysku (np. SeaTools dla Seagate, WD Data Lifeguard Diagnostics dla WD), wykonaj test powierzchniowy/naprawczy.
- Jeśli test zakończy się powodzeniem, spróbuj ponownie włączyć dysk do macierzy (tzw. re-initialize drive lub force online) na kontrolerze RAID lub z użyciem
mdadm --re-add.
Czasami taki dysk wróci do puli, a macierz zdoła się odbudować (o ile nie ma uszkodzenia innego dysku). Jest to jednak działanie ryzykowne, bo jeśli dysk jest niestabilny fizycznie, może to tylko przyspieszyć całkowitą awarię. Dlatego przed takimi próbami konieczne jest posiadanie kopii zapasowej lub obrazów dysków.
5.2. Tzw. “Forced Rebuild” lub “Forced Assembly” w kontrolerze RAID
Profesjonalne kontrolery RAID (Adaptec/Microsemi, LSI/Avago/Broadcom, HP Smart Array, Dell PERC itp.) oraz narzędzia programowe (mdadm w Linuxie) oferują często funkcje pozwalające wymusić rozpoznanie konfiguracji macierzy i spróbować jej odbudowy nawet wtedy, gdy zgłasza się błąd wielokrotnej awarii. Ta procedura bywa nazywana force assemble lub force rebuild.
- Zachowaj oryginalną konfigurację – zapisz aktualny stan RAID (np. w
mdadmużyjmdadm --detail --scan). - Odłącz wszystkie dyski poza uszkodzonymi i spróbuj wymusić montaż macierzy w trybie tylko do odczytu (read-only).
- Jeśli macierz się zmontuje i jest możliwy przynajmniej częściowy odczyt, natychmiast przystąp do kopiowania najważniejszych danych na zewnątrz.
Ta metoda może zadziałać, jeśli w praktyce tylko jeden dysk jest zupełnie martwy, a drugi został wykluczony logicznie (błędy zapisu/odczytu, lecz fizycznie częściowo sprawny). Jednak procedura bywa trudna i wymaga dogłębnej wiedzy oraz ostrożności.
5.3. Specjalistyczne narzędzia i oprogramowanie do odzysku danych
Jeżeli kontroler nie pozwala na wymuszenie odbudowy, a stan dysków jest niepewny, można spróbować wykorzystać oprogramowanie do analizy i rekonstrukcji RAID. Przykładowe rozwiązania:
- R-Studio – zaawansowane narzędzie do odzyskiwania danych, posiada funkcję „Reconstruct RAID”, gdzie można ręcznie ustawić parametry, rozmiar paska (stripe size), kolejność dysków i typ parzystości.
- dm-de / TestDisk / PhotoRec (open-source) – przydatne w sytuacjach awarii logicznych i przy analizie plików, choć wymagają większej wiedzy.
Procedura polega na:
- Wykonaniu obrazów wszystkich dysków (lub przynajmniej tych uszkodzonych).
- Wprowadzeniu parametrów RAID (poziom RAID, rozmiar paska, kolejność dysków, offsety).
- Próbie logicznej rekonstrukcji struktury systemu plików.
- Kopiowaniu odzyskanych danych na bezpieczne nośniki.
Warto podkreślić, że jeśli uszkodzenia fizyczne dysków są poważne, a zależy nam na wysokim procencie odzysku, najlepszym wyjściem jest skorzystanie z usług laboratoriów odzyskiwania danych, które mogą wymieniać głowice, odczytywać talerze w środowisku clean room itp.
5.4. Wymiana dysków i rekonstrukcja na nowej macierzy
Niekiedy możliwe jest zbudowanie nowej, tymczasowej macierzy i skopiowanie do niej danych, o ile z części dysków RAID 5 da się jeszcze wyodrębnić dane „na raty”. Procedura jest skomplikowana i często wymaga:
- Wyodrębnienia plików partiami, np. dzięki powtarzanym próbom odczytu.
- Odtworzenia wyłącznie kluczowych sektorów systemu plików i tych sektorów, które pozwalają odzyskać najcenniejsze dane (np. bazy danych, dokumenty).
- Zbudowania nowej macierzy lub po prostu dodania dysków o odpowiedniej pojemności jako docelowych do zgrania tego, co da się odczytać.
6. Zapobieganie awariom i rekomendacje na przyszłość
Najskuteczniejszą metodą uniknięcia kryzysu po awarii wielokrotnych dysków w RAID 5 jest profilaktyka i dobra praktyka administracyjna:
- Regularne tworzenie kopii zapasowych (backup) – żadna macierz RAID nie zastąpi prawdziwego backupu. Najlepiej stosować politykę 3-2-1, tj. 3 kopie danych na 2 różnych nośnikach, w tym 1 poza siedzibą firmy.
- Rozważenie RAID 6 lub RAID 10 – w przypadku dużych pojemności i krytycznego znaczenia danych RAID 5 może być ryzykowny, ponieważ oferuje odporność tylko na 1 awarię. RAID 6 zapewnia przetrwanie dwóch awarii jednocześnie, a RAID 10 (mirror + stripe) bywa wydajniejszy i odporniejszy w pewnych konfiguracjach.
- Stały monitoring dysków – obserwuj parametry SMART, generuj alerty na podstawie wzrostu temperatury lub nagłego przyrostu realokowanych sektorów. Szybka reakcja na pierwsze symptomy może zapobiec kaskadowym awariom.
- Planowa wymiana dysków – jeśli macierz składa się z wielu identycznych dysków zakupionych jednocześnie, warto wprowadzić planową wymianę (np. co 3–4 lata) części dysków na nowe, aby uniknąć sytuacji, w której wszystkie zbliżają się do końca życia.
- Unikanie dużych jednostek dyskowych w RAID 5 – przy bardzo dużych pojemnościach (np. dyski 8 TB, 10 TB i większe) istnieje spore ryzyko wystąpienia URE podczas odbudowy. Stąd rekomenduje się raczej RAID 6 lub inne rozwiązania (np. technologię ZFS z redundancją RAIDZ2/RAIDZ3).
- Regularne testy odtwarzania danych – warto przeprowadzać okresowe testy przywracania danych z backupu, by być pewnym, że w razie awarii procedura zadziała.
Na koniec
Naprawa dużej macierzy RAID 5 po jednoczesnej awarii wielu dysków jest zadaniem bardzo trudnym i nie zawsze daje się w pełni zrealizować. Podstawowymi krokami są: diagnoza (ustalenie faktycznie uszkodzonych dysków, stanu logicznego macierzy), wykonanie kopii lub obrazów, a następnie próba rekonstrukcji z użyciem narzędzi kontrolera RAID lub oprogramowania do odzyskiwania danych. W skrajnych przypadkach konieczny jest profesjonalny serwis odzyskiwania danych, który w laboratorium dokona fizycznej naprawy nośników.
Z punktu widzenia administratora czy właściciela danych, najważniejsza jest jednak profilaktyka – prawidłowe projektowanie macierzy (z uwzględnieniem RAID 6 lub RAID 10 przy dużych pojemnościach), ciągły monitoring stanu dysków, planowa wymiana najstarszych nośników oraz, przede wszystkim, regularne wykonywanie kopii zapasowych i testowanie procedur odtwarzania danych. Dzięki temu nawet awaria kilku dysków jednocześnie nie powinna przekreślać szans na szybkie przywrócenie dostępu do kluczowych informacji.


Bardzo ciekawy artykuł, zalecam jednak faktycznie 10 razy się zastanowić czy warto grzebać w uszkodzonej macierzy RAID
niestety ludzka natura + poradniki z internetu zbierają żniwa
Dobrze, że dodaliście to ostrzeżenie, choć i tak wielu administratorów próbuje odbudować macierz po awarii, zanim sprawdzą stan pozostałych dysków. Kończy się to niestety wzrostem kosztów i pracy przy odzyskiwaniu
Ciśnienie ze strony kierownictwa i chęci wykazania się robią swoje. Ale jak nabroją a dane są potrzebne to przynajmniej płacą i czekają na szybkie odzyskanie, które po ich działaniach już nie jest takie szybkie.