1
Strategie diagnozowania
strategie scentralizowane
Decyzje
testy
przepływ informacji diagnostycznych
strategia rozproszona
2
Strategie diagnozowania
•
Strategia off-line – jest strategią, w której
jednostki biorące udział w diagnozowaniu
nie uczestniczą w realizacji zadań
użytkowych.
•
Strategia on-line jest strategią, w której
stan systemu jest wyznaczany na bieżąco
bez zawieszania zadań użytkowych.
3
Strategie diagnozowania
•
Strategia jednokrokowa polega na wykonaniu
wszystkich dopuszczalnych testów w systemie i
wyznaczeniu wszystkich uszkodzonych jednostek na
podstawie otrzymanego syndromu.
•
Strategia wielokrokowa polega na wzajemnym
przeplataniu się procesu diagnozowania i obsługiwania
(naprawy). Przyjmuje się, że na podstawie syndromu
można określić tylko pewien podzbiór uszkodzonych
jednostek. Następnie wymienia się je na zdatne i ponawia
się testowanie. Proces powtarzany jest do momentu
osiągnięcia poprawnego funkcjonowania wszystkich
jednostek systemu.
4
Miary diagnozowalności
dla strategii scentralizowanej
•
System jednokrokowo m–diagnozowalny – wszystkie
uszkodzone jednostki mogą być zlokalizowane na
podstawie jednego syndromu wyników testowania jeśli
liczba uszkodzonych jednostek nie przekracza m.
•
System wielokrokowo m–diagnozowalny – co najmniej
jedna niezdatna jednostka może być zlokalizowana na
podstawie jednego syndromu wyników testowania jeśli
liczba uszkodzonych jednostek nie przekracza m.
5
Miary diagnozowalności
dla strategii rozproszonej
•
Nie wyróżnia się strategii wielokrokowej,
ponieważ informacje o wynikach testowania
powinny być przekazywane przez jednostki zdatne.
•
System z rozproszoną strategią diagnozowania
jest m-diagnozowalny, jeżeli każda zdatna
jednostka jest w stanie zlokalizować wszystkie
niezdatne jednostki jeśli ich liczba nie przekracza
m.
6
Programy diagnostyczne
•
Testowanie sprzętowe na ogół nie umożliwia
zdiagnozowania wszystkich elementów systemów
cyfrowych.
•
Testowanie programowe jest dużym ułatwieniem
w realizacji samotestowania.
•
Każdy system komputerowy powinien być
wyposażony w zestaw testów diagnostycznych.
•
Testowanie mieszane HSC
7
Programy diagnostyczne
•
Dekompozycja pionowa – dekompozycja procedur
testowania w czasie, określenie zasobów
testowanych w kolejnych fazach np. najpierw
zgrubne testy zasobów systemowych niezbędnych
do wykonania dokładnych testów itd,…
•
Dekompozycja pozioma – rozproszenie procesów
testowania w przestrzeni.
•
Dekompozycja na diagnostykę sprzętową i
programową.
8
Systemy tolerujące uszkodzenia
System tolerujący uszkodzenia (fault tolerant system):
•
wykrywa uszkodzenia
•
zaprzestaje działania według zadanego algorytmu lub
maskuje uszkodzenia
•
użytkownik systemu tolerującego uszkodzenia nie
powinien zauważyć defektu, co najwyżej odczuje pewne
pogorszenie jakości usług.
System nazywa się tolerującym k uszkodzeń (k fault tolerant),
jeśli przy k uszkodzeniach realizuje zadane funkcje,
9
Systemy tolerujące uszkodzenia
•
System tolerujący uszkodzenia tworzy się w oparciu o
zwielokrotnienia sprzętowe i programowe.
•
Koszt realizacji mechanizmów zabezpieczeń nie powinien
przekraczać kosztów wynikających z usunięcia skutków,
jakie spowodowałyby powstałe i niekontrolowane
uszkodzenia w systemie.
•
Jednostki systemu powinny posiadać oprócz zadanych
możliwości użytkowych także określone zdolności do
oceny poprawności wykonania własnych funkcji i/lub
funkcji realizowanych przez inne jednostki.
•
Prawdopodobieństwo wystąpienia uszkodzenia, które
dezorganizuje pracę systemu, powinno być bardzo małe,
powinny być to systemy z niezawodnym jądrem.
10
Systemy tolerujące uszkodzenia
Warunkiem koniecznym tolerowania uszkodzeń jest
poprawna ich diagnostyka.
Jej jakość ma decydujące znaczenie dla
przywrócenia zdatności systemu przez:
•
wymianę uszkodzonych jednostek
•
odłączenie niezdatnych jednostek i rekonfigurację
zadań (łagodna degradacja systemu).
11
Redundancja sprzętowa
(układowa)
• Redundancja sprzętowa – powielanie sprzętu w taki
sposób, aby uzyskać efekt tolerowania lub maskowania
błędów.
• Może być realizowana na poziomie całego systemu, jego
modułów lub podzespołów.
• Powielenie całego systemu może mieć charakter skupiony
lub rozproszony.
12
Redundancja sprzętowa
Redundancja statyczna (bierna) – wszystkie elementy
nadmiarowe są aktywne przez cały czas (łącznie z
uszkodzonymi).
Redundancja dynamiczna (aktywna) – moduły uszkodzone
są zastępowane modułami zapasowymi.
Redundancja hybrydowa – połączenie redundancji
statycznej i dynamicznej.
13
Redundancja statyczna (bierna)
Bazuje przede wszystkim na układach glosujących NMR
(N modular redundancy).
Toleruje do m<N/2 uszkodzonych modułów (m-liczba
naturalna).
Najczęstszy przypadek to 3MR
14
Redundancja dynamiczna
• Podstawowy problem – wykrycie błędu.
• Istnieje ryzyko chwilowej niedostępności systemu.
• Bardzo ważna rola detektora błędów.
• Po wykryciu błędów uszkodzony moduł jest zastępowany
modułem zapasowym.
• Moduły zapasowe mogą być włączone i równolegle
realizować funkcje (rezerwa gorąca) lub mogą być
wyłączone (rezerwa zimna).
• Czas przełączania rezerwy „gorącej” jest krótszy.
• Liczba tolerowanych błędnych modułów wynosi N-1.
15
Redundancja sprzętowa
rozwiązania praktyczne
Klastry – zespoły urządzeń (najczęściej komputerów)
połączone w spójną sieć. Mogą zawierać dodatkowe,
rezerwowe urządzenie lub nadmiar mocy obliczeniowej.
W przypadku uszkodzenia jednego z serwerów bądź
urządzenia przechowywania danych jego zadania są,
przejmowane w sposób niewidoczny dla użytkowników,
przez inny węzeł klastra.
Struktury RAID – redundant array of independent discs.
Porównanie poziomów RAID
16
Poziom
RAID
Minimalna liczba
dysków N
Liczba dysków
nadmiarowych
Dostępna
przestrzeń
Odporność na
awarię
RAID 0
2
0
N
0
RAID 1
2
1
1
1
RAID 2
3
1 lub więcej
N – log N
1
RAID 3
3
1
N - 1
1
RAID 4
3
1
N - 1
1
RAID 5
3
1
N - 1
1
RAID 6
4
2
N - 2
2
RAID 01
4
Zależnie od
konfiguracji
Zależnie od
konfiguracji
Zależnie od
konfiguracji
RAID 10
4
Zależnie od
konfiguracji
Zależnie od
konfiguracji
Zależnie od
konfiguracji