- 1 -
8. ARCHIWIZACJA I KOMPRESJA DANYCH
Archiwizacja (ang. backup)
to proces wykonywania kopii danych w celu zabezpieczenia ich
przed utrat
ą
wskutek wyst
ą
pienia takich zdarze
ń
losowych jak powód
ź
, po
ż
ar, włamanie,
awaria sprz
ę
tu lub oprogramowania, czy nawet przypadkowe skasowanie przez u
ż
ytkownika.
Pod poj
ę
ciem archiwizacji rozumie si
ę
równie
ż
proces przenoszenia danych z systemów
komputerowych na inne no
ś
niki (zwykle tylko do odczytu) w celu zredukowania ilo
ś
ci danych
(np. ju
ż
niepotrzebnych) w głównym systemie komputerowym (lub bazie danych).
Przyczyny utraty danych
-
uszkodzenia mechaniczne
48%
-
bł
ę
dy oprogramowania
30%
-
bł
ę
dy człowieka
12%
-
niewła
ś
ciwe u
ż
ycie
5%
-
przypadek
2%
-
po
ż
ar
1%
-
kradzie
ż
<1%
Niektóre sposoby archiwizacji:
- kopie analogowe (wydruki dokumentów),
- kopiowanie na no
ś
niki wymienne: dyskietki, CD-R, DVD-R,
- kopiowanie na ta
ś
my magnetyczne,
- kopiowanie na inny dysk tego samego komputera,
- kopiowanie na inny komputer (np. kopia zwierciadlana strony WWW).
Autoloader
- automatyczny zmieniacz, ładuj
ą
cy bez udziału operatora po
żą
dany no
ś
nik
(np. ta
ś
m
ę
) z własnego magazynka do nap
ę
du (np. streamera). Zapewnia znaczn
ą
automatyzacj
ę
procesu archiwizacji.
Streamer
- urz
ą
dzenia do zapisu i odczytu wykorzystuj
ą
ce ta
ś
m
ę
magnetyczn
ą
.
Korzystamy z systemów archiwizowania danych z nast
ę
puj
ą
cych powodów:
- podniesienie poziomu bezpiecze
ń
stwa przechowywanych danych i informacji,
- najwi
ę
ksz
ą
warto
ś
ci
ą
firmy s
ą
DANE (nie sprz
ę
t komputerowy), dlatego nale
ż
y je chroni
ć
,
- odtworzenie utraconych bitów informacji jest bardzo kosztowne, czasochłonne lub nawet
niemo
ż
liwe,
- pomimo ci
ą
głego wzrostu niezawodno
ś
ci stosowanego sprz
ę
tu, jego awarie wci
ąż
s
ą
mo
ż
liwe.
8.1 Rodzaje archiwizacji i ich cechy
Backup pełny (Full)
- archiwizacja za ka
ż
dym razem wszystkich danych,
- najdłu
ż
szy czas potrzebny na archiwizacj
ę
,
- najkrótszy czas potrzebny na odtworzenie danych,
- wszystkie dane znajduj
ą
si
ę
na jednej płycie (ta
ś
mie), ewentualnie komplecie płyt (ta
ś
m).
- 2 -
Backup ró
ż
nicowy (Differential)
- archiwizacja danych zmodyfikowanych po ostatniej pełnej archiwizacji,
- stosunkowo szybka metoda archiwizacji (szybsza od archiwizacji pełnej),
- dłu
ż
szy czas potrzebny na odtworzenie danych,
- potrzebna jest wi
ę
ksza liczba kaset do odtworzenia systemu w stosunku do archiwizacji
pełnej.
Backup przyrostowy (Incremental)
- archiwizacja danych zmodyfikowanych po ostatniej archiwizacji,
- najszybsza metoda archiwizacji,
- najdłu
ż
szy czas potrzebny na odtworzenie danych,
- ilo
ść
no
ś
ników danych (płyt) wzrasta w skali okresu składowania.
Strategie backupu w funkcji czasu
Liczba ta
ś
m potrzebna do odtworzenia kompletnego systemu
- 3 -
8.2 Programy do archiwizacji danych
Programy typu freeware
1)
ABC Backup 1.05
Darmowy program tworz
ą
cy kopi
ę
bezpiecze
ń
stwa. Jego najwi
ę
ksz
ą
zalet
ą
jest prostota
obsługi i niesko
ń
czona ilo
ść
planowanych zada
ń
archiwizacji.
Programy typu shareware
1)
Image for Windows 1.47
Narz
ę
dzie do archiwizacji i odzyskiwania danych. Tworzy dokładn
ą
kopi
ę
partycji.
2)
Ferro Backup System 2.0.1
System archiwizacji danych przeznaczony zarówno dla małych biur jak i du
ż
ych
przedsi
ę
biorstw i instytucji. Dzi
ę
ki modułowi centralnego zarz
ą
dzania umo
ż
liwia łatwe i
wygodne wykonywanie kopii bezpiecze
ń
stwa z wielu komputerów równocze
ś
nie.
3)
WinPSF 1.1
Aplikacja polskiej produkcji słu
żą
ca do archiwizacji i regularnego wykonywania kopii
zapasowych plików według ustalonych wcze
ś
niej profili.
Mo
ż
e automatycznie wykona
ć
kopi
ę
zapasow
ą
o zadanej porze wybranych dni tygodnia i
miesi
ą
ca.
Profesjonalne programy komercyjne
1)
Norton Ghost 9.0 PL Retail
Produkt firmy Symantec jest wysokiej klasy rozwi
ą
zaniem do tworzenia kopii zapasowych.
Program słu
ż
y do wykonywania obrazów całych dysków lub wybranych partycji.
2)
Acronis True Image 8.0
Narz
ę
dzie do tworzenia obrazu dysku. Po uruchomieniu aplikacji wskazuje si
ę
, czy ma by
ć
zarchiwizowany cały dysk czy tylko jego partycja, oraz miejsce, gdzie ma by
ć
zachowany
obraz, a ponadto okre
ś
la si
ę
rodzaj archiwizacji, hasło oraz sposób kompresji danych.
- 4 -
8.3 Kompresja danych
Z poj
ę
ciem archiwizacji nieodzownie wi
ąż
e si
ę
poj
ę
cie kompresji danych.
Kompresja danych jest technologi
ą
, która pozwala na zmniejszenie ich obj
ę
to
ś
ci, bez
uszczerbku dla zawartej w nich informacji.
Polega na zmianie sposobu zapisu informacji w taki sposób, aby zmniejszy
ć
obj
ę
to
ść
zbioru,
nie zmieniaj
ą
c przenoszonych informacji.
Działaniem przeciwnym do kompresji jest dekompresja.
Wyró
ż
ni
ć
mo
ż
na dwa rodzaje kompresji:
- ilo
ś
ciowa (bezstratna),
- jako
ś
ciowa (stratna).
W przypadku kompresji ilo
ś
ciowej (bezstratnej) wielokrotna kompresja i dekompresja nie
powoduj
ą
utraty
ż
adnej cz
ęś
ci informacji. Dane s
ą
wiernie zakodowywane i rozkodowywane.
Kompresja jako
ś
ciowa (stratna) jest stosowana w popularnych formatach zapisu obrazów lub
d
ź
wi
ę
ków i powoduje, najcz
ęś
ciej niezauwa
ż
aln
ą
dla naszych zmysłów, utrat
ę
szczegółów.
Współczynnik kompresji jest miar
ą
stosunku rozmiaru pliku pierwotnego do jego rozmiaru po
kompresji. Je
ś
li plik po kompresji jest dwa razy mniejszy od pierwotnego, to oznacza to,
ż
e
współczynnik kompresji wynosi 2:1.
Przykładowy najprostszy algorytm kompresji danych
Algorytm Huffmana
Algorytm Huffmana polega na analizie cz
ę
sto
ś
ci wyst
ę
powania elementów w zbiorze danych i
przydzielaniu krótszych kodów tym elementom, których jest najwi
ę
cej.
Za pomoc
ą
algorytmu Huffmana zakodujemy wyraz
KAWANTANNA
oraz obliczymy
współczynnik kompresji, czyli stosunek rozmiaru danych przed zakodowaniem do rozmiaru
danych po zakodowaniu.
1) W pierwszej kolejno
ś
ci tworzymy tabel
ę
zawieraj
ą
c
ą
statystyk
ę
liter.
Tabela cz
ę
sto
ś
ci liter
Znak
Cz
ę
sto
ść
wyst
ę
powania
A
4
N
3
W
1
K
1
T
1
- 5 -
2) Nast
ę
pnie tworzymy drzewo binarne, w którego koronie umieszcza si
ę
, jako li
ś
cie, znaki
według zasady: wyst
ę
puj
ą
ce najcz
ęś
ciej - na zewn
ą
trz grafu, najrzadziej - w jego
ś
rodku.
Drzewo tworzy si
ę
, ł
ą
cz
ą
c kolejno w pary elementy o najmniejszej liczbie powtórze
ń
.
Post
ę
pujemy tak długo a
ż
wyczerpiemy wszystkie znaki wyst
ę
puj
ą
ce w rozpatrywanym ci
ą
gu
znaków.
Drzewo binarne otrzymane
Kody liter po zastosowaniu
algorytmem Huffmana
algorytmu Huffmana
3) Nast
ę
pnie generujemy nowy kodu dla wybranego znaku (na rys. pogrubion
ą
lini
ą
pokazano drog
ę
i generowanie kodu dla litery W).
Kod ka
ż
dej litery jest inny i nie jest pocz
ą
tkowym fragmentem kodu innego znaku. Nie musimy
u
ż
ywa
ć
dodatkowego symbolu, oddzielaj
ą
cego wła
ś
ciwe znaki zakodowanego tekstu od
siebie. Kody o tej własno
ś
ci nazywa si
ę
kodami prefiksowymi.
Kod wynikowy dla ci
ą
gu KAWANTANNA jest nast
ę
puj
ą
cy
Obliczenie współczynnika kompresji
Rozmiar znaków w wyrazie KAWANTANNA wynosi 10 bajtów (10 znaków), czyli
80 bitów
.
Pami
ę
tamy,
ż
e w kodzie ASCII ka
ż
dy znak kodowany jest jednym bajtem = 8 bitów.
Kod wynikowy dla algorytmu Huffmana tego samego ci
ą
gu zajmuje
21 bitów
.
Zatem współczynnik kompresji wynosi 80/21, czyli około 4/1.
Jednak uwzgl
ę
dniaj
ą
c pełn
ą
kompresj
ę
t
ą
metod
ą
b
ę
dzie nieco mniejszy.
Znak
Nowy alfabet
po
zastosowaniu
kodowania
A
0
N
11
W
100
K
1011
T
1010
K
A
W
A
N
T
A
N
N
A
1011
0
100
0
11
1010
0
11
11
0