Microsoft PowerPoint - AISDI - slajdy-PW-2006.ppt

Algorytmy i struktury danych

wykład VII

„Tablice z haszowaniem, statystyki pozycyjne”

dr in . Andrzej Zalewski

www:

www.ia.pw.edu.pl/~azalews2

e-mail:

a.zalewski@ia.pw.edu.pl

konsultacje:

roda godz. 12:15 – 13:00.

Haszowanie – pomysł i problem

♦

Zamiast porównywa wyszukiwany klucz, z kluczami w

tablicy /drzewie (itp.)/ znajdujemy pozycj w tablicy na

podstawie samej warto ci klucza, tzn.

– dana jest funkcja H(k): K –> I, gdzie:

• K – zbiór kluczy,
• I – zbiór indeksów

– zauwa my, e zwykle: |K| >> |I|

♦

szansa: wyszukiwanie/wstawianie/usuwanie w czasie

stałym (!)

– je li wyznaczenie H(k) nie jest „czasochłonne” obliczeniowo

♦

K – zwykle zbiór liczb naturalnych

Haszowanie – pomysł c.d.

♦

Problem: kolizja

– prawdopodobie stwo, e H(k)=H(k’), dla k

≠ k’

/tzw. kolizja/ jest znacz ce

– paradoks dnia urodzin – prawd. braku kolizji

daty urodzin |I|=365, dla liczby ludzi |K|>= 23

jest wi ksze ni 50%!

Funkcje haszuj ce – wymagane wła ciwo ci

♦

Równomierne rozrzucanie:

– dla losowo wybranego klucza ka da pozycja w indeksie

jest jednakowo prawdopodobna niezale nie od

odwzorowania innych kluczy

♦

„Całkowite wypełnianie” zbioru I

♦

W ogólno ci dobór funkcji haszuj cej zale y od

wła ciwo ci zbioru kluczy

– np. dla k

∈<0,1), H(k)= k m , gdzie, |I| = m, haszuje

równomiernie

♦

Typowo: |I| = N

Haszowanie

♦

Dla kluczy nie całkowitoliczbowych –

przekształcamy klucz w liczb naturaln

– dla ci gów znaków: H(k) = (h

) + h

) +

...) mod m, h

, h

... – pewna funkcja mieszaj ca

– dla ci gów składaj cych si z kilku liczb

sklejamy poszczególne fragmenty klucza

korzystaj c z operacji mod w lub xor

– traktujemy tekst lub jego fragment jako liczb

w okre lonym systemie pozycyjnym – np. ab –

w systemie 24-kowym...

Funkcje mieszaj ce – haszowanie modularne

♦

H(k) = k mod m /k – klucz

całkowitoliczbowy/

– problem dobór m:

• dobre m – liczba pierwsza,
• m parzyste – zły wybór – miesza po połowie

przestrzeni 0...m (k – parzyste => H(k) – parzyste, k

– nie parzyste => H(k) nieparzyste)

• m – 2

– obci cie klucza do k najmniej znacz cych

bitów klucza

Haszowanie przez mno enie

♦

H(k) = m (k A mod 1)

• x mod 1 – ułamkowa cz

• A

∈(0,1),

♦

m – mało istotne – działa dla dowolnego m,

♦

Haszowanie uniwersalne

♦

Rodzina uniwersalna funkcji haszuj cych

– rodzina R = { H: K->I} , e

• liczba ró nych funkcji H w R odwzorowuj cych

ró ne klucze k i l w ten sam indeks H(k)=H(l) jest

nie wi ksza ni |R|/m, m=|I|

♦

Haszowanie uniwersalne

– losujemy funkcj haszuj c z rodziny

uniwersalnych funkcji haszuj cych

Rodzina uniwersalna funkcji haszuj cych

♦

niech p – liczba pierwsza wi ksza od

najwi kszego „haszowanego” klucza

♦

niech a

∈{0,1, … p – 1} , b∈{1, 2, …, p –

♦

a,b

(k)= ((a*k+b) mod p) mod m, p>m

♦

ciekawe: m dowolna liczba, nie koniecznie

pierwsza (m – liczba indeksów w tablicy)

Rodzina uniwersalna funkcji haszuj cych

♦

Rodzina funkcji H

a,b

(k) jest rodzin uniweraln

funkcji haszuj cych

♦

Wyja nienie (szkic dowodu):

– q=(a*k

+ b) mod p i r=(a*k

+ b) mod p s ró ne dla

<>k

/sprawdzi q – r/

– prawdopodobie stwo kolizji – to prawdopod., e q mod

m = r mod m (q i r kongruentne)

– dla danego q z pozostałych p – 1 liczba mo liwych

warto ci prawd., e q i r kongruentne wynosi: p/m - 1

<= (p -1)/m

– co daje prawdopodobie stwo kolizji wynosz ce 1/m.

– dla |R| funkcji haszuj cych dwa ró ne klucze w to samo

miejsce wynosi zatem |R|/m.

Haszowanie –

rozwi zywanie kolizji

♦

metoda ła cuchowa

– tablica jest de facto tablic wska ników – normalnie

wskazuje co zero lub jeden element, w przypadku

kolizji dodajemy nast pne elementy

♦

adresowanie otwarte – stosujemy funkcj H(k, i),

gdzie i – numer próby wyszukania/wstawienia

– liniowe: próbkujemy kolejno: H(k), H(k) –1, H(k) – 2

itd. je li dotrzemy do pustego miejsca nie znalazłszy

wcze niej klucza – klucza nie ma w tablicy – mo emy

wstawi nowy klucz lub stwierdzi brak klucza

szukanego – H(k, i) = (H’(k) + i) mod m

– haszowanie kwadratowe H(k, i)=(H’(k)+c

i+c

) mod

m, i – numer próby, c

, c

– stałe całkowite;

Haszowanie otwarte, podwójne

♦

Z podwójnym haszowaniem

– H(k, i) = (h

(k)+ i*h

(k)) mod m; i – numer

próby

– h

– modularna funkcja haszuj ca

– h

– dobrana tak, by przegl da cał tablic

• m = 2

, h

– daje tylko warto ci nieparzyste

• m – liczba pierwsza, , h

– liczby dodatnie, mniejsze

ni m – np. 1 + (k mod m’), np.. m’=m-1

Haszowanie - efektywno

♦

W haszowaniu met. ła cuchow

– czas prop. 1 + n / m /wypełnienie tablicy/

♦

W adresowaniu otwartym:

– 1/(n/m) ln (1/(1-n/m)), n/m<1
– konkretnie: n/m=0,5 – rednia liczba porówna

< 1,385, n/m=0,9 – 2,559 /Cormen/

♦

Wniosek:

– haszowanie dla n/m<100% działa ca. w czasie

liniowym

Haszowanie doskonałe

♦

Cel:

– zdefiniowa sposób wyszukiwania kluczy w czasie

stałym w statycznym zbiorze danych.

♦

Def. Haszowanie jest doskonałe, je li w

pesymistycznym przypadku wymaga stałej liczby

odwoła do tablicy

♦

Rozwi zanie:

– analog do rozwi zywania kolizji ła cuchowo:

• zamiast tworzy list elementów odwzorowywanych na dany

indeks i tworzymy dodatkowe tablice z haszowaniem,

starannie dobieraj c funkcje H

Haszowanie doskonałe – konstrukcja rozwi zania

♦

I poziom – haszowanie modularne

♦

II poziom – n

– liczba kluczy k, dla których

H(k)=i;

– rozwi zanie:m

= n

, stos. f-cj H

p, mi

, p – l-ba pierwsza

wi ksza od ka dej warto ci klucza

• mo na pokaza , e wtedy prawd. kolizji jest mniejsze ni 0,5,

je li posługujemy si r.u.f.h. (prawd. kolizji mi dzy k i l - 1/n,

ró nych k, l jest newton(n

, 2))

– konkluzja: znalezienie funkcji haszuj cej bez kolizji

wymaga „kilku prób”

– ile powinno wynosi m (H(k)=k mod m) na pierwszym

poziomie haszowania

Haszowanie doskonałe

♦

Co z pami ci ?

– okazuje si , e je li m=n, to wart. oczekiwana

sumy długo ci tablic drugiego poziomu nie jest

wi ksza ni 2n

– prawdopodobie stwo, e tablice 2 poziomu

zajm wi cej ni 4n<1/2

Stat. pozycyjne – definicja zadania

♦

Dany jest n-elementowy zbiór. Znale i-ty

najmniejszy element

– Przykłady:

• min – 1’szy
• max – n’ty
• rodkowy – mediana element (n+1)/2 ‘y lub

(n+1)/2 ‘y

♦

Rozwi zanie intuicyjne:

– sortujemy zbiór, sprawdzenie statystyki

pozycyjnej (dowolnej!) w czasie stałym

Rozwi zanie efektywne

♦

Modyfikujemy sort. szybkie

– proc. randomized-partition(A, p, r) mo na

nieco zmodyfikowa , tak by dzieliła tablic na

A[p…q-1], A[q+1…r], odp <= i > od el.

rozdziel i A[q] – element rozdzielaj cy.

♦

Tym samym mamy 3 przypadki:

– A[q] – jest szukan i-t statystyk
– i-ta statyst. jest w lewej podtablicy A[p…q-1]
– i-ta statyst. jest w prawej podtab. A[q+1…r]

Algorytm

♦

rand-select(A, p, r, i)

– if p=r then return A[p] //znaleziono
– q=rand.-partition(A, p, r)
– k=q – p + 1
– if i=k then return A[q] //znaleziono
– if i<k then rand-select(A, p, q – 1, i) /lewa podt.
– else rand-select(A, q+1, r, i – k)

Algorytm - wła ciwo ci

♦

Co ciekawe – redni czas działania –

liniowy!

– intuicja: badamy tylko 1 z dwóch 2 drzew

rekurencji

– mo emy jednak przeci rekurencj ju na

samym pocz tku:

• przyp. szukan statystyk element rozdzielaj cy

Wybór w pesym. czasie liniowym

♦

Szkic pomysłu

– wyznaczamy median median dla n/5 -

sortuj c elementy w podtablicach

– wyznaczamy median median dla kolejnych

grup 5 elementowych /mediany tworz kolejn

tablic , któr sortujemy i wyzn. med./

– dzielimy tablic wzgl. mediany median x, k-

indeks el. rozdziel.

– szukamy rekurencyjnie w lewej lub prawej

podtablicy lub ko czymy rekur. i=k

Wyszukiwanie metod Fibbon.

♦

Liczby Fibbonaciego F

=0, F

=1, F

k+1

= F

+ F

k-1

, czyli F

=2, F

=3, F

=5, F

♦

Drzewo Fibbonaciego w tablicy:

– rz du k=0, 1 po prostu 0
– rz du k>=2 korzeniem jest element F

, lewym

poddrzewem drzewo rz du F

k-1

, prawym

poddrzewem drzewo rz du F

k-2

z elementami o

indeksach powi kszonych o F

Drzewo Fibbonacciego

♦

k=6, F

Poruszanie si po drzewie Fibb.

♦

Niech i=F

, p=F

k-1

, q=F

k-2

(i – na pocz tku

wskazuje korze )

♦

Przej cie do lewego poddrzewa

– i = i – q (F

k-1

k-2

= > F

k-1

– F

k-2

)

– (p,q) = (q, p – q) (F

k-2

, F

k-3

)

♦

Przej cie do prawego poddrzewa

– i = i + q (zgodnie z definicj drzewa)
– p = p – q /F

k-3

/, q = q – p /F

k-4

= F

k-2

– F

k-3

Wskazówki do konstrukcji algorytmu

♦

Od tego miejsca ju bardzo prosto:

– zatrzymujemy si znalazłszy wła ciwy klucz
– przy próbie przej cia w lewo zatrzymujemy si ,

gdy q=0 (osi gn li my F

)

– przy próbie przej cia w prawo zatrzymujemy

si , gdy p=1