plik

Sortowanie - zadanie

Definicja (dla liczb):

wejście: ciąg

liczb

= (

, …,

)

wyjście: permutacja (

,…,

a’

) taka, że

a’

≤

…

≤ a’

Zestawienie czasów działania

Ø

Przez wybór:

O(N

) zawsze

Ø

Bąbelkowe:

O(N

) najgorszy przypadek; O(N) najlepszy przyp.

Ø

Wstawianie:

O(N

) średnio; O(N) najlepszy przypadek

Ø

Shellsort:

O(N

3/2

)

Ø

Heapsort:

O(NlogN) zawsze

Ø

Mergesort:

O(NlogN) zawsze

Ø

Quicksort:

O(NlogN) średnio; O(N

) najgorszy przypadek

Ø

Zliczanie:

O(N) zawsze

Ø

Radix sort:

O(N) zawsze

Ø

zewnętrzne:

O(b logb)) dla pliku o

„stronach”.

Plan:

Ø

Trzy algorytmy sortowania:

Ø

  Mergesort

Ø

  Quicksort

–

Bardzo popularny algorytm

bardzo szybki w

średnim przypadku

Ø

  Heapsort

–

Wykorzystuje strukturę

kopca

eap

)

Mergesort – pomysł

Ø

Dzielimy ciąg na podciągi, sortujemy te podciągi, a następnie
łączymy zachowując porządek.

–

Przykład algorytmu typu „dziel i zwyciężaj”.

–

Potrzeba dodatkowego miejsca dla tych podciągów – nie jest to

sortowanie „w miejscu”.

•

Można realizować ten proces „w miejscu”, ale rośnie stopień
komplikacji.

–

Często realizowany jako metoda zewnętrzna

Mergesort – przykład

ciąg: EASYQUESTION (12 znaków)

EASYQUESTION

EASYQU

ESTION

EAS

YQU

EST

ION

E ST I ON

A S

Q U

S T

O N

podział

Mergesort – przykład

AEEINOQSSTUY

AEQSUY

EINOST

AES

QUY

EST

INO

A S

Q U

S T

O N

łaczenie

A E S

Q U Y

Mergesort - pseudokod

MERGE-SORT(A, p, r)
1 if p < r

then q ← ⌊(p + r)/2⌋

MERGE-SORT(A, p, q)

MERGE-SORT(A, q + 1, r)

MERGE(A, p, q, r)

Sortowanie szybkie (Quick Sort) - pomysł

Ø

Jest to najszybszy w praktyce algorytm sortowania, pozwala na
efektywne implementacje.

–

średnio: O(NlogN)

–

najgorzej O(N

), przypadek bardzo mało prawdopodobny.

Ø

Procedura:

–

Wybieramy element

osiowy

(

pivot

)

–

Dzielimy ciąg na dwa podciągi: elementów mniejszych lub równych

od osiowego oraz elementów większych od osiowego. Powtarzamy
takie postępowanie, aż osiągniemy ciąg o długości 1.

–

Algorytm typu – „dziel i zwyciężaj”.

–

Jest to metoda sortowania w miejscu (podobnie jak I

nsert

sort,

przeciwnie do np.

erge

sort

)

czyli nie wymaga dodatkowej

pamięci

Quicksort – algorytm

QUICKSORT(A, p, r)
1   if p < r
2   then q ← PARTITION(A, p, r)
3   QUICKSORT(A, p, q - 1)
4   QUICKSORT(A, q + 1, r)

Problemy:

Wybór elementu osiowego

;

Podział (partition)

Quicksort – podział

Ø

Funkcja

partition

dzieli ciąg na dwa podciągi: elementów

mniejszych (bądź równych) od osiowego i większych od niego

{a[j] | a[j] <= a[i]
dla j ∈[left, i-1]}

{a[k] | a[k] > a[i]
dla k ∈[i+1,right]}

a[i]

wynik

quicksort(a, left, i-1)

wynik

quicksort(a, i+1, right)

Po podziale:

El. osiowy

Quicksort – przykład podziału

ciąg: EASYQUESTION (12 znaków).

El. osiowy

: N

E A S Y Q U E S T I O N

Przeglądaj aż: a[i] > a[right]

Przeglądaj aż:

a[j] <= a[right]

Swap(a[i], a[j])

E A

Y Q U E S T

O N

Swap(a[i], a[j])

E A

Q U

S T

O N

Swap(a[i], a[right])

(indeksy i oraz j „minęły” się)

E A

S T

Lewy podciąg Prawy podciąg

Quicksort – wybór elementu osiowego

Ø

opcja 1: zawsze wybierać skrajny element (pierwszy lub ostatni).

–

Zalety: szybkość;

–

Wady: jeśli trafimy na najmniejszy (największy) element podział nie

redukuje istotnie problemu.

Ø

opcja 2: wybieramy losowo.

–

Zalety: średnio powinno działać dobrze (podział na podciągi o

zbliżonej długości);

–

Wady: czasochłonne i nie gwarantuje sukcesu.

Ø

opcja 3: wybieramy medianę z pierwszych/ostatnich/środkowych 3/5/7
elementów

–

gwarantuje, że nie będzie zdegenerowanych podciągów (pustych).

–

kompromis pomiędzy opcją 1 i 2

Podział – pseudokod (opcja 1)

Partition(A, Left, Right)

1.  Pivot ß A[Right]

2.  i ß Left – 1

3.  for j ß Left to Right–1

4.  do if (A[j] ≤ Pivot)

5.  then i ß i + 1

6.  Exchange(A[i], A[j])

7.  Exchange (A[i+1], A[Right])

8.  return i +1

Randomizowany Quicksort (opcja 2)

Ø

Zakładamy że nie ma powtórzeń

Ø

Jako element osiowy wybieramy losowy element ciągu (opcja 2)

Ø

Powtarzamy procedurę, wszystkie podziały są równie prawdopodobne
(1:n-1, 2:n-2, ..., n-1:1), z prawdopodobieństwem 1/n

Ø

Randomizacja jest drogą do unikania najgorszego przypadku

Quicksort – czas działania

Ø

Najgorszy przypadek: O(N

)

–

Podciągi zawsze mają długości 0 i N-1 (el. Osiowy jest zawsze

najmniejszy/największy). Np. dla posortowanego ciągu i pierwszej
opcji wyboru el. osiowego.

Ø

Najlepszy przypadek: O(NlogN)

–

Podział jest zawsze najlepszy (N/2). El. osiowy zawsze jest

medianą.

Ø

Średnio: O(NlogN)

Quicksort- czas działania

Ø

T(N) = T(i) + T(N-i-1) + N for N > 1

T(0) = T(1) = 1

–

T(i) i T(N-i-1) dla podziału i/N-i-1.

–

N dla podziału 1/N-1(liniowe – przeglądamy wszystkie elementy).

Quicksort – czas działania

Ø

najgorzej: T(N) = T(0) + T(N-1) + N = T(N-1) + N = O(N

)

Ø

najlepiej: T(N) = 2T(N/2) + N = O(NlogN)

Ø

„średnio”:

T(N) = (1/N)

∑

i=0

N-1

T(i) + (1/N)

∑

i=0

N-1

T(N-i-1) + N

= (2/N) ∑

j=0

N-1

T(j) + N = O(NlogN)

Quicksort - uwagi

Ø

Małe ciągi

–

Quicksort zachowuje się źle dla krótkich ciągów.

–

Poprawa – jeśli podciąg jest mały zastosować sortowanie przez

wstawianie (zwykle dla ciągów o długości 5 ~ 20)

Ø

Porównanie z mergesort:

–

Oba zbudowane na zasadzie „dziel i zwyciężaj”.

–

Mergesort wykonuje sortowanie w fazie łączenia.

–

Quicksort wykonuje prace w fazie podziału.

Heap Sort – pojęcie kopca

Ø

Struktura kopca binarnego

–

Drzewo binarne (bliskie zrównoważenia)

•

Wszystkie poziomy, z wyjątkiem co najwyżej ostatniego, kompletnie
zapełnione

–

Wartość klucza w węźle jest większa lub równa od wartości kluczy

wszystkich dzieci; własność taka jest zachowana dla lewego i prawego
poddrzewa (zawsze)

Heap Sort – reprezentacja tablicowa kopca

Parent (

)

return ⎣

/2⎦

Left (

)

return 2

Right (

)

return 2

Własność kopca:

[Parent(

)] ≥

[

]

poziomy: 3

Heap Sort – reprezentacja kopca w tablicy

Ø

Zauważmy połączenia w drzewie – dzieci węzła

występują na pozycjach

oraz 2

Ø

Czemu to jest wygodne?

–

Dla reprezentacji binarnej

dzieleniu/mnożeniu przez 2 odpowiada

przesuwanie (szybka operacja)

–

Dodawanie jedynki oznacza zmianę najmłodszego bitu (po przesunięciu)

Kopcowanie (Heapify)

Ø

Niech

będzie indeksem w tablicy

Ø

Niech drzewa binarne Left(

) i Right(

) będą kopcami

Ø

Ale,

[

] może być mniejsze od swoich dzieci – co powoduje złamanie

własności kopca

Ø

Metoda Kopcowania (

Heapify

) przywraca własności kopca dla

poprzez

przesuwanie

[

] w dół kopca aż do momentu, kiedy własność kopca jest

już spełniona

Kopcowanie – czas działania

Ø

Czas działania procedury Heapify dla poddrzewa o

węzłach i korzeniu

–

Ustalenie relacji pomiędzy elementami

: Θ(1)

–

dodajemy

czas działania

Heapify

dla poddrzewa o korzeniu w jednym z

potomków

gdzie rozmiar tego poddrzewa

2n/3

jest najgorszym

przypadkiem

–

Inaczej mówiąc

•

Czas działania dla drzewa o wysokości

h: O(h)

( )

(2 /3)

(1)

( )

(log )

T n

≤

+ Θ

⇒

Budowa kopca

Ø

Konwertujemy tablicę

[1...

], gdzie

= length[

], na kopiec

Ø

Zauważmy, że elementy w

[(

⎣

n/2

⎦

+ 1)...

] są już zbiorem kopców -

jednoelementowych!

Budowa kopca – analiza

Ø

Poprawność: indukcja po

, (wszystkie drzewa o korzeniach

są

kopcami)

Ø

Czas działania:

wywołań kopcowania (Heapify) =

n O(lg n) = O(n lg n)

Ø

Wystarczająco dobre ograniczenie –

O(n lg n)

dla zadania sortowanie

(Heapsort), ale czasem kopiec budujemy dla innych celów

Heap Sort – podsumowanie

Ø

Heap sort wykorzystuje strukturę kopca przez co dostajemy
asymptotycznie optymalny czas sortowania

Ø

Czas działania

O(n log n)

– podobnie do merge sort, i lepiej niż wybór,

wstawianie czy bąbelkowe

Ø

Sortowanie w miejscu – podobnie do sortowania przez wybór, wstawianie
czy bąbelkowego