Mateusz Macięga
Informatyka stosowana
zajęcia: wtorek 16:15
Metody klasyfikacji i rozpoznawania wzorców
Reguły asocjacyjne
Sprawozdanie
Celem zadania było znalezienie reguł pozwalających określić podobieństwo stanów pod
względem ich flory. Do zadania dostarczony został plik plants.data , w którym w kolejnych
wierszach pierwszy element to łacińska nazwa gatunku, następne to skrótu stanów, w których ta
roślina występują. Dane dotyczyły Stanów Zjednoczonych i Kanady. Dodatkowo dostarczony został
plik stateabbr.txt , w którym zawarte zostały rozwinięcia skrótów stanów.
Otrzymany plik plants.data musiał zostać przekształcony do odpowiedniego formatu dla
programu RapidMiner (wszystkie atrybuty dla operatora FP-Growth muszą być binarne). W
przekształconym pliku stworzona została macierz binarna, gdzie w pierwszej kolumnie znajduje się
nazwa łacińska rośliny, natomiast w pierwszym wierszu skrót stanu.
Ilustracja 1: Fragment przekształconego pliku z danymi na potrzeby programu RapidMiner
W celu dokonania interesujących mnie pomiarów stworzony został poniżej przedstawiony model.
Dla operatora FP-Growth został ustawiony parametr minimalnego wsparcia na wartość 0.1,
natomiast przy operatorze Create Association Rules parametr minimalnej ufności na wartość 0.8.
Dzięki ustawieniu takich wartości dla parametrów otrzymujemy dość duża liczbę wyników na
1/5
podstawie, których możemy wyciągnąć wnioski.
Ilustracja 2: Model procesu do wykonania obliczeń
1. Uzyskane reguły pozwalają nam stwierdzić podobieństwa (lub też nie) flory pomiędzy stanami.
Dzięki zawężeniu liczby elementów w regułach do dwóch możemy uzyskać stopień podobieństwa
pomiędzy dwoma stanami. Największe podobieństwo występuje pomiędzy stanami Południowa
Karolina a Floryda. Wsparcie reguły podobieństwa pomiędzy tymi dwoma stanami wynosi 0.746,
natomiast dla reguły Południowa Karolina Floryda ufność wynosi 0.89, w przeciwnym kierunku
wynosi ona 0,92.
Współczynnik wsparcia Współczynnik ufności
Południowa Karolina Floryda 0,7455219804 0,8986310865
Floryda Południowa Karolina 0,7455219804 0,9208096591
Tabela 1: Parametry reguł najbardziej podobnych stanów
Kolejne najbardziej podobne stany mają już dużo mniejszą wartość parametru wsparcia.
2/5
Ilustracja 3: Wsparcie reguł podobieństwa
pomiędzy tylko dwoma stanami
2. W tym zadaniu należało sprawdzić czy istnieją stany, które ze sobą sąsiadują, ale nie wykazują
podobieństwa. Przykładem takiego stanu jest stan Georgia (skrót ga). Graniczy on z następującymi
stanami: Floryda (fl), Alabama (ab), Tennessee (tn), Północna Karolina (nc), Południowa Karolina
(sc).
Ilustracja 4: Stan Georgia na mapie
Parametry wsparcia podobieństwa pomiędzy stanem Georgia i jego sąsiadami umieszczone zostały
w poniższej tabelce:
3/5
Stan sąsiedni do stanu Georgia Parametr wsparcia
Floryda (fl) Brak podobieństwa
Alabama (ab) Brak podobieństwa
Tennessee (tn) 0.114
Północna Karolina (nc) Brak podobieństwa
Południowa Karolina (sc) 0.139
Tabela 2: Parametr wsparcia pomiędzy stanem Georgia a stanami sąsiadującymi
3. Udało mi się znalezć kilka stanów, które nie wykazują żadnych podobieństw roślinności do
innych stanów przy parametrach operatorów przedstawionych we wstępie dokumentu. Aby to
wykazać należało w ekranie wyników w karcie FrequentItemSets w polu Containts Item
wprowadzić skrót testowanego stanu. Jeśli żaden wiersz się nie pojawił można było założyć, że
dany stan nie wykazuje podobieństwa do żadnego innego stanu. Przykładami takich stanów są:
Alabama (ab), Alaska (ak), Dystrykt Kolumbii (dc), Virginia (vi).
Moim zdaniem otrzymane wyniki są poprawne dla założonych parametrów.
Ilustracja 5: Liczba reguł dla stanu
Alabama (ab)
4. W tym zadaniu należało wybrać dwa stany z różnych rejonów map. Następnie na podstawie
reguł, w których w następniku znajdują się właśnie te stany opisać ich sytuacje bardziej
szczegółowo.
Wybrałem stan z południa Ontario (on) oraz północy Teksas (tx). Poniżej znajduje się zbiór
reguł z następnikami posiadającymi te dwa stany.
4/5
Ilustracja 6: Reguły z następnikami stanu Ontario (on) i Teksas (tx)
Jak możemy odczytać z powyższej tabeli w przypadku stanu Teksas pojawiają się następujące
reguły:
" jeśli dana roślina występuje w stanie Luzjana (la) oraz Missisipi (ms) to wystąpi ona
również w stanie Teksas, przy czym wsparcie dla tej reguły wynosi tylko 0.1 a ufność 0.855,
" jeśli dana roślina występuje w stanie Oklahoma (ok) to wystąpi ona w stanie Teksas,
wsparcie dla tej reguły wynosi 0.118 a ufność 0.882.
Wszystkie reguły powiązane ze stanem Teksas posiadają dość niskie wsparcie przy dużej ufności
dla reguł. Wszystkie wymienione stany znajdują się w bliskim sąsiedztwie.
Dla stanu Ontario wygenerowanych zostało 5 reguł:
" jeśli dana roślina występuje w stanie Michigan (ml) to wystąpi w stanie Ontario wsparcie:
0,115, ufność: 0,846,
" jeśli dana roślina występuje w stanie Wisconsin (wi) to wystąpi w stanie Ontario wsparcie:
0,105, ufność: 0,849,
" jeśli dana roślina występuje w stanie Quebec (qc) to wystąpi w stanie Ontario wsparcie:
0,110, ufność: 0,893,
" jeśli dana roślina występuje w stanie Nowy Jork (ny) oraz Michigan (mi) to wystąpi w
stanie Ontario wsparcie: 0,105, ufność: 0,897,
" jeśli dana roślina występuje w stanie Michigan (mi) oraz Wisconsin (wi) to wystąpi w stanie
Ontario wsparcie: 0,100, ufność: 0,915.
Wszystkie reguły powiązane ze stanem Ontario posiadają dość niskie wsparcie, przy dużej ufność
dla reguł. Stan Michigan występuje trzykrotnie, największe wsparcie uzyskuje dla pojedynczej
reguły. Wisconsin pojawia się dwukrotnie i podobnie jak w przypadku stanu Michigan większe
wsparcie uzyskuje reguła gdzie stan ten jest jedynym poprzednikiem. Wszystkie stany będące w
relacji podobieństwa sąsiadują ze stanem Ontario.
5/5
Wyszukiwarka
Podobne podstrony:
EDF sprawozdanie Mateusz MacięgaSPRAWOZDANIE 2 MATEUSZ GASIOREKsprawozdanie 1 Mateusz Sturgulewskisprawozdanie felixa2Sprawozdanie Konduktometriazmiany w sprawozdaniach finErrata do sprawozdania2009 03 BP KGP Niebieska karta sprawozdanie za 2008rid&657Sprawozdanie nr 3 inzSprawozdanie FundacjaBioEdu2007M 8 Mateusz WittstockSprawozdanie Ćw 2sprawozdanie 4więcej podobnych podstron