Miara odchylenia wyniku pojedynczej osoby od wartości oczekiwanej to: & & & . Miara odchylenia wyników całej grupy od wartości oczekiwanej (zależna od liczebności grupy można sensownie porównywad odchylenia od różnych wartości oczekiwanych w tej samej grupie, ale nie można sensownie porównywad między grupami) to: & & & & & & & & & & & .. Miary odchylenia wyników całej grupy od wartości oczekiwanej niezależna od liczebności grupy (można sensownie porównywad w danej grupie i między grupami): & & & & & & & & & & .. Przykład: Oceny w dwóch grupach egzaminacyjnych Grupa 1 N Minimum Maximum Mean Std. Deviation Oceny 70 2,00 5,00 3,1571 ,89501 Valid N (listwise) 70 a. Grupa = Grupa 1 Grupa 2 Minimu Maximu Std. N m m Mean Deviation Oceny 100 2,00 6,00 3,6300 1,06983 Valid N 100 (listwise) a. Grupa = Grupa 2 Można obliczyd trzy sumy kwadratów i trzy wariancje dlaczego trzy ? jak można je nazwad? jak można je technicznie obliczyd? Jednowymiarowe testy istotności dla Zmn1 (Arkusz1) Parametryzacja z sigma-ograniczeniami Dekompozycja typu II Stopnie - SS MS swobody Grupa 118,612 1 118,6118 Błąd 2065,388 169 12,2212 Skąd się wzięły te sumy kwadratów i co można powiedzied o ich wielkości Jaka jest najlepsza miara liczbowa relacji między wariancjami Jednowymiarowe testy istotności dla Zmn1 (Arkusz1) Parametryzacja z sigma-ograniczeniami Dekompozycja typu II Stopnie - SS MS swobody Grupa 118,612 1 118,6118 Błąd 2065,388 169 12,2212 Jedna wariancja jest większa od drugiej o 106, 39 ale czy taka sama różnica miałaby takie same znaczenie gdy jedna wariancja wyniosła 100 a druga 206, 39 Miarą porównywania, która ma taką samą wartośd informacyjną niezależnie od wielkości porównanych liczb jest proporcja np. Samochód jest 40 razy droższy od roweru wiemy co to znaczy nawet gdy nie znamy cen lub gdy znamy cenę tylko roweru Samochód jest o 58 500 zł. droższy od roweru aby wiedzied co to znaczy, trzeba znad cenę albo roweru albo samochodu liczba A proporcja to liczba B Jednowymiarowe testy istotności dla Zmn1 (Arkusz1) Parametryzacja z sigma-ograniczeniami Dekompozycja typu II Stopnie - SS MS swobody Proporcja tych Grupa 118,612 1 118,6118 dwóch wariancji Błąd 2065,388 169 12,2212 wynosi 9,705 Wyobrazmy sobie, że pewną grupę danych mających rozkład normalny dzielimy na dwie równoliczne podgrupy i obliczamy a) całkowitą średnią arytmetyczną b) średnie arytmetyczne w obu podgrupach c) sumy kwadratów odchyleo średnich grupowych d) sumy kwadratów odchyleo w grupach e) całkowitą liczbę stopni swobody f) liczbę stopni swobody dla grup g) liczbę stopni swobody dla obserwacji w obu grupach dzielimy ponownie wszystkie obserwacje na dwie grupy i znowu liczymy to samo które z wartości się zmienią WARIANCJA CAAKOWITA WARIANCJA WYNIKAJCA WARIANCJA Z MANIPULACJI ZN NIEKONTROLOWANA + (MIDZYGRUPOWA) (WEWNTRZGRUPOWA) Zasada addytywności wariancji: wariancja całkowita jest równa sumie wariancji jeżeli wariancje składowe są od siebie niezależne (kiedy dwa zdarzenia są od siebie niezależne?) Twierdzenie Fishera o wariancji 2 Jeżeli zmienną losową Y, która ma rozkład o r-1 stopni swobody można podzielid na sumę kwadratów: Y = Y1+ Y2+ Y2+& .+ Yk tak, że suma stopni swobody dla zmiennych Y1+ Y2+ Y2+& .+ Yk równa jest liczbie stopni swobody dla zmiennej Y 2 to zmienne losowe Y1+ Y2+ Y2+& .+ Yk mają rozkłady Zmienna zależna rozkład w populacji WOA1 WOB1 WOA2 WOB2 WO1 WO2 WOA WOA WOB WOC (WOA WOC)2 + (WOB WOC)2 Wariancja dla czynnika A _ B = dfA_B (WO1 WOC)2 + (WO2 WOC)2 Wariancja dla czynnika 1 _ 2 = df1_2 Próba w sytuacji A1 Próba w sytuacji A2 Próba w sytuacji B2 Próba w sytuacji A B1 WOA1 WOB1 WOA2 WOB2 Wariancja wewnątrz badanych grup suma z każdej grupy (Wynik Osoby Średnia grupowa)2 Wariancja w każdej grupie = df_konkretna grupa Próba w sytuacji A1 Próba w sytuacji A2 Próba w sytuacji B2 Próba w sytuacji A B1 Należy to powtórzyd dla wszystkich grup i do siebie dodad Wyobrazmy sobie, że losujemy z populacji pewną próbę i następnie wyniki losowo rozdzielamy na cztery grupy następnie wyniki tych czterech grup wpisujemy do tabelki takiej jak ta: Wersja A Wersja B Wersja 1 Wersja 2 Potem układamy wszystkie wyniki po kolei i zaznaczamy je różnymi kolorami w zależności od grupy, z której pochodzą Na wykresie to może wyglądad tak jak na kolejnym obrazku Wykres ten może wyglądad tak 5 4 3 2 1 A1 A2 0 B1 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 B2 Liczba obs. Może też wyglądad tak: 9 8 7 6 5 4 3 2 1 A1 A2 0 B1 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 B2 W każdym przypadku można obliczyd wariancje dla czynników między grupowych i wariancje wewnątrzgrupową dokładnie tak samo Wariancje te z reguły będą różne Co można powiedzied o wielkości tych wariancji dla wykresu tego i tego poprzedniego? Liczba obs. Załóżmy, że losujemy z populacji nieskooczenie wiele próbek i każdą z nich losowo rozdzielamy do czterech grup i wpisujemy dane do tabelki wyników W każdej sytuacji liczymy wariancje, czyli najpierw sumy kwadratów Eksperyment 1 SS_całkowite = SS_kryterium_1+SS_kryterium_2 + SS_niewyjaśnione Eksperyment 2 SS_całkowite = SS_kryterium_1+SS_kryterium_2 + MS_niewyjaśnione Eksperyment 3 SS_całkowite = SS_kryterium_1+SS_kryterium_2 + SS_niewyjaśnione itd. Z twierdzenie Fishera wynika, że jeżeli rozkład zmiennej, z której losowano próby jest normalny, to rozkłady SS ów mają kształt chi kwadrat, jeżeli spełniony jest jeden warunek jaki? Rozkład SS dla odchyleo od całkowitej średniej dla każdego wyniku jest rozkładem chi kwadrat bez względu na twierdzenie Fishera, a z innego powodu jakiego? Histogram Zmn8 Arkusz1 10v*177c 90 80 70 60 50 40 30 20 10 0 0,0000 1,8464 3,6929 5,5393 7,3857 9,2321 0,9232 2,7696 4,6161 6,4625 8,3089 Zmn8 Liczba obs. Jeżeli powtarzam eksperyment nieskooczenie wiele razy to mam nieskooczenie wiele wartości SS ów dla kryterium 1 nieskooczenie wiele wartości SS - ów dla kryterium 2 nieskooczenie wiele SS ów dla wariancji niewyjaśnionej (wewnątrz grup= Eksperyment 1 SS_całkowite = SS_kryterium_1+SS_kryterium_2 + SS_niewyjaśnione Eksperyment 2 SS_całkowite = SS_kryterium_1+SS_kryterium_2 + MS_niewyjaśnione Eksperyment K SS_całkowite = SS_kryterium_1+SS_kryterium_2 + SS_niewyjaśnione itd. Rozkład tych SS ów jest rozkładem chi kwadrat, jeżeli spełnione są założenia twierdzenia Fishera Czy wiemy jaki będzie kształt rozkładu proporcji średnich kwadratów odchyleo (czyli wariancji)? Odpowiedz: Wiemy kształt tego rozkładu odkrył Snedecor i nazwał go literą F na cześd Fishera, symbolicznie wygląda on tak: Y1 df1 F Y2 df2 Wzór na rozkład F jest bardzo skomplikowany, ale pozwala na wyznaczenie funkcji gęstości (co to jest?) i dystrubanty (co to jest?) w zależności od dwóch parametrów stopniu swobody związanymi z SS w mianowniku i stopni swobody związanymi z SS w liczniku Funkcja gęstości prawdopodobieństwa Dystrybuanta y = F(x; 10; 5) p = F(x; 10; 5) 1,500 1,0 0,8 1,125 0,6 0,750 0,4 0,375 0,2 0,000 0,0 0 1 2 3 4 0 1 2 3 4 Jeżeli spełnione są założenia twierdzenia Fishera, to możemy porównywad proporcje wariancji z teoretycznym rozkładem F Wnioskowanie statystyczne przebiega tak: 1. Przeprowadziliśmy eksperyment i uzyskaliśmy następujące wyniki Eksperyment 1 SS_całkowite = SS_kryterium_1+SS_kryterium_2 + SS_niewyjaśnione df_całkowite = df_kryterium_1+ df_kryterium_2 + df_niewyjaśnione 2. Oceniam które wariancje warto ze sobą porównywad. Na razie przyjmijmy, że warto porównywad wariancje związane z działaniem kryterium z wariancją niewyjaśnioną co daje takie porównanie W przypadku wyżej można dokonad dwóch takich porównad SS_kryterium_1 SS_kryterium_2 df_kryterium_1 df_kryterium_2 SS_niewyjaśnione SS_niewyjaśnione df_niewyjaśnione df_niewyjaśnione 3. Wyobrażamy sobie, że taki sam eksperyment powtórzyliśmy nieskooczenie wiele razy ale losowo wybranych badanych przydzielaliśmy losowo do badanych grup. 4. Ustalamy jak wyglądałby rozkład F dla porównao opisanych w punkcie 2, ale wykonanych w przypadku opisanym w punkcie 3 5. Uznajemy, że wyniki jakie uzyskaliśmy w rezultacie porównao w punkcie 2 są jednym z nieskooczenie wielu przypadków jakie mogłyby się zdarzyd, gdybyśmy wykonywali zabiegi opisane w punkcie 3 6. Sprawdzamy jaka jest szansa, że w rozkładzie F, którego kształt ustaliliśmy w punkcie 3 uzyskalibyśmy wynik taki, jak akurat uzyskaliśmy w punkcie 2 lub wynik od niego wyższy 7. Jeżeli prawdopodobieostwo, które znalezliśmy w punkcie 6 jest niższe niż 0,05 to odrzucamy hipotezę zerową, a przyjmujmy hipotezę alternatywną Tylko jak brzmią te hipotezy? Hipoteza zerowa: Wariancja wynikające z manipulacji eksperymentalnej nie jest większa od wariancji wewnątrz badanych grup F 1 Hipoteza alternatywna Wariancja wynikająca z manipulacji eksperymentalnej jest większa niż wariancją wewnątrz badanych grup F > 1 Pytania Jaką wartością jest F jeżeli hipoteza zerowa jest prawdziwa Przykład: Wyniki klasówki w szkole dziennej i wieczorowej, gdy zajęcia prowadził nauczyciel A i nauczyciel B (jak wyglądał eksperyment? (ile jest wartości oczekiwanych (ile wartości SS można porównywad Jednowymiarowe testy istotności dla Zmn1 (Arkusz1) Parametryzacja z sigma-ograniczeniami Dekompozycja efektywnych hipotez Stopnie - SS MS F p swobody Pora 5,3041 1 5,304108 0,690200 0,409969 dnia" Nauczyciel 5,0347 1 5,034713 0,655145 0,422040 Błąd 391,9293 51 7,684888 Skąd się wzięły te wszystkie liczby Wykres gęstości prawdopodobieostwa i dystrybuanta dla F = 0,65 w rozkładzie F o df=1, df=2 stopni swobody Analiza wariancji została stworzona przez Ronalda Fishera Analiza wariancji (ANOVA) to metoda wnioskowania statystycznego, oparta na twierdzeniu Fishera o wariancji, która polega na rozkładaniu wariancji całkowitej na wariancje związane z różnymi przyczynami oddziaływującymi na badane obiekty i porównywaniu wielkości tych wariancji z wariancją, której nie można połączyd z żadną z tych przyczyn (wariancji niekontrolowanej, wariancji błędu). Podstawowe założenie analizy wariancji: Jeżeli obiekty zostały przyporządkowane do grup badanych losowo (randomizacja II rodzaju), to wariancja związana z przynależnością do grupy k oraz wariancja błędu są od siebie niezależne losowy błąd w Yi= y(k) + i przykładzie z lubieniem statystyki i można wariancję rozkładad na części sc2= sgrupy2 + sbłąd2 Kolejne dwa założenia (wynikające wprost z twierdzenia Fishera) " Rozkład wszystkich pomiarów jednej cechy (zmiennej zależnej) we wszystkich branych pod uwagę grupach musi byd rozkładem normalnym. W praktyce oznacza to, że rozkład ten nie może różnid się istotnie od rozkładu normalnego. " Wariancje obliczone dla poszczególnych grup nie mogą istotnie różnid się od siebie. Innymi słowy, niezależnie od tego, jak duża jest zmiennośd wewnątrz porównywanych grup, pod względem wariancji nie mogą się one różnid między sobą. Założenia z drugiej grupy (układ eksperymentu) są spełnione, jeżeli osoby badane przydzielane są do badanych grup losowo Uczenie się Uczenie się odtwarzanie Analiza wariancji jest przede wszystkim metodą projektowania eksperymentów w taki sposób, aby spełnione zostały założenia wynikające z twierdzenia Fishera Po pierwsze Założenia te są spełnione jeżeli osoby badane są przydzielane losowo do grup badanych i jeżeli rozkład badanej cechy w populacji jest normalny To trzeba sprawdzid Po drugie: Założenia wariancji są spełnione jeżeli struktura wyniku jest zgodna z twierdzeniem Fishera można wynik przedstawid w postaci sumy kwadratów i suma stopni swobody równa jest N - 1 Trzeba tak zaprojektowad eksperyment, aby to było spełnione wzorki, wzorki, wzorki& k Wariancja międzygrupowa (yk x )2 nk (c) Miara zmienności SS(m) k=1 odchyleo średniej w s(2m) df(m) k 1 każdej grupie od średniej całkowitej df(m) = k 1 n n k j k j 2 (Yik yk )2 SS(w) k 1 i 1 ik k 1 i 1 s(2w) df(w) N k N k Wariancja wewnątrzgrupowa Dlaczego liczba stopni swobody Miara zmienności w wewnątrz badanych grup wynosi N k? badanych grupach df(m) df(w) (k 1) (N k) N 1 df(c)