W13
Techniki nieparametryczne a parametryczne.
Parametryczne muszą spełniać pewne warunki, czyli dane muszą spełniać pewne warunki.
Homogeniczność wariancji itd. Jest to konieczne by dałe właściwe wyniki.
Moc to zdolność do wykrywania rzeczywistych efektów.
Statystyki parametryczne mają większą moc w stosunku do statystyk nieparametrycznych.
Nie chcemy ich używać jeśli nie musimy. Ale czasami musimy...
Np. jeśli skala pomiarowa zmiennej zależnej nie jest co najniej przedziałowa. Zazwyczaj przekształca się to na skale porządkowe, ale kiedy jest skala nominalna to wiadomo, że trzeba użyć technik nieparametrycznych.
Najprostszym testem jest Chi^2
test niezależności - chodzi o badanie niezależności między zmiennymi
test zgodności - chodzi o badanie niezgodności.
W obu wersjach jest porównywanie wartości oczekiwanych i zaobserwowanych.
b) Badamy czy pewna proporcja jest różna od innej proporcji.
Czy kobiet jest istotnie więcej niż mężczyzn?
Proporcja między zaobserwowanymi a oczekiwanymi.
Observed1 Observed2
K:85 K:
M:15 M:3
100
Ekspected - hipoteza zerowa
50
50
Porównujemy to by stwierdzić co nam wyszło jest istotne czy nie.
Test niezależności - zależności zwiazku między cechami wyrażonymi na skali nominalnej
Np. czy trzymanie zwierzęcia jest powiązane z przeżywalnością
Ma Nie ma SUMA
Żyje 50 28 78
Nie żyje 3 11 14
SUMA 53 39 92
Jeśli prawdopodobieństwo wyników takich nie ze względu na błędy losowania próby jest istotny to... jest git. I wnioskujemy, że jest jakiś związek między posiadaniem zwierzaczka a śmiertelnością.
Wielkość efektu. Test chi2 info nas tylko czy wyniki są istotne statystycznie czy nie są istotne statystycznie, a nic nie mówią nas o wielkości efektu.
O wielkości efektu można używać:
a)współczynniki „phi” - wskaźnik, który (0-1), wartości bliskie zeru - brak związku, a bliskie 1 - silny związek. Tutaj nie podnosimy liczb do kwadratu.
V-Tschanera?, który również przyjmuje wartości od 0-1.
(niestosujemy) Współczynik C (kontyngencji). Jest dość prosty do obliczenia. 0- minimum, a maksimum jest nieokreślona. Ta sama wartość współczynnika C zależy od określonej zmiennej. Zależnie od ilości kategorii. Jeśli jedna ZN ma 3 kategorie , a druga 2 to kapa.
T. McNemara - jest to test, który służy do badania zmiany w reteście vs. Preteście cechy mierzonej na skali nominalnej dychotomiczne.
40 przed a 35 po podwyżce cen prądu. Jest za lub przeciw rządowi.
Alternatywy nieparametryczne.
Musimy stosować te testy wtedy kiedy coś nam niepasuje do rozkładu normalnego etc.
Korelacja dwóch zmiennych. Obie są mierzone na skali co najmiej interwałowej. Jeśli nie mają rozkłądu normalnego (są bardzo dziwne) i/lub kiedy jedna lub obie zmienne nie są co najmniej na skali interwałowej, ale nie stosujemy tych technik do nominalnych!! (tak jak oczekujemy) to nie stosujemy R richardsona to stosujemy testy:
Kendalla (-1 do +1)
Spearmana(-1 do +1)
Porównanie dwóch grup (np. K i M) i mamy zmienną zależną wyrażoną na skali co najmniej interwałowej to używamy testu t. Ale jeśli rozkład nie jest normalny i kiedy skala pomiarowa ZZ jest porzadkowa , a nie co najmniej interwałowa, i populacje są całkiem różna to używamy nieparametrycznej alternatywy testu t studenta, którą jest test U Manna-Whitneya. Służy to do tego samego.
Porownanie 3 i więcej grup. ZZ mierzalna i rozkłady normalne a wariancje Anowa jednoczynnikowa i jednozmiennowa. ALE: jeśli co najminej jedna z trzech syt: inne niż normalne, wariancje całkiem różne, skala ZZ jest tylko porządkowa. Wtedy nie możemy użyć ANOVY i musimy użyć testu H Kruskala-Wallisa. Jeśli W ANOVie dostaliśmy, że wynik jest istotny to, że jest różnice, ale nie wiadomo jakie. Konieczne były dalsze analizy, np. testu post- hoc. W H Kruskala- Wallisa też to oznacza, że wszystkie porównywane pop.są sobie różne, ale nie wiemy, która od które. Przydałoby się coś w rodzaju testów post-hoc, ale nie istnieje nic takiego!! Można dokonać jedynie serii porównań parami za pomocą testu U Manna- Whitneya z korektą Bonferaniego.
Np.
N: 18,7
Cz: 35,6
Z: 37,0
Test u manna-whitneya stosowanej tutaj porównujemy każde z każdym (3 porównania parami). Roboczy poziom alfa dzielimy przez liczbę dokonywanych porównań - korekta bonferaniego. 0,05/3 = 0,017 - poziom istotności po korekcie bonferaniego. I za istotne statystyczne uznajemy wyniki które nie przekraczają 0,017.
Kiedy prób jest dużo to cała procedura jest przejebana.
Porównanie dwóch powtórzonych pomiarów.
Wszyscy badani wodzą po papierze ołówkiem przed i po wypiciu absyntu. Mierzymy np. czas. Normalnie użylibyśmy testu t w wersji dla powtórzonych pomiarów.
Jeśli rozkłady są bardzo dziwne to użycie testu t studenta nie jest git.
Wilcoxson
Porównanie trzech lub więcej grup.
Ta sama grupa, która wykonuje to samo zadania w trzech różnych warunkach. Normalnie użylibyśmy ANOVe z powtórzonymi pomiarami.
Zał. 1 zmienne są interwałowe, ale rozkład jest bardzo dziwny więc nie używamy ANOVY, tylko alternatywy. ....
Którą jest w tym przypadku test Friedmana - Test Rang!!
Wychodzi, że jest istotne, ale nie wiadomo która jest różna. Bierze się test Friedmana czy kogoś tam + poprawka Bonferaniego, a potem testy Wilcogsona. Kolejność jest nieważna??
Nie ma kontrastów ani post-hoców w alternatywach.
Co zrobić jeśli chcemy np. powiedzieć coś o interakcjach...??
Np. nie istnieje nic takiego... Nie ma alternatywy dla analizy trendów, analizy regresji, interakcji, wieloczynnikowych (wielozmiennowych) wariancji.
Jeśli skala pomiarowa zmiennej zależnej musi być co najmiej interwałowa to możemy użyć parametrycznych, a jeśli jest porządkowa do nieparametrycznych. Ale niektórzy sądzą, ze porządkowa też się nadaje, ale ci gorsi nie popierają tego zdania.
Ale w pracy mgr trzeba być ortodoksyjnym i nie robić takich przekrętów.
W wypadku danych odbiegających od normy (korelacji) jak się przełączamy lub nie na alternatywy to wyniki będą bardzo podobne.
Wykład nr 14!
Eksploracyjna analiza czynnikowa
Rozpowszechniona w psychometrii.
Cel: Celem analizy eksploracyjnej czynnikowej jest ID zmiennych mniej licznych niż grupa zmiennych wyjściowych, które to zmienne odnalezione, wyrażają to co wspólne miedzy zmiennymi oryginalnymi.
Celem tej analizy jest odkrycie czynników latentnych, które powodują interkorelacje miedzy wskaźnikami. (Zmienne latentne to takie zmienne, których nie widać... widać tylko jej przejawy...)
Np. teścik z 6 pytań.
1,3,5 - mnemotyczność
2,4,6 - ekst/intr
Każda ta grupka pytan jest skorelowana ze sobą. (interkorelacje).
Interpretacja czynnika polega na tym, że patrzymy na treść pytań tworzących jeden czynnik i z tej treści próbujemy wyciągnąc jakiś czynnik, który powoduje, że te pytania ze sobą korelują.
Ważne wskaźniki:
- ładunki czynnikowy (factor loadings) - korelacja między wskaźnikiem (pytaniem) a czynnikiem latentnym (esencja danego czynnika). Stopa i nasycenia wskanika.
Stopień nasycenia danego wskaźnika istotnym czynnikiem.
ROTACJA
Jest to zabieg dokonywany na strukturze wyników grupowych
Wyraźniejsze różnice między pytaniami tworzącymi dany czynnik i nie tworzącymi go w ogóel.
)a) Rotacja Varimax - jest to rotacja ortogonalna i powoduje uzyskanie struktury czynników nieskorelowanych ze sobą. Czynniki które wyjdą będą ze sobą nawzajem jak najmniej skorelowane.
)b) Rotacja ukośna (OBLIMIN) - nie dopuszcza skorelowania wyników ze sobą. Jak najbardziej skorelowane.
GRANICA które wchodzą do danego wskanika
16 czerwca - 10.00 W Auditorium Max aula duża A!!!