Cechy statystyczne (zmienne)- opisują liczby:
niemierzalne (jakościowe): nominalne, porządkowe
mierzalne (ilościowe):skokowe, ciągłe
opis statystyczny danych: miara położenia (np. średnia) + miara rozproszenia (np.SD) + wielkość próby i sposób ej pobierania
Miara położenia: średnia arytmetyczna, średnia arytmetyczna ważona, średnia geometryczna (dla nieujemnych do obliczania średniego jumpa wzrostu populacji), średnia harmoniczna(gdy dane znacznie różnią się wartością)
Dla danych identycznych średnie są równe, dla zróżnicowanych x>g>h
Średnia ->położenie krzywej
Mediana- wartość srodkowa (Me=śr -rozkład symetryczny) (Me<śr –prawoskośny)
Modalna (Mo, dominanta D) najczęściej występujące wartość w danych (szczyt rozkłady cechy) śr.=Me=Mo – rozkład symetryczny
Miary rozproszenia:
Wariancje s2 im większa tym bardziej rozrzucone wyniki
Odchylanie standardowe SD rozproszenie wokół średniej
Kwartyle (Q, podział wartości na cztery części, ćwiartki)
Skala pomiaru danych:
Nominalna podział na wartości na podzbiory, dichotomiczna: np. samce-samice
Porządkowa: nadawanie rang, grupowanie według kategorii i porządkowanie według natężenia cechy, rangi można oznaczyć numerami
Określają nie tylko natężenie cechy, ale także róznice wilekości między nimi
Interwałowa zero względne umowne i umowna jednostka
Ilorazowa Zero absolutne i naturalna jednostka
Zaokrąglenia
Jeśli pierwsza odrzuconych liczby ≤4 zaokrąglenie w dół
Jeśli 5 a którakolwiek z następnych liczb większa o 0 to w górę
Jeśli pierwsza liczba odrzucana to 5 a dalsze zera, to patrzymy na ostatnią zachowywaną liczbę: nieparzysta-w górę, parzysta- w dół
Dokładność:
Średnie – o jedno miejsce dokładniej niż wyjściowe
SD- o dwa miejsca dokładniej
Tworzenie przedziałów, grupowanie gdy jest dużo danych. liczna klas zależy od liczny pomiarów (pierwiastek z liczby pomiarów) wielkość przedziałów h=(max-min)/k. granice przedziałów o rząd dokładniejsza niż dane.
Rozkład normalny: symetryczny śr.=Me=Mo
Skośność (A) A=0 symetryczny, A>0 prawoskośny, A<0 lewoskośny
Kurtoza (K) spłaszczenie K> 0 wysmukły, K<0 spłaszczony
Statystyki>statystyki podstawowe>statystyki opisowe >normalność (zaznaczyć test Shapiro-Wilka) >histogramy (karta więcej zaznaczyć kurtoza, skośność, średnia, Mediana, Modalna (można też dodać zmienną grupującą klikając na „grupy” po prawej) >podsumowanie
Statystyki> statystyki podstawowe> tabele liczności> normalność (zaznaczyć test Shapiro-Wilka) >test normalności podajemy skośność do jednego miejsca) podajemy wyniki Shapiro-Wilka: W-dwa miejsca p-trzy miejsca
Można też użyć testu Kołmogorowa-Smirnowa (K-S) (ścieżka taka sama) i podajemy poprawkę Lillieforsa dla małych prób <30 (podajemy d i p + p poprawki)
Dla normalnego rozkładu: wartość przeciętna: średnia, miara rozproszenia: SD, zakres: min-max
Dla skośnego: wartość przeciętna: Mediana, miara rozproszenia: kwartyle (górny i dolny) zkres: min-max
Jeśli w wartościach p mamy 0,0000… to wpisujemy p<0,001
Graficzne przedstawienie:
Klik prawym na nagłówek kolumny> wykresy bloku danych> wykres normalności
Dwa razy kliknąć na tło wykresu>statystyki> zaznaczyć test Shapiro-Wilka
Na wykresie: im bliżej punkty są czerwonej linii tym bardziej zbliżony rozkład do normalnego
Kodowanie: zmiana jednostek, uproszczenie, odejmowanie, mnożenie, dzielenie, nie zmienia charakteru zoskładu
Transformowanie: pierwiastkowanie, potengowanie, odwrotność, log; zmienia charakter rozkładu > dążenie do normalnego
Dla rozkładów prwoskośnych: pierwsze logarytmowanie (jeśli są wartości zerowe lub ujemne to trzeba najpierw kodować np. +1); gdy rozkład bardziej skośny niż logarytmowany stosujemy odwrotność; jeśli mniej pierwiastkowanie
Dla lewoskosnego: podnoszenie do kwadratu dla umiarkowanie skośnych; lub do sześcianu dla bardziej skośnych.
Dla procentów i proporcji: areus sinus
Hipotezy: weryfikujemy testami parametrycznymi:
Paramatryczna: odnosi się do konkretnego parametru pn.średnia
Nieparamatryczne: nie odnoszą się do konkretnych parametrów np. typ rozkładu
Procedura:
Dwie hipotezy (czasem więcej) hipoteza zerowa (H0) którą sprawdzamy testem, zakłada, że nie ma istotnych różnic. Hipoteza alternatywna (H1), przeciwstawna do zerowej. Gdy odrzucamy H0 przyjmujemy H1. Celem badań najczęściej jest odrzucenie H0
Poziom istotności (α) – prawdopodobieństwo odrzucenia prawidłowej H0 (błąd pierwszego rodzaju). α=0,05 (5%)
Błędy: α – pierwszego rodzaju; β – drugiego rodzaju: przyjęcie błędnej H0
Moc testu: prawdopodobieństwo nie popełnienia błędu drugiego rodzaju.
Dobieranie testu do hipotezy i liczebności prób i przeprowadzenie go
Decyzja odrzucenie lub nie H0 na podstawie prawdopodobieństwa p
P<α odrzucamy H0
p≥α nie mamy podstaw do obrzucenia H0
Interpretacja wyników. Wyniki istotne statystycznie- wykazana różnica jest większa niż ta, która mogła wyniknąć z błędów statystycznych (więcej niż 0,01 –wysoce istotny)
Test chi kwadrat – nieparametryczny test niezależności zmiennych
H0 – nie ma zależności między zmiennymi
Liczba stopni swobody (df) – (liczba kategorii w wierszu -1)X( liczba kategorii w kolumnie -1)
Testujemy dane nominalne np. różnice we frekfencji
Przy tabeli 2x2 stosujemy poprawkę Yatesa na ciągłość gdy choć jedna z liczebności oczekiwanych jest <10
Podajemy: wynik chi-kwadrat (dwa miejsca), liczbe df i p (trzy miejsca)
Statystyki>statystyki podstawowe> tabele wielodzielcze>określ tabele>ok>opcje (zaznaczamy liczebności oczekiwane i chi-kwadrat i Yatesa gdy potrzebna)
Korelacje liniowe persona (parametryczne) i Spearman (nieparametryczne)
Persona (r) : zależne mają rozkład normalny. Współczynnik korealcji -1 do 1
Spearman (rs) gdy dużo odstających, mało danych, gdy nie mamy rozkładu normalnego
Przed korelacją trzeba sprawdzić czy rozkłady oby grup są normalne (test Shapiro-Wilka): są normalne-persona, nie są normalne-spearman
H0- nie ma zależności gdy r=0, gdy r jest różne od zera jest zależność, p≥0,05- przyjmujemy H0 P<0,05 odrzucamy
podajemy:
Persona r (dwa miejsca) p (trzy) i n
Spearmana rs (dwa miejsca) p (trzy) i n
Spearman: statystyki>nieparametryczne>korelacje (spearman) oblicz: szczegółowy raport
Persona: statystyki>statystyki podstawowe>dwie listy zmennych, zakładka opcje zaznaczyć wyświetl r,p i N> podsumowanie (można też dodać zmienną grupującą po prawej) (dla przedstawienia graficznego zakładka więcej>wykresy lub wykresy rozrzutu)
Wyniki:
Dodatnie pozytywna korelacja, ujemne – negatywna
Siła: r<0,11 brak związku, 0,11-0,30 – słaby związek, 0,31-0,50 –umiarkowany związek, 0,051-0,70 – dość silny, 0,71-0,90 – silny, >0,90 – bardzo silny
Korelacja istotna statystycznie gdy r różne od zera.
Testowanie różnic między średnimi dwóch grup:
Parametryczne: niezależne (t-studenta dla niezależnych lub Cochrana-Coxa) zależne (t-studenta dla prób zależnych
Nieparamatryczne: niezależne (test U manna-Whitneya), zależne Wilcocsona
T-student: średnie dwóch grup: zmienne ilościowe, rozkład normalny, n>100 i α=0,01
H0-nie ma różnic w średnich pomiędzy grupami
Statystyki > s. podstawowe > test t dla prób niezależnych (wzgl. Grup) lub (wzgl. zmn.) [zależy od rozkładu danych, czy porównujemy dane w kolumnach(zmienne), czy w grupach(jedna zmenna grupująca)] > zakładka opcje zaznaczyć test z niezal. Estymacją wariancji i test Browna i Forsytha>podsumowanie
Jeśli wariancje dla grup nie są jednorodne: to test Browna i Forsytha, stosujemy test cochrana- coxa (test z oddzielna ocena wariancji) t’, p (nie wiem o co chodzi)
Podajemy: t (dwa miejsca), df i p (trzy miejsca)
Graficzne przedstawienie: wykresy> 2W >ramka-wąsy> zakładka więcej: punkt środkowy: średnia; ramka: odch.std.(współcznnikik:1); wąs:min-max (współcznnikik:1); odstające:wyłączone.
Test t-studenta dla prób zależnych (podobno ma nie być)
Statystyki> test t dla prób zależnych
Graficznie: tak samo jak dla testu t-studenta dla prób niezależnych.
Testy nieparamatryczne:
Najpierw sprawdzenie charakteru rozkładu, gdy nie jest normalny transformujemy: log, pierwiastek, odwrotność, jeśli nie ma efektu stosujemy testy nieparametryczne
Unikanie stosowania tych testów: mniejsza moc, utrata wyników, nie wiadomo czego dotyczą analizy
Test U Manna-Whitneya
Brak rozkładu normalnego, małoliczne próby, skala porządkowa
H0-próby pochodzą z dwóch grup o równych medianach (jeśli próby mają podobny kształt rozkładu)
Podajemy: p, n (w wynikach podane jest N oddzielnie dla dwóch grup, trzeba je dodać), U (gdy próby ≤20), Z (gdy >20)( dwa miejsca), Z poprawione (gdy obecne są rangi….
Statystyki>s. nieparametryczne> porównanie dwóch prób niezależnych>test U M-W
Graficznie wykres ramka-wąsy punkt: Mediana, ramka: percentyle, wąs:Min-Max, odstające:wyłączone
Test kolejności par Wilcoxona (chyba ma nie być): nieparametryczny dla prób zależnych liczba par ≥6
Podajemy Z gdy n>25, podajemy T dla n≤25 (dwa miejsca), p, N
Statystyki>s. nieparametryczne> porównanie dwóch grup zależnych> test kolejności prób Wilcoxona
Wykres taki sam jak dla U M-W.
Testy różnic więcej niż 2 grup
Parametryczne: Anova dla niezależnych, Anova dla układów z
Nieparametryczne: Kruskala-Wallisa dla niezależnych, Friedmana dla zależnych
Test Kruskala-Wallisa: rozkłady skośne, podobne do siebie, max.10 grup
H0-grupy nie różnią się, H1- co najmniej dwie grupy różnią się
Później trzeba dla znalezienia które grupy się różnią wykonać test post hoc test Dumna (test wielokrotnych porównań)
Statystyka>s. nieparametryczne> porównanie wielu prób niezależnych (grup)> Kruskala-Wallisa i test mediany. (po lewej w wykach wybieramy Anova rang Kruskala-Wallisa) podajemy wyniki znad ramki: Hliczba df, N (podane w nawiasie nad ramką) (dwa miejsca po przecinku), p
Jeśli p<0,05 trzeba wykonać test post hoc Dumna (ścieżka taka sama tylko klikamy wilokr. Porówn. Średnich rang dla wszystkich prób
Wykres taki jak dla U M-W, jeśli test wykaże różnice to należy je zaznaczyć na wykresie i opisać pod nim (strzałkami zaznaczono różnice istotne statystyczne * 0,01<p<0,05;** 0,01<p<0,01 ***<0,001)
Anova: paramatryczny dla więcej niż dwóch prób: anova jedno i dwuczynnikowa, analiza wariancji, zmienne mierzalne, rozkład normalny, jednorodność wariancji (test Browna- Forsytha dla nie równych liczebności grup)jeśli niespełnione > test F-Wersha, liczebność prób >10
H0- nie ma różnic miedzy średnimi
H1- są różnice między co najmniej dwiema grupami
Statystyka>s. podstawowe> przekroje, prosta Anova> podsumowanie> zanzaczyć test Welcha w zakłdace testy Anova> analiza wariancji ( sprawdzenie: w zakładce testy anova, skategoryzowany wykres normalności, punkty nie mogą układać się na linii)
Wyniki: podajemy p i F z indeksem dolnym w którym znajdują się odczytane z tabelki wynikowej df Efekt,df Błąd np. F2,47=16,72
Post hoc gdy odrzucamy H0: test Scheffego albo test RIR Tukeya dla nierównych licznosci, taka sama ścieżka jak wcześniej tylko zakładka post-hoc
Graficznie: wykres ramka-wąsy. wykresy> 2W >ramka-wąsy> zakładka więcej: punkt środkowy: średnia; ramka: odch.std.(współcznnikik:1); wąs: min-max (współcznnikik:1); odstające: wyłączone
Zaznaczyć różnice istotne statystycznie na wykresie: strzałkami zaznaczono różnice istotne statystyczne * 0,01<p<0,05;** 0,01<p<0,01 ***<0,001