Wykłady z metod statystycznych


Wykłady z metod statystycznych
Wykład I 5.10.2008
Statystyka to dział metodologii naukowej zajmujący się:
g& zbieraniem
g& klasyfikacją
g& opisem
g& interpretacją
danych uzyskanych w badaniach sondażowych, ankietowych, eksperymentalnych i
terenowych.
Celem statystyki jest opis i wyciąganie wniosków dotyczących właściwości ilościowych
populacji.
Populacja to określona grupa lub zespół organizmów, ale także przedmiotów, materiałów,
pomiarów  wszelkiego rodzaju  rzeczy lub  zdarzeń .
Biologa interesują właściwości całej grupy a nie właściwości poszczególnych osobników
- sztuka wyciągania wiarygodnych wniosków w oparciu o zebrane dane
- eliminacja skutków przypadkowości w obrębie obserwowanych zjawisk
- przewidywanie zjawisk.
Statystyka opisowa  opis właściwości próby
Statystyka indukcyjna  procedury służące wyciąganiu wniosków dotyczących właściwości
populacji na podstawie danych z próby.
Jak zaprojektować badania?
c& znalezienie problemu i sformułowanie hipotez badawczych
c& zbieranie obserwacji - danych
c& statystyczna analiza wyników obserwacji
c& wnioskowanie
Próba statystyczna
Reprezentatywna dla populacji
homogeniczna  nie zawiera elementów innych populacji
adekwatna  obserwacje z całego zakresu zmienności
losowe  takie same poszczególnych wartości w próbie i populacji
odpowiednio liczebna (ne"30)
TYPY DANYCH:
Skale:
Ź nominalna  klasyfikuje elementy grupy, np. blondynka, szatynka
Ź porządkowa  grupuje pod względem nasilenia wartości cechy, np. słaby, silny
Ź interwałowa  określa nasilenie cechy oraz odległość między elementami grupy, np.
161 cm, 166cm, 172cm
Rodzaje danych wyrażanych w skali interwałowej:
Ł zmienne skalowe  liczba jaj w zniesieniu, liczba pręcików w kwiecie, dzieci w
rodzinie. Chodzi o to, że dane wyrażane są jedynie za pomocą liczb całkowitych
Ł zmienne ciągłe  wysokość i masa ciała, długość skrzydła, pojemność płuc.
Występować mogą wartości pośrednie, np. 3,5cm
Miary położenia rozproszenia i zmienności danych
1
Miary położenia
% określenie pozycji zbioru danych na osi liczbowej; nazywane przeciętnymi,
typowościami
% wartości stanowiące punkt odniesienia dla wszystkich obserwacji w próbie
Średnie klasyczne  obliczane na podstawie wszystkich obserwacji w próbie  średnia
arytmetyczna.
Średnie pozycyjne  oparte na wartościach zajmujących określoną pozycje w zbiorze danych
 mediana i moda.
Średnie arytmetyczne  suma wszystkich pomiarów podzielona przez ich liczbę
Cechy średniej arytmetycznej:
@& śr. obliczana z próby o liczebności N jest estymacją średniej w populacji
@& śr. arytmetyczna jest ściśle zdefiniowana, łatwo ją obliczyć i poddawać
przekształceniom algebraicznym
@& silnie zależna od skrajnych wartości pomiaru
@& jest liczbą mianowaną
Średnie pozycyjne
Mediana  środkowa obserwacja w uporządkowanym szeregu statystycznym
B& nieparzysta liczba elementów  Med. = pomiar środkowy
B& parzysta liczba elementów  Med. = śr. arytmetyczna dwóch pomiarów środkowych
Moda
e& wartość wokół której koncentruje się najwięcej pomiarów
e& dane pogrupowane  wartość modalna jest klasą o największej liczebności
Rozkład symetryczny kiedy: = Me = Mo
Rozkład prawo skośny kiedy: > Me > Mo
Miary rozproszenia i położenia danych
Miary zmienności  określenie formy i zakresu rozmieszczenia danych w ramach zmienności
danej cechy  jedno z podstawowych zadań statystyki.
Miary rozproszenia
h& rozstęp próby
h& wariancja
h& odchylenie standardowe
h& przedział kwartylowy
h& współczynnik zmienności
Rozstęp próby
- różnica między największym i najmniejszym pomiarem
R = Xmax - Xmin
Wariancja  suma różnic każdego pomiaru i średniej jest = 0
= N  N = 0
2
Śr. arytmetyczna kwadratów różnic każdej danej i średniej arytmetycznej.
Powyżej przedstawiano wzór na wariancję w populacji. W praktyce wariancja populacji jest
nieznana, lecz szacujemy ją na podstawie danych z próby gdzie s2 jest wariancją z próby albo
estymatorem .
Wariancja z próby: s2 =
Pomniejszając N o 1 otrzymujemy nieobciążony estymator wariancji próby.
Dlaczego N  1?
Jeśli N jest małe to wpływa na wartość oszacowania wariancji  daje obciążony estymator
wariancji próby.
Wartość nieobciążona  przy wielokrotnym losowym pobieraniu próby śr. arytmetyczne z
wartości przyjmowanych przez estymator nieobciążony równa się wartości szacowanej
parametru.
Wariancja operuje jednostkami podniesionymi do kwadratu  miano równe kwadratowi
miana zmiennej.
Odchylenie standardowe:
Z populacji:
Dla próby:
Właściwości odchylenia standardowego:
ż podstawowa charakterystyka statystyczna próby
ż miano = mianu średniej
ż jest tym większe im większe rozproszenie pomiarów wokół średniej
ż skrajne pomiary wpływają na statystykę silniej niż wartości centralne
Górny kwartyl  Q3  wartość zmiennej powyżej której mieści się 25% przypadków a poniżej
mieści 75% przypadków.
Dolny kwartyl  Q1  mieści odpowiednio 75% i 25% przypadków
Kiedy stosować średnią a kiedy medianę?
Średnią stosujemy przy rozkładach normalnych, wtedy liczymy dodatkowo odchylenie
standardowe, natomiast medianę stosujemy wtedy, gdy do czynienia mamy z rozkładem
skośnym  obliczamy wtedy dodatkowo przedział kwartylowy.
Co podać aby scharakteryzować poszczególne rozkłady?
Rozkład normalny Rozkład różny od normalnego
Me
s Dolny i górny kwartyl
N N
min min
max max
3
Wykład II 13.10.2008
Współczynnik zmienności
- ponieważ odchylenie standardowe zależy od wartości średniej to: odchylenie standardowe
cech wyrażonych w innych jednostkach lub w innym zakresie tych samych jednostek są
nieporównywalne problem z porównaniem zakresu, np. głębokość dziupli i wysokość
otworu wlotowego.
Współczynnik zmienności V(=CV)  badanie szeregów statystycznych różniących się
średnią.
V= 100%
- zmienność proporcjonalna do wartości średniej
większa średnia większe rozproszenie danych
- jeśli identyczne średnie to:
V mniejszy w próbie o mniejszym odchyleniu standardowym
- jest liczbą mianowaną
Zastosowanie:
- porównywanie cech porównywalnych
liniowych z liniowymi
wagowych z wagowymi
- wyodrębnienie cech najbardziej stałych (taksonomia)
- kontrola precyzji pomiarów
jeśli V serii pomiarów jest bardzo mały to brak jest wtedy błędów przypadkowych
V zmienność
<5% mała
6-10% umiarkowana
11-20% znaczna
20-50% duża
>50% bardzo duża
Inne charakterystyki statystyczne:
Błąd standardowy średniej:
- każde oszacowanie średniej jest obarczone pewnym błędem
Gdyby średnie z prób potraktować jako elementy próby statystycznej to można stworzyć
rozkład liczebności średnich (zawsze symetryczny)
- do rozkładu średnich można stosować charakterystyki próbkowe
- w praktyce do przybliżenia odchylenia standardowego średnich stosujemy:
% odchylenia standardowego
% N liczebności próby
Błąd standardowy średnich
- określa rozproszenie średnich = granica przedziału zamykająca określoną liczbę
średnich
4
Właściwości:
- wielkość błędu standardowego zależna jest od liczebności próby
większe n mniejszy błąd standardowy
Hipotezy
Hipotezy naukowe  twierdzenia teoretyczne dotyczące relacji, które mogą istnieć bądz nie
istnieć w naturze.
Hipotezy statystyczne  ściśle formułowane hipotezy na temat informacji zawartych w
danych przedstawionych za pomocą liczb.
Hipotezy mogą dotyczyć:
- wartości badanej zmiennej
np. średnia zniesień u dzwońca wynosi 5,5 jaja
- różnicy między cechami opisującymi badaną grupę
np. istnieje różnica między plonowaniem poletek nawożonych i nienawożonych
- zależności między badanymi cechami
-  kształtu zależności badanych cech
np. istnieje prostoliniowa zależność między wiekiem drzewa a liczbą słoi
- porównania rozkładu średnich
np. rozkład zmiennej  długości ogona jest rozkładem normalnym
Interpretacja danych:
- czy dane przemawiają za przyjęciem czy odrzuceniem hipotezy
- jakie reguły dowodowe stosować
- odpowiedzi formułowane w kategoriach prawdopodobieństwa
Wnioski:
- twierdzenia nie są całkowicie pewne oddziaływania czynników losowych
- wyniki obciążone pewną dozą niepewności
Co to jest prawdopodobieństwo?
Liczba zdarzeń sprzyjających do całkowitej liczby zdarzeń.
Prawdopodobieństwo  symbol P.
P wyciągnięcia z talii kart asa pik =
P wyciągnięcia asa =
Rozkład liczebności a rozkład P
Rzut trzema monetami:
OOO, OOR, ORO, ROO, ORR, ROR, RRO, RRR
N orłów f P
3 1 1/8
2 3 3/8
1 3 3/8
5
0 1 1/8
Razem: 8 1,00
Gdy:
Da się określić zbiór zależności wzajemnie wykluczających się
- można określić P związane z tymi zdarzeniami
- potrzebne jest P związane z podzbiorem tych zdarzeń
Dodawanie prawdopodobieństw gdy konieczne jest uzyskanie informacji o podzbiorze
zdarzeń: . Prawdopodobieństwo wystąpienia któregokolwiek ze zdarzeń
wzajemnie wykluczających się jest sumą poszczególnych zdarzeń z osobna.
Gdy da się określić 2 lub więcej zdarzeń niezależnych
- można określić P związane z tymi zdarzeniami
- potrzebne jest P związane z współwystępowaniem tych zdarzeń
P stwierdzenia @& 0,1+0,4=0,5
P stwierdzenia młodej @& 0,7 ( )=0,4
Rozkład prawdopodobieństwa
- określa P związane z poszczególnymi wartościami zmiennej V określonymi przedziałami
zmiennej
- można przedstawić optycznie  oś OY  P występowania zdarzenia
Krzywa normalna
Rozkład liczebności wielu zdarzeń naturalnych (fizycznych, biologicznych, psychicznych)
zbliża się do krzywej normalnej. Krzywa normalna  model rozpatrywania zagadnień
dotyczących zdarzeń (pomiarów).
Właściwości:
- rozciąga się wzdłuż osi OX ( nieskończoność)
6
- zbiegają się do 0 na krańcach  krzywa asymptotyczna
- pomiędzy krzywą a osią OX powierzchnia skończona równa jedności
- kształt funkcji zależy od średniej i odchylenia standardowego
Krzywa normalna zapisana w postaci wartościowej dla wyników standardowych
( ) standardowy rozkład normalnej.
Standardowy rozkład normalnej:
- wyrażając wartości obserwacji w jednostkach z (odchylenie standardowe) możemy
analizować je odwołując się do właściwości rozkładu normalnego
- pozwala to na odnoszenie uzyskanych wartości (np. średniej) do norm populacyjnych i
badanie stopnia odchylenia badanej próby od wartości charakteryzującej populację (reguła
3 )
- o ile jednostek odchylenia standardowego dana wartość odchyla się od średniej populacji.
Obszary pod krzywą normalną
- znając wartość  z można obliczyć  y (wysokość rzędnej)
- znając z i y można określić obszar pod krzywą zawarty między krzywą a osią OX
Znając powierzchnię obszaru pod krzywą można określić % obserwacji zawartych na
rzędnych między dwoma dowolnymi punktami na osi OX.
Etapy wnioskowania statystycznego
Weryfikacja hipotez statystycznych
g& formułowanie hipotezy zwanej Ho
g& dobranie i sprawdzenie założeń testu
g& obliczenie wartości testu na podstawie próby
g& wyznaczenie poziomu istotności i obszaru krytycznego
g& podjęcie decyzji dotyczącej Ho
g& interpretacja wyników
Proces weryfikacji hipotezy dobywa się według schematu zwanego testem statystycznym.
Hipoteza zerowa Ho
Twierdzenie o braku różnic między średnimi, medianami, częstościami, np. . Między
średnimi prób nie ma różnic próby pobrane z tej samej populacji.
Hipoteza alternatywna  H1  twierdzenie o istnieniu różnic . Między średnimi w
próbach istnieje różnica próby pobrane z dwóch różnych populacji.
Weryfikacja  test istotności
- metoda oszacowania P popełnienia błędu przy przyjęciu lub odrzuceniu hipotezy.
Test istotności
7
e& każda statystyka ma swój rozkład teoretyczny (dla danej liczby df)
e& rozkłady statystyk mają swoje obszary krytyczne, jeśli wartość testu obliczona z próby
znajduje się w obszarze krytycznym wystąpiło zjawisko bardzo mało prawdopodobne
e& skoro zjawisko takie miało miejsce, można sądzić, że Ho jest nieprawdziwa
Jak otrzymać test istotności?
c& rozkład próby
c& obliczamy P uzyskania różnicy równej lub większej niż zaobserwowana
c& jeżeli P takiego zdarzenia jest dostatecznie małe możemy przyjąć, że różnica ta nie jest
dziełem przypadku
c& jak mały współczynnik istotności? W biologii
Test bezkierunkowy
Dwustronny
- odrzucając Ho ( ) podejmujemy decyzje o istnieniu różnicy między średnimi nie
twierdząc niczego o kierunku różnicy.
- przy mamy 5% P popełnienia błędu 2,5% prawdopodobieństwo otrzymania
różnicy równej 1,96 jednostek odchylenia standardowego w jednym kierunku i 2,5%
otrzymania różnicy 1,96 jednostek odchylenia standardowego w drugim kierunku.
Odrzucenie Ho:
Test kierunkowy jednostronny
Interesuje nas kierunek różnicy
Błędy:
Błąd I rodzaju  odrzucenie Ho mimo, że jest ona prawdziwa; P popełnienie błędu I rodzaju
nazywamy poziomem istotności i oznaczamy .
Błąd II rodzaju  przyjecie Ho mimo, że jest ona fałszywa; P oznaczamy jako .
Kompromis  testy istotności które dla wybranego zapewniają najmniejszą wartość .
Moc testu= 1-
- określa P uznania H1 za prawdziwe, gdy jest rzeczywiście prawdziwa
- określa zdolność unikania błędów II rodzaju  im mniejszy błąd II rodzaju tym silniejszy
test.
8
Wykład III 20.10.1008
Testowanie hipotez a równość średnich:
czy osobniki dwóch populacji mają te same rozmiary?
% czy średni plon na poletku nawożonym jest większy niż na nienawożonym?
% czy średnia liczba chrząszczy w lasach liściastych jest większa niż w lasach
iglastych?
Na czym polega test istotności?
każda statystyka ma swój rozkład teoretyczny (dla danej liczby df)
dla danej próby możemy obliczyć wartość statystyki
wartości statystyki odpowiada określone prawdopodobieństwo
Jeżeli prawdopodobieństwo takiego zdarzenia (różnicy) jest dostatecznie małe ( )
możemy przypuszczać, że różnica ta nie jest dziełem przypadku  odrzucamy Ho.
Odrzucając Ho przy
dopuszczamy prawdopodobieństwo popełnienia błędu 5 na 100
razy; prawdopodobieństwo braku popełnienia pomyłki równe jest 1-0,05=0,95.
Wybór testu:
g& uwzględnienie charakteru problemu i danych
g& spełnienie założeń testu
Testy parametryczne, np. średnia suma kwadratów
Testy nieparametryczne, np. położenie mediany
Założenia testu T  porównywanie dwóch średnich:
h& przestrzeganie zasad randomizacji  reprezentatywność próby
h& respektowanie rodzaju porównań
g& testy dla grup niezależnych
g& testy dla grup zależnych, np. grupa osobników, w odniesieniu do której
stosujemy czynniki eksperymentalne
h& założenie o normalności rozkładu zmiennej; jeśli rozkład jest nienormalny,
wówczas możemy zastosować transformację danych (nie wpływa na interpretację
wyników i wnioskowanie), która da nam następnie rozkład normalny
h& założenie o jednorodności wariancji w grupach
Test T
mi, si, ni  średnia, odchylenie standardowe, liczebność i-tej próby. Statystyka T ma rozkład
T-Studenta o stopniach swobody.
Stopnie swobody:
liczba wartości zmiennej, które mogą się swobodnie zmieniać przy ograniczeniach
nałożonych na dane, np. pomiary 10, 14, 6, 5, 5 wyrażone jako odchylenie
standardowe od średniej:
9
+2, +6, -2, -3, -3
jeśli znamy 4 odchylenia standardowe to piąte zdeterminowane jest przez średnią
df=4
wariancja i wartość t zdeterminowane są przez df=N-1 pomiarów i średniej z próby
sposób opisywania wielkości próby
Test T dla zmiennych niepowiązanych:
Długość skrzydła rudzika (mm)
Gr.1.
69, 70, 71, 71, 72, 73, 73, 73, 74, 75
Gr.2.
73, 74, 74, 75, 75, 75, 75, 76, 76, 77
s s2 min-max N
Gr.1. 72,2 1,7 1,8 69-75 10
Gr.2. 75,0 1,2 1,3 73-77 10
Jednorodność wariancji: s1>s2
e& iloraz F wariancji F=2.2
e& wartość krytyczna dla statystyki F przy ; F=4,2
e& wyliczone F poza obszarem krytycznym
e& brak podstaw do odrzucenia H0  wariancje są jednorodne
Testowanie:
c& wartość krytyczna dla statystyki t: =2,1
c& obliczona wartość testu t=4,33 obszar krytyczny
c& wyliczone t w obszarze krytycznym odrzucamy H0
c& wniosek: długość skrzydła między populacjami różni się istotnie
Test T-Studenta dla zmiennych powiązanych:
Ł 2 serie pomiarów tych samych elementów (osobników) w różnym czasie
Ł dla każdego elementu/osobnika próby losowej mamy parę liczb x i y oraz ich
różnicę di=xi-yi
d, sd  średnia, odchylenie standardowe różnic di ma rozkład T-Studenta o n-1
stopniach swobody
Porównanie więcej niż dwóch średnich:
Dlaczego nie test T-Studenta?
h& załóżmy konieczność porównania średnich w 4 grupach liczba porównań = 6
10
h& dla jednego porównania przy , prawdopodobieństwo braku pomyłki
wynosi 0,95
g& dla dwóch pomiarów 0,952=0,905
g& dla sześciu pomiarów 0,956=0,735
prawdopodobieństwo popełnienia przynajmniej jednego błędu I rodzaju wynosi 1-
0,735=0,265
h& ze wzrostem liczby porównań wzrasta prawdopodobieństwo popełnienia błędu
h& zmniejszenie prawdopodobieństwa popełnienia błędu I rodzaju powoduje wzrost
popełnienia błędu II rodzaju
Co zrobić?
h& zastosowanie testów istotności, które dla zdefiniowanego z góry pomiaru
zapewniają najmniejszą wartość
h& kompromis  analiza sumy kwadratów
Analiza sumy wariancji:
Ź test F (ANOVA)
Ź porównywanie więcej niż dwóch średnich
Ź badanie istotności różnic średnich w wielu różnych populacjach
Badanie wpływu k oddziaływań eksperymentalnych w każdej k prób, złożonej
z n elementów stosowane są różne warunki eksperymentalne
Założenia:
Ź normalność rozkładu zmiennej zależnej
Ź jednorodność wariancji we wszystkich grupach  niejednorodność wariancji
powoduje wzrost wartości statystyki F prowadząc do zbyt wielu odrzuceń H0
Badanie wpływu k oddziaływań eksperymentalnych:
w każdej z k prób złożonej z N elementów stosowane są inne warunki
eksperymentalne
obliczamy średnie z k prób
Ho: m1=m2=m3
Próby zostały pobrane z populacji mających tą samą średnią
Stosowane działania eksperymentalne nie przynoszą rezultatów; zmienność wynika z
wahań związanych z pobieraniem próby.
:
Próby pobrane z populacji o różnych wartościach średniej; stosowane działania
eksperymentalne przynoszą pewne rezultaty; zmienność nie wynika ze sposobu
pobrania próby
yródła zmienności:
$ zmienność wokół średniej w próbie losowej
$ zmienność pomiędzy próbami(populacjami) konsekwencja różnic pomiędzy
średnimi w populacji, z których próby zostały zebrane
Aktywność wariancji:
h& rozbicie sumy kwadratów odchyleń  wariancji całkowitej  dla wszystkich
wyników obserwacji
11
g& suma kwadratów opisująca zmienność wewnątrz prób
g& suma kwadratów opisująca zmienność między próbami
h& podział stosowany w celu oszacowania wielkości efektu grupowego/różnic w
stosunku do błędu z próby
Addytywność wariancji:
całkowita suma kwadratów = wewnątrzgrupowa suma kwadratów +
międzygrupowa suma kwadratów
Jeśli próby zostały pobrane z populacji o rozkładzie normalnym z równymi średnimi i
wariancjami
jeśli wartość F wskazuje, że sumy kwadratów różnią się to próby zostały pobrane z
populacji o różnych średnich lub wariancjach
Hipotezy w ANOVA:
# - próby pobrane z populacji o rozkładzie normalnym z równymi średnimi i
wariancjami
# - próby pobrane z populacji o różnych średnich i równych wariancjach
Zapis w 1-czynnikowej analizie wariancji
B& doświadczenie o k rodzajach warunków eksperymentalnych, np. warunki
środowiskowe, eksperymentalne, kategorie osobników
@& rodzaje warunków eksperymentalnych są podstawą wyróżnienia grup
@& liczba elementów w k grupie oznaczana jest:
@& całkowita liczba elementów we wszystkich próbach:
Odchylenie konkretnego wyniku od średniej ogólnej
- odchylenie to składa się z odchylenia pomiarów od średniej z grupy
oraz
odchylenie średniej grupy od średniej ogólnej
Obie strony podnosimy do kwadratu i otrzymujemy:
Średnie kwadraty:
c& z każdą sumą kwadratów związana jest pewna liczba stopni swobody
I człon powyższego równania to całkowita suma kwadratów o N-1 stopniach swobody
II człon  wewnątrzgrupowa suma kwadratów  N-k
III człon  międzygrupowa suma kwadratów  k-1
Aby otrzymać wewnątrzgrupową średnią kwadratów i średnią kwadratów międzygrupową
dzielimy odpowiednie sumy kwadratów przez związaną z nimi liczbę stopni swobody, np.
12
Obliczenie F:
I porównanie statystyki F z wartościami w tablicy wartości F
Jeżeli F> to odrzucamy
Warunki stosowania ANOVA
h& analiza zmienne mierzalne  skala interwałowa
h& pomiary zmiennej zależnej mają rozkład normalny
g& test Kołnogrowa-Smirnowa
g& test zgodności
h& wariancje pomiarów w grupach są jednorodne
g& test Levensa
13
Wykład IV 27.10.2008
Stopień swobody dla sumy całkowita liczebność próby
kwadratów odchyleń grupy N minus stopień swobody
Porównania a priori:
e& planowane przed przeprowadzeniem eksperymentu
e& pozostają w bezpośrednim związku z teorią, na której odpiera się eksperyment
Porównania a posteriori:
c& przeprowadzane po wstępnej analizie danych, są dokonywane post hoc
c& przeprowadzane tylko po uprzednim otrzymaniu istotnego wyniku testu F
Dlaczego testy a posteriori?
ż nie zwiększają prawdopodobieństwa popełnienia błędu I rodzaju
ż przy jednym porównaniu i prawdopodobieństwo popełnienia pomyłki
wynosi 1-0,05=0,95
ż przy dwóch porównaniach i
prawdopodobieństwo popełnienia pomyłki 
za pierwszym i drugim razem =
Testy nieparametryczne:
Kiedy stosujemy testy nieparametryczne?
nie zależą od kształtu rozkładu zmiennej i parametrów rozkładu w populacji
brak jednorodności wariancji (nawet po transformacji)
możliwość użycia dla danych wyrażonych w skali porządkowej i nominalnej
mała liczebność próby
Siła testów nieparametrycznych jest mniejsza niż testów parametrycznych  trudniej odrzucić
.
Rangowanie danych:
wartości pomiarów przekształcone w rangi
Skala przedziałowa skala porządkowa
Np.
Pomiar: 88,2 88,5 88,9 89,5 89,5 89,7
Ranga: 1 2 3 4,5 4,5 6
rangi wiązane
14
Hipotezy:
h& formułujemy jak w przypadku testów parametrycznych
h& sformułowana w postaci ogólnej  próby pochodzą z populacji o tym samym
rozkładzie
Podział testów:
g& wykorzystanie rang i znaków
g& charakter porównywanych danych
h& niezależne
h& skorelowane (zależne)
g& liczba porównywanych grup
Test U Manna  Whitneya:
% porównanie median w 2 niezależnych próbach  odpowiednik testu T dla dwóch
prób niezależnych
% użyteczny w przypadku małych liczebności w próbach (minimum 4 obserwacje w
próbie)
% niezależny od kształtu rozkładu zmiennej
- próby pochodzą z populacji o tej samej medianie
- próby pochodzą z populacji o różnych medianach
Przykład:
Na 10 poletkach w borze i 9 w dąbrowie odłowiono pająki krzyżaki:
bór 37 30 45 52 22 35 27 32 40 47
dąbrowa 31 44 48 51 53 57 60 61 64
Czy liczebność gatunkowa w obu typach środowisk jest taka sama, czy może środowiska te
różnią się?
- środowiska różnią się
- środowiska nie różnią się
Porządkujemy dane dla obu prób łącznie i przydzielamy im odpowiednie rangi:
Bór; dąbrowa
dana 22 27 30 31 32 35 37 40 44 45 47 48 51 52 53 57 60 61 64
ranga 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Suma wszystkich rang dla każdego typu lasu:
;
Obliczamy dwa wskazniki U według wzorów:
15
Gdzie: to liczby pomiarów w próbie 1 i 2; i to sumy rang w grupie 1 i 2.
Weryfikacja hipotezy - odrzucamy wtedy, gdy wartość testu jest równa lub mniejsza niż
wartość krytyczna
U=12;
U< odrzucamy
Do porównania wykorzystujemy mniejszą wartość U z tych dwóch otrzymanych.
Test kolejności par Wilcoxona:
Porównanie median w 2 próbach zależnych  odpowiednik testu t dla 2 prób
powiązanych
Dane wyrażone w skali interwałowej
Różnicom przypisujemy rangi posługując się wartościami absolutnymi
Test :
Do czego służy?
Wykrywanie i ocena natężenia zależności 2 lub więcej cech jakościowych  skala
nominalna
Porównanie zbioru liczebności zaobserwowanych ze zbiorem liczebności
teoretycznych (oczekiwanych)
jest miarą określającą rozbieżność między liczebnościami zaobserwowanymi a
oczekiwanymi& w przypadku braku rozbieżności =0
Liczebności zaobserwowane  uzyskane z bezpośredniej obserwacji lub eksperymentalnie;
teoretyczne uzyskane na podstawie pewnej hipotezy rozumowania teoretycznego (niezależnie
od danych) liczebności jakich należałoby oczekiwać, gdy dana teoria jest prawdziwa.
Liczebność oczekiwana jest uzyskiwana na podstawie mnożenia prawdopodobieństw.
Jeżeli liczebność obserwowanych osobników danego gatunku jest niezależna od
zajmowanego środowiska, to prawdopodobieństwo, ze dowolny, losowo wybrany osobnik
należy do gatunku 1 i zajmuje siedlisko 1 jest iloczynem prawdopodobieństw tych zdarzeń z
osobna.
W praktyce liczebności oczekiwane dla konkretnych pól otrzymujemy mnożąc sumę 2.
kolumny przez sumę 2. wiersza i dzieląc przez całkowitą liczbę elementów N.
; i to wartość obserwowana i oczekiwana
Test z poprawką Yalesa
Założenia i ograniczenia testu:
losowość i niezależność próby
zmienne wyrażone w skali nominalnej
wartości oczekiwane w klasach (więcej niż pięciu)
przy testach z jednym stopniem swobody stosujemy poprawkę Yalesa
16
Hipotezy:
-obserwowany rozkład cechy w próbie jest zgodny z rozkładem teoretycznym (rozkład
populacji generalnej)
-liczebności obserwowane różnią się od liczebności oczekiwanych i różnice nie mogą być
wyjaśnione błędem w pobieraniu prób
Testy niezależności:
liczebności oczekiwane są takimi liczebnościami jakich badacz oczekiwałby, gdyby te
wartości były niezależne od siebie
test mierzalny jest szczególnym przypadkiem testu zgodności
17
Wykład V 3.11.1008
Podstawy korelacji i regresji:
ustalenie i ocena powiązań badanej zmiennej losowej Y z inną zmienną/zmiennymi
 szereg dwucechowy/wielocechowy
ustalenie logicznego występowania logicznego związku między zmiennymi
rodzaje związków:
@& przyczynowo  skutkowe
@& pozorne  wynikające z bezpośredniego działania innego (nie ujętego w
analizie) zjawiska
Zmienne zależne i niezależne:
% wyróżnienie zmiennych jest istotne z punktu widzenia sformułowanej hipotezy i
logicznej interpretacji zjawisk
zmienna zależna Y
zmienna niezależna X
KORELACJA:
h& narzędzie do dokładnego określania stopnia w jakim dwie zmienne są ze sobą
powiązane
h& pozwala na stwierdzenie czy:
g& między zmiennymi zachodzi związek
g& jaki jest jego kształt i kierunek
g& jaka jest siła związku
Co to jest związek statystyczny?
$ określonym wartościom jednej zmiennej odpowiadają ściśle określone wartości
drugiej zmiennej
$ można oszacować jak zmieni się wartość Y w zależności od wartości zmiennej X
Wykres rozrzutu to wstępna metoda wykrywania związku korelacyjnego.
Rodzaje związków korelacyjnych:
f& związki o charakterze liniowym -
f& związki o charakterze krzywoliniowym:
Kierunek zależności:
c& korelacja dodatnia  wzrostowi wartości 1 cechy odpowiada wzrost wartości 2
cechy
c& korelacja ujemna  wzrostowi wartości 1 cechy odpowiada spadek wartości 2 cechy
Siła związku:
ż współczynnik korelacji liniowej Pearsona (r)
18
Ź miernik siły związku prostoliniowego między dwiema cechami mierzalnymi
Ź przyjmuje wartości z przedziału
ż znak współczynnika określa kierunek korelacji
ż wartość bezwzględna określa siłę związku
Gdy = to zależność korelacyjna jest tożsama zależności funkcyjnej czyli
zależności liniowej;
Gdy =0 brak związku miedzy zmiennymi
Skala siły związku:
r Związek
<0,3 Słaby
0,31-0,50 Umiarkowany
0,51-0,70 Mocny
0,71-0,90 Ścisły
>0,90 Bardzo ścisły
Współczynnik determinacji:
e& - kwadrat współczynnika korelacji
e&
- określa jaki procent zmienności cechy Y można przypisać różnicom w
wielkości X
w % związek
<9 Słaby
10-25 Umiarkowany
26-49 Mocny
50-81 ścisły
>82 Bardzo ścisły
REGRESJA:
B& narzędzie do badania mechanizmu powiązań między zmiennymi
B& funkcja regresji  metoda przyporządkowania wartości zmiennych zależnych
konkretnym wielkościom zmiennych niezależnych
B& najprostsze i najczęściej spotykane zależności mają postać liniową
B& krzywe regresji będące liniowymi prostymi są określane jako proste regresji
Równanie regresji prostoliniowej:
a  stała  wyraz wolny równania regresji  odległość na osi Y od wartości 0  wartość Y
odpowiada X=0
19
b  nachylenie linii  stosunek odległości w kierunku pionowym od odległości w kierunku
poziomym; estymator współczynnika regresji
Dopasowanie funkcji regresji:
h& dopasowanie linii do zbioru punktów  metoda najmniejszych kwadratów
h& pozwala na przewidywanie Y na podstawie X
suma kwadratów odległości między punktami a linią (prowadzonych
równolegle do osi Y) jest najmniejsza
Funkcje regresji:
Ł linie regresji można także sporządzić na podstawie odchyleń czyli wyników w
postaci:
;
;
Odchylenie y pomiaru od średniej można rozbić na dwie części:
- odchylenie wyjaśnione przez równanie regresji
- odchylenie nie wyjaśnione  wartość resztowa
Odchylenie wartości przewidywanej od średniej dane jest wzorem:
Statystyczna istotność korelacji i regresji:
sytuacja analogiczna do analizy wariancji, gdzie odchylenie od średniej ze
wszystkich grup można podzielić na odchylenie wynikające z przynależności do grupy
i odchylenie wewnątrz grupy
jedno z tych odchyleń wyjaśnione jest przez przynależność do grupy, a drugie jest
niewyjaśnione
Relacja między sumami kwadratów odchyleń:
Gdzie:
- ogólna suma kwadratów
 część wyjaśniona przez równanie regresji
- niewyjaśniona suma kwadratów
Stopnie swobody regresji:
h& każdej sumie kwadratów przypisujemy odpowiednią liczbę stopni swobody (df):
g& df ogólnej sumy kwadratów  df=N-1
g& df części wyjaśnionej  df=1
g& df niewyjaśnionej sumy kwadratów df=N-2
20
Istotność statystyczna:
dzieląc wyjaśnione i niewyjaśnione sumy kwadratów odchyleń przez
odpowiadające im stopnie swobody otrzymamy oszacowanie wariancji
obliczamy stosunek wariancji wyjaśnionej do niewyjaśnionej
porównujemy wartość F z F krytycznym
jeśli F znajduje się w obszarze krytycznym to odrzucamy
związek między zmiennymi jest statystycznie istotny
Założenia i ograniczenia:
cechy mierzone w skali interwałowej
związek między cechami jest prostoliniowy
elementy próby są  wybrane losowo
zmienne mają rozkład normalny
nie wykorzystujemy danych o rozkładzie dwumodalnym (np. pomiarów
pochodzących od B& i @&)  homogeniczność próby
w celu uzyskania związku o charakterze liniowym i wykorzystania
współczynnika r można przekształcić dane:
transformacja logarytmiczna (dane o charakterze policzalnym, skale
interwałowe)
transformacja arcsin (dane o charakterze proporcji wyrażone w %)
w przypadku nie spełnienia założeń dotyczących skali pomiarów i
normalności rozkładu używamy korelacji rang Spearmana ( )
Związki krzywoliniowe:
ż jeżeli zależność między dwoma zmiennymi nie jest linowa, korelacja może być
słaba lub zerowa, ale mimo to między zmiennymi może istnieć związek
ż interpretując współczynnik korelacji należy założyć, że liniowy model regresji
jest modelem adekwatnym do analizowania danych i że korelacja bliska 0
wskazuje na związek przypadkowy
21


Wyszukiwarka

Podobne podstrony:
wyklad 1 wprowadzenie statystyki oisowe
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 6
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 2
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 3
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 7
Dwanaście wykładów z metod numerycznych równań różniczkowych cząstkowych
20151012 MichalTrzesiok Statystyka wyklad2 miary statystyczne handout
wykład S1 Statystyka matematyczna
O niewlasciwym stos metod statyst
Mikołaj Rybaczuk Materiały do ćwiczeń i wykładów ze statystyki Politechnika BIałostocka
Boratyńska A Wykłady ze statystyki matematycznej
Wykład ze statystyki dobry
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 5
Wyklady ze statystyki
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 1
Wyklad 7 Nieparametryczne metody statystyczne PL [tryb zgodności]
Statystyka wyklad 7

więcej podobnych podstron