Metody statystyczne
dla opornych cz. 1
Podstawowe pojęcia
Inquiry, 2007
Fakt 1
Analiza statystyczna to nie to samo, co wróŜenie ze szklanej kuli
Analiza statystyczna to nie to samo, co wróŜenie ze szklanej kuli
Analiza
statystyczna
Analiza
statystyczna
–
Zbieranie, przetwarzanie i interpretacja
danych według
dobrze określonej
procedury
≠≠≠≠
Fakt 2
Procedury zbierania i analizy danych są opracowane tak, by wynik
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów
nigdy nie mamy pełnego obrazu
Procedury zbierania i analizy danych są opracowane tak, by wynik
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów
nigdy nie mamy pełnego obrazu
Interpretacja
danych
Interpretacja
danych
Jesteśmy jednak optymistami
Zbieranie danych
Zbieranie danych
Przetwarzanie
danych
Przetwarzanie
danych
Rzeczywistość
Wyniki analizy
• Mamy nadzieję, Ŝe nasz opis, czyli wyniki analizy,
mają coś wspólnego z rzeczywistością!
Fakt 3
Analiza danych w statystyce to co najmniej 3 róŜne rodzaje działalności
– Redukcja danych
• Poświęcamy niuanse i detale pojedynczych wypowiedzi,
ale za to widzimy ogólne zjawiska
- Tabele
- Statystyki opisowe
– Wnioskowanie statystyczne
• Sprawdzamy hipotezy mówiące o róŜnicach pomiędzy grupami
- Czy męŜczyźni palą więcej niŜ kobiety?
- Czy palacze piją więcej od niepalących?
• Sprawdzamy hipotezy mówiące o zaleŜnościach między zmiennymi
- Czy wydatki na sprzęt sportowy rosną, czy maleją wraz z wiekiem?
- Czy poziom zamoŜności wiąŜe się liczbą posiadanych kart kredytowych?
– Analiza związków przyczynowo-skutkowych
• Eksperymenty
Analiza danych w statystyce to co najmniej 3 róŜne rodzaje działalności
–
Redukcja danych
•
Poświęcamy niuanse i detale pojedynczych wypowiedzi,
ale za to widzimy ogólne zjawiska
-
Tabele
-
Statystyki opisowe
–
Wnioskowanie statystyczne
•
Sprawdzamy hipotezy mówiące o róŜnicach pomiędzy grupami
-
Czy męŜczyźni palą więcej niŜ kobiety?
-
Czy palacze piją więcej od niepalących?
•
Sprawdzamy hipotezy mówiące o zaleŜnościach między zmiennymi
-
Czy wydatki na sprzęt sportowy rosną, czy maleją wraz z wiekiem?
-
Czy poziom zamoŜności wiąŜe się liczbą posiadanych kart kredytowych?
–
Analiza związków przyczynowo-skutkowych
•
Eksperymenty
Fakt 4
Dane do analizy mają postać (czasem wielowymiarowej) tabeli,
zawierającej
– badane obiekty (najczęściej w wierszach)
– zmienne opisujące te obiekty (najczęściej w kolumnach)
Dane do analizy mają postać (czasem wielowymiarowej) tabeli,
zawierającej
–
badane obiekty (najczęściej w wierszach)
–
zmienne opisujące te obiekty (najczęściej w kolumnach)
Obiekt
Obiekt
–
Obiektem analizy statystycznej moŜe
być niemal wszystko: rzeczy, ludzie,
firmy, zdarzenia...
–
W badaniach rynkowych obiektami są
na ogół
ludzie
Zmienna
Zmienna
–
Zbiór cech badanych obiektów
-
ulubiony program telewizyjny
-
ocena smaku jogurtu
-
wiek
-
miejsce zamieszkania
Fakt 5
Zmienne uŜyte do opisu badanych obiektów mogą mieć bardzo róŜne
właściwości. W statystyce mówimy o róŜnych rodzajach skal
W kwestionariuszach stosowane są 4 podstawowe typy skal
KaŜdy typ skali ma inne właściwości; nie kaŜda skala dopuszcza
wszystkie operacje matematyczne
– Człowiek i pies mają średnio 3 nogi…
Zmienne uŜyte do opisu badanych obiektów mogą mieć bardzo róŜne
właściwości. W statystyce mówimy o róŜnych rodzajach skal
W kwestionariuszach stosowane są 4 podstawowe typy skal
KaŜdy typ skali ma inne właściwości; nie kaŜda skala dopuszcza
wszystkie operacje matematyczne
–
Człowiek i pies mają średnio 3 nogi…
Dla wygody wyniki pomiaru zapisujemy za pomocą liczb,
ale ta sama wartość moŜe oznaczać
za kaŜdym razem co innego!
Skala
Skala
–
Dostępny zakres wartości
•
Skale opisowe
•
Skale liczbowe
–
Marka kawy
1.
Jacobs
2.
Tchibo
3.
Pedros
4.
Astra
–
Opinie
1.
Zdecydowanie mi się podoba
2.
Raczej mi się podoba
3.
Raczej mi się nie podoba
4.
Zdecydowanie mi się nie
podoba
–
Rok
1.
Rok 1
2.
Rok 2
3.
Rok 3
4.
Rok 4
–
Cena
1.
1 PLN
2.
2 PLN
3.
3 PLN
4.
4 PLN
Nominalna
Nominalna
Porządkowa
Porządkowa
Interwałowa
Interwałowa
Ilorazowa
Ilorazowa
Cechy skal
Ilość (konieczne
jednostki!)
Częstość
RóŜnice: o ile
więcej/mniej?
(np. temperatura)
Ranking
(np. preferencje
wobec marek)
Jakościowe róŜnice
pomiędzy obiektami
(np. płeć respondenta)
O czym informuje
jest
nie ma
nie ma
nie ma
Zero absolutne
jest
jest
nie ma
nie ma
Jednakowy
odstęp
jest
jest
jest
nie ma
Kolejność
Ilorazowa
Interwałowa
Porządkowa
Nominalna
Skala
Cecha
Co wolno, a czego nie
tak
nie
nie
nie
Suma
tak
tak
nie
nie
Średnia
tak
tak
tak
nie
Mediana,
kwartyle,
centyle...
tak
tak
tak
tak
% wystąpień, w
tym wartość
modalna*
Ilorazowa
Interwałowa
Porządkowa
Nominalna
Skala
Co liczymy
• Przykład: jeśli wyciągasz średnie z ocen na skali porządkowej,
pamiętaj Ŝe stoi za tym załoŜenie o jednakowych odstępach.
• To nie musi być prawda!
Jak opisywać wyniki badania?
Czy zmienna jest
nominalna?
Czy waŜna jest
suma wartości?
%,
wartość modalna*
średnia
Czy rozkład
jest silnie
niesymetryczny?
mediana
średnia
TAK
TAK
TAK
NIE
NIE
NIE
*) wartość modalna to ta wartość zmiennej, której częstość
występowania w % jest największa. Na przykład w
sondaŜach wyborczych wartość modalna = partia, która ma
o najwyŜsze poparcie w %
Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a
ich wzrost przebiega osobliwie:
– gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu,
– następnie rosną skokami, za kaŜdym razem o 1 stopę.
Pewien przyrodnik pojechał do Nowej Zelandii
i znalazł w dŜungli 4 kiwi.
Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy.
Jakiego wzrostu są wszystkie 4 kiwi?
Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a
ich wzrost przebiega osobliwie:
–
gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu,
–
następnie rosną skokami, za kaŜdym razem o 1 stopę.
Pewien przyrodnik pojechał do Nowej Zelandii
i znalazł w dŜungli 4 kiwi.
Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy.
Jakiego wzrostu są wszystkie 4 kiwi?
Zagadka
Wskazówka: wzrost kaŜdego kiwi w stopach jest liczbą całkowitą
Fakt 6
Jedne zmienne są bardziej zmienne od drugich
Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale
opinie w jednej sprawie mogą być bardziej zróŜnicowane niŜ w innej
Jedne zmienne są bardziej zmienne od drugich
Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale
opinie w jednej sprawie mogą być bardziej zróŜnicowane niŜ w innej
Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych
Wariancja z próby dana jest wzorem
– s nazywamy odchyleniem standardowym
– duŜa wariancja oznacza, Ŝe wartości zmiennej mają duŜy rozrzut, a więc np.
opinie są zróŜnicowane
Dla słabszych skal miarą zmienności jest np.
– Dla zmiennych nominalnych miara zmienności odnosi się do modalnej
• Współczynnik zmienności V
R
= 1 - f
m
/n, gdzie f
m
– frekwencja dla wartości modalnej w
%, n – liczba moŜliwych wartości
– Dla zmiennych porządkowych - do zakresu wartości:
• Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q
3
– Q
1
• Współczynnik zmienności V
Q
=IQR/(Q
3
+Q
1
) *100%
Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych
Wariancja z próby dana jest wzorem
–
s nazywamy odchyleniem standardowym
–
duŜa wariancja oznacza, Ŝe wartości zmiennej mają duŜy rozrzut, a więc np.
opinie są zróŜnicowane
Dla słabszych skal miarą zmienności jest np.
–
Dla zmiennych nominalnych miara zmienności odnosi się do modalnej
•
Współczynnik zmienności V
R
= 1 - f
m
/n, gdzie f
m
– frekwencja dla wartości modalnej w
%, n – liczba moŜliwych wartości
–
Dla zmiennych porządkowych - do zakresu wartości:
•
Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q
3
– Q
1
•
Współczynnik zmienności V
Q
=IQR/(Q
3
+Q
1
) *100%
W statystyce mówimy o wariancji
s
2
=
Σ
(x
i
– x )
2
N - 1
_
Fakt 7
Dodatkowo, bardzo waŜną cechą skali jest jej rozkład.
O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o
rozkładzie moŜemy coś powiedzieć dopiero gdy znamy wyniki
Aby w ogóle mówić o statystyce, musimy zapewnić Ŝe nasze zmienne
są zmiennymi losowymi
– To dlatego losujemy osoby biorące udział w sondaŜach!
Dodatkowo, bardzo waŜną cechą skali jest jej rozkład.
O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o
rozkładzie moŜemy coś powiedzieć dopiero gdy znamy wyniki
Aby w ogóle mówić o statystyce, musimy zapewnić Ŝe nasze zmienne
są zmiennymi losowymi
–
To dlatego losujemy osoby biorące udział w sondaŜach!
Rozkład zmiennej to funkcja
Funkcja rozkładu mówi:
Funkcja rozkładu mówi:
• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości
• dla zmiennych dyskretnych - przyjmujących wartości
np. 1, 2, 3, 4
LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego
przedziału
• dla zmiennych ciągłych - np. o wartościach dodatnich
• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości
• dla zmiennych dyskretnych - przyjmujących wartości
np. 1, 2, 3, 4
LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego
przedziału
• dla zmiennych ciągłych - np. o wartościach dodatnich
Rozkład zmiennej losowej
Rozkład ciągły (kaŜda wartość jest moŜliwa)
Rozkład zmiennej przyjmującej 10 róŜnych wartości
0%
5%
10%
15%
20%
25%
1
2
3
4
5
6
7
8
9
10
Ocena reklamy
O
d
s
e
te
k
p
rz
y
p
a
d
k
ó
w
Zmienna
ciągła
Zmienna
dyskretna
Fakt 8
NajwaŜniejszy rozkład w statystyce to rozkład normalny
Wzór na funkcję rozkładu normalnego jest paskudny, ale wykres ma
charakterystyczny – naszym zdaniem piękny – kształt podobny do
dzwonu
NajwaŜniejszy rozkład w statystyce to rozkład normalny
Wzór na funkcję rozkładu normalnego jest paskudny, ale wykres ma
charakterystyczny – naszym zdaniem piękny – kształt podobny do
dzwonu
Rozkład normalny
Zaznaczony obszar jest
równy prawdopodobieństwu
P uzyskania przy losowaniu
wartości x lub mniejszej
µµµµ
= średnia
σσσσ
2
= wariancja
µµµµ
= średnia
σσσσ
2
= wariancja
• Standardowy rozkład normalny (na rysunku) ma
średnią równą 0 i wariancję 1
Przykłady
RóŜne wartości
µµµµ
i
σσσσ
RóŜne wartości
µµµµ
i
σσσσ
Standardowy rozkład normalny
• Jeśli X to początkowe wartości zmiennej, to wzór na Z
daje wartości zestandaryzowane. W wielu wypadkach
przed jakąkolwiek dalszą analizą procedura wymaga
standaryzacji zmiennych – właśnie wg tego wzoru
Fakt 9
Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo róŜne
kształty
Aby móc jakoś je porównywać, wprowadzono odpowiednie miary
Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo róŜne
kształty
Aby móc jakoś je porównywać, wprowadzono odpowiednie miary
Czym się róŜnią rozkłady zmiennych?
Wariancja
Wariancja
Miejsce skupienia
Miejsce skupienia
Skośność
Skośność
Symetria
Wartości występujące najczęściej
Zakres wartości
Fakt 10
NaleŜy rozróŜnić między rozkładem teoretycznym i rozkładem
otrzymywanym w konkretnym eksperymencie
Przy bardzo duŜej ilości losowań otrzymywany rozkład zbliŜa się do
teoretycznego
Podane dalej przykłady pochodzą z eksperymentów wykonanych na
komputerze
NaleŜy rozróŜnić między rozkładem teoretycznym i rozkładem
otrzymywanym w konkretnym eksperymencie
Przy bardzo duŜej ilości losowań otrzymywany rozkład zbliŜa się do
teoretycznego
Podane dalej przykłady pochodzą z eksperymentów wykonanych na
komputerze
Rozkład jednorodny
0%
2%
4%
6%
8%
10%
12%
14%
16%
1
2
3
4
5
6
7
8
9
10
Wynik losowania
O
d
s
e
te
k
p
rz
y
p
a
d
k
ó
w
N=50
•
Prawa statystyki nie zawsze idą w parze z intuicją!
Rozkład
teoretyczny
Rozkład w
losowaniu
losowanie jednej z 10 identycznych,
ponumerowanych kul
losowanie jednej z 10 identycznych,
ponumerowanych kul
0%
2%
4%
6%
8%
10%
12%
14%
16%
1
2
3
4
5
6
7
8
9
10
Wynik losowania
O
d
s
e
te
k
p
rz
y
p
a
d
k
ó
w
N=10 000
•
DuŜa próba umoŜliwia dokładniejsze przybliŜenie
Rozkład jednorodny:
Rozkład
teoretyczny
Rozkład w
losowaniu
losowanie jednej z 10 identycznych,
ponumerowanych kul
losowanie jednej z 10 identycznych,
ponumerowanych kul
Jeszcze jeden waŜny rozkład
df=N-1
Liczba „stopni swobody”
df=N-1
Liczba „stopni swobody”
• Rozkład t Studenta jest podobny do normalnego,
a dla prób N>100 praktycznie przechodzi w rozkład normalny
• Stosowany przy małych próbach
µµµµ
= średnia
σσσσ
2
= wariancja
µµµµ
= średnia
σσσσ
2
= wariancja
Rozkład t Studenta