Metody statystyczne
dla opornych cz. 1
Podstawowe pojęcia
Inquiry, 2007
Fakt 1
Analiza statystyczna to nie to samo, co wróżenie ze szklanej kuli
Analiza statystyczna to nie to samo, co wróżenie ze szklanej kuli
Analiza
statystyczna
Analiza
statystyczna
–
Zbieranie, przetwarzanie i interpretacja
danych według
dobrze określonej
procedury
≠≠≠≠
Fakt 2
Procedury zbierania i analizy danych są opracowane tak, by wynik
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów
nigdy nie mamy pełnego obrazu
Procedury zbierania i analizy danych są opracowane tak, by wynik
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów
nigdy nie mamy pełnego obrazu
Interpretacja
danych
Interpretacja
danych
Jesteśmy jednak optymistami
Zbieranie danych
Zbieranie danych
Przetwarzanie
danych
Przetwarzanie
danych
Rzeczywistość
Wyniki analizy
• Mamy nadzieję, że nasz opis, czyli wyniki analizy,
mają coś wspólnego z rzeczywistością!
Fakt 3
Analiza danych w statystyce to co najmniej 3 różne rodzaje działalności
– Redukcja danych
• Poświęcamy niuanse i detale pojedynczych wypowiedzi,
ale za to widzimy ogólne zjawiska
- Tabele
- Statystyki opisowe
– Wnioskowanie statystyczne
• Sprawdzamy hipotezy mówiące o różnicach pomiędzy grupami
- Czy mężczyźni palą więcej niż kobiety?
- Czy palacze piją więcej od niepalących?
• Sprawdzamy hipotezy mówiące o zależnościach między zmiennymi
- Czy wydatki na sprzęt sportowy rosną, czy maleją wraz z wiekiem?
- Czy poziom zamożności wiąże się liczbą posiadanych kart kredytowych?
– Analiza związków przyczynowo-skutkowych
• Eksperymenty
Analiza danych w statystyce to co najmniej 3 różne rodzaje działalności
–
Redukcja danych
•
Poświęcamy niuanse i detale pojedynczych wypowiedzi,
ale za to widzimy ogólne zjawiska
-
Tabele
-
Statystyki opisowe
–
Wnioskowanie statystyczne
•
Sprawdzamy hipotezy mówiące o różnicach pomiędzy grupami
-
Czy mężczyźni palą więcej niż kobiety?
-
Czy palacze piją więcej od niepalących?
•
Sprawdzamy hipotezy mówiące o zależnościach między zmiennymi
-
Czy wydatki na sprzęt sportowy rosną, czy maleją wraz z wiekiem?
-
Czy poziom zamożności wiąże się liczbą posiadanych kart kredytowych?
–
Analiza związków przyczynowo-skutkowych
•
Eksperymenty
Fakt 4
Dane do analizy mają postać (czasem wielowymiarowej) tabeli,
zawierającej
– badane obiekty (najczęściej w wierszach)
– zmienne opisujące te obiekty (najczęściej w kolumnach)
Dane do analizy mają postać (czasem wielowymiarowej) tabeli,
zawierającej
–
badane obiekty (najczęściej w wierszach)
–
zmienne opisujące te obiekty (najczęściej w kolumnach)
Obiekt
Obiekt
–
Obiektem analizy statystycznej może
być niemal wszystko: rzeczy, ludzie,
firmy, zdarzenia...
–
W badaniach rynkowych obiektami są
na ogół
ludzie
Zmienna
Zmienna
–
Zbiór cech badanych obiektów
-
ulubiony program telewizyjny
-
ocena smaku jogurtu
-
wiek
-
miejsce zamieszkania
Fakt 5
Zmienne użyte do opisu badanych obiektów mogą mieć bardzo różne
właściwości. W statystyce mówimy o różnych rodzajach skal
W kwestionariuszach stosowane są 4 podstawowe typy skal
Każdy typ skali ma inne właściwości; nie każda skala dopuszcza
wszystkie operacje matematyczne
– Człowiek i pies mają średnio 3 nogi…
Zmienne użyte do opisu badanych obiektów mogą mieć bardzo różne
właściwości. W statystyce mówimy o różnych rodzajach skal
W kwestionariuszach stosowane są 4 podstawowe typy skal
Każdy typ skali ma inne właściwości; nie każda skala dopuszcza
wszystkie operacje matematyczne
–
Człowiek i pies mają średnio 3 nogi…
Dla wygody wyniki pomiaru zapisujemy za pomocą liczb,
ale ta sama wartość może oznaczać
za każdym razem co innego!
Skala
Skala
–
Dostępny zakres wartości
•
Skale opisowe
•
Skale liczbowe
–
Marka kawy
1.
Jacobs
2.
Tchibo
3.
Pedros
4.
Astra
–
Opinie
1.
Zdecydowanie mi się podoba
2.
Raczej mi się podoba
3.
Raczej mi się nie podoba
4.
Zdecydowanie mi się nie
podoba
–
Rok
1.
Rok 1
2.
Rok 2
3.
Rok 3
4.
Rok 4
–
Cena
1.
1 PLN
2.
2 PLN
3.
3 PLN
4.
4 PLN
Nominalna
Nominalna
Porządkowa
Porządkowa
Interwałowa
Interwałowa
Ilorazowa
Ilorazowa
Cechy skal
Ilość (konieczne
jednostki!)
Częstość
Różnice: o ile
więcej/mniej?
(np. temperatura)
Ranking
(np. preferencje
wobec marek)
Jakościowe różnice
pomiędzy obiektami
(np. płeć respondenta)
O czym informuje
jest
nie ma
nie ma
nie ma
Zero absolutne
jest
jest
nie ma
nie ma
Jednakowy
odstęp
jest
jest
jest
nie ma
Kolejność
Ilorazowa
Interwałowa
Porządkowa
Nominalna
Skala
Cecha
Co wolno, a czego nie
tak
nie
nie
nie
Suma
tak
tak
nie
nie
Średnia
tak
tak
tak
nie
Mediana,
kwartyle,
centyle...
tak
tak
tak
tak
% wystąpień, w
tym wartość
modalna*
Ilorazowa
Interwałowa
Porządkowa
Nominalna
Skala
Co liczymy
• Przykład: jeśli wyciągasz średnie z ocen na skali porządkowej,
pamiętaj że stoi za tym założenie o jednakowych odstępach.
• To nie musi być prawda!
Jak opisywać wyniki badania?
Czy zmienna jest
nominalna?
Czy ważna jest
suma wartości?
%,
wartość modalna*
średnia
Czy rozkład
jest silnie
niesymetryczny?
mediana
średnia
TAK
TAK
TAK
NIE
NIE
NIE
*) wartość modalna to ta wartość zmiennej, której częstość
występowania w % jest największa. Na przykład w
sondażach wyborczych wartość modalna = partia, która ma
o najwyższe poparcie w %
Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a
ich wzrost przebiega osobliwie:
– gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu,
– następnie rosną skokami, za każdym razem o 1 stopę.
Pewien przyrodnik pojechał do Nowej Zelandii
i znalazł w dżungli 4 kiwi.
Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy.
Jakiego wzrostu są wszystkie 4 kiwi?
Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a
ich wzrost przebiega osobliwie:
–
gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu,
–
następnie rosną skokami, za każdym razem o 1 stopę.
Pewien przyrodnik pojechał do Nowej Zelandii
i znalazł w dżungli 4 kiwi.
Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy.
Jakiego wzrostu są wszystkie 4 kiwi?
Zagadka
Wskazówka: wzrost każdego kiwi w stopach jest liczbą całkowitą
Fakt 6
Jedne zmienne są bardziej zmienne od drugich
Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale
opinie w jednej sprawie mogą być bardziej zróżnicowane niż w innej
Jedne zmienne są bardziej zmienne od drugich
Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale
opinie w jednej sprawie mogą być bardziej zróżnicowane niż w innej
Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych
Wariancja z próby dana jest wzorem
– s nazywamy odchyleniem standardowym
– duża wariancja oznacza, że wartości zmiennej mają duży rozrzut, a więc np.
opinie są zróżnicowane
Dla słabszych skal miarą zmienności jest np.
– Dla zmiennych nominalnych miara zmienności odnosi się do modalnej
• Współczynnik zmienności V
R
= 1 - f
m
/n, gdzie f
m
– frekwencja dla wartości modalnej w
%, n – liczba możliwych wartości
– Dla zmiennych porządkowych - do zakresu wartości:
• Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q
3
– Q
1
• Współczynnik zmienności V
Q
=IQR/(Q
3
+Q
1
) *100%
Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych
Wariancja z próby dana jest wzorem
–
s nazywamy odchyleniem standardowym
–
duża wariancja oznacza, że wartości zmiennej mają duży rozrzut, a więc np.
opinie są zróżnicowane
Dla słabszych skal miarą zmienności jest np.
–
Dla zmiennych nominalnych miara zmienności odnosi się do modalnej
•
Współczynnik zmienności V
R
= 1 - f
m
/n, gdzie f
m
– frekwencja dla wartości modalnej w
%, n – liczba możliwych wartości
–
Dla zmiennych porządkowych - do zakresu wartości:
•
Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q
3
– Q
1
•
Współczynnik zmienności V
Q
=IQR/(Q
3
+Q
1
) *100%
W statystyce mówimy o wariancji
s
2
=
Σ
(x
i
– x )
2
N - 1
_
Fakt 7
Dodatkowo, bardzo ważną cechą skali jest jej rozkład.
O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o
rozkładzie możemy coś powiedzieć dopiero gdy znamy wyniki
Aby w ogóle mówić o statystyce, musimy zapewnić że nasze zmienne
są zmiennymi losowymi
– To dlatego losujemy osoby biorące udział w sondażach!
Dodatkowo, bardzo ważną cechą skali jest jej rozkład.
O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o
rozkładzie możemy coś powiedzieć dopiero gdy znamy wyniki
Aby w ogóle mówić o statystyce, musimy zapewnić że nasze zmienne
są zmiennymi losowymi
–
To dlatego losujemy osoby biorące udział w sondażach!
Rozkład zmiennej to funkcja
Funkcja rozkładu mówi:
Funkcja rozkładu mówi:
• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości
• dla zmiennych dyskretnych - przyjmujących wartości
np. 1, 2, 3, 4
LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego
przedziału
• dla zmiennych ciągłych - np. o wartościach dodatnich
• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości
• dla zmiennych dyskretnych - przyjmujących wartości
np. 1, 2, 3, 4
LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego
przedziału
• dla zmiennych ciągłych - np. o wartościach dodatnich
Rozkład zmiennej losowej
Rozkład ciągły (każda wartość jest możliwa)
Rozkład zmiennej przyjmującej 10 różnych wartości
0%
5%
10%
15%
20%
25%
1
2
3
4
5
6
7
8
9
10
Ocena reklamy
O
d
s
e
te
k
p
rz
y
p
a
d
k
ó
w
Zmienna
ciągła
Zmienna
dyskretna
Fakt 8
Najważniejszy rozkład w statystyce to rozkład normalny
Wzór na funkcję rozkładu normalnego jest paskudny, ale wykres ma
charakterystyczny – naszym zdaniem piękny – kształt podobny do
dzwonu
Najważniejszy rozkład w statystyce to rozkład normalny
Wzór na funkcję rozkładu normalnego jest paskudny, ale wykres ma
charakterystyczny – naszym zdaniem piękny – kształt podobny do
dzwonu
Rozkład normalny
Zaznaczony obszar jest
równy prawdopodobieństwu
P uzyskania przy losowaniu
wartości x lub mniejszej
µµµµ
= średnia
σσσσ
2
= wariancja
µµµµ
= średnia
σσσσ
2
= wariancja
• Standardowy rozkład normalny (na rysunku) ma
średnią równą 0 i wariancję 1
Przykłady
Różne wartości
µµµµ
i
σσσσ
Różne wartości
µµµµ
i
σσσσ
Standardowy rozkład normalny
• Jeśli X to początkowe wartości zmiennej, to wzór na Z
daje wartości zestandaryzowane. W wielu wypadkach
przed jakąkolwiek dalszą analizą procedura wymaga
standaryzacji zmiennych – właśnie wg tego wzoru
Fakt 9
Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo różne
kształty
Aby móc jakoś je porównywać, wprowadzono odpowiednie miary
Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo różne
kształty
Aby móc jakoś je porównywać, wprowadzono odpowiednie miary
Czym się różnią rozkłady zmiennych?
Wariancja
Wariancja
Miejsce skupienia
Miejsce skupienia
Skośność
Skośność
Symetria
Wartości występujące najczęściej
Zakres wartości
Fakt 10
Należy rozróżnić między rozkładem teoretycznym i rozkładem
otrzymywanym w konkretnym eksperymencie
Przy bardzo dużej ilości losowań otrzymywany rozkład zbliża się do
teoretycznego
Podane dalej przykłady pochodzą z eksperymentów wykonanych na
komputerze
Należy rozróżnić między rozkładem teoretycznym i rozkładem
otrzymywanym w konkretnym eksperymencie
Przy bardzo dużej ilości losowań otrzymywany rozkład zbliża się do
teoretycznego
Podane dalej przykłady pochodzą z eksperymentów wykonanych na
komputerze
Rozkład jednorodny
0%
2%
4%
6%
8%
10%
12%
14%
16%
1
2
3
4
5
6
7
8
9
10
Wynik losowania
O
d
s
e
te
k
p
rz
y
p
a
d
k
ó
w
N=50
•
Prawa statystyki nie zawsze idą w parze z intuicją!
Rozkład
teoretyczny
Rozkład w
losowaniu
losowanie jednej z 10 identycznych,
ponumerowanych kul
losowanie jednej z 10 identycznych,
ponumerowanych kul
0%
2%
4%
6%
8%
10%
12%
14%
16%
1
2
3
4
5
6
7
8
9
10
Wynik losowania
O
d
s
e
te
k
p
rz
y
p
a
d
k
ó
w
N=10 000
•
Duża próba umożliwia dokładniejsze przybliżenie
Rozkład jednorodny:
Rozkład
teoretyczny
Rozkład w
losowaniu
losowanie jednej z 10 identycznych,
ponumerowanych kul
losowanie jednej z 10 identycznych,
ponumerowanych kul
Jeszcze jeden ważny rozkład
df=N-1
Liczba „stopni swobody”
df=N-1
Liczba „stopni swobody”
• Rozkład t Studenta jest podobny do normalnego,
a dla prób N>100 praktycznie przechodzi w rozkład normalny
• Stosowany przy małych próbach
µµµµ
= średnia
σσσσ
2
= wariancja
µµµµ
= średnia
σσσσ
2
= wariancja
Rozkład t Studenta