background image

Metody statystyczne 

dla opornych cz. 1

Podstawowe pojęcia 

Inquiry, 2007

background image

Fakt 1



Analiza statystyczna to nie to samo, co wróŜenie ze szklanej kuli



Analiza statystyczna to nie to samo, co wróŜenie ze szklanej kuli

background image

Analiza 

statystyczna

Analiza 

statystyczna

Zbieranie, przetwarzanie i interpretacja 
danych według 

dobrze określonej 

procedury

≠≠≠≠

background image

Fakt 2



Procedury zbierania i  analizy danych są opracowane tak, by wynik 
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów 
nigdy nie mamy pełnego obrazu



Procedury zbierania i  analizy danych są opracowane tak, by wynik 
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów 
nigdy nie mamy pełnego obrazu

background image

Interpretacja 

danych

Interpretacja 

danych

Jesteśmy jednak optymistami

Zbieranie  danych

Zbieranie  danych

Przetwarzanie  

danych

Przetwarzanie  

danych

Rzeczywistość

Wyniki analizy

• Mamy nadzieję, Ŝe nasz opis, czyli wyniki analizy, 

mają coś wspólnego z rzeczywistością!

background image

Fakt 3 



Analiza danych w statystyce to co najmniej 3 róŜne rodzaje działalności

– Redukcja danych

• Poświęcamy niuanse i detale pojedynczych wypowiedzi, 

ale za to widzimy ogólne zjawiska

- Tabele
- Statystyki opisowe

– Wnioskowanie statystyczne

• Sprawdzamy hipotezy mówiące o róŜnicach pomiędzy grupami

- Czy męŜczyźni palą więcej niŜ kobiety?
- Czy palacze piją więcej od niepalących?

• Sprawdzamy hipotezy mówiące o zaleŜnościach między zmiennymi

- Czy wydatki  na sprzęt sportowy rosną, czy maleją wraz z wiekiem?
- Czy poziom zamoŜności  wiąŜe się liczbą posiadanych kart kredytowych?

– Analiza związków przyczynowo-skutkowych

• Eksperymenty



Analiza danych w statystyce to co najmniej 3 róŜne rodzaje działalności

Redukcja danych

Poświęcamy niuanse i detale pojedynczych wypowiedzi, 
ale za to widzimy ogólne zjawiska

-

Tabele

-

Statystyki opisowe

Wnioskowanie statystyczne

Sprawdzamy hipotezy mówiące o róŜnicach pomiędzy grupami

-

Czy męŜczyźni palą więcej niŜ kobiety?

-

Czy palacze piją więcej od niepalących?

Sprawdzamy hipotezy mówiące o zaleŜnościach między zmiennymi

-

Czy wydatki  na sprzęt sportowy rosną, czy maleją wraz z wiekiem?

-

Czy poziom zamoŜności  wiąŜe się liczbą posiadanych kart kredytowych?

Analiza związków przyczynowo-skutkowych

Eksperymenty

background image

Fakt 4



Dane do analizy mają postać (czasem wielowymiarowej) tabeli, 
zawierającej

– badane obiekty (najczęściej w wierszach)

– zmienne opisujące te obiekty (najczęściej w kolumnach)



Dane do analizy mają postać (czasem wielowymiarowej) tabeli, 
zawierającej

badane obiekty (najczęściej w wierszach)

zmienne opisujące te obiekty (najczęściej w kolumnach)

background image

Obiekt

Obiekt

Obiektem analizy statystycznej moŜe 
być niemal wszystko: rzeczy, ludzie, 
firmy, zdarzenia...

W badaniach rynkowych obiektami są
na ogół

ludzie

Zmienna

Zmienna

Zbiór cech badanych obiektów

-

ulubiony program telewizyjny

-

ocena smaku jogurtu

-

wiek

-

miejsce zamieszkania

background image

Fakt 5 



Zmienne uŜyte do opisu badanych obiektów mogą mieć bardzo róŜne 
właściwości. W statystyce mówimy o róŜnych rodzajach skal 



W kwestionariuszach stosowane są 4 podstawowe typy skal 



KaŜdy typ skali ma inne właściwości; nie kaŜda skala dopuszcza 
wszystkie operacje matematyczne

– Człowiek i pies mają średnio 3 nogi…



Zmienne uŜyte do opisu badanych obiektów mogą mieć bardzo róŜne 
właściwości. W statystyce mówimy o róŜnych rodzajach skal 



W kwestionariuszach stosowane są 4 podstawowe typy skal 



KaŜdy typ skali ma inne właściwości; nie kaŜda skala dopuszcza 
wszystkie operacje matematyczne

Człowiek i pies mają średnio 3 nogi…

background image

Dla wygody wyniki pomiaru zapisujemy za pomocą liczb,

ale ta sama wartość moŜe oznaczać

za kaŜdym razem co innego!

Skala

Skala

Dostępny zakres wartości

Skale opisowe 

Skale liczbowe

Marka kawy

1.

Jacobs

2.

Tchibo

3.

Pedros

4.

Astra

Opinie

1.

Zdecydowanie mi się podoba

2.

Raczej mi się podoba

3.

Raczej mi się nie podoba

4.

Zdecydowanie mi się nie 
podoba

Rok

1.

Rok 1 

2.

Rok 2

3.

Rok 3 

4.

Rok 4 

Cena 

1.

1 PLN

2.

2 PLN

3.

3 PLN 

4.

4 PLN

Nominalna

Nominalna

Porządkowa

Porządkowa

Interwałowa

Interwałowa

Ilorazowa

Ilorazowa

background image

Cechy skal

Ilość (konieczne 

jednostki!)

Częstość

RóŜnice: o  ile 

więcej/mniej?

(np. temperatura)

Ranking

(np. preferencje

wobec marek)

Jakościowe róŜnice 

pomiędzy obiektami

(np. płeć respondenta)

O czym informuje

jest

nie ma

nie ma

nie ma

Zero absolutne

jest

jest

nie ma

nie ma

Jednakowy 

odstęp

jest

jest

jest

nie ma

Kolejność

Ilorazowa

Interwałowa

Porządkowa

Nominalna

Skala

Cecha

background image

Co wolno, a czego nie

tak

nie

nie

nie

Suma

tak

tak

nie

nie

Średnia

tak

tak

tak

nie

Mediana,

kwartyle, 

centyle...

tak

tak

tak

tak

% wystąpień, w 

tym wartość

modalna*

Ilorazowa

Interwałowa

Porządkowa

Nominalna

Skala

Co liczymy

• Przykład: jeśli wyciągasz średnie z ocen na skali porządkowej, 

pamiętaj Ŝe stoi za tym załoŜenie o jednakowych odstępach.

• To nie musi być prawda!

background image

Jak opisywać wyniki badania?

Czy zmienna jest 

nominalna?

Czy waŜna jest 

suma wartości?

%, 

wartość modalna*

średnia

Czy rozkład 

jest  silnie 

niesymetryczny?

mediana

średnia

TAK

TAK

TAK

NIE

NIE

NIE

*) wartość modalna to ta wartość zmiennej, której częstość
występowania w % jest największa.  Na przykład w 
sondaŜach wyborczych wartość modalna = partia, która ma 
o najwyŜsze  poparcie w %

background image



Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a 
ich wzrost przebiega osobliwie: 

– gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu, 

– następnie rosną skokami, za kaŜdym razem o 1 stopę. 



Pewien przyrodnik pojechał do Nowej Zelandii 
i znalazł w dŜungli 4 kiwi.



Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy. 



Jakiego wzrostu są wszystkie 4  kiwi?



Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a 
ich wzrost przebiega osobliwie: 

gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu, 

następnie rosną skokami, za kaŜdym razem o 1 stopę. 



Pewien przyrodnik pojechał do Nowej Zelandii 
i znalazł w dŜungli 4 kiwi.



Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy. 



Jakiego wzrostu są wszystkie 4  kiwi?

Zagadka

Wskazówka: wzrost kaŜdego kiwi w stopach jest liczbą całkowitą

background image

Fakt 6



Jedne zmienne są bardziej zmienne od drugich



Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale 
opinie w jednej sprawie mogą być bardziej zróŜnicowane niŜ w innej



Jedne zmienne są bardziej zmienne od drugich



Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale 
opinie w jednej sprawie mogą być bardziej zróŜnicowane niŜ w innej

background image



Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych



Wariancja z próby dana jest wzorem

– s nazywamy odchyleniem standardowym

– duŜa wariancja oznacza, Ŝe wartości zmiennej mają duŜy rozrzut, a więc np. 

opinie są zróŜnicowane



Dla słabszych skal miarą zmienności jest np.

– Dla zmiennych nominalnych miara zmienności odnosi się do modalnej 

• Współczynnik zmienności V

R

= 1 - f

m

/n, gdzie f

m

– frekwencja dla wartości modalnej w 

%, n – liczba moŜliwych wartości

– Dla zmiennych porządkowych - do zakresu wartości: 

• Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q

3

– Q

1

• Współczynnik zmienności V

Q

=IQR/(Q

3

+Q

1

) *100%



Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych



Wariancja z próby dana jest wzorem

s nazywamy odchyleniem standardowym

duŜa wariancja oznacza, Ŝe wartości zmiennej mają duŜy rozrzut, a więc np. 
opinie są zróŜnicowane



Dla słabszych skal miarą zmienności jest np.

Dla zmiennych nominalnych miara zmienności odnosi się do modalnej 

Współczynnik zmienności V

R

= 1 - f

m

/n, gdzie f

m

– frekwencja dla wartości modalnej w 

%, n – liczba moŜliwych wartości

Dla zmiennych porządkowych - do zakresu wartości: 

Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q

3

– Q

1

Współczynnik zmienności V

Q

=IQR/(Q

3

+Q

1

) *100%

W statystyce mówimy o wariancji 

s

2

=

Σ

(x

i

– x )

2

N - 1

_

background image

Fakt 7



Dodatkowo, bardzo waŜną cechą skali jest jej rozkład.



O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o 
rozkładzie moŜemy coś powiedzieć dopiero gdy znamy wyniki



Aby w ogóle mówić o statystyce, musimy zapewnić Ŝe nasze zmienne 
są zmiennymi losowymi 

– To dlatego losujemy osoby biorące udział w sondaŜach!



Dodatkowo, bardzo waŜną cechą skali jest jej rozkład.



O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o 
rozkładzie moŜemy coś powiedzieć dopiero gdy znamy wyniki



Aby w ogóle mówić o statystyce, musimy zapewnić Ŝe nasze zmienne 
są zmiennymi losowymi 

To dlatego losujemy osoby biorące udział w sondaŜach!

background image

Rozkład zmiennej to funkcja



Funkcja rozkładu mówi:



Funkcja rozkładu mówi:

• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości

• dla zmiennych dyskretnych  - przyjmujących wartości

np. 1, 2, 3, 4

LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego 

przedziału 

• dla zmiennych ciągłych  - np. o wartościach dodatnich

• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości

• dla zmiennych dyskretnych  - przyjmujących wartości

np. 1, 2, 3, 4

LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego 

przedziału 

• dla zmiennych ciągłych  - np. o wartościach dodatnich

background image

Rozkład zmiennej losowej

Rozkład ciągły (kaŜda wartość jest moŜliwa) 

Rozkład zmiennej przyjmującej 10 róŜnych wartości

0%

5%

10%

15%

20%

25%

1

2

3

4

5

6

7

8

9

10

Ocena reklamy

O

d

s

e

te

k

 p

rz

y

p

a

d

k

ó

w

Zmienna 

ciągła

Zmienna 

dyskretna

background image

Fakt 8



NajwaŜniejszy rozkład w statystyce to rozkład normalny



Wzór na funkcję rozkładu normalnego jest paskudny, ale  wykres ma 
charakterystyczny – naszym zdaniem piękny – kształt podobny do 
dzwonu



NajwaŜniejszy rozkład w statystyce to rozkład normalny



Wzór na funkcję rozkładu normalnego jest paskudny, ale  wykres ma 
charakterystyczny – naszym zdaniem piękny – kształt podobny do 
dzwonu

background image

Rozkład normalny

Zaznaczony obszar jest 

równy prawdopodobieństwu 

P uzyskania przy losowaniu 

wartości x lub mniejszej

µµµµ

= średnia

σσσσ

= wariancja

µµµµ

= średnia

σσσσ

= wariancja

• Standardowy rozkład normalny (na rysunku) ma 

średnią równą 0 i wariancję 1

background image

Przykłady

RóŜne wartości 

µµµµ

σσσσ

RóŜne wartości 

µµµµ

σσσσ

background image

Standardowy rozkład normalny

• Jeśli X to początkowe wartości zmiennej, to wzór na Z 

daje wartości zestandaryzowane. W wielu wypadkach 
przed jakąkolwiek dalszą analizą procedura wymaga 
standaryzacji zmiennych – właśnie wg tego wzoru

background image

Fakt 9



Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo róŜne 
kształty



Aby móc jakoś je porównywać, wprowadzono odpowiednie miary



Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo róŜne 
kształty



Aby móc jakoś je porównywać, wprowadzono odpowiednie miary

background image

Czym się róŜnią rozkłady zmiennych?

Wariancja

Wariancja

Miejsce skupienia

Miejsce skupienia

Skośność

Skośność

Symetria

Wartości występujące najczęściej

Zakres wartości

background image

Fakt 10



NaleŜy rozróŜnić między rozkładem teoretycznym i rozkładem 
otrzymywanym w konkretnym eksperymencie



Przy bardzo duŜej ilości losowań otrzymywany rozkład zbliŜa się do 
teoretycznego



Podane dalej przykłady pochodzą z eksperymentów wykonanych na 
komputerze



NaleŜy rozróŜnić między rozkładem teoretycznym i rozkładem 
otrzymywanym w konkretnym eksperymencie



Przy bardzo duŜej ilości losowań otrzymywany rozkład zbliŜa się do 
teoretycznego



Podane dalej przykłady pochodzą z eksperymentów wykonanych na 
komputerze

background image

Rozkład jednorodny 

0%

2%

4%

6%

8%

10%

12%

14%

16%

1

2

3

4

5

6

7

8

9

10

Wynik losowania

O

d

s

e

te

k

 p

rz

y

p

a

d

k

ó

w

N=50

Prawa statystyki nie zawsze idą w parze z intuicją!

Rozkład 

teoretyczny

Rozkład w 
losowaniu

losowanie jednej z 10 identycznych, 

ponumerowanych kul

losowanie jednej z 10 identycznych, 

ponumerowanych kul

background image

0%

2%

4%

6%

8%

10%

12%

14%

16%

1

2

3

4

5

6

7

8

9

10

Wynik losowania

O

d

s

e

te

k

 p

rz

y

p

a

d

k

ó

w

N=10 000

DuŜa próba umoŜliwia dokładniejsze przybliŜenie

Rozkład jednorodny: 

Rozkład 

teoretyczny

Rozkład w 
losowaniu

losowanie jednej z 10 identycznych, 

ponumerowanych kul

losowanie jednej z 10 identycznych, 

ponumerowanych kul

background image

Jeszcze jeden waŜny rozkład

df=N-1

Liczba „stopni swobody”

df=N-1

Liczba „stopni swobody”

• Rozkład t Studenta jest podobny do normalnego, 

a dla prób N>100 praktycznie przechodzi w rozkład normalny

• Stosowany przy małych próbach

µµµµ

= średnia

σσσσ

= wariancja

µµµµ

= średnia

σσσσ

= wariancja

Rozkład t Studenta