Metody statystyczne dla opornych cz 1

background image

Metody statystyczne

dla opornych cz. 1

Podstawowe pojęcia

Inquiry, 2007

background image

Fakt 1



Analiza statystyczna to nie to samo, co wróżenie ze szklanej kuli



Analiza statystyczna to nie to samo, co wróżenie ze szklanej kuli

background image

Analiza

statystyczna

Analiza

statystyczna

Zbieranie, przetwarzanie i interpretacja
danych według

dobrze określonej

procedury

≠≠≠≠

background image

Fakt 2



Procedury zbierania i analizy danych są opracowane tak, by wynik
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów
nigdy nie mamy pełnego obrazu



Procedury zbierania i analizy danych są opracowane tak, by wynik
analiz miał jakiś związek z rzeczywistością. Ale z wielu powodów
nigdy nie mamy pełnego obrazu

background image

Interpretacja

danych

Interpretacja

danych

Jesteśmy jednak optymistami

Zbieranie danych

Zbieranie danych

Przetwarzanie

danych

Przetwarzanie

danych

Rzeczywistość

Wyniki analizy

• Mamy nadzieję, że nasz opis, czyli wyniki analizy,

mają coś wspólnego z rzeczywistością!

background image

Fakt 3



Analiza danych w statystyce to co najmniej 3 różne rodzaje działalności

– Redukcja danych

• Poświęcamy niuanse i detale pojedynczych wypowiedzi,

ale za to widzimy ogólne zjawiska

- Tabele
- Statystyki opisowe

– Wnioskowanie statystyczne

• Sprawdzamy hipotezy mówiące o różnicach pomiędzy grupami

- Czy mężczyźni palą więcej niż kobiety?
- Czy palacze piją więcej od niepalących?

• Sprawdzamy hipotezy mówiące o zależnościach między zmiennymi

- Czy wydatki na sprzęt sportowy rosną, czy maleją wraz z wiekiem?
- Czy poziom zamożności wiąże się liczbą posiadanych kart kredytowych?

– Analiza związków przyczynowo-skutkowych

• Eksperymenty



Analiza danych w statystyce to co najmniej 3 różne rodzaje działalności

Redukcja danych

Poświęcamy niuanse i detale pojedynczych wypowiedzi,
ale za to widzimy ogólne zjawiska

-

Tabele

-

Statystyki opisowe

Wnioskowanie statystyczne

Sprawdzamy hipotezy mówiące o różnicach pomiędzy grupami

-

Czy mężczyźni palą więcej niż kobiety?

-

Czy palacze piją więcej od niepalących?

Sprawdzamy hipotezy mówiące o zależnościach między zmiennymi

-

Czy wydatki na sprzęt sportowy rosną, czy maleją wraz z wiekiem?

-

Czy poziom zamożności wiąże się liczbą posiadanych kart kredytowych?

Analiza związków przyczynowo-skutkowych

Eksperymenty

background image

Fakt 4



Dane do analizy mają postać (czasem wielowymiarowej) tabeli,
zawierającej

– badane obiekty (najczęściej w wierszach)

– zmienne opisujące te obiekty (najczęściej w kolumnach)



Dane do analizy mają postać (czasem wielowymiarowej) tabeli,
zawierającej

badane obiekty (najczęściej w wierszach)

zmienne opisujące te obiekty (najczęściej w kolumnach)

background image

Obiekt

Obiekt

Obiektem analizy statystycznej może
być niemal wszystko: rzeczy, ludzie,
firmy, zdarzenia...

W badaniach rynkowych obiektami są
na ogół

ludzie

Zmienna

Zmienna

Zbiór cech badanych obiektów

-

ulubiony program telewizyjny

-

ocena smaku jogurtu

-

wiek

-

miejsce zamieszkania

background image

Fakt 5



Zmienne użyte do opisu badanych obiektów mogą mieć bardzo różne
właściwości. W statystyce mówimy o różnych rodzajach skal



W kwestionariuszach stosowane są 4 podstawowe typy skal



Każdy typ skali ma inne właściwości; nie każda skala dopuszcza
wszystkie operacje matematyczne

– Człowiek i pies mają średnio 3 nogi…



Zmienne użyte do opisu badanych obiektów mogą mieć bardzo różne
właściwości. W statystyce mówimy o różnych rodzajach skal



W kwestionariuszach stosowane są 4 podstawowe typy skal



Każdy typ skali ma inne właściwości; nie każda skala dopuszcza
wszystkie operacje matematyczne

Człowiek i pies mają średnio 3 nogi…

background image

Dla wygody wyniki pomiaru zapisujemy za pomocą liczb,

ale ta sama wartość może oznaczać

za każdym razem co innego!

Skala

Skala

Dostępny zakres wartości

Skale opisowe

Skale liczbowe

Marka kawy

1.

Jacobs

2.

Tchibo

3.

Pedros

4.

Astra

Opinie

1.

Zdecydowanie mi się podoba

2.

Raczej mi się podoba

3.

Raczej mi się nie podoba

4.

Zdecydowanie mi się nie
podoba

Rok

1.

Rok 1

2.

Rok 2

3.

Rok 3

4.

Rok 4

Cena

1.

1 PLN

2.

2 PLN

3.

3 PLN

4.

4 PLN

Nominalna

Nominalna

Porządkowa

Porządkowa

Interwałowa

Interwałowa

Ilorazowa

Ilorazowa

background image

Cechy skal

Ilość (konieczne

jednostki!)

Częstość

Różnice: o ile

więcej/mniej?

(np. temperatura)

Ranking

(np. preferencje

wobec marek)

Jakościowe różnice

pomiędzy obiektami

(np. płeć respondenta)

O czym informuje

jest

nie ma

nie ma

nie ma

Zero absolutne

jest

jest

nie ma

nie ma

Jednakowy

odstęp

jest

jest

jest

nie ma

Kolejność

Ilorazowa

Interwałowa

Porządkowa

Nominalna

Skala

Cecha

background image

Co wolno, a czego nie

tak

nie

nie

nie

Suma

tak

tak

nie

nie

Średnia

tak

tak

tak

nie

Mediana,

kwartyle,

centyle...

tak

tak

tak

tak

% wystąpień, w

tym wartość

modalna*

Ilorazowa

Interwałowa

Porządkowa

Nominalna

Skala

Co liczymy

• Przykład: jeśli wyciągasz średnie z ocen na skali porządkowej,

pamiętaj że stoi za tym założenie o jednakowych odstępach.

• To nie musi być prawda!

background image

Jak opisywać wyniki badania?

Czy zmienna jest

nominalna?

Czy ważna jest

suma wartości?

%,

wartość modalna*

średnia

Czy rozkład

jest silnie

niesymetryczny?

mediana

średnia

TAK

TAK

TAK

NIE

NIE

NIE

*) wartość modalna to ta wartość zmiennej, której częstość
występowania w % jest największa. Na przykład w
sondażach wyborczych wartość modalna = partia, która ma
o najwyższe poparcie w %

background image



Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a
ich wzrost przebiega osobliwie:

– gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu,

– następnie rosną skokami, za każdym razem o 1 stopę.



Pewien przyrodnik pojechał do Nowej Zelandii
i znalazł w dżungli 4 kiwi.



Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy.



Jakiego wzrostu są wszystkie 4 kiwi?



Jak wiadomo, ptaki kiwi mieszkają w Nowej Zelandii. Są bardzo rzadkie, a
ich wzrost przebiega osobliwie:

gdy wykluwają się z jajka, mają dokładnie 1 stopę wzrostu,

następnie rosną skokami, za każdym razem o 1 stopę.



Pewien przyrodnik pojechał do Nowej Zelandii
i znalazł w dżungli 4 kiwi.



Średni wzrost kiwi w tej próbie wynosi 4 stopy, mediana 3 stopy, a wartość
modalna – 2 stopy.



Jakiego wzrostu są wszystkie 4 kiwi?

Zagadka

Wskazówka: wzrost każdego kiwi w stopach jest liczbą całkowitą

background image

Fakt 6



Jedne zmienne są bardziej zmienne od drugich



Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale
opinie w jednej sprawie mogą być bardziej zróżnicowane niż w innej



Jedne zmienne są bardziej zmienne od drugich



Gdyby wszyscy mówili to samo, wystarczyłoby spytać jednego. Ale
opinie w jednej sprawie mogą być bardziej zróżnicowane niż w innej

background image



Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych



Wariancja z próby dana jest wzorem

– s nazywamy odchyleniem standardowym

– duża wariancja oznacza, że wartości zmiennej mają duży rozrzut, a więc np.

opinie są zróżnicowane



Dla słabszych skal miarą zmienności jest np.

– Dla zmiennych nominalnych miara zmienności odnosi się do modalnej

• Współczynnik zmienności V

R

= 1 - f

m

/n, gdzie f

m

– frekwencja dla wartości modalnej w

%, n – liczba możliwych wartości

– Dla zmiennych porządkowych - do zakresu wartości:

• Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q

3

– Q

1

• Współczynnik zmienności V

Q

=IQR/(Q

3

+Q

1

) *100%



Wariancja to termin zarezerwowany dla skal ilorazowych i interwałowych



Wariancja z próby dana jest wzorem

s nazywamy odchyleniem standardowym

duża wariancja oznacza, że wartości zmiennej mają duży rozrzut, a więc np.
opinie są zróżnicowane



Dla słabszych skal miarą zmienności jest np.

Dla zmiennych nominalnych miara zmienności odnosi się do modalnej

Współczynnik zmienności V

R

= 1 - f

m

/n, gdzie f

m

– frekwencja dla wartości modalnej w

%, n – liczba możliwych wartości

Dla zmiennych porządkowych - do zakresu wartości:

Odstęp pomiędzy pierwszym i trzecim kwartylem, tzw IQR = Q

3

– Q

1

Współczynnik zmienności V

Q

=IQR/(Q

3

+Q

1

) *100%

W statystyce mówimy o wariancji

s

2

=

Σ

(x

i

– x )

2

N - 1

_

background image

Fakt 7



Dodatkowo, bardzo ważną cechą skali jest jej rozkład.



O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o
rozkładzie możemy coś powiedzieć dopiero gdy znamy wyniki



Aby w ogóle mówić o statystyce, musimy zapewnić że nasze zmienne
są zmiennymi losowymi

– To dlatego losujemy osoby biorące udział w sondażach!



Dodatkowo, bardzo ważną cechą skali jest jej rozkład.



O ile rodzaj skali wynika z konstrukcji pytania w kwestionariusz, o
rozkładzie możemy coś powiedzieć dopiero gdy znamy wyniki



Aby w ogóle mówić o statystyce, musimy zapewnić że nasze zmienne
są zmiennymi losowymi

To dlatego losujemy osoby biorące udział w sondażach!

background image

Rozkład zmiennej to funkcja



Funkcja rozkładu mówi:



Funkcja rozkładu mówi:

• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości

• dla zmiennych dyskretnych - przyjmujących wartości

np. 1, 2, 3, 4

LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego

przedziału

• dla zmiennych ciągłych - np. o wartościach dodatnich

• Jakie jest prawdopodobieństwo uzyskania konkretnej wartości

• dla zmiennych dyskretnych - przyjmujących wartości

np. 1, 2, 3, 4

LUB
• Jakie jest prawdopodobieństwo uzyskania wartości z pewnego

przedziału

• dla zmiennych ciągłych - np. o wartościach dodatnich

background image

Rozkład zmiennej losowej

Rozkład ciągły (każda wartość jest możliwa)

Rozkład zmiennej przyjmującej 10 różnych wartości

0%

5%

10%

15%

20%

25%

1

2

3

4

5

6

7

8

9

10

Ocena reklamy

O

d

s

e

te

k

p

rz

y

p

a

d

k

ó

w

Zmienna

ciągła

Zmienna

dyskretna

background image

Fakt 8



Najważniejszy rozkład w statystyce to rozkład normalny



Wzór na funkcję rozkładu normalnego jest paskudny, ale wykres ma
charakterystyczny – naszym zdaniem piękny – kształt podobny do
dzwonu



Najważniejszy rozkład w statystyce to rozkład normalny



Wzór na funkcję rozkładu normalnego jest paskudny, ale wykres ma
charakterystyczny – naszym zdaniem piękny – kształt podobny do
dzwonu

background image

Rozkład normalny

Zaznaczony obszar jest

równy prawdopodobieństwu

P uzyskania przy losowaniu

wartości x lub mniejszej

µµµµ

= średnia

σσσσ

2

= wariancja

µµµµ

= średnia

σσσσ

2

= wariancja

• Standardowy rozkład normalny (na rysunku) ma

średnią równą 0 i wariancję 1

background image

Przykłady

Różne wartości

µµµµ

i

σσσσ

Różne wartości

µµµµ

i

σσσσ

background image

Standardowy rozkład normalny

• Jeśli X to początkowe wartości zmiennej, to wzór na Z

daje wartości zestandaryzowane. W wielu wypadkach
przed jakąkolwiek dalszą analizą procedura wymaga
standaryzacji zmiennych – właśnie wg tego wzoru

background image

Fakt 9



Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo różne
kształty



Aby móc jakoś je porównywać, wprowadzono odpowiednie miary



Rozkłady – podobnie jak inne funkcje – mogą mieć bardzo różne
kształty



Aby móc jakoś je porównywać, wprowadzono odpowiednie miary

background image

Czym się różnią rozkłady zmiennych?

Wariancja

Wariancja

Miejsce skupienia

Miejsce skupienia

Skośność

Skośność

Symetria

Wartości występujące najczęściej

Zakres wartości

background image

Fakt 10



Należy rozróżnić między rozkładem teoretycznym i rozkładem
otrzymywanym w konkretnym eksperymencie



Przy bardzo dużej ilości losowań otrzymywany rozkład zbliża się do
teoretycznego



Podane dalej przykłady pochodzą z eksperymentów wykonanych na
komputerze



Należy rozróżnić między rozkładem teoretycznym i rozkładem
otrzymywanym w konkretnym eksperymencie



Przy bardzo dużej ilości losowań otrzymywany rozkład zbliża się do
teoretycznego



Podane dalej przykłady pochodzą z eksperymentów wykonanych na
komputerze

background image

Rozkład jednorodny

0%

2%

4%

6%

8%

10%

12%

14%

16%

1

2

3

4

5

6

7

8

9

10

Wynik losowania

O

d

s

e

te

k

p

rz

y

p

a

d

k

ó

w

N=50

Prawa statystyki nie zawsze idą w parze z intuicją!

Rozkład

teoretyczny

Rozkład w
losowaniu

losowanie jednej z 10 identycznych,

ponumerowanych kul

losowanie jednej z 10 identycznych,

ponumerowanych kul

background image

0%

2%

4%

6%

8%

10%

12%

14%

16%

1

2

3

4

5

6

7

8

9

10

Wynik losowania

O

d

s

e

te

k

p

rz

y

p

a

d

k

ó

w

N=10 000

Duża próba umożliwia dokładniejsze przybliżenie

Rozkład jednorodny:

Rozkład

teoretyczny

Rozkład w
losowaniu

losowanie jednej z 10 identycznych,

ponumerowanych kul

losowanie jednej z 10 identycznych,

ponumerowanych kul

background image

Jeszcze jeden ważny rozkład

df=N-1

Liczba „stopni swobody”

df=N-1

Liczba „stopni swobody”

• Rozkład t Studenta jest podobny do normalnego,

a dla prób N>100 praktycznie przechodzi w rozkład normalny

• Stosowany przy małych próbach

µµµµ

= średnia

σσσσ

2

= wariancja

µµµµ

= średnia

σσσσ

2

= wariancja

Rozkład t Studenta


Wyszukiwarka

Podobne podstrony:
Metody statystyczne dla opornych cz 2 (2)
śtatystyka dla opornych cz1 cwiczenia
metody statystyczne w chemii 8
Genetyka ogólna dla studentów cz 2
metody statystyczne w chemii 5
Nowoczesne metody antykoncepcji dla kobiet i mezczyzn
Metody?dań statystycznych
Material13 Fundusze strukturalne UE dla MSP cz 2 material
Jak powstają ergonomiczne narzędzia dla elektroników 1 cz
Logika dla opornych
fizyka dla opornych 2, Pwr MBM, Fizyka, sprawozdania vol I, sprawozdania część I
INSTRUKCJA dla opornych Części mowy odmienne
METODY STATYSTYCZNE WYKORZYSTYWANE W PLANOWANIU I PRZEPROWADZANIU EKSPERYMENTU NAUKOWEGO
Metody modelowania procesow 2012 cz III
Metody statystyczne pomoce, statystyka

więcej podobnych podstron