Metody statystyczne dla opornych cz 2 (2)

background image

Metody statystyczne

Część 2

Populacja i próba:

po co są testy statystyczne?

background image

Populacja =

Uniwersum

Populacja =

Uniwersum



Dowolny zbiór badanych obiektów,
o ile jest dobrze zdefiniowany

– Dorośli mieszkańcy Polski

– Posiadacze samochodów Nissan

– Kobiety mieszkające w Warszawie

– Sklepy powyżej 300 m

2

w woj. śląskim



Dowolny zbiór badanych obiektów,
o ile jest dobrze zdefiniowany

Dorośli mieszkańcy Polski

Posiadacze samochodów Nissan

Kobiety mieszkające w Warszawie

Sklepy powyżej 300 m

2

w woj. śląskim

W praktyce można przyjąć, że populacja o liczebności powyżej

2000 jest nieskończenie wielka

W praktyce można przyjąć, że populacja o liczebności powyżej

2000 jest nieskończenie wielka

Definicje: populacja

background image

Próba

Próba



Stosunkowo niewielki podzbiór populacji



Dobrany wg określonej procedury

– Losowej

– Nielosowej



Niezależnie od wielkości i próby, interesują nas
przede wszystkim wnioski dotyczące populacji

– To jest możliwe dzięki statystyce



Stosunkowo niewielki podzbiór populacji



Dobrany wg określonej procedury

Losowej

Nielosowej



Niezależnie od wielkości i próby, interesują nas
przede wszystkim wnioski dotyczące populacji

To jest możliwe dzięki statystyce

Prawa statystyki odnoszą się TYLKO

do prób losowych!

Prawa statystyki odnoszą się TYLKO

do prób losowych!

Definicje: próba

background image

Co tracimy?



Badania donoszące się do całej populacji (na przykład spis powszechny) są
potrzebne, ale niezwykle kosztowne

– Dlatego w większości przypadków musi nam wystarczyć odpowiednio

dobrana próba



Prowadząc badanie nawet na dużej próbie nie mamy całkowitej pewności,
że nasze wyniki można odnieść do całej populacji



Opis populacji dokonany na podstawie opisu próby jest jedynie
przybliżeniem



Prawa statystyki mówią, czy to przybliżenie jest dostatecznie dobre



Badania donoszące się do całej populacji (na przykład spis powszechny) są
potrzebne, ale niezwykle kosztowne

Dlatego w większości przypadków musi nam wystarczyć odpowiednio
dobrana próba



Prowadząc badanie nawet na dużej próbie nie mamy całkowitej pewności,
że nasze wyniki można odnieść do całej populacji



Opis populacji dokonany na podstawie opisu próby jest jedynie
przybliżeniem



Prawa statystyki mówią, czy to przybliżenie jest dostatecznie dobre

TEST STATYSTYCZNY

mówi nam, jak wyciągać wnioski

TEST STATYSTYCZNY

mówi nam, jak wyciągać wnioski

background image

Dwa rodzaje błędu



Wyobraź sobie, że jesteś księżniczką, a przed tobą stoi kandydat do twojej ręki



Musisz zdecydować, czy jest to prawdziwy książę, czy też oszust

Jeśli go wybierzesz, zostanie królem i będzie decydował o losach królestwa (ale jeśli jest
oszustem, to pewnie się nie nadaje do tej roli)

Jeśli go odrzucisz, zostanie ścięty (ale tracisz kandydata na męża, a kto wie czy się trafi
inny?)



Od trafnej decyzji zależą losy królestwa i twoje małżeństwo!

Dobra decyzja

wybór prawdziwego księcia

odrzucenie oszusta

Zła decyzja

wybór oszusta

odrzucenie prawdziwego księcia



Zła decyzja może mieć różne konsekwencje. Tobie - księżniczce może zależeć na czym innym
niż twoim poddanym



W testach statystycznych też są dwie możliwości; zazwyczaj jedna z nich jest dla nas bardziej
groźna

Jeśli uznamy, że obserwowany wynik ma faktycznie miejsce w populacji i zaplanujemy
odpowiednie działania marketingowe, skutki błędu mogą być bardzo poważne

Jeśli istniejący faktycznie efekt uznamy za „nieistotny”, być może tracimy szansę; ale
przynajmniej nie narażamy się na porażkę



Wyobraź sobie, że jesteś księżniczką, a przed tobą stoi kandydat do twojej ręki



Musisz zdecydować, czy jest to prawdziwy książę, czy też oszust

Jeśli go wybierzesz, zostanie królem i będzie decydował o losach królestwa (ale jeśli jest
oszustem, to pewnie się nie nadaje do tej roli)

Jeśli go odrzucisz, zostanie ścięty (ale tracisz kandydata na męża, a kto wie czy się trafi
inny?)



Od trafnej decyzji zależą losy królestwa i twoje małżeństwo!

Dobra decyzja

wybór prawdziwego księcia

odrzucenie oszusta

Zła decyzja

wybór oszusta

odrzucenie prawdziwego księcia



Zła decyzja może mieć różne konsekwencje. Tobie - księżniczce może zależeć na czym innym
niż twoim poddanym



W testach statystycznych też są dwie możliwości; zazwyczaj jedna z nich jest dla nas bardziej
groźna

Jeśli uznamy, że obserwowany wynik ma faktycznie miejsce w populacji i zaplanujemy
odpowiednie działania marketingowe, skutki błędu mogą być bardzo poważne

Jeśli istniejący faktycznie efekt uznamy za „nieistotny”, być może tracimy szansę; ale
przynajmniej nie narażamy się na porażkę

background image

Dylemat księżniczki

STAN FAKTYCZNY (księżniczka go nie zna)

DECYZJA KSIĘśNICZKI

Kandydat jest oszustem

Kandydat jest księciem

Kandydat jest oszustem
Ściąć

Poziom ufności = 1 - α

SŁUSZNIE

Prawdopodobieństwo = β

BŁĄD II rodzaju

Kandydat jest księciem
Wybrać

Prawdopodobieństwo = α

BŁĄD I rodzaju

Poziom ufności = 1 – β

SŁUSZNIE



Zwyczajowo prawdopodobieństwo wystąpienia błędów I i II rodzaju
oznaczamy literami α i β



Prawdopodobieństwo słusznej decyzji w zależności od sytuacji faktycznej
wynosi zatem 1- α lub 1- β; nazywamy je poziomem ufności



Zwyczajowo prawdopodobieństwo wystąpienia błędów I i II rodzaju
oznaczamy literami α i β



Prawdopodobieństwo słusznej decyzji w zależności od sytuacji faktycznej
wynosi zatem 1- α lub 1- β; nazywamy je poziomem ufności

background image

Wnioskowanie statystyczne



W badaniach mamy do czynienia z bardzo podobną sytuacją



Dysponujemy sformułowaną przez nas hipotezą oraz wynikiem badania



Musimy zdecydować, czy hipotezę należy odrzucić, czy przyjąć



Wyjściową hipotezę zawsze formułujemy jako brak zmian czy
zależności; takie sformułowanie nazywamy hipotezą zerową

– Przykłady poprawnych sformułowań (niekoniecznie prawdziwych)

• Inteligencja nie zależy od płci

• Średnia długość życia nie zależy od kraju

• Palenie do 5 papierosów dziennie nie wpływa na stan zdrowia

• Opakowanie A jest tak samo atrakcyjne, jak opakowanie B



W badaniach mamy do czynienia z bardzo podobną sytuacją



Dysponujemy sformułowaną przez nas hipotezą oraz wynikiem badania



Musimy zdecydować, czy hipotezę należy odrzucić, czy przyjąć



Wyjściową hipotezę zawsze formułujemy jako brak zmian czy
zależności; takie sformułowanie nazywamy hipotezą zerową

Przykłady poprawnych sformułowań (niekoniecznie prawdziwych)

Inteligencja nie zależy od płci

Średnia długość życia nie zależy od kraju

Palenie do 5 papierosów dziennie nie wpływa na stan zdrowia

Opakowanie A jest tak samo atrakcyjne, jak opakowanie B

background image

Wnioskowanie statystyczne

STAN FAKTYCZNY (nieznany)

WNIOSEK

Hipoteza zerowa jest

prawdziwa

Hipoteza zerowa jest fałszywa

Przyjąć hipotezę zerową

Poziom ufności = 1 - α

SŁUSZNIE

Prawdopodobieństwo = β

BŁĄD I rodzaju

Odrzucić hipotezę zerową

Prawdopodobieństwo = α

BŁĄD I rodzaju

Poziom ufności = 1 - β

SŁUSZNIE



Który błąd będzie miał poważniejsze konsekwencje?



Który błąd będzie miał poważniejsze konsekwencje?

background image

Przykład: Ile wynosi średnia?



Często w badaniach szukamy wartości średniej (dochodów, wydatków,
powierzchni, odległości…)



Przypuśćmy, że interesuje nas średni roczny przebieg prywatnego
samochodu w Polsce

– Po wykonaniu badania na odpowiedni dużej próbie chcemy podać,

jaki jest średni przebieg w populacji



Na początek spróbujmy sobie wyobrazić, że wykonujemy takie badanie
bardzo wiele razy – na przykład 500



Często w badaniach szukamy wartości średniej (dochodów, wydatków,
powierzchni, odległości…)



Przypuśćmy, że interesuje nas średni roczny przebieg prywatnego
samochodu w Polsce

Po wykonaniu badania na odpowiedni dużej próbie chcemy podać,
jaki jest średni przebieg w populacji



Na początek spróbujmy sobie wyobrazić, że wykonujemy takie badanie
bardzo wiele razy – na przykład 500

background image

Trochę matematyki



No niestety, bez matematyki trudno się tu obejść.



Pamiętajmy, że wszystkim wartościom w populacji odpowiada wartość
zmierzona w próbie.

– Wartości w populacji oznaczamy literami greckimi (

µ

,

σ

)

– Ich odpowiedniki wyliczone z próby – zwykłymi literami łacińskimi

(

, s)

• Średnią z próby oznaczamy dodatkowo kreską nad x – taki zwyczaj

(samo x oznacza konkretną wartość uzyskaną dla pojedynczej
badanej osoby)



No niestety, bez matematyki trudno się tu obejść.



Pamiętajmy, że wszystkim wartościom w populacji odpowiada wartość
zmierzona w próbie.

Wartości w populacji oznaczamy literami greckimi (

µ

,

σ

)

Ich odpowiedniki wyliczone z próby – zwykłymi literami łacińskimi
(

, s)

Średnią z próby oznaczamy dodatkowo kreską nad x – taki zwyczaj
(samo x oznacza konkretną wartość uzyskaną dla pojedynczej
badanej osoby)

x

_

background image

Co mówią prawa statystyki?



Wyobraźmy sobie, że wykonujemy sondaż bardzo wiele razy na różnych próbach -
losowanych za każdym razem od początku



Za każdym razem obliczamy średni roczny przebieg dla kierowców w próbie

– I za każdym razem otrzymujemy nieco inną wartość



Wyobraźmy sobie, że wykonujemy sondaż bardzo wiele razy na różnych próbach -
losowanych za każdym razem od początku



Za każdym razem obliczamy średni roczny przebieg dla kierowców w próbie

I za każdym razem otrzymujemy nieco inną wartość

Nr badania

Średni przebieg

tys. km

B1

15,4

B2

12,7

B3

23,1

.

.

.

.

.

.

B500

18,8

Jeśli prawdziwa średnia w populacji wynosi

powiedzmy

µ

= 19,7 tys. km, a odchylenie

standardowe w populacji ma wartość σ = 2,2 tys. km,

to statystyka mówi nam, jakie jest

prawdopodobieństwo, że w badaniu wykonanym

jeden raz otrzymana wartość będzie się mieściła w

pewnym przedziale, na przykład 19,7± 2,2

(odpowiedź: około 68%)

Jeśli prawdziwa średnia w populacji wynosi

powiedzmy

µ

= 19,7 tys. km, a odchylenie

standardowe w populacji ma wartość σ = 2,2 tys. km,

to statystyka mówi nam, jakie jest

prawdopodobieństwo, że w badaniu wykonanym

jeden raz otrzymana wartość będzie się mieściła w

pewnym przedziale, na przykład 19,7± 2,2

(odpowiedź: około 68%)

Szukamy: średni roczny przebieg samochodu

wśród kierowców prywatnych w Polsce

Szukamy: średni roczny przebieg samochodu

wśród kierowców prywatnych w Polsce

background image

To za mało



Po wykonaniu jednorazowego pomiaru nadal nie wiemy jaki jest
prawdziwy wynik w populacji ani jaka jest wariancja badanej zmiennej



Na szczęście nie musimy wykonywać wielu pomiarów – z pomocą
przychodzi Centralne Twierdzenie Graniczne, które umożliwia
wyciąganie dobrych wniosków

– Jeśli brzmi o strasznie, możesz pominąć następny slajd. Pamiętaj

tyle, że wnioskowanie na temat prawdziwej wartości średniej
opiera się na własnościach rozkładu normalnego



Rozkład normalny to po prostu pewna funkcja - opisana paskudnym
wzorem i piękną krzywą w kształcie dzwonu



Po wykonaniu jednorazowego pomiaru nadal nie wiemy jaki jest
prawdziwy wynik w populacji ani jaka jest wariancja badanej zmiennej



Na szczęście nie musimy wykonywać wielu pomiarów – z pomocą
przychodzi Centralne Twierdzenie Graniczne, które umożliwia
wyciąganie dobrych wniosków

Jeśli brzmi o strasznie, możesz pominąć następny slajd. Pamiętaj
tyle, że wnioskowanie na temat prawdziwej wartości średniej
opiera się na własnościach rozkładu normalnego



Rozkład normalny to po prostu pewna funkcja - opisana paskudnym
wzorem i piękną krzywą w kształcie dzwonu

background image

Centralne Twierdzenie Graniczne

Nr badania

Średni przebieg w

tys. km

B1

15,4

B2

12,7

B3

23,1

.

.

.

.

.

.

B500

18,8

Niezależnie od tego, jaki jest faktyczny rozkład

rocznego przebiegu samochodów w Polsce,

średnia otrzymana z wielu badań ma

rozkład normalny, opisany krzywą Gaussa

Niezależnie od tego, jaki jest faktyczny rozkład

rocznego przebiegu samochodów w Polsce,

średnia otrzymana z wielu badań ma

rozkład normalny, opisany krzywą Gaussa

Co więcej:

Co więcej:

Jeżeli w wariancja zmiennej w populacji wynosi σ, to

wariancja średniej uzyskanej w wielu badaniach wyniesie

σ

x

2

=

σ

2

N

GDZIE N – wielkość próby w każdym badaniu

σ

x

nazywamy błędem standardowym

!

background image

Stosowane oznaczenia

Dla próby o liczebności N

Dla próby o liczebności N



Średnia uzyskana w próbie



Prawdziwa średnia w populacji (nieznana)



Wariancja rozkładu średnich z wielu badań (nieznana)



Wielkość próby



Wariancja rozkładu mierzonej wielkości w populacji (nieznana)



Wariancja rozkładu mierzonej wielkości w próbie (znana)



Wielkość dana wzorem:

x

_

µ

σ

x

2

N

σ

2

Z =

- µ

σ

x

x

_

=

- µ

σ

/

x

_

N

√√√√

___

s

2

Z

background image

Wnioskowanie statystyczne dla średniej



W praktyce badanie wykonujemy jeden raz i otrzymujemy tylko
jedną wartość dla średniej

oraz wariancji badanej zmiennej s

2

(w próbie)



Nie znamy prawdziwej wartości średniej

µ

i wariancji w populacji

σ

2

– Tego właśnie chcemy się dowiedzieć



Z własności rozkładu normalnego wynika, że:

– Istnieje 68% prawdopodobieństwo, że w badaniu uzyskaliśmy wartość

w przedziale

µ

±

σ

x

– Istnieje 95% prawdopodobieństwo, że w badaniu uzyskaliśmy wartość

w przedziale

µ

± 2

σ

x

itd.



Przyjmujemy dodatkowo (na razie), że

σ

x

= s

x

, przy czym:



Wartość s i s

x

możemy obliczyć z próby (zrobi to za nas komputer)



Musimy przyjąć jakieś założenie o prawdziwej wartości µ



W praktyce badanie wykonujemy jeden raz i otrzymujemy tylko
jedną wartość dla średniej

oraz wariancji badanej zmiennej s

2

(w próbie)



Nie znamy prawdziwej wartości średniej

µ

i wariancji w populacji

σ

2

Tego właśnie chcemy się dowiedzieć



Z własności rozkładu normalnego wynika, że:

Istnieje 68% prawdopodobieństwo, że w badaniu uzyskaliśmy wartość
w przedziale

µ

±

σ

x

Istnieje 95% prawdopodobieństwo, że w badaniu uzyskaliśmy wartość
w przedziale

µ

± 2

σ

x

itd.



Przyjmujemy dodatkowo (na razie), że

σ

x

= s

x

, przy czym:



Wartość s i s

x

możemy obliczyć z próby (zrobi to za nas komputer)



Musimy przyjąć jakieś założenie o prawdziwej wartości µ

x

_

x

_

s

x

=

s

N

√√√√

___

x

_

background image

Test dla średniej krok po kroku



Formułujemy „hipotezę zerową”

W przypadku średniej hipoteza ta brzmi: wartość

µ

jest równa pewnej konkretnej

liczbie, którą oznaczamy

µ

0

Od sposobu sformułowania hipotezy (interesuje nas zmiana w dowolną stronę
czy zmiana w określonym kierunku), zależy wybór testu jednostronnego lub
dwustronnegp



Ustalamy maksymalne akceptowane przez nas prawdopodobieństwo

α

popełnienia

błędu I rodzaju (na ogół 5%). Błędem II rodzaju na ogół specjalnie się nie
przejmujemy.



Każdy test ma dwie równoważne wersje:
1. Obliczamy wartość testu (czyli odpowiedniej funkcji) jaka odpowiada przyjętemu

prawdopodobieństwu - dla średniej trzeba obliczyć wartość Z (wzór podany
powyżej). Wynik porównujemy z wartością krytyczną (dla średniej jest to
krytyczna wartość z w rozkładzie normalnym). Wartości krytyczne dla danego
testu znajdujemy w tablicach

2. Obliczamy prawdopodobieństwo p otrzymania wyniku takiego jak nasz przy

założeniu, że hipoteza zerowa jest prawdziwa i porównujemy z wartością

α



Na tej podstawie przyjmujemy lub odrzucamy hipotezę zerową

Przyjmujemy hipotezę zerową, jeśli z > Z i odrzucamy, jeśli z < Z



Formułujemy „hipotezę zerową”

W przypadku średniej hipoteza ta brzmi: wartość

µ

jest równa pewnej konkretnej

liczbie, którą oznaczamy

µ

0

Od sposobu sformułowania hipotezy (interesuje nas zmiana w dowolną stronę
czy zmiana w określonym kierunku), zależy wybór testu jednostronnego lub
dwustronnegp



Ustalamy maksymalne akceptowane przez nas prawdopodobieństwo

α

popełnienia

błędu I rodzaju (na ogół 5%). Błędem II rodzaju na ogół specjalnie się nie
przejmujemy.



Każdy test ma dwie równoważne wersje:

1.

Obliczamy wartość testu (czyli odpowiedniej funkcji) jaka odpowiada przyjętemu
prawdopodobieństwu - dla średniej trzeba obliczyć wartość Z (wzór podany
powyżej). Wynik porównujemy z wartością krytyczną (dla średniej jest to
krytyczna wartość z w rozkładzie normalnym). Wartości krytyczne dla danego
testu znajdujemy w tablicach

2.

Obliczamy prawdopodobieństwo p otrzymania wyniku takiego jak nasz przy
założeniu, że hipoteza zerowa jest prawdziwa i porównujemy z wartością

α



Na tej podstawie przyjmujemy lub odrzucamy hipotezę zerową

Przyjmujemy hipotezę zerową, jeśli z > Z i odrzucamy, jeśli z < Z

background image



Z wcześniejszych badań wiemy, że przeciętny użytkownik miesięcznie do tej
pory wypijał 100 filiżanek miesięcznie



Nowe badanie obejmuje 64 osoby, które uczestniczyły przez 6 miesięcy w
programie lojalnościowym; w tym czasie wypijały średnio 103.32 filiżanki kawy
miesięcznie; wartość s wyniosła dla tej próby 16



Z wcześniejszych badań wiemy, że przeciętny użytkownik miesięcznie do tej
pory wypijał 100 filiżanek miesięcznie



Nowe badanie obejmuje 64 osoby, które uczestniczyły przez 6 miesięcy w
programie lojalnościowym; w tym czasie wypijały średnio 103.32 filiżanki kawy
miesięcznie; wartość s wyniosła dla tej próby 16

Przykład 1:

czy program lojalnościowy ma wpływ na konsumpcję kawy?

Przykład 1:

czy program lojalnościowy ma wpływ na konsumpcję kawy?



Stawiamy hipotezę zerową:

– program lojalnościowy nie ma żadnego wpływu na wielkość konsumpcji,

czyli faktyczna średnia liczba wypijanych filiżanek kawy jest nadal taka
sama



W tym wypadku µ

0

= 100, przyjmujemy σ = 16



Zatem σ

x

= 16/

√√√√

64 = 16/8 = 2



Obliczamy Z = (103.32-100)/2 = 1.66



Jeśli wybrany poziom ufności to 95% (

αααα

= 0.95), to wówczas krytyczna wartość

z = 1.96 (test dwustronny)



Stawiamy hipotezę zerową:

program lojalnościowy nie ma żadnego wpływu na wielkość konsumpcji,
czyli faktyczna średnia liczba wypijanych filiżanek kawy jest nadal taka
sama



W tym wypadku µ

0

= 100, przyjmujemy σ = 16



Zatem σ

x

= 16/

√√√√

64 = 16/8 = 2



Obliczamy Z = (103.32-100)/2 = 1.66



Jeśli wybrany poziom ufności to 95% (

αααα

= 0.95), to wówczas krytyczna wartość

z = 1.96 (test dwustronny)

__

background image

Co mówi test statystyczny?

Co mówi test statystyczny?



Wynik pomiaru Z jest mniejszy od wartości krytycznej z



Wniosek: nie można odrzucić hipotezy zerowej



Wniosek badawczy: program lojalnościowy nie wpływa na poziom konsumpcji
kawy

Wynik pomiaru

Z = 1.66

1.66

background image

Przykład 2:

czy program lojalnościowy ma wpływ na konsumpcję kawy?

Przykład 2:

czy program lojalnościowy ma wpływ na konsumpcję kawy?



Z wcześniejszych badań wiemy, że przeciętny użytkownik miesięcznie do tej
pory wypijał 100 filiżanek miesięcznie



Nowe badanie obejmuje 400 osób, które uczestniczyły przez 6 miesięcy w
programie lojalnościowym; w tym czasie wypijały średnio 103.32 filiżanki kawy
miesięcznie; wartość s wyniosła dla tej próby 16



Z wcześniejszych badań wiemy, że przeciętny użytkownik miesięcznie do tej
pory wypijał 100 filiżanek miesięcznie



Nowe badanie obejmuje 400 osób, które uczestniczyły przez 6 miesięcy w
programie lojalnościowym; w tym czasie wypijały średnio 103.32 filiżanki kawy
miesięcznie; wartość s wyniosła dla tej próby 16



Stawiamy hipotezę zerową:

– program lojalnościowy nie ma żadnego wpływu na wielkość konsumpcji,

czyli faktyczna średnia liczba wypijanych filiżanek kawy jest nadal taka
sama



W tym wypadku µ

0

= 100, przyjmujemy σ = 16



Zatem σ

x

= 16/

√√√√

400 = 16/20 = 0.8



Obliczamy Z = (103.32-100)/0.8 = 4.15



Jeśli wybrany poziom ufności to 95% (

αααα

= 0.05), to wówczas krytyczna wartość

z = 1.96 (test dwustronny)



Stawiamy hipotezę zerową:

program lojalnościowy nie ma żadnego wpływu na wielkość konsumpcji,
czyli faktyczna średnia liczba wypijanych filiżanek kawy jest nadal taka
sama



W tym wypadku µ

0

= 100, przyjmujemy σ = 16



Zatem σ

x

= 16/

√√√√

400 = 16/20 = 0.8



Obliczamy Z = (103.32-100)/0.8 = 4.15



Jeśli wybrany poziom ufności to 95% (

αααα

= 0.05), to wówczas krytyczna wartość

z = 1.96 (test dwustronny)

___

background image

Co mówi test statystyczny?

Co mówi test statystyczny?



Wynik eksperymentu Z jest większy od wartości krytycznej z



Wniosek: należy odrzucić hipotezę zerową



Wniosek badawczy: program lojalnościowy wpływa na wielkość konsumpcji
kawy

Wynik pomiaru

Z = 4.15

4.15

background image



Z wcześniejszych badań wiemy, że przeciętny użytkownik miesięcznie do tej
pory wypijał 100 filiżanek miesięcznie



Nowe badanie obejmuje 64 osoby, które uczestniczyły przez 6 miesięcy w
programie lojalnościowym; w tym czasie wypijały średnio 103.32 filiżanki kawy
miesięcznie; wartość s wyniosła dla tej próby 16



Z wcześniejszych badań wiemy, że przeciętny użytkownik miesięcznie do tej
pory wypijał 100 filiżanek miesięcznie



Nowe badanie obejmuje 64 osoby, które uczestniczyły przez 6 miesięcy w
programie lojalnościowym; w tym czasie wypijały średnio 103.32 filiżanki kawy
miesięcznie; wartość s wyniosła dla tej próby 16

Przykład 3:

czy program lojalnościowy ma wpływ na konsumpcję kawy?

Przykład 3:

czy program lojalnościowy ma wpływ na konsumpcję kawy?



Stawiamy hipotezę zerową:

– program lojalnościowy nie zwiększa wielkości konsumpcji, czyli faktyczna

średnia liczba wypijanych filiżanek kawy jest nadal taka sama



W tym wypadku µ

0

= 100, przyjmujemy σ = 16



Zatem σ

x

= 16/

√√√√

64 = 16/8 = 2



Obliczamy Z = (103.32-100)/2 = 1.66



Jeśli wybrany poziom ufności to 95% (

αααα

= 0.95), to wówczas krytyczna wartość

z = 1.65 (bo wybieramy teraz test jednostronny)



Stawiamy hipotezę zerową:

program lojalnościowy nie zwiększa wielkości konsumpcji, czyli faktyczna
średnia liczba wypijanych filiżanek kawy jest nadal taka sama



W tym wypadku µ

0

= 100, przyjmujemy σ = 16



Zatem σ

x

= 16/

√√√√

64 = 16/8 = 2



Obliczamy Z = (103.32-100)/2 = 1.66



Jeśli wybrany poziom ufności to 95% (

αααα

= 0.95), to wówczas krytyczna wartość

z = 1.65 (bo wybieramy teraz test jednostronny)

__

background image

Co mówi test statystyczny?

Co mówi test statystyczny?



Wynik eksperymentu Z jest większy od wartości krytycznej z



Wniosek: należy odrzucić hipotezę zerową



Wniosek badawczy: program lojalnościowy zwiększa wielkość konsumpcji kawy

Wynik pomiaru

Z = 1.66

1.66

background image

Test dwustronny czy jednostronny?

µ

≠≠≠≠

µ

0

µ

≠≠≠≠

µ

0

µ > µ

0

µ > µ

0

Na osiach zaznaczono krytyczne wartości z dla najważniejszych przypadków

background image

Ale...



To na razie było przybliżenie – musieliśmy przyjąć założenie, że σ

x

= s

x,

, a to nie

całkiem prawda



Poprawna wersja wymaga zastosowania rozkładu t Studenta.

jest on jednak bardzo podobny do rozkładu normalnego i dla prób powyżej N=100 daje
takie same wyniki



Wartość z dla rozkładu normalnego ma swój odpowiednik dla rozkładu t Studenta

wartość t



Sprawdzamy w tablicach, jaka jest krytyczna wartość t (dla poziomu ufności 95% i zadanej
wielkości próby)



Obliczamy wynik pomiaru podobnie jako poprzednio T = ( -

µ

0

) / s

x

wartość T wynosi zatem tyle samo co wartość Z



Porównujemy wynik pomiaru T z krytyczną wartością t

wartości t różnią się trochę od wartości z



Przyjmujemy hipotezę zerową, jeśli t > T i odrzucamy, jeśli t < T



To na razie było przybliżenie – musieliśmy przyjąć założenie, że σ

x

= s

x,

, a to nie

całkiem prawda



Poprawna wersja wymaga zastosowania rozkładu t Studenta.

jest on jednak bardzo podobny do rozkładu normalnego i dla prób powyżej N=100 daje
takie same wyniki



Wartość z dla rozkładu normalnego ma swój odpowiednik dla rozkładu t Studenta

wartość t



Sprawdzamy w tablicach, jaka jest krytyczna wartość t (dla poziomu ufności 95% i zadanej
wielkości próby)



Obliczamy wynik pomiaru podobnie jako poprzednio T = ( -

µ

0

) / s

x

wartość T wynosi zatem tyle samo co wartość Z



Porównujemy wynik pomiaru T z krytyczną wartością t

wartości t różnią się trochę od wartości z



Przyjmujemy hipotezę zerową, jeśli t > T i odrzucamy, jeśli t < T

x

_

background image

Testy oparciu o rozkład t Studenta



Krytyczna wartość t dla wielkości próby N=64
i poziomu ufności 95% wynosi 1,998 (test dwustronny)



Wartość T dla przykładu 1 (N=64) wynosi 1,66



Przyjmujemy hipotezę zerową



Krytyczna wartość t dla wielkości próby N=400
i poziomu ufności 95% wynosi 1,97 (test dwustronny)



Wartość T dla przykładu 2 (N=400) wynosi 4,15



Odrzucamy hipotezę zerową



Krytyczna wartość t dla wielkości próby N=64
i poziomu ufności 95% wynosi 1,67 (test jednostronny)



Wartość T dla przykładu 3 (N=64) wynosi 1,66



Przyjmujemy hipotezę zerową

Przykład 1

Przykład 1

Przykład 2

Przykład 2

Przykład 3

Przykład 3

W szczególnych przypadkach

rozkład t Studenta daje inny

wynik niż rozkład normalny.

Zdarza się to dla małych prób;

jeśli N<100 stosowanie rozkładu

normalnego jest błędem

W szczególnych przypadkach

rozkład t Studenta daje inny

wynik niż rozkład normalny.

Zdarza się to dla małych prób;

jeśli N<100 stosowanie rozkładu

normalnego jest błędem

background image

Wnioski



Wynik testu, a więc przyjęcie lub odrzucenie hipotezy zerowej zależy od:

– wyniku pomiaru (to jasne), ale także od
– wielkości próby (większe próby pozwalają przeprowadzać bardziej „czułe”

testy)

– sformułowania hipotezy zerowej (jednostronne czy dwustronne)
– przyjętego poziomu ufnośc



Należy pamiętać o wyborze poprawnego rozkładu



Poprawna metodologia wymaga sformułowania hipotezy zerowej i określenia
poziomu ufności przed przeprowadzeniem testu

– liczy się wyłącznie porównanie wartości Z lub T z wartością krytyczną.
– hipotezę zerową przyjmujemy albo odrzucamy nawet wtedy gdy różnica jest

bardzo niewielka – niezależnie od tego, czy nam się to podoba, czy nie!

– jeśli mamy wątpliwości, można powtórzyć badanie na większej próbie…



Pamiętajmy, że statystyka nie chroni nas przed popełnieniem błędu!

– poziom ufności 95% oznacza, że mniej więcej raz na 20 pomiarów będziemy

wyciągać błędne wnioski



Wynik testu, a więc przyjęcie lub odrzucenie hipotezy zerowej zależy od:

wyniku pomiaru (to jasne), ale także od

wielkości próby (większe próby pozwalają przeprowadzać bardziej „czułe”
testy)

sformułowania hipotezy zerowej (jednostronne czy dwustronne)

przyjętego poziomu ufnośc



Należy pamiętać o wyborze poprawnego rozkładu



Poprawna metodologia wymaga sformułowania hipotezy zerowej i określenia
poziomu ufności przed przeprowadzeniem testu

liczy się wyłącznie porównanie wartości Z lub T z wartością krytyczną.

hipotezę zerową przyjmujemy albo odrzucamy nawet wtedy gdy różnica jest
bardzo niewielka – niezależnie od tego, czy nam się to podoba, czy nie!

jeśli mamy wątpliwości, można powtórzyć badanie na większej próbie…



Pamiętajmy, że statystyka nie chroni nas przed popełnieniem błędu!

poziom ufności 95% oznacza, że mniej więcej raz na 20 pomiarów będziemy
wyciągać błędne wnioski

background image

Średnia: podsumowanie

s =

Σ

(x

i

– x )

2

N - 1

_

√√√√

____________

x

_

średnia obliczona

z próby

– średni roczny przebieg samochodu

s

odchylenie standardowe obliczone

z próby

, s

x

błąd standardowy

µ

prawdziwa średnia dla populacji (nieznana)

σ

prawdziwe odchylenie standardowe dla populacji (nieznane)

Wykonując pomiar na skończonej próbie, możemy uzyskać różne wyniki średniej:

-

z prawdopodobieństwem 68% x zawiera się w przedziale

µ

±

σ

x

-

z prawdopodobieństwem 95% x zawiera się w przedziale

µ

±

x

-

z prawdopodobieństwem 99% x zawiera się w przedziale

µ

±

x

_

_

_

Populacja

Populacja

Próba

Próba

s

x

=

s

N

√√√√

___

background image

Pytanie na koniec



Ostatecznie często przyjmujemy, że średnia w populacji jest równa (z jakimś przybliżeniem)
wynikowi naszego badania. Czy to poprawny wiosek?



Inaczej mówiąc: jeśli

oraz biorąc pod uwagę powyższe rozważania:

Czy wolno powiedzieć, że średnia wartość w populacji wynosi

na poziomie ufności 95%?



Średnia uzyskana w próbie



Prawdziwa średnia w populacji (nieznana)



Estymowana wariancja rozkładu średnich (błąd standardowy)



Wielkość próby



Wariancja rozkładu mierzonej wielkości (z próby)

x

_

µ

s

x

2

N

s

2

x

_

± 2s

x

background image

A jak jest dla procentów?



W badaniach bardzo wiele wyników podawanych jest w %, czyli jako
odsetek



Tu też chcemy uzyskać możliwość wnioskowania o populacji
(na przykład jaki % dorosłych Polaków chce zagłosować na polityka X?)

– szczegóły rozumowania różnią się od tego, co pokazywaliśmy dla

średnich, ostatecznie jednak wnioski są bardzo podobne (inne są
oczywiście wzory)

– w przypadku odsetków również można korzystać z rozkładu

normalnego



W badaniach bardzo wiele wyników podawanych jest w %, czyli jako
odsetek



Tu też chcemy uzyskać możliwość wnioskowania o populacji
(na przykład jaki % dorosłych Polaków chce zagłosować na polityka X?)

szczegóły rozumowania różnią się od tego, co pokazywaliśmy dla
średnich, ostatecznie jednak wnioski są bardzo podobne (inne są
oczywiście wzory)

w przypadku odsetków również można korzystać z rozkładu
normalnego

background image

Proporcja (odsetek) - podsumowanie

s

p

=

p (1- p)

N

√√√√

____________

p

proporcja obliczona

z próby

– np. odsetek osób, które znają markę Jacobs

s

p

błąd proporcji obliczony

z próby

(obliczamy oszacowanie z góry)

Jaki jest prawdziwy odsetek osób znających markę Jacobs

w populacji?

Jaki jest prawdziwy odsetek osób znających markę Jacobs

w populacji?

π

prawdziwa proporcja dla populacji (nieznana)

Wykonując pomiar na próbie, możemy uzyskać różne wyniki:

-

z prawdopodobieństwem 68%

p

zawiera się w przedziale

π

±

σ

p

-

z prawdopodobieństwem 95%

p

zawiera się w przedziale

π

±

p

-

z prawdopodobieństwem 99%

p

zawiera się w przedziale

π

±

p

0,5 x 0,5

N

√√√√

____________

=

0,5

N

√√√√

______

Można przyjąć, że

σ

p

= S

p


Wyszukiwarka

Podobne podstrony:
Metody statystyczne dla opornych cz 1
śtatystyka dla opornych cz1 cwiczenia
metody statystyczne w chemii 8
Genetyka ogólna dla studentów cz 2
metody statystyczne w chemii 5
Nowoczesne metody antykoncepcji dla kobiet i mezczyzn
Metody?dań statystycznych
Material13 Fundusze strukturalne UE dla MSP cz 2 material
Jak powstają ergonomiczne narzędzia dla elektroników 1 cz
Logika dla opornych
fizyka dla opornych 2, Pwr MBM, Fizyka, sprawozdania vol I, sprawozdania część I
INSTRUKCJA dla opornych Części mowy odmienne
METODY STATYSTYCZNE WYKORZYSTYWANE W PLANOWANIU I PRZEPROWADZANIU EKSPERYMENTU NAUKOWEGO
Metody modelowania procesow 2012 cz III
Metody statystyczne pomoce, statystyka

więcej podobnych podstron