9199


STATYSTYKA

1. Podstawowe pojęcia

ZMIENNA - wszelka własność, która może występować w różnym stopniu i pod względem której ludzie różnią się między sobą lub zmieniają w czasie

ZAKRES ZMIENNEJ - zbiór wartości zmiennej

POMIAR - przyporządkowanie liczb przedmiotom zgodnie z określonymi regułami, w taki sposób, aby liczby odzwierciedlały zachodzące między tymi przedmiotami stosunki

SKALOWANIE - polega na konstrukcji skal pomiarowych o określonych własnościach

skala

nominalna

(nazwowa)

porządkowa

(rangowa)

przedziałowa

(interwałowa)

stosunkowa

(ilorazowa)

Możemy stwierdzić, że…

coś jest równe lub różne

coś jest mniejsze lub większe

coś jest mniejsze lub większe o tyle a tyle

coś jest mniejsze lub większe tyle a tyle razy

Posiada…

kategorię

kategorię, kontinuum

kategorię, kontinuum, jednostkę

kategorię, kontinuum jednostkę, moment zaniku

Mierzymy…

płeć, zawód

twardość minerałów

temperaturę

długość, masę, czas reakcji

KATEGORYZACJA musi być wyczerpująca i rozłączna

0x08 graphic
0x08 graphic
POPULACJA - zbiorowość generalna - zbiór elementów zróżnicowanych ze względu na pewną cechę ilościową lub jakościową opisywany metodami statystycznymi, o którego własnościach wnioskuje się na podstawie pewnej jego reprezentacji (próby)

PRÓBA - jest to dowolna podgrupa lub podzespół wybrany z populacji za

0x08 graphic
pomocą odpowiedniej metody; musi być reprezentatywna tzn

odzwierciedlać to co zachodzi na poziomie populacji oraz losowa

2. Miary i ich własności

I. Miary centrum

PRÓBA

POPULACJA

m - modalna - wartość x najczęściej występująca w próbie

(fi - fi-1) h

m = xid + --------------------

(fi - fi-1)+(fi - fi+1)

M - modalna - wartość x najbardziej prawdopodobna

me - mediana - środkowa wartość zmiennej

(½n - fci-1) h

me = xdi + ---------------------

fi

Me - mediana - wartość X poniżej której wartości zmiennej realizują się z pewnością 0.5 i powyżej której wartości zmiennej realizują się z pewnością 0.5

0x01 graphic
- średnia arytmetyczna - przeciętna wartość

zmiennej

0x01 graphic
xi x1 + x2 +…+ xn

0x01 graphic
= ------- = ---------------------

n n

µ (mi) - wartość oczekiwana

Własności miar centrum:

modalna:

mediana:

średnia arytmetyczna:

0x08 graphic

II. Miary rozproszenia

PRÓBA

POPULACJA

v - rozstęp - różnica między największym i najmniejszym pomiarem

v = xmax - xmin

7

v ≈ 6•s (rozkład o idealnym kształcie)

5

v - odcinek wartości skali X, dla których prawdopodobieństwa są różne od 0

- wariancja - przeciętna kwadratowa odległość pomiarów od średniej arytmetycznej

0x01 graphic
(xi -0x01 graphic
0x01 graphic
(xi -0x01 graphic
fi

s² = -------------- = -----------------

n-1 n-1

σ² - wariancja

nie obowiązuje

s - odchylenie standardowe - przeciętna odległość pomiarów od średniej arytmetycznej

s = 0x01 graphic

σ (sigma)- odchylenie standardowe

Własności miar rozproszenia:

III. Miary skośności

3. Standaryzacja - uwalnianie zmiennych od ich jednostek i sprowadzanie ich do wspólnego mianownika; jest transformacją wyników, która pozwala na ich porównywanie; jednostką wyników wystandaryzowanych jest odchylenie standardowe

0x01 graphic
- wynik surowy zmiennej x

0x01 graphic
- 0x01 graphic

0x01 graphic
- wynik standaryzowany zmiennej x 0x01 graphic
= ------------

s

4. Aby scharakteryzować rozkład należy:

Liczba stopni swobody dla statystyki będącej estymatorem nieznanej wartości parametru populacji jest równa liczbie wyników, które w niezależny sposób przyczyniają się do wyznaczenia wartości tej statystyki. Jednemu wynikowi zabieramy możliwość dowolnego zrealizowania się dla niego zmiennej, ponieważ musimy dopasować go do pozostałych wyników, ponieważ traktujemy średnią jako stałą charakterystykę próby.

0x08 graphic

xi

fi

fci

p

5 - 9

1

1

0.01

10 - 14

10

11

0.10

15 - 19

37

48

0.37

20 - 24

36

84

0.36

25 - 29

13

97

0.13

30 - 34

2

99

0.02

35 - 39

1

100

0.01

n= 100

k = 7 liczba klas hi = xgi - xdi rozpiętość klasy

p = 0x01 graphic
proporcja

(37 - 10) 5 27 5

m = 14.5 + ---------------------------- = 14.5 + ----------- = 19.32

(37 - 10) + (37 - 36) 27 + 1

(50 - 48) 5 10

me = 19.5 + ------------------ = 19.5 + ------ = 19.78

36 36

(7 1) + (12 10) + (17 37) + (22 36) + (27 13) + (32 2) + (37 1) 2000

0x01 graphic
0x08 graphic
= ---------------------------------------------------------------------------------------- = ------ = 20

100 100

v = 39.5 - 4.5 = 35

(7-20)˛1 + (12-20)˛ 10 + (17-20)˛ 37+ (22-20)˛ 36+ (27-20)˛ 13+ (32-20)˛ 2+ (37-20)˛ 1

= -------------------------------------------------------------------------------------------------------------------=

100 - 1

2500

= -------- = 25.25 s = 25.25 ≈ 5.025

99

3(20 - 18.78) 0.66

k = ------------------- = -------- ≈ 0.13 k > 0 rozkład jest odrobinkę prawoskośny

0x08 graphic
5.025 5.025

v = ? s

35 = ? 5.025 rozkład jest leptokurtyczny

    1. (Im więcej niż 6, tym rozkład jest bardziej leptokutyczny.)

0x08 graphic
5. Rozkład normalny i jego własności

0x08 graphic

Rozkład normalny:

  • jest rozkładem teoretycznym - modelem

  • jest rozkładem zmiennej ciągłej przyjmującej wartości od -∞ do +∞

  • jest krzywą wypukłą

  • jest symetryczny : µ = Me =M

  • jego postać determinuje średnia arytmetyczna i wariancja X→ N(µ, σ²)

Wszystkie rozkłady normalne tworzą klasę rozkładów normalnych.

Pole pod krzywą dla całej osi = 1.

6. Własności standaryzacji

σ < 1 rozkład bardziej spłaszczony

σ > 1 rozkład jest bardziej smukły

σ = 1 rozkład jest taki sam

P(x1 ≤ X ≤ x2) = F(x2) - F (x1) = Φ(Z1) - Φ(Z2)

7. Wystandaryzowany rozkład normalny i jego własności

8. Centralne twierdzenie graniczne (twierdzenie LINDEBERGA - LÉVÝEGO) i wnioski z niego wynikające

0x08 graphic
Jeżeli z populacji, w której zmienna losowa ma dowolny rozkład prawdopodobieństwa ze średnią równą µ i wariancją równą σ² losujemy kolejno próby o coraz większych rozmiarach (n→ ∞), to w miarę wzrostu liczby losowań (l→ ∞) rozkład estymatora µ, czyli średniej z próby dąży do rozkładu normalnego ze średnią równą µ i wariancją równą σ²/n (oraz odchyleniem standardowym równym σ/0x01 graphic
) .

Nie wszystkie statystyki z próby to estymatory!!!

Błędem standardowym nazywamy odchylenie standardowe w rozkładzie statystyki z próby.

0x08 graphic
Im większe próby, tym mniejsze odchylenie standardowe, czyli mniejszy błąd standardowy.

9. Dystrybuanta

0x08 graphic

równe x.

10.

µ = 100, σ = 15

0.95 - tyle ma wynosić poziom ufności, czyli prawdopodobieństwo, czyli pole pod krzywą

1 - 0.95 = 0.05 - tyle wynosi poziom istotności α

α /2 = 0.025 - dwustronnie musimy obciąć po 2.5% pola

Ф(-Z) = Ф(0.025) = -1.96

Ф(+Z) = Ф (0.95 + 0.025) = Ф (0.975) = 1.96

P(100 - 1.96 ∙ 15≤ X ≤ 100 + 1.96 ∙ 15) = 0.95

↓ ↓

95% Polaków charakteryzują ilorazy inteligencji między 70 i 129.

Ф(Z) = 0.95 Z = 1.645 odcinamy jednostronnie

11. Teoria estymacji - teoria szacowania parametrów

estymacja punktowa np. µ 0x01 graphic

Estymacja punktowa polega na uznaniu, że nieznana wartość parametru jest bardzo zbliżona do estymatora dużej próby wylosowanej z populacji.

P(0x01 graphic
- Zα ∙ σ/0x01 graphic
≤ µ ≤ 0x01 graphic
+ Zα ∙ σ/0x01 graphic
) = 1 - α estymacja przedziałowa

Estymacja przedziałowa polega na zbudowaniu przedziału ufności dla rozkładu estymatora.

P(0x01 graphic
- Zα ∙ σ/0x01 graphic
≤ µ ≤ 0x01 graphic
+ Zα ∙ σ/0x01 graphic
) = 1 - α

x = 110

n = 400

s = 5 σ ≈ s = 5 estymacja punktowa

α = 0.05

Zα dwustr. = 1.96

P(110 - 1.96 ∙ 5/0x01 graphic
≤ µ ≤ 110 + 1.96 ∙ 5/0x01 graphic
) = 0.95

P(109.51 ≤ µ ≤ 110.49) = 0.95

µ Є <109.51, 110.49>

12.

13. Rozkład prawdopodobieństwa t - studenta

0x08 graphic
Jeżeli pobieramy kolejno próbki losowe o ustalonej i małej liczebności n z populacji, w której zmienna losowa ma rozkład normalny ze średnią µ i wariancją równą σ², to wraz ze wzrostem liczby losowań rozkład średniej z próby dąży do spłaszczonego rozkładu normalnego. Spłaszczenie jest tym większe, im mniejsza liczebność próby.

Takie rozkłady po wystandaryzowaniu noszą nazwę

rozkładów prawdopodobieństwa t - studenta zmiennej t.

Próbki statystyczne nie mogą mieć mniej niż 3 elementy.

n

s² = (n - 1):(n - 3)

0x08 graphic

0x01 graphic
- µ 0x01 graphic
- µ

t = --------- 0x01 graphic
= --------

s 0x01 graphic

5

2

6

1.66

7

1.5

100

1.02

130

≈ 1

x = 110 i s = 5? Jaki będzie po wystandaryzowaniu?

Będzie to rozkład normalny spłaszczony, który po wystandaryzowaniu będzie rozkładem t - studenta.

P(0x01 graphic
- tα,df ∙s/0x01 graphic
≤ µ ≤ 0x01 graphic
+ tα,df ∙s/0x01 graphic
) = 1- α

P(110 - 2.0102 ∙ 5/0x01 graphic
≤ µ ≤ 110 +2.0102 ∙ 5/0x01 graphic
) = 1- α

40 - 2.021 50 - 2.009 różnica 10 stopni swobody 2.021 - 2.009 = 0.012

2.012 : 10 = 0.0012 2.009 + 0.0012 = 2.0102

Liczba stopni swobody determinuje kształt rozkładu.

15.

16. Test t - studenta dla dwu populacji niezależnych

Jeżeli pobieramy niezależnie duże próby losowe parami odpowiednio o liczebności n1 i n2 z dwu populacji niezależnych o normalnych rozkładach zmiennej x N(µ1, σ1²) i N(µ2, σ2²), to rozkład z próby różnicy między średnimi (x1 - x2)dąży do rozkładu normalnego ze średnią 1 - µ2) oraz wariancją 1²/n1 + σ2²/n2).

przykład:

Postać statystyki testu:

(x1 - x2) - (µ1 - µ2) (x1 - x2) - 0

t = ----------------------- = -------------------

σ (x1 - x2) (σ1²/n1 + σ2²/n2)

Zakładamy, że wariancje są homogeniczne

σ1² = σ2² = σ²

Zakładamy, że wariancje są heterogeniczne

σ1² ≠ σ2²

Należy stworzyć estymator łączny:

s1² + s2² (n1 - 1) s1² + (n2 - 1) s2²

σ² ≈ s = ---------- = ------------------------------

2 n1 + n2 - 2

n1 n2

(x1 - x2) ∙ ----------

n1 + n2

t = ---------------------------------------

(n1 - 1) s1² + (n2 - 1) s2²

-----------------------------------

n1 + n2 - 2

wykresy pokrywają się

f = n1 + n2 - 2

σ1², σ2² szacuje się punktowo

Ze względu na heterogeniczność wariancji wprowadza się poprawkę stopni swobody.

0x08 graphic
Należy je zmniejszyć, aby zwiększyć przedział ufności szczuplejszego wykresu.

test Coxa - Cochrana

t = 0x01 graphic

0x08 graphic

17.

18. Test t - studenta dla dwu populacji zależnych

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
Jeżeli pobieramy kolejno zależne próbki losowe parami o dużej liczebności n z dwu populacji, w których zmienna x1 i x2 mają rozkład normalny, to gdy D = x1 - x2 jest zmienną różnic pomiarów ( w rozkładzie normalnym ze średnią μD i wariancją σ²D, rozkład średniej zmiennej D, xD dąży do rozkładu normalnego ze średnią μD i wariancją σ²D/n.

0x08 graphic

0x08 graphic

Jeżeli x1, x2 mają rozkład normalny to xD też

0x08 graphic
Ho: μD = 0

H1: μD < 0

0x01 graphic
- 0x01 graphic
0x01 graphic

t = ------------ 0x01 graphic
= ---------------------------

0x01 graphic
0x01 graphic
0x01 graphic
² - n 0x01 graphic
²

-------------------------------------

(n - 1) n

Własnością średnich z populacji zależnych jest to, że średnia z różnic pomiarów jest równa różnicy średnich : 0x01 graphic
= 0x01 graphic

0x08 graphic
19. Zadanie o muzykach

l.p.

S1

S2

di

1

7

10

-3

Dla s2: n = 20

2

6

10

-4

0x01 graphic
= 13 0x01 graphic
= 8.42 s = 2.9

3

7

8

-1

4

9

10

-1

Osobno dla s2 : n1 = 10, n2 = 10

5

11

12

-1

fortepianiści: 0x01 graphic
= 11 0x01 graphic
= 4.22 s = 2.05

6

10

11

-1

skrzypkowie: 0x01 graphic
= 15 0x01 graphic
= 4.67 s = 2.16

7

10

12

-2

8

9

13

-4

Dla di: n = 20

9

9

9

-0

0x01 graphic
= -3 0x01 graphic
= 39.6 s = 6.3

10

12

5

-3

11

8

13

-5

I. Czy można uznać, że przeciętny poziom tremy odczuwany na godzinę przed koncertem

12

10

15

-5

wynosi 15 punktów?

13

10

14

-4

II. Czy prawdą jest, że fortepianiści odczuwają na godzinę przed koncertem wyższy poziom

14

10

15

-5

tremy niż skrzypkowie?

15

20

20

-0

16

12

16

-4

Ad. I

17

9

15

-6

Pytanie dotyczy populacji. Wiemy, że poziom tremy uległ zmianie.

18

11

16

-5

19

9

12

-5

20

11

14

-1

0x08 graphic
0x08 graphic
próba

populacja

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
Po wystandaryzowaniu, przy założeniu, że rozkład jest normalny, otrzymamy rozkład

t - studenta.

0x08 graphic
0x08 graphic

x ε <13.642, 16.358>

Stan populacji mógł się nie zmienić, a my mogliśmy wylosować próbę z odciętego ogona - obszaru o bardzo małym prawdopodobieństwie.

Dowodzenie nie wprost: Jeżeli twierdzenie, że μ = 15 jest prawdziwe, to średnia może leżeć wyłącznie na odcinku < 13.642, 16.358 >. Średnia w naszej próbie nie należy do tego odcinka, więc odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną.

t = 0x01 graphic
0x01 graphic
= 0x01 graphic
0x01 graphic
= -3.084

|-3.084| > tα,df Ho

0x08 graphic

Ho: μ = 15 Hipotezę zerową przy hipotezie alternatywnej kierunkowej sprawdza się testem

H1: μ < 15 statystycznym jednostronnym.

0x08 graphic

df = 19 tα,df = 1.729

α = 0.05

|-3.084| > 1.729 Ho

Jeżeli odrzucimy hipotezę zerową testem dwustronnym, to na pewno odrzucimy ją także testem jednostronnym (nie zawsze jest odwrotnie!!!). Testy jednostronne w porównaniu z testami dwustronnymi minimalizują popełnienie błędu II rodzaju - są mocniejsze.

Moc testu - zdolność testu do odrzucenia fałszywych hipotez zerowych równa 1 - β.

Łatwiej odrzucić hipotezę zerową testem jednostronnym.

Ad. II

S2: 1h przed występem

0x08 graphic
fortepianiści: 0x01 graphic
= 11 0x01 graphic
= 4.22 s = 2.05 Skrzypkowie denerwują się bardziej

skrzypkowie: 0x01 graphic
= 15 0x01 graphic
= 4.67 s = 2.16 niż fortepianiści.

0x08 graphic
0x08 graphic

Jeżeli czynnik (rodzaj instrumentu) nie działa, to μs = μF = μ, czyli μs - μ = 0.

0x08 graphic
Ho: μs = μF = μ

0x08 graphic

αi = μs - μ 0 efekt główny

t = 0x01 graphic

0x01 graphic

0x08 graphic

t = 0x01 graphic
wariancje homogeniczne

0x08 graphic

t = 0x01 graphic
wariancje heterogeniczne (test Coxa - Cochrana)

0x08 graphic

0x08 graphic
Ho: σ 1² = σ 2²

H1: σ 1² > σ2²

F =0x01 graphic
0x01 graphic

|1.107| < 3.18 0x01 graphic

0x08 graphic

A 20. Analiza wariancji prosta - ANOVA

- zmienna niezależna ( = kontrolowana, egzogeniczna, objaśniająca)

0x08 graphic
X - zmienna zależna ( = analizowana, endogeniczna, objaśniana)

0x08 graphic

0x08 graphic
1 zmienna analizowana - jednowymiarowa analiza

1 czynnik - jednoczynnikowa wariancji

0x08 graphic

jednowymiarowa analiza ANOVA

dwuczynnikowa wariancji

0x08 graphic
jednowymiarowa analiza

k - czynnikowa wariancji

0x08 graphic
μ1 = μ

0x08 graphic
0x08 graphic
μ2 = μ αi = 0

0x08 graphic
0x01 graphic
: μ1 = μ2 = μ3 = ... = μk = μ układ równań ... i = 1,2,3...,k

0x01 graphic
: ~ 0x01 graphic
...

0x08 graphic
0x08 graphic
μk = μ

ANOVA nie uwzględnia porządku kategorii wartości.

0x01 graphic
- czynnik nie wpływa na X, czyli nie działa, a to znaczy, że nie różnicuje średnich

~ 0x01 graphic
- czynnik działa, czyli jakieś równanie jest zaburzone, a to znaczy, że któraś średnia jest różna od μ

1

próba

populacja

x+c = s²xcx = c² x

Stevens

0x01 graphic
xi fi

n

v = 6 s

rozkład normalny

0x01 graphic

0x01 graphic

Krzywa Gaussa!!!

Nie zapominajmy o wkładzie pana Moivre'a.

σx = σ/ 0x01 graphic
błąd standard. średniej σx Є < 0, σ >

t - student to W.S. Gosett

σs = σ/ 0x01 graphic
błąd standard. odchylenia standard.

wystandaryzowana średnia z małej próby

n1, x1, s1

n2, x2, s2

µ1, σ1²

µ2, σ2²

weryfikuje hipotezę o równości wariancji

x

x

Badamy tę samą grupę osób w różnych sytuacjach.

D - zmienna różnic

0x01 graphic

wymiar

0x01 graphic

0x01 graphic

S1: 5h, S2:1h przed koncertem

μ = ?

X→ N(µ, σ²)

0x01 graphic
= 13 s = 2.9

0x01 graphic

0x01 graphic
→ N (15, 0x01 graphic
)

α = 0.05 0x01 graphic

Ho: μ = 15

H1: μ ≠ 15

Hipotezę zerową przy hipotezie alternatywnej różnościowej sprawdza się testem statystycznym dwustronnym.

0x01 graphic

15 - 2.093⋅ 0x01 graphic
= 13.642

15 + 2.093⋅ 0x01 graphic
= 16.358

2.093 to wartość tα,df przy H1 różnościowej

xF → N(µF, σF²)

xs → N(µS, σS²)

0x01 graphic

tę wartość sprawdzamy w tablicach

0x01 graphic



Wyszukiwarka

Podobne podstrony:
9199
9199
9199
9199
9199
9199
9199
9199

więcej podobnych podstron