Statystyka wykłady - prof. Trzpiot, Studia GWSH, Statystyka matematyczna - prof. Trzpiot


30.10.2011r. - wykład nr 1

Literatura:

  1. M. Sobczyk - Statystyka, PWN

  2. G. Kończak, G. Trzpiot - Analizy statystyczne z arkuszem kalkulacyjnym

  3. G. Kończak, G. Trzpiot - Metody statystyczne z wyobrażeniem programów komputerowych. AE Katowice 2004

(w tych ost dwóch są przykładowe pytania egzaminacyjne)

  1. G. Trzpiot G. Kończak - Statystyka matematyczna w przykładach i zadaniach GWSH Katowice 2008

  2. J. Greń - statystyka matematyczna. Modele i zadania, PWN Warszawa 1982

  3. M. Fisz - rachunek prawdopodobieństwa i statystyka matematyczna, PWN Warszawa 1967

Egzamin - jeśli zaliczenie jest wysokie ( db) to przepisuje prof. Oceny. Jeśli nie to egzamin jest pisemny, same definicje.

Konsultacje - A308

Statystyka obejmuje metody zbierania, prezentacji i analizy danych dotyczących zjawisk masowych (domyślnie powtarzalnych).

Jak zbierać dane to jest osobna metodologia.

Zadaniem statystki jest badanie prawidłowości zachodzących w zjawiskach masowych na podstawie badań.

Badanie statystyczne

  1. Planowanie badania

  2. Obserwacja statystyczna

  3. Opracowanie i prezentacja zebranego materiału statystycznego

  4. Opis i wnioskowanie statystyczne

Opis statystyczny - przedmiot wykładany w ramach statystyki opisowej

Populacja to zbiór przedmiotów lub osób posiadających wiele cech wspólnych oraz przynajmniej jedną cechę, która rozróżnia elementy tego zbioru wg metody.

Planowanie badania:

  1. Cel badania

  2. Przedmiot badania

  3. Zakres badania

  1. Badania pełne

- rejestracja

- spisy

  1. Badanie częściowe

- próba statystyczna

Opis statystyczny:

  1. Analiza struktury zbiorowości

  2. Analiza współzależności cech

  3. Analiza zmian zjawisk w czasie

Opis zbiorowości

Prowadząc badanie częściowe (z wykorzystaniem próby statystycznej) celem przeniesienia wyników na zbiorowość przeprowadzamy wnioskowanie statystyczne.

Wnioskowanie statystyczne dla opisów zbiorowości wykorzystuje wyniki analizy z próby oraz rachunek prawdopodobieństwa.

Wnioskowanie statystyczne:

  1. Estymacja parametrów populacji

  2. Weryfikacja hipotez statystycznych

Wybrane elementy rachunku prawdopodobieństwa

X - dziedzina - zbiór osób i wartości

Y - wartości - np. zbiór przyborów do pisania

Zmienna losowa - to funkcja której wartości są losowe. Zmienna losową nazywamy dowolna funkcje X określoną na przestrzeni zdarzeń elementarnych (znak omega) o wartościach ze zbioru R liczb rzeczywistych, mającą następujące własności:

Dla dowolnej ustalonej liczby rzeczywistej x zbiór zdarzeń elementarnych ( znak omega) tych których spełniona jest nierówność X ( znak omega) < x, jest zdarzeniem , czyli

{małe omega: X (mała omega) < x} należy Z, dla każdego x należy R

Dystrybuantą zmiennej losowej nazywamy funkcje określona na zbiorze R zgodnie ze wzorem

F(x) = P(X< x)

X - wartość zmiennej losowej

x - wszystkie liczby rzeczywiste - funkcja rzeczywiste

Zadanie

Jakie jest prawdopodobieństwo że rzucę kostka i wypadnie liczba całkowita <0>7 = 1

Jakie jest prawdopodobieństwo że rzucę kostką i wpadnie liczba parzysta = 3/6

Jakie jest prawdopodobieństwo że rzucę kostką i wypadnie liczba nieparzysta = ½

Jakie jest prawdopodobieństwo że rzucę kostka i wypadnie liczba podzielna przez 3 = 2

Jakie jest prawdopodobieństwo że rzucę kostka i wypadnie liczba niepodzielna przez 3 = 4/6

Własności dystrybuanty

  1. Lim F(x) = 0 (y - (ósemka przewrócona))

Lim F(x) = 1 (y - (ósemka przewrócona))

  1. Funkcja niemalejąca

  2. Jest funkcją co najmniej lewostronnie ciągła

Wszystkie zmienne losowe dzielimy na dwa rodzaje:

  1. Skokowe

  2. Ciągłe

Zmienna losowa skokowa - zmienna losowa X jest skokowa (dyskretna) jeżeli istnieje skończony albo przeliczalny zbiór wartości zapisany następująco:

X1,x2,x3,…x6, taki że:

P(X-x1) = pi >0 prawdopodobieństwo takiego zdarzenia co mamy w nawiasie wartości zmiennej losowej wynosi pi

Suma pi = 1

i należy do N

punkty skokowe - wartości xi nazywamy punktami skokowymi zmiennej losowej X, natomiast prawdopodobieństwa pi skokami zmiennej losowej X

Funkcją przyporządkowującą wartością xi zmiennej losowej X prawdopodobieństwa pi nazywamy rozkładem prawdopodobieństwa

xi

x1

x2

x3

-

-

x6

-

pi

p1

p2

p3

-

-

p6

-

Dystrybuantę zmiennej losowej skokowej wyznaczamy zgodnie ze wzorem:

F(x) = suma Pi

xi < x

przykład:

Rzucamy cztery razem monetą. Zmienna losowa jest liczbą wyrzuconych orłów. Wyznaczyć rozkład tej zmiennej losowej i dystrybuantę tej zmiennej losowej.

(znak omega)

Rzucamy 4 razy monetą ( możliwy wynik orzeł lub reszka)
(R,R,R,R) (R,R,R,O) (O,O, R,R) (O,R,O,O)

(O,R,R,R) (R,O,O,R) (O,R,R,O) (O,O,R,O)

(R,O,R,R) (R,R,O,O) (R,O,R,O) (R,O,O,O)

(R,R,O,R) (O,R,O,R) (O,O,O,R) (O,O,O,O)

xi wartości od 0-4

Rozkład zmiennej losowej X:

xi

0

1

2

3

4

pi

1/16

4/16

6/16

4/16

1/16

Suma prawdopodobieństw wynosi 1

F(2,5) = suma prawdopodobieństw (pi) = 1/16+4/16+6/16 = 11/16

xi<2,5

x należy do N

dystrybuanta zmiennej losowej

0x08 graphic
0 dla x<= 0

1/16 dla 0<x<= 1

5/16 dla 1<x<=2

11/16 dla 2<x <= 3 F(x)

15/16 dla 3<x<=4

1 dla 4<x

Parametry zmiennej losowej:

  1. Wartość oczekiwana - wymieniana jest w podręcznikach jako wartość przeciętna

- dla zmiennej skokowej

EX = suma iloczynów xi, pi

  1. Wariancja

- dla zmiennej skokowej

D2X = suma (xi - EX)2pi

Przykład:

Rzucamy cztery razem monetą. Zmienna losowa jest liczbą wyrzuconych orłów. Wyznaczyć rozkład tej zmiennej losowej i dystrybuantę tej zmiennej losowej.

Rozkład zmiennej losowej X:

xi

0

1

2

3

4

pi

1/16

4/16

6/16

4/16

1/16

EX = 0 * 1/16 + 1*4/16 + 2*6/16 + 3*4/16 + 4*1/16 = 2

W przeprowadzonym doświadczeniu przeciętna liczba wyrzuconych orłów wynosi 2.

D2X = (0-2)2 * 1/16 + (1-2)2 * 4/16 + (2-2)2*6/16 + (3-2)2*4/16 + (4-2)2*1/16 = 1

Odchylenie liczby wyrzuconych orłów od wartości przeciętnej wynosi 1

Wariancja jest zawsze liczbą większa od 0

Dominanta to wartość która występuje najczęściej.

Mediana - w próbie obserwacji większa i próba niemniejsza. Mediana to połowa.

Jeśli dominanta jest równa medianie, jest równa wartości przeciętnej to rozkład jest symetryczny.

Własności wartości przeciętnej i wariancji

a,b,c to dowolne liczny rzeczywiste wówczas własności F(c) = c, F(a*x)= a*EX, E(X+b)=EX+b, E(X+Y)=EX+EY

wartości wariancji:

D2(c) = 0

D2 (c) = a2*b2 x

D2(X+b)=D2X

Wykorzystując własności wartości przeciętnej i wariancji można udowodnić twierdzenie o standaryzacji zmiennej losowej.

Standaryzacja zmiennej losowej

Weźmy dowolną liczbę X o parametrach EX= u(ni) oraz DX = sigma

Zmienna losowa Y= X- u(ni)/sigma na parametry EY=0 oraz DY=1

Zmienna losowa ciągła X gdzie symbolem jest ciągła jeżeli przyjmuje wszystkie wartości z jednego przedziału oraz istnieje nieujemna funkcja (f) zwykła funkcja z matematyki taka że dystrybuantę F tej zmiennej losowej można zapisać w postaci:

F(x) = całka od minus nieskończoności do x, f(t) dt, dla x należącego do R.

Funkcję f nazywamy gęstością zmiennej losowej.

Własności zmiennej losowej ciągłej - rysunek

Funkcja gęstości reprezentuje (zastępuje) rozkład prawdopodobieństwa. - rysunek

b

P(a<=X <= b) = całka f (x) dx

a

P(a<=X <= b) = F(b) -F(a)

Oblicz prawdopodobieństwo że liczba wyrzucona orłów mieści się w przedziale od 1,6 do 3,4.

P(a=1,6, b=3,4) = E(3,4-dystrybuanta 1,6)

15/16 - dystrybuanta z przedziału pomiędzy 3do 4 ( z zadania wcześniejszego z orłów)

15/16 - 5/16 = 10/16

Wartość przeciętna zmiennej ciągłej to jest całka od minus do plus nieskończoności

- dla zmiennej skokowej

EX= suma xi*pi

- dla zmiennej ciągłej

EX = fx * dx

Przykład - zmienna losowa ma rozkład o gęstości

F(x) = ½ * x dla x z przedziału <0,2>

0 po za tym

Wyznaczyć dystrybuantę oraz wyznaczyć P(X<1,5)

F(x) = 0 dla x<= 0

F ½ tdt =

Wartość przeciętna - całka od minus do plus nieskończoności x razy f od x

Wybrane rozkłady zmiennych losowych ciągłych

  1. Rozkład normalny - zmienna losowa X ma rozkład normalny o pramtrach u (ni) oraz sigma jeżeli jej gęstośc prawdopodobieństwa jest dana wzorem:

F(x) = 1/sigma pierwiastek 2pi * exp(-(x-u(ni))2 / 2sigma2 )

y = F(x) = exp - eksponens

funkcja gęstości = krzywa Gaussa

rozkład zapisujemy symbolicznie N ( u(ni) i sigma))

u (ni) to jest wartość przeciętna, to liczba rzeczywista

sigma - odchylenie standardowe, sigma to liczba różna od 0

rozkład normalny standaryzowany

Z = X-u(ni) / sigma ---------- EZ = 0

D2Z = 1

Rysunek

EX = u (ni)

D2X = sigma2

sigma - odchylenie standardowe bada zmienność - bada odchylenie od średniej

Mediana - to identyczne dwa pola

  1. Rozkład t-Studenta

Zmienna losowa o rozkładzie t-Studenta o n stopniach swobody definiujemy jako

t= Z / pierwiastek X/n

gdzie Z ~ N(0,1) oraz X ~chi-kwadrat o n stopniach swobody .

Zmienne Z i X są nie zależne.

Rozkład symetryczny E (Tn ) =0

D2(Tn) = n/(n-2), n>2

Rozkład t-Studenta przy dużej liczbie stopni swobody (n nieskończoność) jest zbieżny do rozkładu normalnego standaryzowanego N (0,1)

  1. Rozkład (chi-kwadrat)

Niech Z1,Z2,…Zn ~ N(0,1) i są niezależne wówczas, każda zmienna losowa będąca sumą ich kwadratów.

n

Suma Zi2

i=1

na rozkład chi-kwadrat (x2) o n - stopniach swobody

to wyrażenie nie może być ujemne. Zawsze będzie w pierwszej ćwiartce.

Wraz ze stopniem swobody siła asymetrii w punkcie gęstości maleje.

E(chi-kwadrat) = n

D2(chi-kwadrat) = 2n - wariancja tyle wynosi

Rozkład prawostronnie asymetryczny

Rozkład chi-kwadrat przy dłużej liczbie stopni swobody (n-nieskończoności) jest zbieżny do rozkładu normalnego

Chi-kwadrat - n / pierwiastek z 2n N (0,1), gdy n nieskończoności

W pierwszej kolumnie mamy liczbę swobody dla zadanego prawdopodobieństwa wynoszącego alfa odczytujemy wartości chi-kwadrat alfa.

Na następne zajęcia przynosimy tablice rozkładu normalnego i normalnego standaryzowanego rozkładu t-Studenta, dystrybuanty, gęstości itd.

Rozkład standaryzowany jest wyróżniony na tle innych poprzez wyróżnienie dystrybuanty.

Zadanie:

Niech zmienna losowa X ~ N(0,1). Oblicz wartość prawdopodobieństwa

P(0,5<= X<= 0,78) = ?

P(a) <=X<= b) = F(b)-f(a)

P(0,51<=X<=0,78)= F(0,78) - F(0,51) = ?

= 0,7823 - 0,6950 = 0,0873

Odczyt z tabel:

F(Z) = 0,975

Z= 1,96

Przykład nr 2

Niech zmienna losowa X ~N (2,4). Oblicz wartość prawdopodobieństwa P(1<=X<=3) = ?

Pierwszym krokiem dokonujemy standaryzacji:

U (ni) wynosi 2

Sigma wynosi 4

Z= X-u(ni) /

P(1<=X<=3) = P(1-2<= X -2<=3-2) =

P (1-2 / 4<= X-2 / 4 <= 3-2 / 4 ) = P (-0,25 <= Z <= 0,25) =

F(0,25) - F(-0,25)= F(0,25)-[1-F(0,25)] =

2F(0,25) - 1 = 2*0,5987 - 1 = 1,1974 - 1 = 0,1974

Parametry statystyczne są to liczby służące do opisu zbiorowości statystycznej.

Stosowane w analizach parametry dzielimy na:

  1. Miarę przeciętne

  2. Miarę zmienności

  3. Miarę asymetrii

Cechy statystyczne

  1. Stałe:

- rzeczowe

- czasowe

- przestrzenne

b) Zmienne:

- jakościowe

- ilościowe:

* skokowe

* ciągłe

Jeśli próba rośnie to można zamienić na rozkład normalny.

Wykład nr 2 - 13.11.2011

Wnioskowanie statystyczne = statystyka matematyczna - to podejmowanie decyzji o parametrach np. szacowanie parametrów (parametryczne podejście) bądź o rozkładach.

Estymacja populacji = szacowanie

Populacja generalna:

  1. Nieskończona

  2. Skończona

Rozkładem populacji generalnej nazywamy rozkład badanej cechy w tej populacji.

Gdzie pojawia się napis ROZKŁAD mamy na myśli rozkład zmiennej losowej

Losowość próby oznacza że wyniki jej można traktować jako realizację zmiennych losowych o rozkładzie identycznym z rozkładem populacji.

Schematy losowań

Losowanie:

Próba

Próba prosta

Jeżeli X1,X2,… Xn jest ciągiem zmiennych losowych takich, że:

  1. Zmienne te są niezależne

  2. Każda zmienna losowa Xi ma taki sam rozkład

Oraz x1, x2,… xn jest ciągiem wartości, które w doświadczeniu losowym przybrały zmienne X1,X2,… Xn.

Wówczas ciąg x1,x2,… xn nazywać będziemy statystyczną próbą prostą dokonaną na zmiennych losowych X1,X2,… Xn.

Statystyka

Niech X1,X2,… Xn będzie ciągiem zmiennych losowych obserwowanych w próbie statycznych i niech U= Ψ(X1,X2,… Xn) będzie funkcją określoną na zmiennych losowych X1,X2,… Xn tak określona, że U też jest zmienną losową, wówczas U nazywamy statystyką.

Y = X - to nie może być funkcją gęstości, gdyż jest ujemne.

Rozkłady parametrów z próby:

Twierdzenie I

Jeżeli X1,X2,… Xn jest ciągiem niezależnych zmiennych losowych o rozkładach normalnych N (µ,σ) i jeżeli

n

X = 1/n Σ * Xi

i=1

To zmienna losowa X ma rozkład normalny N (µ,σ, pierwiastek n)

Twierdzenie II

Jeżeli X1,X2,… Xn jest ciągiem niezależnych zmiennych losowych o rozkładach normalnych N (µ,σ) i jeżeli

n

S2 =1/n Σ (Xi-X)2

i=1

to zmienna losowa nS2/ σ2 ma rozkład chi-kwadrat o n-1 stopniach swobody.

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic

Estymator

Oznaczmy dowolny nieznany parametr populacji Ѳ (teta) rozkładu zmiennej losowej X nazywamy dowolną funkcję zmiennych losowych obserwowanych w próbie, która jest zmienną losową zależną od Ѳ wnioskowanie o wartości Ѳ można przeprowadzić na podstawie wartości tej funkcji zaobserwowanej w próbie.

Tn = (X1,X2,…Xn ; Ѳ)

Ocena parametru Ѳ - to wartość estymatora Tn dla próby statystycznej x1,x2,…xn.

Tn(x1,x2,…xn) = tn

Własności estymatorów:

Estymator jest nieobciążony jeżeli wartość oczekiwana estymatora jest równa szacowanemu parametrowi.

  1. Nieobciążność E (Tn *( X1,X2,…Xn; Ѳ)) = Ѳ

Obciążenie Bn= E(Tn)- Ѳ

  1. Zgodność - estymator jest zgodny jeżeli wraz ze wzrostem wartości próby, maleje bezwzględna odległość wartości estymatora od szacowanego parametru.

0x08 graphic
0x08 graphic

0x08 graphic
lim P{ |Tn - Ѳ| < ε} = 1

ε > 0 n

  1. Efektywność - mówi ze estymator jest efektywny jeżeli ma najmniejszą wariancję w zbiorach porównywalnych.

Minimalna wariancja D2(Tn), wśród pewnego zbioru estymatorów.

Rodzaje estymacji:

Estymacja parametryczna

Rodzaje estymacji parametrycznej:

  1. Punktowa stosowana jeżeli znana jest postać funkcyjna rozkładu populacji F(x, Ѳ)

- wnioskujemy o wartości Ѳ podając jej liczbową ocenę.

2. Przedziałowa - wyznaczamy przedział [T1n , T2n] taki że jego końce zależą od próby, ale nie zależą od parametrów Ѳ

Prawdopodobieństwo że szacowany parametr należy do danego przedziału jest ustalony z góry i nazywane poziomem ufności.

Parametr populacji oznaczamy jako Ѳ (teta).

Parametr Ѳ

Estymator Tn

E(Tn)

D2(Tn)

Własności

Wartość średnia

m

µ

  1. X

  1. M

m

m

σ2 / n

π σ2 / 2n

Nieobciążony

Zgodny

Efektywny

Nieobciążony

zgodny

Wskaźnik struktury

p

m / n

p

(jako prawdopodobieństwo sukcesu pojedynczych doświadczeń)

p(1-p) / n

Nieobciążony

Zgodny

Efektywny

Wariancja σ2

S2* = 1/n Σ(Xi-m)2

0x08 graphic
j S2 = 1/n Σ (Xi - X)2

^

S2 = n / n-1 * S2

σ2

(η-1) σ2 / η

σ2

η 4 - σ4 / η

η 4 - σ4 / η + Ѳ(1/n)

Nieobciążony

Zgodny

Efektywny

Zgodny

Nieobciążony

zgodny

Wskaźnik struktury to nic innego średnia rozkładu zerojedynkowego.

p - (jako prawdopodobieństwo sukcesu pojedynczych doświadczeń)

q = 1-p (jako prawdopodobieństwo porażki pojedynczych doświadczeń)

F(aX) = aEX

X = S2

Przedziały ufności:

I. Średnia z populacji: m

  1. Znane parametry rozkładu populacji:

0x08 graphic

P { X - µα * σ/pierwiastek n < m< X + µα * σ/pierwiastek n }= 1-α

  1. Estymowane parametry rozkładu populacji na postawie próby

  1. Mała próba

P { X - tα* S/pierwiastek n - 1 < m< X + tα * S/pierwiastek n - 1 }= 1-α

  1. Duża próba

P { X - µα* S/pierwiastek n - 1 < m< X + µα * S/pierwiastek n - 1 }= 1-α

II. Wariancja σ2

  1. Mała próba P (nS2/c22<nS2/c1)=1- α

C2 =

  1. Duża próba

P{S/1+ µα / pierwiastek z 2n < α < S/1- µα / pierwiastek z 2n}

III. wskaźnik struktury p

P{m/n- µα * pierwiastek m/n (1-m/n) / n <p < m/n + µα* pierwiastek m/n (1-m/n)} = 1-α

Przykład e.

Z populacji generalnej o rozkładzie normalnym N (m, σ) wylosowano 8-elementową próbę prostą otrzymując wyniki: 1,2 ; 1; 0,7; 1,4; 1,1; 0,9; 1,2; 1,3;

W oparciu o te wyniki należy obliczyć wartości końców przedziału ufności dla wariancji σ2 z populacji, przyjmując współczynnik ufności 1-α = 0,98.

P (nS2/c22<nS2/c1)=1- α

1-α = 0,98 α = 0,02

½ α = 0,01 1- ½ α = 0,99

n-1 = 7 stopni swobody

C2= 18,475

C1 = 1,239

nS2= 0,36

P { 0,36 / 18,475 < σ2 < 0,36 / 1,239} = 0,98

0,02 < σ2<0,29

T-alfa - to wartość z rozkładu T-studenta o n1 stopnia swobody

T alfa= 2,624

1-alfa = 0,98 ile wynosi ualfa?

F(alfa)

Ualfa =

Przykład F.

Z populacji o rozkładzie 2-punktowym, o-punktowym z nieznanym parametrem p wylosowano 200-elementową próbę prostą i otrzymano z niej m=60sukcesów. Na tej podstawie należy wyznaczyć z 90% ufnością przedział ufności dla prawdopodobieństwa sukcesu p.

P{m/n- µα * pierwiastek z (całego) m/n (1-m/n) / n <p < m/n + µα* pierwiastek z (całego) m/n (1-m/n)} = 1-α

µα = 1,64

m/n = 60 / 200 = 0,3

p {0,3 - 0,64 * pierwiastek z( całego) 0,3( 1-0,3) / 200 <p<0,3 + 0,64 * pierwiastek z całego 0,3 ( 1-0,3) / 200 } = 0,9

p { 0,3 - 1,64 * 0,0324 <p<0,3+1,64 * 0,0324} = 0,9

p { 0,25 < p < 0,35} = 0,9

1-α to poziom błędu poziom ufności. Powinien być jak najwyższy.

Jeśli poziom ufności rośnie (maleje błąd oszacowania) np. 0,95 to 5% błędu. Wówczas długość przedziału ufności…

Jakie ma być µm

Odczyt z tablic- dystrybuanta z rozkładu normalnego

F(z)= 0,975

z = 1,96

µα - wartość z rozkładu normalnego jest funkcją poziomu ufności.

Przykład a.

Z pewnej populacji o rozkładzie normalnym N (m, 20) wylosowano 16-elementową próbę prostą otrzymując z niej X = 60. Przyjmując współczynnik ufności 0,99 należy na tej podstawie oszacować nieznaną średnią m tej populacji.

0x08 graphic
P { X - µα * σ/pierwiastek n < m< X + µα * σ/pierwiastek n }= 1-α

Współczynnik ufności 0,99

µα = 2,58

P {60-2,58 * 20 / pierwiastek 16 < 60 + 2,58 * 20/ pierwiastek z 16} = 0,99

P {60 - 12,9 < m < 60 + 12,9} = 0,99

P {47,1 < m < 72,9}= 0,99

Przykład b.

Ile co najmniej powinna wynosić liczebność próby w przykładzie a. , aby wyznaczony z tej próby z 99% ufnością miał długość co najwyżej równą 20 ?

Współczynnik ufności 0,99

2d = 20

d = 10

populacja ma rozkład normalny N(m,20) znamy wariancje σ2 = 400. Minimalna liczebność próby potrzebną do oszacowania średniej w populacji wyznaczyć ze wzoru.

n ≥ µ2α * σ2 / d2

gdzie dla współczynnika ufności 0,99

µα = 2,58

oraz d= 10

największa dopuszczalna wartość maksymalnego błędu szacunku to jest połowa długości przedziału ufności.

n ≥ 6,66 * 400 / 100 = 26,64 n=27

Niezbędna wielkość próby

Określamy liczebność próby tak aby zapewnić z góry określoną precyzję szacunku

Założenia:

Długość przedziału ufności ma wynosić 2d

d jest ustalone, jest rzędem precyzji

rozwiązujemy zadanie z jedna niewiadomą:

D(Tn) = odchylenie estymatora ≤ d

Wykład nr 3 - 27.11

Test istotności:

  1. Przyjęcie hipotezy zerowej i alternatywnej

- testy nieparametryczne:

Struktura:

H0 - rozkład zmiennej losowej opisującej wzrost mężczyzn w Katowicach jest normalny

H1 - rozkład zmiennej losowej opisującej wzrost mężczyzn w Katowicach nie jest normalny

- testy parametryczne - hipotezy alternatywne

H0:Ѳ = Ѳ0

Wybieramy jedna z trzech możliwych hipotez alternatywnych:

  1. Jeżeli chcemy dowiedzieć się czy parametr Ѳ jest lub nie jest równy Ѳ0 wówczas:

H1: Ѳ ≠ Ѳ0

  1. Jeżeli chcemy dowiedzieć się czy parametr Ѳ jest większy niż Ѳ0 wówczas:

H1: Ѳ > Ѳ0

  1. Jeżeli chcemy dowiedzieć się czy parametr Ѳ jest mniejszy od Ѳ0 wówczas:

H1: Ѳ < Ѳ0

  1. Wybór statystyki

- testy parametryczne w badaniu 1 populacji

a) średnia z populacji: H0 : m = m0

U = X(z kreską) - m0 / σ * pierwiastek z n

M0 - wartość z hipotezy

σ - odchylenie standardowej z populacji

N - wielkość populacji

Jeżeli nie znam σ to tak jak przy estymacji mała próba i duża próba.

b)estymowane parametry rozkładu populacji na podstawie próby:

t = X z kreską - m0 / S * pierwiastek z n-1

X z kreską - m0 / S * pierwiastek z n

c)wariancja: H0:σ2= σ20

χ2 = nS2 / σ20 = (n-1) S z daszkiem 2 / σ20

Z = pierwiastek 2* χ2 - pierwiastek 2n-3

d)wskaźnik struktury H0 : p = p0

U = m / n - p0 / pierwiastek p0 * (1-p0) / n

  1. Wybór wartości poziomu istotności (czyli wybieram poziom α- prawdopodobieństwo) i określenie obszaru krytycznego

Obszar krytyczny zależy od:

- przyjętej hipotezy alternatywnej - możliwości jest a) lub b) lub c)

- rozkładu statystyki testu - możliwości 3 dla dwóch populacji

- przyjętej wartości poziomu istotności - korelacja

Ustalamy dla naszego rozkładu że statystyka testu ma rozkład normalny

  1. Obszar krytyczny dwustronny:

Uα to wartość z rozkładu normalnego dla przyjętej wartości α to Uα nazywa się wartością krytyczną testu.

Prawdopodobieństwo (wartości zmiennej losowej U ≥ Uα) = α, przedział krytyczny od Uα do +∞

U < -Uα = α, to przedział krytyczny mieści się od -∞ do -Uα

Tablice rozkładu χ2 zawierają wartości krytyczne prawostronnych obszarów krytycznych

  1. Obliczanie wartości

  1. Wyznaczenie jednej wartości statystyki testu wybranym (ustalonym) w punkcie drugim. Jeżeli jedna liczba należy do obszaru krytycznego to odrzucamy hipotezę zerową.

Przykład: czas pracy pewnego typu baterii ma rozkład normalny N (m,70). Na poziomie istotności α = 0,05. Zweryfikować hipotezę że przeciętny czas pracy tego typu baterii wynosi ponad 500 godzin, jeśli dla 16-losowo wybranych baterii otrzymany X z kreską = 560

  1. H0:m = 500 godzin

H1:m > 500 godzin

  1. U = X z kreską - m0 / σ * pierwiastek z n

  2. Α = 0,05

prawostronny obszar krytyczny

P(U ≥ uα) = α

P(U ≥ uα) = 0,05

Uα = 1,64

  1. U = 560 - 500 / 70 * pierwiastek z 16 = 3,43

3,43 należy Wn = (1,64, ∞) jeśli należy do tego przedziału to nie ma hipotezy zerowej.

Nierówność jest prawdziwa czyli wartość testu 3,43 jest większa od wartości krytycznej zatem wartość krytyczna należy do tego obszaru i odrzucamy hipotezę zerową mówiącą że ta średnia wynosi 500, można zatem uważać że przeciętny czas działania tych baterii wynosi ponad 500 h.

  1. 3,43 ≥ 1,64

Przykład. Za pomocą pewnego instrumentu pomiarowego dokonano 10 niezależnych tej samej wielkości i otrzymamy następujące wyniki: 7,03 ; 7,05; 7,04 ; 7,04 ; 7,07

7,02 ; 7,01 ; 7,05 ; 7,03 ; 7,02

Producent instrumentu gwarantuje że rozrzut błędu pomiaru jest tak mały, że odchylenie standardowe jest równe 0,03. Zweryfikujemy hipotezę, że σ = 0,03, przyjmując α = 0,01.

  1. H0: σ2 = 0,0009

H1: σ2 > 0,0009

  1. χ2= (n-1) * S z daszkiem2 / σ20

  2. α = 0,01

prawostronny obszar krytyczny

P(χ2 ≥ χ2α ) = α

n-1 = 9 stopni swobody

P (χ2 > χ2α) = 0,01

χ2α = 21,67

  1. χ2 = 9 * 0,000316 / 0,0009 = 3,16

  2. 3,16 > 21,67

  1. Wniosek: odrzucenie lub nie hipotezy losowej lub brak podstaw do odrzucenia hipotezy zerowej

Jeżeli wartość testu należy do obszaru krytycznego wówczas odrzucamy

Wnioskowanie o dwóch populacjach

Współczynnik korelacji: p (pro)

Populacja ma dwuwymiarowy rozkład normalny

Losujemy próbę n - elementową ( n nie musi duża)

Statystyka t

t = r / pierwiastek t-r2 = pierwiastek n-2

ma rozkład studenta o (n-2) stopniach swobody

Przykład: wylosowano 10 par zawierających związek małżeński i otrzymano dane o wieku w latach kobiet i mężczyzn

Wiek kobiety

23

24

29

27

33

29

19

22

21

23

Wiek mężczyzny

27

28

30

30

35

41

22

25

26

26

Na poziomie istotności 0,05, zweryfikować hipotezę że istnieje dodatnia korelacja między wiekiem osób zawierających małżeństwo

  1. H0: p(pro) = 0

H1: p(pro) > 0

  1. t = r / pierwiastek 1-r2 * pierwiastek n-2

  2. α = 0,05 rozkład t o (10-2) = 8 stopniach swobody, prawostronny obszar krytyczny

α/2 = 0,05

tα = 1,86 do +∞

  1. t = 4,21

4,21 należy (1,86;∞)

Odrzucamy hipotezę zerowa na korzyść alternatywnej. Brak korelacji

Test o równości dwóch średnich H0: m1 =m2

  1. dwie populacje maja rozkład normalny N(m11) i N(m22) oraz σ1, σ2 są znane losujemy niezależne próby o liczebnościach n1 i n2

statystyka U= X1 z kreską - X2 z kreską / pierwiastek wszystko σ12 /n1+ σ22 / n2

  1. dwie populacje maja rozkłady normalne N(m11) i N(m22) oraz σ1, σ2 nie są znane, ale σ1= σ2, losujemy niezależne próby o liczebnościach n1 i n2

t= X1 z kreską - X2 z kreską / pierwiastek wszystko n1 * S12+ n2 * S22…….

  1. dwie populacje mają rozkłady normalne N(m11) i N(m22) oraz σ1, σ2 nie są znane, losujemy niezależne dwie duże próby o liczebnościach n1 i n2

U = X1 z kreską - X2 z kreską / pierwiastek wszystko S12/n1 + S22n2 ~ N (0,1)

Przykład: Z populacji kobiet zatrudnionych na pewnych stanowiskach wylosowano próbę 100 osób i przeprowadzono badanie dotyczące miesięcznego wynagrodzenia. Średnia płaca wynosiła 2180zł a wariancja 6400. Analogicznie wyniki dla próby 80 mężczyzn wynosiły odpowiednio 2280zł i 10 000. Zweryfikować hipotezę o niższych płacach kobiet, przyjmując poziom istotności α=0,01.

  1. H0: m1= m2

H1: m1 < m2

  1. U = X1z kreską - X2z kreską / S12/ n1+ S22/ n2

  2. α=0,01 lewostronny obszar krytyczny

  3. U = 2180 - 2280 / pierwiastek wszystko 6400 / 100 + 10 000 / 80 = -7,27

  4. u= -7,27 < - 2,33 = -uα

Wniosek: Hipotezę zerową odrzucamy

Testy o równości dwóch wariancji

H0:σ12 = σ22

H1:σ12 = σ22

Dwie populacje mają rozkład normalny N (m11) i N(m22) parametry tych rozkładów nie są znane. Losujemy niezależne próby o liczebnościach n1 i n2. Obliczamy z prób wartości wariancji S12 i S22 * (S12> S22)

Statystyka F= S12/ S22

Prawostronnie obszar krytyczny

Test o równości dwóch wskaźników struktury

H0:p1= p2

Badana cecha w dwóch populacjach ma rozkład dwupunktowy z parametrami p1 i p2

Losujemy niezależne próby o liczebnościach n1 ii n2 ≥ 100.

U=m1/n1 - m2/n2 / pierwiastek wszystko pq z kreską / n ~ N (0,1)

Przykład. W celu sprawdzenia czy zachorowalność na pewna chorobę w pewnym województwie na wsi i w mieście jest takie samo wylosowano dwie losowe próby. Dla ludności miejskiej na 1200 wylosowanych osób było 40 chorych, dla ludności wiejskiej na 1500 osób chorych było 100. Zweryfikować hipotezę o jednakowym procencie zachorowalności na badana chorobę.

α = 5% = 0,05 - zawsze tyle wynosi kiedy nie jest podana.

  1. H0:p1 = p2

H1: p1 ≠ p2

m1/n1 = 40/1200 = 0,033

m2/n2 = 100/1500 = 0,67

p = m1+m2 / n1+n2 = 140/2700 = 0,052

q z kreską = 1-p = 1-0,052 = 0,948

n = n1*n2/n1+n2 = 1200 * 1500 / 1200+ 1500 = 18 000/27 = 667

U=m1/n1 - m2/n2 / pierwiastek z pq / n = 0,033-0,067 / pierwiastek 0,052 * 0,948/667 = -3,9

Dwustronny obszar krytyczny dla α = 0,05 uα = 1,96

U = -3,9 należy do Wn= (-∞; -1,96) i (1,96, ∞)

Wszystkie testy istotności dzielimy na dwa rodzaje:

  1. Nieparametryczne - hipoteza zerowa jest przypuszczeniem o typie rozkładu badanej cechy w kopulacji

  2. Parametryczne - hipoteza zerowa jest przypuszczeniem o wartościach parametru badanej cechy populacji

Moc testu - to prawdopodobieństwo odrzucenia fałszywej hipotezy zerowej

Przynieść tablice Fiszera !!

Funkcja regresja

Zależność niezależność

Tablica korelacyjna

Wykład nr 4 - 11.12.2011

Weryfikacja hipotez statystycznych

Rezultat testowania hipotez

H0 jest prawdziwe i H0 przyjęcie = prawidłowa decyzja

H0 jest prawdziwe i H0 odrzucenie = błąd I rodzaju P ( błąd I rodzaju) = α

H0 jest fałszywe i H0 przyjęcie = Błąd II rodzaju P(błąd II rodzaju) = α

H0 jest fałszywe i H0 odrzucenie = prawidłowa decyzja

Przykład

Niech będzie dana populacja o rozkładzie normalnym N (m,σ) gdzie σ jest znane. Na podstawie n-elementowej próby prostej weryfikujemy hipotezę pośredniej m w tym rozkładzie populacji.

H0 : m=m0 wobec H1: m=m1 gdzie m1>m0

Proponuje się test T o obszarze krytycznym ϖ = {X : X z daszkiem ≥ c }, gdzie c jest pewną znaną liczbą.

Zmiana stałej powoduje zmianę prawdopodobieństw α , beta błędów I i II rodzaju w teście T

α - Odrzucenie hipotezy pod warunkiem ze ona była prawidłowa.

P(A | B)

  1. Odrzucenie hipotezy zerowej pod warunkiem że jest prawdziwe

α = P { X należy ϖ | H0} = P {X z kreską ≥ c | m = m0 }

β = P {X należy X - ϖ | H1} = P {X z kreską < c | m = m1 }

Test T nazywamy testem najmocniejszym, jeżeli jest oparty na takim obszarze krytycznym ϖ0, którego przy danym z góry prawdopodobieństwem α błędu I rodzaju prawdopodobieństwo błędu II rodzaju β jest najmniejsze.

W teście najmocniejszym ustalamy arbitralnie małe prawdopodobieństwo α błędu I rodzaju a następnie szukamy takiego obszaru krytycznego ϖ0 aby przy ustalonym α zachodziło:

Min β(ϖ) = β (ϖ0) = P {X należy do X - ϖ | H1}

Mocą testu nazywamy prawdopodobieństwo podjęcia prawdziwej decyzji polegającej na odrzuceniu sprawdzanej hipotezy wtedy, gdy jest ona fałszywa.

Moc testu T jest równa :

M= P { X należy do ϖ | H1 } = 1-P {X należy X - ϖ | H1 } = 1-β

Minimalizacja prawdopodobieństwa β jest równoważna wyznaczenia maksymalizacji mocy M testu T.

Nie dla każdej hipotezy istnieje test najmocniejszy

Testy najmocniejsze istnieją, gdy hipoteza sprawdzana i alternatywna są zapisywane następująco:

H0 : Ѳ = Ѳ0 wobec H1 : Ѳ = Ѳ1

Jeżeli hipotezą alternatywną do sprawdzanej hipotezy prostej jest hipoteza parametryczna złożona

H0 : Ѳ = Ѳ0 wobec H1 : Ѳ = Ѳ1 gdzie Ѳ1 należy do Ω1

Oraz przy wszystkich hipotezach prostych mamy ten sam test najmocniejszy T - mówimy wtedy, że jest to test jednostajnie najmocniejszy.

Test T oparty na obszarze krytycznym ϖ nazywamy jednostajnie najmocniejszym, dla hipotezy parametrycznej H0 : Ѳ = Ѳ0 wobec złożonej hipotezy alternatywnej H1 : Ѳ należy do Ω1 jeżeli jest on najmocniejszy dla hipotezy H0 wobec każdej prostej hipotezy alternatywnej H1 : Ѳ = Ѳ1 gdzie Ѳ1 należy do Ω1.

Testy jednostajnie najmocniejsze istnieją dla hipotezy alternatywnej złożonej w postaci:

H1 : Ѳ > Ѳ0 oraz H1 : Ѳ < Ѳ0

Na ogół nie istnieje test jednostajnie najmocniejszy dla hipotez alternatywnych złożonych postaci:

H1 : Ѳ ≠ Ѳ0

Testy te nazywamy testem nieobciążonym, dla hipotezy parametrycznej H0 : Ѳ = Ѳ0 wobec złożonej hipotezy alternatywnej H1 : Ѳ należy do Ω1, jeżeli jest on oparty na takim obszarze krytycznym ϖ, że zachodzi nierówność.

P{X należy do ϖ | H1 } ≥ P { X należy do ϖ | H0 }

P{X należy do ϖ | Ѳ = Ѳ1 } ≥ P { X należy do ϖ | Ѳ = Ѳ0 } M ≥ α

Test T nazywamy testem obciążonym gdy zachodzi nierówność przeciwna

M < α

Funkcja mocy testu Tϖ

M ( Ѳ) = P {X należy do ϖ | Ѳ należy do Ω1},

Której argumentami są wartości parametru ze zbioru hipotez alternatywnych Ω1, a wartościami - odpowiednie wartości mocy M testu Tϖ służy do badania nieobciążności testu.

Test Tϖ jest zgodny jeżeli

lim M = 1

n

dla dużych prób wymagamy, aby test był zgodny

test statystyczny Tϖ nazywamy testem istotności dla sprawdzanej hipotezy H0, jeżeli dla x należy do ϖ odrzuca się hipotezę H0 z prawdopodobieństwem błędu I rodzaju α w danym z góry (poziom istotności testu) natomiast dla x nie należy do ϖ stwierdza się brak podstaw dla odrzucenia hipotezy H0

nie podejmuje się decyzji o przyjęciu sprawdzanej hipotezy H0.

Od czego zależy wybór testu statystycznego parametrycznego?

Zależy czy opis jest 1 czy 2 populacje

Zjawisko które chcemy badać : zmienność czy położenie

Czy znana jest wariancja

Jak duża jest próba

Statystyka T-studenta stosujemy - kiedy badam średnią i nie znam wariancji z populacji

Test parametryczny analizie regresji

Y z daszkiem = A1 * A0 - wzór na regresję

A1 informuje jak średnio zmienia się Y jeżeli X rośnie o jedną jednostkę

Funkcja najmniejszych kwadratów

Zadanie:

Y z daszkiem = -5 *x +2

Y - kapitał posiadany (w tys. zł)

X - wydatki na prezenty (w tys. zł)

W teście istotności dla współczynnika kierunkowego α1 liniowej funkcji regresji przy weryfikacji hipotez:

H0 : α1 = 0

Wobec H1 : α1 ≠ 0

Statystyka testu ma postać

t= a1 / S z daszkiem (a1)

a1 jest współczynnikiem kierunkowym linii regresji wyznaczonym dla próby

S z daszkiem (a1) jest błędem szacunku tego współczynnika

Zadanie:

Dla 10 losowo wybranych studentów mamy informację o wynikach sesji egzaminacyjnej

na I i IV roku.

X= I

3,5

4,0

3,8

4,6

3,9

3,0

3,5

3,9

4,5

4,1

Y=IV

4,2

3,9

3,8

4,5

4,2

3,4

3,8

3,9

4,6

4,0

Wyjściowa informacja to postać równowagi regresji:

Y = 0,622x +1,617

Wynik testu t (t=4,219) pozwalają na stwierdzenie, że współczynnik kierunkowy jest statystycznie istotny ( ponieważ p=0,003, odrzucamy H0 : α1 = 0).

Przedział ufności przy przyjętym 95% poziomie ufności dla współczynnika kierunkowego linii regresji ma końce 0,282 i 0,962.

0x08 graphic

Obserwowany poziom istotności testu (wartość p) dla ustalanego testu statystycznego jest to prawdopodobieństwo odpowiadające obserwowanej wartości testu wyznaczonej dla próby statystycznej.

Celem ilustracji ustalamy rozkład normalny jako statystkę testu oraz prawostronny obszar krytyczny.

0x01 graphic

Testy nieparametryczne

Test zgodności chi - kwadrat

H0: populacji ma rozkład typu Ω (F(x) należy Ω)

0x08 graphic

r

χ2= Σ( ni - npi)2 / npi

i=1

ni - wartość występowania obserwowany xi w próbie statystycznej

r - klas wartości rozkładu cech

definiujemy prawostronny obszar krytyczny:

liczba stopni swobody: (r - k - l)

r - klas wartości rozkładu cech

k - liczba parametrów rozkładu zmiennej losowej z hipotezy zerowej

dla rozkładu normalnego k = 2

Jeżeli obserwowany poziom istotności jest mniejszy od wybranego poziomu istotności testu (np. 0,05) wówczas hipotezę zerową odrzucamy.

Odrzucam hipotezę zerową jeżeli U > Uα co jest równoważne że p < α

Przykład.

Zweryfikować hipotezę że stopień zachmurzenia w czerwcu w pewnej miejscowości ma rozkład normalny, jeżeli przeprowadzono 200 pomiarów zachmurzenia w miesiącu czerwcu otrzymując wyniki:

Stopień zachmurzenia

1

2

3

4

5

6

7

8

9

Liczba pomiarów

43

20

15

14

13

16

15

22

42

Poziom zachmurzenia ma rozkład normalny

N(n,σ)

I. Estymacja

Estymujemy wartości nieznanych parametrów testowanego rozkładu:

  1. Nieobciążonym estymatorem średniej populacji jest średnia z próby

  2. Estymatorem wariancji z populacji (σ2) jest wariancja z próby

Obliczamy wartości średniej i odchylenia standardowego w próbie

II. Hipoteza

Wyznaczamy parametry w próbie: X z daszkiem = 5,02 ; S = 3,07

Liczba estymowanych parametrów populacji: k = 2

III. Przeprowadzamy standaryzację

Wylicz wartości U

Ui = Xi - X z daszkiem / S

Xi

ni

Ui

F (Ui)

Pi

Npi

Ni-npi

(Ni-npi)2

(Ni-npi)2 / npi

1

43

-1,31

0,095

0,095

19,02

23,98

575,05

30,24

2

20

-0,99

0,161

0,066

13,20

6,80

46,24

3,51

3

15

-0,66

0,255

0,094

18,71

-3,71

13,77

0,74

4

14

-0,34

0,367

0,112

22,47

-8,47

71,75

3,20

5

13

-0,01

0,496

0,129

25,82

-12,82

164,36

6,37

6

16

0,32

0,626

0,130

25,91

-9,91

98,21

3,8

7

15

0,65

0,742

0,117

23,33

-8,33

69,39

2,98

8

22

0,98

0,836

0,094

18,87

3,13

9,80

0,52

9

42

1,30

0,903

0,164

32,71

9,29

86,30

2,64

54

Xi ma wartości 1,2,3

1 z prawdopodobieństwem 0,3

2 z 0,4

3 z 0,3

Liczba stopni swobody ( r - k - l ) = (9-2-1 ) = 6

Poziom istotności α = 0,05

Wartości krytyczna χα2 = 12,59

Wartość testu χ2 = 54

Sprawdzamy czy χα2 ≥ χ2

obszar krytyczny to przedział (12,59 ; +∞)

wartość testu należy do obszaru krytycznego czyli odrzucamy hipotezę zerową

test niezależności chi-kwadrat

mamy wartości x i y na dowolnej skali. Wyniki zapisane są na tablice korelacyjnej.

Tablica korelacyjna

y1

y2

yi

ys

yi.

x1

x2

xi

nij

xr

n.j

n

N.j - to suma liczebności w kolumnie o numerze j

Ni. - to suma liczebności w wierszu o numerze i.

N - wielkość całej próby

  1. H0: badane dwie cechy są niezależne

r s

  1. χ2 = Σ Σ (nij - ni.*n.j / n)2 / ni * n.j / n

i=1 j=1

ni. i nij to liczebności brzegowe

zaobserwowane w próbie wartości cech x i y zawiera tablice korelacyjne o wymiarach r x s

prawostronny obszar krytyczny

liczba stopni swobody : (r-1) * (s-1)

przykład:

wylosowaną próbę 100 osób, a następnie zadano pytanie czy palą papierosy? Wynik zapisano w tablicy korelacyjnej. Zweryfikować hipotezę o niezależności miedzy płcią a paleniem tytoniu.

Palenie tytoniu

Płeć

Tak

Nie

Σ

Kobiety

25 12

5 18

30

Mężczyźni

15 28

55 42

70

Σ

40

60

100

n1. * n.1 / n = 30*40 / 100 = 12

n1. * n.2 / n = 30*60 / 100 = 18

n2. * n.1 / n = 70*40 / 100 = 28

n2. * n.2 / n = 70*60/100 = 42

χ2= (25-12)2 / 12+ (5-18)2 / 18 + (15-28)2 / 28 + (55-42)2 / 42 = 33,5

  1. α = 0,05 prawostronny obszar krytyczny

P (χ2≥ χα2 )= α (2-1)(2-1) = 1 stopień swobody

P (χ2≥ χα2 )= 0,05 stąd χα2 = 3,84

  1. χ2=33,5

  1. 33,5 ≥ 3,84 odrzucamy hipotezę H0

Estymatorem wyrażenia: npij dla dwuwymiarowej zmiennej losowej jest wartość: ni. * n.j / n

Test niezależności:

Zakres bieżący - jest to zakres danych zawierający wyniki obserwacji, które należy porównać z przewidywaniami (nij).

Zakres przewidywania - jest to zakres danych zawierający stosunek iloczynu sum wierszy przez sumę kolumn do sumy globalnej (npij = ni. * n.j / n )

STATYSTYKA MATEMATYCZNA

PROF. G. TRZPIOT

1

Populacja

Próba

Szacunki parametrów populacji

Estymator

Statystyki



Wyszukiwarka