30.10.2011r. - wykład nr 1
Literatura:
M. Sobczyk - Statystyka, PWN
G. Kończak, G. Trzpiot - Analizy statystyczne z arkuszem kalkulacyjnym
G. Kończak, G. Trzpiot - Metody statystyczne z wyobrażeniem programów komputerowych. AE Katowice 2004
(w tych ost dwóch są przykładowe pytania egzaminacyjne)
G. Trzpiot G. Kończak - Statystyka matematyczna w przykładach i zadaniach GWSH Katowice 2008
J. Greń - statystyka matematyczna. Modele i zadania, PWN Warszawa 1982
M. Fisz - rachunek prawdopodobieństwa i statystyka matematyczna, PWN Warszawa 1967
Egzamin - jeśli zaliczenie jest wysokie ( db) to przepisuje prof. Oceny. Jeśli nie to egzamin jest pisemny, same definicje.
Konsultacje - A308
Statystyka obejmuje metody zbierania, prezentacji i analizy danych dotyczących zjawisk masowych (domyślnie powtarzalnych).
Jak zbierać dane to jest osobna metodologia.
Zadaniem statystki jest badanie prawidłowości zachodzących w zjawiskach masowych na podstawie badań.
Badanie statystyczne
Planowanie badania
Obserwacja statystyczna
Opracowanie i prezentacja zebranego materiału statystycznego
Opis i wnioskowanie statystyczne
Opis statystyczny - przedmiot wykładany w ramach statystyki opisowej
Populacja to zbiór przedmiotów lub osób posiadających wiele cech wspólnych oraz przynajmniej jedną cechę, która rozróżnia elementy tego zbioru wg metody.
Planowanie badania:
Cel badania
Przedmiot badania
Zakres badania
Badania pełne
- rejestracja
- spisy
Badanie częściowe
- próba statystyczna
Opis statystyczny:
Analiza struktury zbiorowości
Analiza współzależności cech
Analiza zmian zjawisk w czasie
Opis zbiorowości
Prowadząc badanie częściowe (z wykorzystaniem próby statystycznej) celem przeniesienia wyników na zbiorowość przeprowadzamy wnioskowanie statystyczne.
Wnioskowanie statystyczne dla opisów zbiorowości wykorzystuje wyniki analizy z próby oraz rachunek prawdopodobieństwa.
Wnioskowanie statystyczne:
Estymacja parametrów populacji
Weryfikacja hipotez statystycznych
Wybrane elementy rachunku prawdopodobieństwa
X - dziedzina - zbiór osób i wartości
Y - wartości - np. zbiór przyborów do pisania
Zmienna losowa - to funkcja której wartości są losowe. Zmienna losową nazywamy dowolna funkcje X określoną na przestrzeni zdarzeń elementarnych (znak omega) o wartościach ze zbioru R liczb rzeczywistych, mającą następujące własności:
Dla dowolnej ustalonej liczby rzeczywistej x zbiór zdarzeń elementarnych ( znak omega) tych których spełniona jest nierówność X ( znak omega) < x, jest zdarzeniem , czyli
{małe omega: X (mała omega) < x} należy Z, dla każdego x należy R
Dystrybuantą zmiennej losowej nazywamy funkcje określona na zbiorze R zgodnie ze wzorem
F(x) = P(X< x)
X - wartość zmiennej losowej
x - wszystkie liczby rzeczywiste - funkcja rzeczywiste
Zadanie
Jakie jest prawdopodobieństwo że rzucę kostka i wypadnie liczba całkowita <0>7 = 1
Jakie jest prawdopodobieństwo że rzucę kostką i wpadnie liczba parzysta = 3/6
Jakie jest prawdopodobieństwo że rzucę kostką i wypadnie liczba nieparzysta = ½
Jakie jest prawdopodobieństwo że rzucę kostka i wypadnie liczba podzielna przez 3 = 2
Jakie jest prawdopodobieństwo że rzucę kostka i wypadnie liczba niepodzielna przez 3 = 4/6
Własności dystrybuanty
Lim F(x) = 0 (y - (ósemka przewrócona))
Lim F(x) = 1 (y - (ósemka przewrócona))
Funkcja niemalejąca
Jest funkcją co najmniej lewostronnie ciągła
Wszystkie zmienne losowe dzielimy na dwa rodzaje:
Skokowe
Ciągłe
Zmienna losowa skokowa - zmienna losowa X jest skokowa (dyskretna) jeżeli istnieje skończony albo przeliczalny zbiór wartości zapisany następująco:
X1,x2,x3,…x6, taki że:
P(X-x1) = pi >0 prawdopodobieństwo takiego zdarzenia co mamy w nawiasie wartości zmiennej losowej wynosi pi
Suma pi = 1
i należy do N
punkty skokowe - wartości xi nazywamy punktami skokowymi zmiennej losowej X, natomiast prawdopodobieństwa pi skokami zmiennej losowej X
Funkcją przyporządkowującą wartością xi zmiennej losowej X prawdopodobieństwa pi nazywamy rozkładem prawdopodobieństwa
xi |
x1 |
x2 |
x3 |
- |
- |
x6 |
- |
pi |
p1 |
p2 |
p3 |
- |
- |
p6 |
- |
Dystrybuantę zmiennej losowej skokowej wyznaczamy zgodnie ze wzorem:
F(x) = suma Pi
xi < x
przykład:
Rzucamy cztery razem monetą. Zmienna losowa jest liczbą wyrzuconych orłów. Wyznaczyć rozkład tej zmiennej losowej i dystrybuantę tej zmiennej losowej.
(znak omega)
Rzucamy 4 razy monetą ( możliwy wynik orzeł lub reszka)
(R,R,R,R) (R,R,R,O) (O,O, R,R) (O,R,O,O)
(O,R,R,R) (R,O,O,R) (O,R,R,O) (O,O,R,O)
(R,O,R,R) (R,R,O,O) (R,O,R,O) (R,O,O,O)
(R,R,O,R) (O,R,O,R) (O,O,O,R) (O,O,O,O)
xi wartości od 0-4
Rozkład zmiennej losowej X:
xi |
0 |
1 |
2 |
3 |
4 |
pi |
1/16 |
4/16 |
6/16 |
4/16 |
1/16 |
Suma prawdopodobieństw wynosi 1
F(2,5) = suma prawdopodobieństw (pi) = 1/16+4/16+6/16 = 11/16
xi<2,5
x należy do N
dystrybuanta zmiennej losowej
0 dla x<= 0
1/16 dla 0<x<= 1
5/16 dla 1<x<=2
11/16 dla 2<x <= 3 F(x)
15/16 dla 3<x<=4
1 dla 4<x
Parametry zmiennej losowej:
Wartość oczekiwana - wymieniana jest w podręcznikach jako wartość przeciętna
- dla zmiennej skokowej
EX = suma iloczynów xi, pi
Wariancja
- dla zmiennej skokowej
D2X = suma (xi - EX)2pi
Przykład:
Rzucamy cztery razem monetą. Zmienna losowa jest liczbą wyrzuconych orłów. Wyznaczyć rozkład tej zmiennej losowej i dystrybuantę tej zmiennej losowej.
Rozkład zmiennej losowej X:
xi |
0 |
1 |
2 |
3 |
4 |
pi |
1/16 |
4/16 |
6/16 |
4/16 |
1/16 |
EX = 0 * 1/16 + 1*4/16 + 2*6/16 + 3*4/16 + 4*1/16 = 2
W przeprowadzonym doświadczeniu przeciętna liczba wyrzuconych orłów wynosi 2.
D2X = (0-2)2 * 1/16 + (1-2)2 * 4/16 + (2-2)2*6/16 + (3-2)2*4/16 + (4-2)2*1/16 = 1
Odchylenie liczby wyrzuconych orłów od wartości przeciętnej wynosi 1
Wariancja jest zawsze liczbą większa od 0
Dominanta to wartość która występuje najczęściej.
Mediana - w próbie obserwacji większa i próba niemniejsza. Mediana to połowa.
Jeśli dominanta jest równa medianie, jest równa wartości przeciętnej to rozkład jest symetryczny.
Własności wartości przeciętnej i wariancji
a,b,c to dowolne liczny rzeczywiste wówczas własności F(c) = c, F(a*x)= a*EX, E(X+b)=EX+b, E(X+Y)=EX+EY
wartości wariancji:
D2(c) = 0
D2 (c) = a2*b2 x
D2(X+b)=D2X
Wykorzystując własności wartości przeciętnej i wariancji można udowodnić twierdzenie o standaryzacji zmiennej losowej.
Standaryzacja zmiennej losowej
Weźmy dowolną liczbę X o parametrach EX= u(ni) oraz DX = sigma
Zmienna losowa Y= X- u(ni)/sigma na parametry EY=0 oraz DY=1
Zmienna losowa ciągła X gdzie symbolem jest ciągła jeżeli przyjmuje wszystkie wartości z jednego przedziału oraz istnieje nieujemna funkcja (f) zwykła funkcja z matematyki taka że dystrybuantę F tej zmiennej losowej można zapisać w postaci:
F(x) = całka od minus nieskończoności do x, f(t) dt, dla x należącego do R.
Funkcję f nazywamy gęstością zmiennej losowej.
Własności zmiennej losowej ciągłej - rysunek
Funkcja gęstości reprezentuje (zastępuje) rozkład prawdopodobieństwa. - rysunek
b
P(a<=X <= b) = całka f (x) dx
a
P(a<=X <= b) = F(b) -F(a)
Oblicz prawdopodobieństwo że liczba wyrzucona orłów mieści się w przedziale od 1,6 do 3,4.
P(a=1,6, b=3,4) = E(3,4-dystrybuanta 1,6)
15/16 - dystrybuanta z przedziału pomiędzy 3do 4 ( z zadania wcześniejszego z orłów)
15/16 - 5/16 = 10/16
Wartość przeciętna zmiennej ciągłej to jest całka od minus do plus nieskończoności
- dla zmiennej skokowej
EX= suma xi*pi
- dla zmiennej ciągłej
EX = fx * dx
Przykład - zmienna losowa ma rozkład o gęstości
F(x) = ½ * x dla x z przedziału <0,2>
0 po za tym
Wyznaczyć dystrybuantę oraz wyznaczyć P(X<1,5)
F(x) = 0 dla x<= 0
F ½ tdt =
Wartość przeciętna - całka od minus do plus nieskończoności x razy f od x
Wybrane rozkłady zmiennych losowych ciągłych
Rozkład normalny - zmienna losowa X ma rozkład normalny o pramtrach u (ni) oraz sigma jeżeli jej gęstośc prawdopodobieństwa jest dana wzorem:
F(x) = 1/sigma pierwiastek 2pi * exp(-(x-u(ni))2 / 2sigma2 )
y = F(x) = exp - eksponens
funkcja gęstości = krzywa Gaussa
rozkład zapisujemy symbolicznie N ( u(ni) i sigma))
u (ni) to jest wartość przeciętna, to liczba rzeczywista
sigma - odchylenie standardowe, sigma to liczba różna od 0
rozkład normalny standaryzowany
Z = X-u(ni) / sigma ---------- EZ = 0
D2Z = 1
Rysunek
EX = u (ni)
D2X = sigma2
sigma - odchylenie standardowe bada zmienność - bada odchylenie od średniej
Mediana - to identyczne dwa pola
Rozkład t-Studenta
Zmienna losowa o rozkładzie t-Studenta o n stopniach swobody definiujemy jako
t= Z / pierwiastek X/n
gdzie Z ~ N(0,1) oraz X ~chi-kwadrat o n stopniach swobody .
Zmienne Z i X są nie zależne.
Rozkład symetryczny E (Tn ) =0
D2(Tn) = n/(n-2), n>2
Rozkład t-Studenta przy dużej liczbie stopni swobody (n nieskończoność) jest zbieżny do rozkładu normalnego standaryzowanego N (0,1)
Rozkład (chi-kwadrat)
Niech Z1,Z2,…Zn ~ N(0,1) i są niezależne wówczas, każda zmienna losowa będąca sumą ich kwadratów.
n
Suma Zi2
i=1
na rozkład chi-kwadrat (x2) o n - stopniach swobody
to wyrażenie nie może być ujemne. Zawsze będzie w pierwszej ćwiartce.
Wraz ze stopniem swobody siła asymetrii w punkcie gęstości maleje.
E(chi-kwadrat) = n
D2(chi-kwadrat) = 2n - wariancja tyle wynosi
Rozkład prawostronnie asymetryczny
Rozkład chi-kwadrat przy dłużej liczbie stopni swobody (n-nieskończoności) jest zbieżny do rozkładu normalnego
Chi-kwadrat - n / pierwiastek z 2n N (0,1), gdy n nieskończoności
W pierwszej kolumnie mamy liczbę swobody dla zadanego prawdopodobieństwa wynoszącego alfa odczytujemy wartości chi-kwadrat alfa.
Na następne zajęcia przynosimy tablice rozkładu normalnego i normalnego standaryzowanego rozkładu t-Studenta, dystrybuanty, gęstości itd.
Rozkład standaryzowany jest wyróżniony na tle innych poprzez wyróżnienie dystrybuanty.
Zadanie:
Niech zmienna losowa X ~ N(0,1). Oblicz wartość prawdopodobieństwa
P(0,5<= X<= 0,78) = ?
P(a) <=X<= b) = F(b)-f(a)
P(0,51<=X<=0,78)= F(0,78) - F(0,51) = ?
= 0,7823 - 0,6950 = 0,0873
Odczyt z tabel:
F(Z) = 0,975
Z= 1,96
Przykład nr 2
Niech zmienna losowa X ~N (2,4). Oblicz wartość prawdopodobieństwa P(1<=X<=3) = ?
Pierwszym krokiem dokonujemy standaryzacji:
U (ni) wynosi 2
Sigma wynosi 4
Z= X-u(ni) /
P(1<=X<=3) = P(1-2<= X -2<=3-2) =
P (1-2 / 4<= X-2 / 4 <= 3-2 / 4 ) = P (-0,25 <= Z <= 0,25) =
F(0,25) - F(-0,25)= F(0,25)-[1-F(0,25)] =
2F(0,25) - 1 = 2*0,5987 - 1 = 1,1974 - 1 = 0,1974
Parametry statystyczne są to liczby służące do opisu zbiorowości statystycznej.
Stosowane w analizach parametry dzielimy na:
Miarę przeciętne
Miarę zmienności
Miarę asymetrii
Cechy statystyczne
Stałe:
- rzeczowe
- czasowe
- przestrzenne
b) Zmienne:
- jakościowe
- ilościowe:
* skokowe
* ciągłe
Jeśli próba rośnie to można zamienić na rozkład normalny.
Wykład nr 2 - 13.11.2011
Wnioskowanie statystyczne = statystyka matematyczna - to podejmowanie decyzji o parametrach np. szacowanie parametrów (parametryczne podejście) bądź o rozkładach.
Estymacja populacji = szacowanie
Populacja generalna:
Nieskończona
Skończona
Rozkładem populacji generalnej nazywamy rozkład badanej cechy w tej populacji.
Gdzie pojawia się napis ROZKŁAD mamy na myśli rozkład zmiennej losowej
Losowość próby oznacza że wyniki jej można traktować jako realizację zmiennych losowych o rozkładzie identycznym z rozkładem populacji.
Schematy losowań
Losowanie:
Zależne i niezależne
Indywidualne i zespołowe
Jednostopniowe i wielostopniowe
Ograniczone i nieograniczone
Próba
Próba prosta - którą uzyskuje się stosując schemat losowania niezależny indywidualny nieograniczony.
Próba złożona - którą uzyskuje się stosując pozostałe schematy losowania.
Próba prosta
Jeżeli X1,X2,… Xn jest ciągiem zmiennych losowych takich, że:
Zmienne te są niezależne
Każda zmienna losowa Xi ma taki sam rozkład
Oraz x1, x2,… xn jest ciągiem wartości, które w doświadczeniu losowym przybrały zmienne X1,X2,… Xn.
Wówczas ciąg x1,x2,… xn nazywać będziemy statystyczną próbą prostą dokonaną na zmiennych losowych X1,X2,… Xn.
Statystyka
Niech X1,X2,… Xn będzie ciągiem zmiennych losowych obserwowanych w próbie statycznych i niech U= Ψ(X1,X2,… Xn) będzie funkcją określoną na zmiennych losowych X1,X2,… Xn tak określona, że U też jest zmienną losową, wówczas U nazywamy statystyką.
Y = X - to nie może być funkcją gęstości, gdyż jest ujemne.
Rozkłady parametrów z próby:
Twierdzenie I
Jeżeli X1,X2,… Xn jest ciągiem niezależnych zmiennych losowych o rozkładach normalnych N (µ,σ) i jeżeli
n
X = 1/n Σ * Xi
i=1
To zmienna losowa X ma rozkład normalny N (µ,σ, pierwiastek n)
Twierdzenie II
Jeżeli X1,X2,… Xn jest ciągiem niezależnych zmiennych losowych o rozkładach normalnych N (µ,σ) i jeżeli
n
S2 =1/n Σ (Xi-X)2
i=1
to zmienna losowa nS2/ σ2 ma rozkład chi-kwadrat o n-1 stopniach swobody.
Estymator
Oznaczmy dowolny nieznany parametr populacji Ѳ (teta) rozkładu zmiennej losowej X nazywamy dowolną funkcję zmiennych losowych obserwowanych w próbie, która jest zmienną losową zależną od Ѳ wnioskowanie o wartości Ѳ można przeprowadzić na podstawie wartości tej funkcji zaobserwowanej w próbie.
Tn = (X1,X2,…Xn ; Ѳ)
Ocena parametru Ѳ - to wartość estymatora Tn dla próby statystycznej x1,x2,…xn.
Tn(x1,x2,…xn) = tn
Własności estymatorów:
Estymator jest nieobciążony jeżeli wartość oczekiwana estymatora jest równa szacowanemu parametrowi.
Nieobciążność E (Tn *( X1,X2,…Xn; Ѳ)) = Ѳ
Obciążenie Bn= E(Tn)- Ѳ
Zgodność - estymator jest zgodny jeżeli wraz ze wzrostem wartości próby, maleje bezwzględna odległość wartości estymatora od szacowanego parametru.
lim P{ |Tn - Ѳ| < ε} = 1
ε > 0 n∞
Efektywność - mówi ze estymator jest efektywny jeżeli ma najmniejszą wariancję w zbiorach porównywalnych.
Minimalna wariancja D2(Tn), wśród pewnego zbioru estymatorów.
Rodzaje estymacji:
Parametryczna - szacujemy parametry rozkładu zmiennej w populacji
Nieparametryczna - szacujemy typ rozkładu zmiennej w populacji
Estymacja parametryczna
Rodzaje estymacji parametrycznej:
Punktowa stosowana jeżeli znana jest postać funkcyjna rozkładu populacji F(x, Ѳ)
- wnioskujemy o wartości Ѳ podając jej liczbową ocenę.
2. Przedziałowa - wyznaczamy przedział [T1n , T2n] taki że jego końce zależą od próby, ale nie zależą od parametrów Ѳ
Prawdopodobieństwo że szacowany parametr należy do danego przedziału jest ustalony z góry i nazywane poziomem ufności.
Parametr populacji oznaczamy jako Ѳ (teta).
Parametr Ѳ |
Estymator Tn |
E(Tn) |
D2(Tn) |
Własności |
Wartość średnia m
µ
|
|
m
m |
σ2 / n
π σ2 / 2n |
Nieobciążony Zgodny Efektywny
Nieobciążony zgodny |
Wskaźnik struktury p
|
m / n |
p (jako prawdopodobieństwo sukcesu pojedynczych doświadczeń) |
p(1-p) / n |
Nieobciążony Zgodny Efektywny
|
Wariancja σ2
|
S2* = 1/n Σ(Xi-m)2
^ S2 = n / n-1 * S2
|
σ2
(η-1) σ2 / η
σ2 |
η 4 - σ4 / η
η 4 - σ4 / η + Ѳ(1/n)
|
Nieobciążony Zgodny Efektywny
Zgodny
Nieobciążony zgodny |
Wskaźnik struktury to nic innego średnia rozkładu zerojedynkowego.
p - (jako prawdopodobieństwo sukcesu pojedynczych doświadczeń)
q = 1-p (jako prawdopodobieństwo porażki pojedynczych doświadczeń)
F(aX) = aEX
X = S2
Przedziały ufności:
I. Średnia z populacji: m
Znane parametry rozkładu populacji:
P { X - µα * σ/pierwiastek n < m< X + µα * σ/pierwiastek n }= 1-α
Estymowane parametry rozkładu populacji na postawie próby
Mała próba
P { X - tα* S/pierwiastek n - 1 < m< X + tα * S/pierwiastek n - 1 }= 1-α
Duża próba
P { X - µα* S/pierwiastek n - 1 < m< X + µα * S/pierwiastek n - 1 }= 1-α
II. Wariancja σ2
Mała próba P (nS2/c2 <σ2<nS2/c1)=1- α
C2 =
Duża próba
P{S/1+ µα / pierwiastek z 2n < α < S/1- µα / pierwiastek z 2n}
III. wskaźnik struktury p
P{m/n- µα * pierwiastek m/n (1-m/n) / n <p < m/n + µα* pierwiastek m/n (1-m/n)} = 1-α
Przykład e.
Z populacji generalnej o rozkładzie normalnym N (m, σ) wylosowano 8-elementową próbę prostą otrzymując wyniki: 1,2 ; 1; 0,7; 1,4; 1,1; 0,9; 1,2; 1,3;
W oparciu o te wyniki należy obliczyć wartości końców przedziału ufności dla wariancji σ2 z populacji, przyjmując współczynnik ufności 1-α = 0,98.
P (nS2/c2 <σ2<nS2/c1)=1- α
1-α = 0,98 α = 0,02
½ α = 0,01 1- ½ α = 0,99
n-1 = 7 stopni swobody
C2= 18,475
C1 = 1,239
nS2= 0,36
P { 0,36 / 18,475 < σ2 < 0,36 / 1,239} = 0,98
0,02 < σ2<0,29
T-alfa - to wartość z rozkładu T-studenta o n1 stopnia swobody
T alfa= 2,624
1-alfa = 0,98 ile wynosi ualfa?
F(alfa)
Ualfa =
Przykład F.
Z populacji o rozkładzie 2-punktowym, o-punktowym z nieznanym parametrem p wylosowano 200-elementową próbę prostą i otrzymano z niej m=60sukcesów. Na tej podstawie należy wyznaczyć z 90% ufnością przedział ufności dla prawdopodobieństwa sukcesu p.
P{m/n- µα * pierwiastek z (całego) m/n (1-m/n) / n <p < m/n + µα* pierwiastek z (całego) m/n (1-m/n)} = 1-α
µα = 1,64
m/n = 60 / 200 = 0,3
p {0,3 - 0,64 * pierwiastek z( całego) 0,3( 1-0,3) / 200 <p<0,3 + 0,64 * pierwiastek z całego 0,3 ( 1-0,3) / 200 } = 0,9
p { 0,3 - 1,64 * 0,0324 <p<0,3+1,64 * 0,0324} = 0,9
p { 0,25 < p < 0,35} = 0,9
1-α to poziom błędu poziom ufności. Powinien być jak najwyższy.
Jeśli poziom ufności rośnie (maleje błąd oszacowania) np. 0,95 to 5% błędu. Wówczas długość przedziału ufności…
Jakie ma być µm
Odczyt z tablic- dystrybuanta z rozkładu normalnego
F(z)= 0,975
z = 1,96
µα - wartość z rozkładu normalnego jest funkcją poziomu ufności.
Przykład a.
Z pewnej populacji o rozkładzie normalnym N (m, 20) wylosowano 16-elementową próbę prostą otrzymując z niej X = 60. Przyjmując współczynnik ufności 0,99 należy na tej podstawie oszacować nieznaną średnią m tej populacji.
P { X - µα * σ/pierwiastek n < m< X + µα * σ/pierwiastek n }= 1-α
Współczynnik ufności 0,99
µα = 2,58
P {60-2,58 * 20 / pierwiastek 16 < 60 + 2,58 * 20/ pierwiastek z 16} = 0,99
P {60 - 12,9 < m < 60 + 12,9} = 0,99
P {47,1 < m < 72,9}= 0,99
Przykład b.
Ile co najmniej powinna wynosić liczebność próby w przykładzie a. , aby wyznaczony z tej próby z 99% ufnością miał długość co najwyżej równą 20 ?
Współczynnik ufności 0,99
2d = 20
d = 10
populacja ma rozkład normalny N(m,20) znamy wariancje σ2 = 400. Minimalna liczebność próby potrzebną do oszacowania średniej w populacji wyznaczyć ze wzoru.
n ≥ µ2α * σ2 / d2
gdzie dla współczynnika ufności 0,99
µα = 2,58
oraz d= 10
największa dopuszczalna wartość maksymalnego błędu szacunku to jest połowa długości przedziału ufności.
n ≥ 6,66 * 400 / 100 = 26,64 n=27
Niezbędna wielkość próby
Określamy liczebność próby tak aby zapewnić z góry określoną precyzję szacunku
Założenia:
Długość przedziału ufności ma wynosić 2d
d jest ustalone, jest rzędem precyzji
rozwiązujemy zadanie z jedna niewiadomą:
D(Tn) = odchylenie estymatora ≤ d
Wykład nr 3 - 27.11
Test istotności:
Przyjęcie hipotezy zerowej i alternatywnej
- testy nieparametryczne:
Struktura:
H0 - rozkład zmiennej losowej opisującej wzrost mężczyzn w Katowicach jest normalny
H1 - rozkład zmiennej losowej opisującej wzrost mężczyzn w Katowicach nie jest normalny
- testy parametryczne - hipotezy alternatywne
H0:Ѳ = Ѳ0
Wybieramy jedna z trzech możliwych hipotez alternatywnych:
Jeżeli chcemy dowiedzieć się czy parametr Ѳ jest lub nie jest równy Ѳ0 wówczas:
H1: Ѳ ≠ Ѳ0
Jeżeli chcemy dowiedzieć się czy parametr Ѳ jest większy niż Ѳ0 wówczas:
H1: Ѳ > Ѳ0
Jeżeli chcemy dowiedzieć się czy parametr Ѳ jest mniejszy od Ѳ0 wówczas:
H1: Ѳ < Ѳ0
Wybór statystyki
- testy parametryczne w badaniu 1 populacji
a) średnia z populacji: H0 : m = m0
Znane parametry rozkładu populacji
U = X(z kreską) - m0 / σ * pierwiastek z n
M0 - wartość z hipotezy
σ - odchylenie standardowej z populacji
N - wielkość populacji
Jeżeli nie znam σ to tak jak przy estymacji mała próba i duża próba.
b)estymowane parametry rozkładu populacji na podstawie próby:
Mała próba
t = X z kreską - m0 / S * pierwiastek z n-1
Duża próba
X z kreską - m0 / S * pierwiastek z n
c)wariancja: H0:σ2= σ20
Mała próba
χ2 = nS2 / σ20 = (n-1) S z daszkiem 2 / σ20
Duża próba
Z = pierwiastek 2* χ2 - pierwiastek 2n-3
d)wskaźnik struktury H0 : p = p0
U = m / n - p0 / pierwiastek p0 * (1-p0) / n
Wybór wartości poziomu istotności (czyli wybieram poziom α- prawdopodobieństwo) i określenie obszaru krytycznego
Obszar krytyczny zależy od:
- przyjętej hipotezy alternatywnej - możliwości jest a) lub b) lub c)
- rozkładu statystyki testu - możliwości 3 dla dwóch populacji
- przyjętej wartości poziomu istotności - korelacja
Ustalamy dla naszego rozkładu że statystyka testu ma rozkład normalny
Obszar krytyczny dwustronny:
Jeżeli hipoteza alternatywna jest jak w punkcie a, czyli H1: Ѳ ≠ Ѳ0 wówczas budujemy dwustronny obszar krytyczny zdefiniowany następująco: Prawdopodobieństwo takiego zdarzenia że wartość bezwzględna z U ≥ Uα = α
Uα to wartość z rozkładu normalnego dla przyjętej wartości α to Uα nazywa się wartością krytyczną testu.
Tablice studenta obejmują wartości krytyczne dla dwustronnych obszarów krytycznych
Jeżeli hipoteza zerowa jest taka jaka w punkcie b, Ѳ > Ѳ0 wówczas budujemy prawostronny obszar krytyczny zdefiniowany następująco:
Prawdopodobieństwo (wartości zmiennej losowej U ≥ Uα) = α, przedział krytyczny od Uα do +∞
Jeżeli hipoteza alternatywna jest następująca H1: Ѳ < Ѳ0 wówczas budujemy lewostronnie obszar krytyczny zdefiniowany następująco: Prawdopodobieństwo takiego zdarzenia wartość zmiennej losowej
U < -Uα = α, to przedział krytyczny mieści się od -∞ do -Uα
Rozkłady krytyczne definiujemy analogicznie jak dla rozkładu normalnego
Rozkład χ2 to korzystamy kiedy mała próba i znana wariancja
Dla rozkładu χ2 rozważamy jedynie prawostronne obszary krytyczne
Tablice rozkładu χ2 zawierają wartości krytyczne prawostronnych obszarów krytycznych
Obliczanie wartości
Wyznaczenie jednej wartości statystyki testu wybranym (ustalonym) w punkcie drugim. Jeżeli jedna liczba należy do obszaru krytycznego to odrzucamy hipotezę zerową.
Przykład: czas pracy pewnego typu baterii ma rozkład normalny N (m,70). Na poziomie istotności α = 0,05. Zweryfikować hipotezę że przeciętny czas pracy tego typu baterii wynosi ponad 500 godzin, jeśli dla 16-losowo wybranych baterii otrzymany X z kreską = 560
H0:m = 500 godzin
H1:m > 500 godzin
U = X z kreską - m0 / σ * pierwiastek z n
Α = 0,05
prawostronny obszar krytyczny
P(U ≥ uα) = α
P(U ≥ uα) = 0,05
Uα = 1,64
U = 560 - 500 / 70 * pierwiastek z 16 = 3,43
3,43 należy Wn = (1,64, ∞) jeśli należy do tego przedziału to nie ma hipotezy zerowej.
Nierówność jest prawdziwa czyli wartość testu 3,43 jest większa od wartości krytycznej zatem wartość krytyczna należy do tego obszaru i odrzucamy hipotezę zerową mówiącą że ta średnia wynosi 500, można zatem uważać że przeciętny czas działania tych baterii wynosi ponad 500 h.
3,43 ≥ 1,64
Przykład. Za pomocą pewnego instrumentu pomiarowego dokonano 10 niezależnych tej samej wielkości i otrzymamy następujące wyniki: 7,03 ; 7,05; 7,04 ; 7,04 ; 7,07
7,02 ; 7,01 ; 7,05 ; 7,03 ; 7,02
Producent instrumentu gwarantuje że rozrzut błędu pomiaru jest tak mały, że odchylenie standardowe jest równe 0,03. Zweryfikujemy hipotezę, że σ = 0,03, przyjmując α = 0,01.
H0: σ2 = 0,0009
H1: σ2 > 0,0009
χ2= (n-1) * S z daszkiem2 / σ20
α = 0,01
prawostronny obszar krytyczny
P(χ2 ≥ χ2α ) = α
n-1 = 9 stopni swobody
P (χ2 > χ2α) = 0,01
χ2α = 21,67
χ2 = 9 * 0,000316 / 0,0009 = 3,16
3,16 > 21,67
Wniosek: odrzucenie lub nie hipotezy losowej lub brak podstaw do odrzucenia hipotezy zerowej
Jeżeli wartość testu należy do obszaru krytycznego wówczas odrzucamy
Wnioskowanie o dwóch populacjach
Współczynnik korelacji: p (pro)
Populacja ma dwuwymiarowy rozkład normalny
Losujemy próbę n - elementową ( n nie musi duża)
Statystyka t
t = r / pierwiastek t-r2 = pierwiastek n-2
ma rozkład studenta o (n-2) stopniach swobody
Przykład: wylosowano 10 par zawierających związek małżeński i otrzymano dane o wieku w latach kobiet i mężczyzn
Wiek kobiety |
23 |
24 |
29 |
27 |
33 |
29 |
19 |
22 |
21 |
23 |
Wiek mężczyzny |
27 |
28 |
30 |
30 |
35 |
41 |
22 |
25 |
26 |
26 |
Na poziomie istotności 0,05, zweryfikować hipotezę że istnieje dodatnia korelacja między wiekiem osób zawierających małżeństwo
H0: p(pro) = 0
H1: p(pro) > 0
t = r / pierwiastek 1-r2 * pierwiastek n-2
α = 0,05 rozkład t o (10-2) = 8 stopniach swobody, prawostronny obszar krytyczny
α/2 = 0,05
tα = 1,86 do +∞
t = 4,21
4,21 należy (1,86;∞)
Odrzucamy hipotezę zerowa na korzyść alternatywnej. Brak korelacji
Test o równości dwóch średnich H0: m1 =m2
dwie populacje maja rozkład normalny N(m1,σ1) i N(m2,σ2) oraz σ1, σ2 są znane losujemy niezależne próby o liczebnościach n1 i n2
statystyka U= X1 z kreską - X2 z kreską / pierwiastek wszystko σ12 /n1+ σ22 / n2
dwie populacje maja rozkłady normalne N(m1,σ1) i N(m2,σ2) oraz σ1, σ2 nie są znane, ale σ1= σ2, losujemy niezależne próby o liczebnościach n1 i n2
t= X1 z kreską - X2 z kreską / pierwiastek wszystko n1 * S12+ n2 * S22…….
dwie populacje mają rozkłady normalne N(m1,σ1) i N(m2,σ2) oraz σ1, σ2 nie są znane, losujemy niezależne dwie duże próby o liczebnościach n1 i n2
U = X1 z kreską - X2 z kreską / pierwiastek wszystko S12/n1 + S22n2 ~ N (0,1)
Przykład: Z populacji kobiet zatrudnionych na pewnych stanowiskach wylosowano próbę 100 osób i przeprowadzono badanie dotyczące miesięcznego wynagrodzenia. Średnia płaca wynosiła 2180zł a wariancja 6400. Analogicznie wyniki dla próby 80 mężczyzn wynosiły odpowiednio 2280zł i 10 000. Zweryfikować hipotezę o niższych płacach kobiet, przyjmując poziom istotności α=0,01.
H0: m1= m2
H1: m1 < m2
U = X1z kreską - X2z kreską / S12/ n1+ S22/ n2
α=0,01 lewostronny obszar krytyczny
U = 2180 - 2280 / pierwiastek wszystko 6400 / 100 + 10 000 / 80 = -7,27
u= -7,27 < - 2,33 = -uα
Wniosek: Hipotezę zerową odrzucamy
Testy o równości dwóch wariancji
H0:σ12 = σ22
H1:σ12 = σ22
Dwie populacje mają rozkład normalny N (m1,σ1) i N(m2,σ2) parametry tych rozkładów nie są znane. Losujemy niezależne próby o liczebnościach n1 i n2. Obliczamy z prób wartości wariancji S12 i S22 * (S12> S22)
Statystyka F= S12/ S22
Prawostronnie obszar krytyczny
Test o równości dwóch wskaźników struktury
H0:p1= p2
Badana cecha w dwóch populacjach ma rozkład dwupunktowy z parametrami p1 i p2
Losujemy niezależne próby o liczebnościach n1 ii n2 ≥ 100.
U=m1/n1 - m2/n2 / pierwiastek wszystko pq z kreską / n ~ N (0,1)
Przykład. W celu sprawdzenia czy zachorowalność na pewna chorobę w pewnym województwie na wsi i w mieście jest takie samo wylosowano dwie losowe próby. Dla ludności miejskiej na 1200 wylosowanych osób było 40 chorych, dla ludności wiejskiej na 1500 osób chorych było 100. Zweryfikować hipotezę o jednakowym procencie zachorowalności na badana chorobę.
α = 5% = 0,05 - zawsze tyle wynosi kiedy nie jest podana.
H0:p1 = p2
H1: p1 ≠ p2
m1/n1 = 40/1200 = 0,033
m2/n2 = 100/1500 = 0,67
p = m1+m2 / n1+n2 = 140/2700 = 0,052
q z kreską = 1-p = 1-0,052 = 0,948
n = n1*n2/n1+n2 = 1200 * 1500 / 1200+ 1500 = 18 000/27 = 667
U=m1/n1 - m2/n2 / pierwiastek z pq / n = 0,033-0,067 / pierwiastek 0,052 * 0,948/667 = -3,9
Dwustronny obszar krytyczny dla α = 0,05 uα = 1,96
U = -3,9 należy do Wn= (-∞; -1,96) i (1,96, ∞)
Wszystkie testy istotności dzielimy na dwa rodzaje:
Nieparametryczne - hipoteza zerowa jest przypuszczeniem o typie rozkładu badanej cechy w kopulacji
Parametryczne - hipoteza zerowa jest przypuszczeniem o wartościach parametru badanej cechy populacji
Moc testu - to prawdopodobieństwo odrzucenia fałszywej hipotezy zerowej
Przynieść tablice Fiszera !!
Funkcja regresja
Zależność niezależność
Tablica korelacyjna
Wykład nr 4 - 11.12.2011
Weryfikacja hipotez statystycznych
Rezultat testowania hipotez
H0 jest prawdziwe i H0 przyjęcie = prawidłowa decyzja
H0 jest prawdziwe i H0 odrzucenie = błąd I rodzaju P ( błąd I rodzaju) = α
H0 jest fałszywe i H0 przyjęcie = Błąd II rodzaju P(błąd II rodzaju) = α
H0 jest fałszywe i H0 odrzucenie = prawidłowa decyzja
Przykład
Niech będzie dana populacja o rozkładzie normalnym N (m,σ) gdzie σ jest znane. Na podstawie n-elementowej próby prostej weryfikujemy hipotezę pośredniej m w tym rozkładzie populacji.
H0 : m=m0 wobec H1: m=m1 gdzie m1>m0
Proponuje się test T o obszarze krytycznym ϖ = {X : X z daszkiem ≥ c }, gdzie c jest pewną znaną liczbą.
Zmiana stałej powoduje zmianę prawdopodobieństw α , beta błędów I i II rodzaju w teście T
α - Odrzucenie hipotezy pod warunkiem ze ona była prawidłowa.
P(A | B)
Odrzucenie hipotezy zerowej pod warunkiem że jest prawdziwe
α = P { X należy ϖ | H0} = P {X z kreską ≥ c | m = m0 }
β = P {X należy X - ϖ | H1} = P {X z kreską < c | m = m1 }
Test T nazywamy testem najmocniejszym, jeżeli jest oparty na takim obszarze krytycznym ϖ0, którego przy danym z góry prawdopodobieństwem α błędu I rodzaju prawdopodobieństwo błędu II rodzaju β jest najmniejsze.
W teście najmocniejszym ustalamy arbitralnie małe prawdopodobieństwo α błędu I rodzaju a następnie szukamy takiego obszaru krytycznego ϖ0 aby przy ustalonym α zachodziło:
Min β(ϖ) = β (ϖ0) = P {X należy do X - ϖ | H1}
Mocą testu nazywamy prawdopodobieństwo podjęcia prawdziwej decyzji polegającej na odrzuceniu sprawdzanej hipotezy wtedy, gdy jest ona fałszywa.
Moc testu T jest równa :
M= P { X należy do ϖ | H1 } = 1-P {X należy X - ϖ | H1 } = 1-β
Minimalizacja prawdopodobieństwa β jest równoważna wyznaczenia maksymalizacji mocy M testu T.
Nie dla każdej hipotezy istnieje test najmocniejszy
Testy najmocniejsze istnieją, gdy hipoteza sprawdzana i alternatywna są zapisywane następująco:
H0 : Ѳ = Ѳ0 wobec H1 : Ѳ = Ѳ1
Jeżeli hipotezą alternatywną do sprawdzanej hipotezy prostej jest hipoteza parametryczna złożona
H0 : Ѳ = Ѳ0 wobec H1 : Ѳ = Ѳ1 gdzie Ѳ1 należy do Ω1
Oraz przy wszystkich hipotezach prostych mamy ten sam test najmocniejszy T - mówimy wtedy, że jest to test jednostajnie najmocniejszy.
Test T oparty na obszarze krytycznym ϖ nazywamy jednostajnie najmocniejszym, dla hipotezy parametrycznej H0 : Ѳ = Ѳ0 wobec złożonej hipotezy alternatywnej H1 : Ѳ należy do Ω1 jeżeli jest on najmocniejszy dla hipotezy H0 wobec każdej prostej hipotezy alternatywnej H1 : Ѳ = Ѳ1 gdzie Ѳ1 należy do Ω1.
Testy jednostajnie najmocniejsze istnieją dla hipotezy alternatywnej złożonej w postaci:
H1 : Ѳ > Ѳ0 oraz H1 : Ѳ < Ѳ0
Na ogół nie istnieje test jednostajnie najmocniejszy dla hipotez alternatywnych złożonych postaci:
H1 : Ѳ ≠ Ѳ0
Testy te nazywamy testem nieobciążonym, dla hipotezy parametrycznej H0 : Ѳ = Ѳ0 wobec złożonej hipotezy alternatywnej H1 : Ѳ należy do Ω1, jeżeli jest on oparty na takim obszarze krytycznym ϖ, że zachodzi nierówność.
P{X należy do ϖ | H1 } ≥ P { X należy do ϖ | H0 }
P{X należy do ϖ | Ѳ = Ѳ1 } ≥ P { X należy do ϖ | Ѳ = Ѳ0 } M ≥ α
Test T nazywamy testem obciążonym gdy zachodzi nierówność przeciwna
M < α
Funkcja mocy testu Tϖ
M ( Ѳ) = P {X należy do ϖ | Ѳ należy do Ω1},
Której argumentami są wartości parametru ze zbioru hipotez alternatywnych Ω1, a wartościami - odpowiednie wartości mocy M testu Tϖ służy do badania nieobciążności testu.
Test Tϖ jest zgodny jeżeli
lim M = 1
n∞
dla dużych prób wymagamy, aby test był zgodny
test statystyczny Tϖ nazywamy testem istotności dla sprawdzanej hipotezy H0, jeżeli dla x należy do ϖ odrzuca się hipotezę H0 z prawdopodobieństwem błędu I rodzaju α w danym z góry (poziom istotności testu) natomiast dla x nie należy do ϖ stwierdza się brak podstaw dla odrzucenia hipotezy H0
nie podejmuje się decyzji o przyjęciu sprawdzanej hipotezy H0.
Od czego zależy wybór testu statystycznego parametrycznego?
Zależy czy opis jest 1 czy 2 populacje
Zjawisko które chcemy badać : zmienność czy położenie
Czy znana jest wariancja
Jak duża jest próba
Statystyka T-studenta stosujemy - kiedy badam średnią i nie znam wariancji z populacji
Test parametryczny analizie regresji
Y z daszkiem = A1 * A0 - wzór na regresję
A1 informuje jak średnio zmienia się Y jeżeli X rośnie o jedną jednostkę
Funkcja najmniejszych kwadratów
Zadanie:
Y z daszkiem = -5 *x +2
Y - kapitał posiadany (w tys. zł)
X - wydatki na prezenty (w tys. zł)
W teście istotności dla współczynnika kierunkowego α1 liniowej funkcji regresji przy weryfikacji hipotez:
H0 : α1 = 0
Wobec H1 : α1 ≠ 0
Statystyka testu ma postać
t= a1 / S z daszkiem (a1)
a1 jest współczynnikiem kierunkowym linii regresji wyznaczonym dla próby
S z daszkiem (a1) jest błędem szacunku tego współczynnika
Zadanie:
Dla 10 losowo wybranych studentów mamy informację o wynikach sesji egzaminacyjnej
na I i IV roku.
X= I |
3,5 |
4,0 |
3,8 |
4,6 |
3,9 |
3,0 |
3,5 |
3,9 |
4,5 |
4,1 |
Y=IV |
4,2 |
3,9 |
3,8 |
4,5 |
4,2 |
3,4 |
3,8 |
3,9 |
4,6 |
4,0 |
Wyjściowa informacja to postać równowagi regresji:
Y = 0,622x +1,617
Wynik testu t (t=4,219) pozwalają na stwierdzenie, że współczynnik kierunkowy jest statystycznie istotny ( ponieważ p=0,003, odrzucamy H0 : α1 = 0).
Przedział ufności przy przyjętym 95% poziomie ufności dla współczynnika kierunkowego linii regresji ma końce 0,282 i 0,962.
Obserwowany poziom istotności testu (wartość p) dla ustalanego testu statystycznego jest to prawdopodobieństwo odpowiadające obserwowanej wartości testu wyznaczonej dla próby statystycznej.
Celem ilustracji ustalamy rozkład normalny jako statystkę testu oraz prawostronny obszar krytyczny.
Testy nieparametryczne
Test zgodności chi - kwadrat
H0: populacji ma rozkład typu Ω (F(x) należy Ω)
r
χ2= Σ( ni - npi)2 / npi
i=1
ni - wartość występowania obserwowany xi w próbie statystycznej
r - klas wartości rozkładu cech
definiujemy prawostronny obszar krytyczny:
liczba stopni swobody: (r - k - l)
r - klas wartości rozkładu cech
k - liczba parametrów rozkładu zmiennej losowej z hipotezy zerowej
dla rozkładu normalnego k = 2
Jeżeli obserwowany poziom istotności jest mniejszy od wybranego poziomu istotności testu (np. 0,05) wówczas hipotezę zerową odrzucamy.
Odrzucam hipotezę zerową jeżeli U > Uα co jest równoważne że p < α
Przykład.
Zweryfikować hipotezę że stopień zachmurzenia w czerwcu w pewnej miejscowości ma rozkład normalny, jeżeli przeprowadzono 200 pomiarów zachmurzenia w miesiącu czerwcu otrzymując wyniki:
Stopień zachmurzenia |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Liczba pomiarów |
43 |
20 |
15 |
14 |
13 |
16 |
15 |
22 |
42 |
Poziom zachmurzenia ma rozkład normalny
N(n,σ)
I. Estymacja
Estymujemy wartości nieznanych parametrów testowanego rozkładu:
Nieobciążonym estymatorem średniej populacji jest średnia z próby
Estymatorem wariancji z populacji (σ2) jest wariancja z próby
Obliczamy wartości średniej i odchylenia standardowego w próbie
II. Hipoteza
Wyznaczamy parametry w próbie: X z daszkiem = 5,02 ; S = 3,07
Liczba estymowanych parametrów populacji: k = 2
III. Przeprowadzamy standaryzację
Wylicz wartości U
Ui = Xi - X z daszkiem / S
Xi |
ni |
Ui |
F (Ui) |
Pi |
Npi |
Ni-npi |
(Ni-npi)2 |
(Ni-npi)2 / npi |
1 |
43 |
-1,31 |
0,095 |
0,095 |
19,02 |
23,98 |
575,05 |
30,24 |
2 |
20 |
-0,99 |
0,161 |
0,066 |
13,20 |
6,80 |
46,24 |
3,51 |
3 |
15 |
-0,66 |
0,255 |
0,094 |
18,71 |
-3,71 |
13,77 |
0,74 |
4 |
14 |
-0,34 |
0,367 |
0,112 |
22,47 |
-8,47 |
71,75 |
3,20 |
5 |
13 |
-0,01 |
0,496 |
0,129 |
25,82 |
-12,82 |
164,36 |
6,37 |
6 |
16 |
0,32 |
0,626 |
0,130 |
25,91 |
-9,91 |
98,21 |
3,8 |
7 |
15 |
0,65 |
0,742 |
0,117 |
23,33 |
-8,33 |
69,39 |
2,98 |
8 |
22 |
0,98 |
0,836 |
0,094 |
18,87 |
3,13 |
9,80 |
0,52 |
9 |
42 |
1,30 |
0,903 |
0,164 |
32,71 |
9,29 |
86,30 |
2,64 |
54 |
Xi ma wartości 1,2,3
1 z prawdopodobieństwem 0,3
2 z 0,4
3 z 0,3
Liczba stopni swobody ( r - k - l ) = (9-2-1 ) = 6
Poziom istotności α = 0,05
Wartości krytyczna χα2 = 12,59
Wartość testu χ2 = 54
Sprawdzamy czy χα2 ≥ χ2
obszar krytyczny to przedział (12,59 ; +∞)
wartość testu należy do obszaru krytycznego czyli odrzucamy hipotezę zerową
test niezależności chi-kwadrat
mamy wartości x i y na dowolnej skali. Wyniki zapisane są na tablice korelacyjnej.
Tablica korelacyjna
|
y1 |
y2 |
|
yi |
|
ys |
yi. |
x1 |
|
|
|
|
|
|
|
x2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
|
|
|
nij |
|
|
|
|
|
|
|
|
|
|
|
xr |
|
|
|
|
|
|
|
n.j |
|
|
|
|
|
|
n |
N.j - to suma liczebności w kolumnie o numerze j
Ni. - to suma liczebności w wierszu o numerze i.
N - wielkość całej próby
H0: badane dwie cechy są niezależne
r s
χ2 = Σ Σ (nij - ni.*n.j / n)2 / ni * n.j / n
i=1 j=1
ni. i nij to liczebności brzegowe
zaobserwowane w próbie wartości cech x i y zawiera tablice korelacyjne o wymiarach r x s
prawostronny obszar krytyczny
liczba stopni swobody : (r-1) * (s-1)
przykład:
wylosowaną próbę 100 osób, a następnie zadano pytanie czy palą papierosy? Wynik zapisano w tablicy korelacyjnej. Zweryfikować hipotezę o niezależności miedzy płcią a paleniem tytoniu.
Palenie tytoniu
Płeć |
Tak |
Nie |
Σ |
Kobiety |
25 12 |
5 18 |
30 |
Mężczyźni |
15 28 |
55 42 |
70 |
Σ |
40 |
60 |
100 |
n1. * n.1 / n = 30*40 / 100 = 12
n1. * n.2 / n = 30*60 / 100 = 18
n2. * n.1 / n = 70*40 / 100 = 28
n2. * n.2 / n = 70*60/100 = 42
χ2= (25-12)2 / 12+ (5-18)2 / 18 + (15-28)2 / 28 + (55-42)2 / 42 = 33,5
α = 0,05 prawostronny obszar krytyczny
P (χ2≥ χα2 )= α (2-1)(2-1) = 1 stopień swobody
P (χ2≥ χα2 )= 0,05 stąd χα2 = 3,84
χ2=33,5
33,5 ≥ 3,84 odrzucamy hipotezę H0
Estymatorem wyrażenia: npij dla dwuwymiarowej zmiennej losowej jest wartość: ni. * n.j / n
Test niezależności:
Zakres bieżący - jest to zakres danych zawierający wyniki obserwacji, które należy porównać z przewidywaniami (nij).
Zakres przewidywania - jest to zakres danych zawierający stosunek iloczynu sum wierszy przez sumę kolumn do sumy globalnej (npij = ni. * n.j / n )
STATYSTYKA MATEMATYCZNA
PROF. G. TRZPIOT
1
Populacja
Próba
Szacunki parametrów populacji
Estymator
Statystyki