background image

Metody Przetwarzania 

Danych 

Meteorologicznych

Wykład 4

Krzysztof Markowicz

Instytut Geofizyki UW

kmark@igf.fuw.edu.pl

background image

 

 

2

Wybrane rozkłady 

prawdopodobieństwa

rozkład normalny

Własności

Jeśli 

X ~ N(μ, σ

2

)

 i 

a i b

 są liczbami rzeczywistymi, 

to: 

aX + b ~ N(aμ + b, (aσ)

2

).

 

Jeśli 

X

1

 ~ N(μ

1

, σ

1

2

) i X

2

 ~ 

N(μ

2

, σ

2

2

), i X

1

 i X

2

 są 

niezależne
to 

X

1

 + X

2

 ~ N(μ

1

 + μ

2

, σ

1

2

 + σ

2

2

)

Jeśli 

X

1

, ..., X

n

 są niezależnymi zmiennymi losowymi 

o standardowym rozkładzie normalnym, 
to 

X

1

2

 + ... + X

n

2

 ma rozkład chi-kwadrat z 

n

 

stopniami swobody. 

gęstość 
praw-a
dystrybuan
ta

background image

 

 

3

Parametry rozkładu normalnego

• wartość oczekiwana: μ 
• mediana: μ 
• wariancja: σ

2

 

• odchylenie standardowe: σ 
• skośność: 0 
• kurtoza: 0

background image

 

 

4

Centralne twierdzenie graniczne

• Jedną z najważniejszych własności rozkładu normalnego 

jest fakt, że, przy pewnych założeniach, rozkład sumy 

dużej liczby zmiennych losowych jest w przybliżeniu 

normalny. 

• W praktyce twierdzenie to ma zastosowanie jeśli chcemy 

użyć rozkładu normalnego jako przybliżenia dla innych 

rozkładów. Np. w teorii błędów pomiarowych. 

• Rozkład dwumianowy

 z parametrami 

n 

p

 jest w 

przybliżeniu normalny dla dużych 

n

 i 

p

 nie leżących zbyt 

blisko 1 lub 0. Przybliżony rozkład ma średnią równą 

μ 

np

 i odchylenie standardowe 

σ = (n p (1 - p))

0.5

• Rozkład Poissona

 z parametrem 

λ

 jest w przybliżeniu 

normalny dla dużych wartości 

λ

. Przybliżony rozkład 

normalny ma średnią 

μ = λ

 i odchylenie standardowe 

σ 

= √λ

• Dokładność przybliżenia tych rozkładów zależy od celu 

użycia przybliżenia i tempa zbieżności do rozkładu 

normalnego. Zazwyczaj takie przybliżenia są mniej 

dokładne w ogonach rozkładów.

background image

 

 

5

Rozkład normalny - wielowymiarowy

• n-wymiarowa zmienna losowa

   

podlega 

n-wymiarowemu rozładowi normalnemu

 

jeśli dowolna kombinacja liniowa   
jej składowych ma rozkład normalny.

• Funkcja gęstości

 n-wymiarowego rozkładu 

normalnego wektora losowego 

X

 o wektorze 

wartości oczekiwanych  

                               macierzy kowariancji   

dana jest wzorem:

co oznacza się  w skrócie zapisem

background image

 

 

6

Niezależność zmiennych

 

• Jeśli składowe wektora losowego  

X

 o 

wielowymiarowym rozkładzie normalnym są 

nieskorelowane to są niezależne i każda z nich 

podlega rozkładowi normalnemu 

N(

i,

i

)

 . 

Wówczas funkcja gęstości wektora losowego  

X

 

jest iloczynem funkcji gęstości każdej ze 

zmiennych:

background image

 

 

7

Rozkład Poissona

• Rozkład Poissona

 to rozkład dyskretny przedstawiający 

liczbę wystąpień zjawiska w czasie 

t

, w określonej liczbie 

prób, jeśli wystąpienia te są niezależne od siebie. Rozkład 

ma zastosowanie do obliczenia przybliżonej wartości 

prawdopodobieństwa w rozkładzie Bernoulliego przy dużej 

liczbie prób i niskim prawdopodobieństwie sukcesu.

• Rozkład Poissona jest określany przez jeden parametr 

λ

który ma interpretację wartości oczekiwanej. Parametr ten 

jest równy prawdopodobieństwu uzyskania sukcesu w 

pojedynczej próbie pomnożony przez liczbę prób.

• Gęstość prawdopodobieństwa

• Zmienna losowa ma rozkład Piossona gdy:

background image

 

 

8

• wartość oczekiwana: λ, 
• wariancja: λ, 
• Współczynnik skośności: λ

-0.5

 

• kurtoza: λ

-1

 

background image

 

 

9

• Rozkład chi kwadrat (χ²)

 to rozkład zmiennej 

losowej, która jest sumą 

k

 kwadratów 

niezależnych zmiennych losowych o 

standardowym rozkładzie normalnym. 

• Liczbę naturalną

 k

 nazywa się liczbą stopni 

swobody rozkładu zmiennej losowej. 

• Jeżeli ciąg niezależnych zmiennych losowych  

oraz                                                                to

Rozkład chi kwadrat

Zmienna losowa Y ma rozkład chi kwadrat o 

k

 stopniach swobody

Gęstość prawdopodobieństwa ma postać: 

2

1





k

i

i

i

i

X

Y

background image

 

 

10

dystrybuanta

gęstość pro-wa

Własności rozkładu:

Średnia: k

Wariancja: 2k

background image

 

 

11

2-parametrowy rozkład określony tylko dla zmiennej losowej x>0 
k > 0 jest parametrem kształtu
λ > 0 określa skale rozkładu

Dystrybuanta rozkładu

                            

                                                 dla x ≥ 0,  

     F(xk; λ) = 0                       

dla x < 0.

Rozkład Weibulla

background image

 

 

12

Wartość średnia

 

k

k

1

1

1

 

 

k

k

k

1

1

2

1

2

/

2

Wariancj
a

Rozkładu używa się do 
analizy prędkości wiatru i 
opadów.

Przy obliczaniu zasobów 
energetycznych na 
potrzeby energetyki 
wiatru. 

background image

 

 

13

• Rozkład prędkości wiatru w 

listopadzie 
stacja Strzyżów

background image

 

 

14

Wnioskowanie statystyczne

 - polega na uogólnianiu 

wyników otrzymanych na podstawie próby losowej 
na całą populację generalną, z której próba została 
pobrana 

Wnioskowanie statystyczne dzieli się na:

Estymację

  –  szacowanie  wartości  parametrów 

lub postaci rozkładu zmiennej na podstawie próby 
–  na  podstawie  wyników  próby  formułujemy 
wnioski dla całej populacji

Weryfikację 

hipotez 

statystycznych

 

– 

sprawdzanie określonych założeń sformułowanych 
dla 

parametrów 

populacji 

generalnej 

na 

podstawie wyników z próby – najpierw wysuwamy 
założenie,  które  weryfikujemy  na  podstawie 
wyników próby

background image

 

 

15

Estymator 

– wielkość (charakterystyka, miara), 

obliczona na podstawie próby, służąca do oceny 
wartości nieznanych parametrów populacji 
generalnej.

Najlepszym  z  pośród  wszystkich  estymatorów 
parametru w populacji generalnej jest ten, który 
spełnia  wszystkie 

właściwości  estymatorów

 

(jest 

równocześnie 

nieobciążony, 

zgodny, 

efektywny, dostateczny

).

background image

 

 

16

Definicja estymatora

• Niech zmienna losowa 

X

 ma funkcję gęstości 

prawdopodobieństwa 

f

X

 zależną od 

m

 parametrów 

i

 i= 1,2,…,m

Jeśli zostało wygenerowanych (zmierzonych) 

N

 

liczb losowych 

x

1

, x

2

, …, x

N

 , będących wartościami 

zmiennej losowej 

X

, wówczas można skonstruować 

m

 funkcji tych liczb,

S

i

 (x

1

, x

2

, …, x

N

), i=1,2,…,m

 których można użyć do 

wyznaczenia parametrów 

i

• Funkcje 

S

i

 nazywamy estymatorami parametru 

i

.

.

• Estymator nazywamy nieobciążonym, gdy różnica 

dla każdego 

N

 jego wartość oczekiwana 

E(S

i

)

 jest 

równa parametrowi 

i.

 

• Różnicę 

B(S

i

)=E(S

i

)- 

i

 

nazywamy 

obciążeniem

 (bias)

background image

 

 

17

Estymacja parametrów

Mając dane 

n

 wektorów pobranych z pewnego 

wielowymiarowego rozkładu możemy oszacować 
jego parametry w następujący sposób:

Estymator wartości oczekiwanej:

                                        

Estymator macierzy kowariancji o największej 
wiarygodności :

  
                                                                            

Estymator nieobciążony macierzy kowariancji:

  
                                                                            
           

background image

 

 

18

Estymacja przedziałowa

polega na budowie przedziału zwanego 

przedziałem 

ufności

, który z określonym prawdopodobieństwem 

będzie zawierał nieznaną wartość szacowanego 
parametru 

1

)}

X

(

g

Q

)

X

(

g

{

P

n

2

n

1

gdzie:

Q

 – nieznany parametr populacji generalnej,

końce przedziałów (dolna i górna 
granica przedziału), będące funkcją 
wylosowanej próby 

)

X

(

g

n

1

)

X

(

g

n

2

background image

 

 

19

Przedział ufności

• Niech cecha 

X

 ma rozkład w populacji z 

nieznanym parametrem 

θ

. Z populacji 

wybieramy próbę losową 

(X

1

X

2

, ..., X

n

)

• Przedziałem ufności (θ – θ

1

, θ + θ

2

)

 o 

współczynniku ufności 1 - α

 nazywamy taki 

przedział 

(θ – θ

1

, θ + θ

2

)

, który spełnia 

warunek:

P

1

 < θ < θ

2

) = 1 − α

 

gdzie 

θ

1

 i θ

2

 są funkcjami wyznaczonymi na 

podstawie próby losowej.

• Podobnie jak w przypadku estymatorów 

definicja pozwala na dowolność wyboru 

funkcji z próby, jednak tutaj kryterium wyboru 

najlepszych funkcji narzuca się automatycznie 

- zazwyczaj będziemy poszukiwać przedziałów 

najkrótszych

.

background image

 

 

20

• Współczynnik ufności 1 - α

 jest wielkością, którą można 

interpretować w następujący sposób: 
jest to prawdopodobieństwo, że rzeczywista wartość 

parametru 

θ

 w populacji znajduje się w wyznaczonym przez 

nas przedziale ufności. 

• Im większa wartość tego współczynnika, tym szerszy przedział 

ufności, a więc mniejsza dokładność estymacji parametru. 

• Im mniejsza wartość 

1 - α

, tym większa dokładność estymacji, 

ale jednocześnie tym większe prawdopodobieństwo 

popełnienia błędu.

• Wybór odpowiedniego współczynnika jest więc kompromisem 

pomiędzy dokładnością estymacji a ryzykiem błędu. 

• W praktyce przyjmuje się zazwyczaj wartości: 

0,99; 0,95 lub 

0,90

, zależnie od parametru.

-3

-2

-1

0

1

2

3

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-t

n,

t

n,

/2

/2

1-

background image

 

 

21

Przedział ufności dla wartości 

oczekiwanej (średniej) – rozkład 

normalny

• Jeśli cecha ma w populacji rozkład normalny 

N(m, σ),

 

przy czym odchylenie standardowe 

σ

 jest znane. 

Przedział ufności dla parametru 

m

 tego rozkładu ma 

postać:

n

 to liczebność próby losowej 

   oznacza średnią z próby losowej 

σ

   to odchylenie standardowe z próby 

u

α

 jest statystyką, spełniającą warunek: 

P( − u

α

 < U < u

α

) = 1 − α

 

gdzie U jest zmienną losową o rozkładzie 
normalnym 

N(0, 1).

 

  

 

   oraz   

 

              to kwantyle rzędów odpowiednio     

 i 
      rozkładu N(0, 1) 

background image

 

 

22

Przedział ufności dla wariancji

• Przedział ufności dla wariancji w populacji o rozkładzie 

normalnym 

N(m, σ)

 wyznaczamy ze wzoru

• gdzie:

• n

 to liczebność próby losowej 

• s

 to odchylenie standardowe z próby 

•            i              to statystyki spełniające odpowiednio 

równości: 

  
  

• gdzie 

χ2

 ma rozkład chi-kwadrat z 

n - 1

 stopniami 

swobody

  

 

       i   

 

         

background image

 

 

23

Przykład - Minimalna liczebność 

próby

 

• Jeśli chcemy oszacować parametr z określoną 

dokładnością d, możemy, po odpowiednich 

przekształceniach wzorów na przedziały ufności, 

wyznaczyć liczebność próby losowej potrzebną do 

osiągnięcia zakładanej dokładności.

• Przykład:

 

• Niech wzrost wszystkich osób w Polsce ma rozkład 

normalny z odchyleniem standardowym 25,28 cm. 

Obliczmy osób wystarczy zmierzyć, aby z 

prawdopodobieństwem 95% wyznaczyć średni wzrost z 

dokładnością do 5 cm.

• Jeśli chcemy uzyskać dokładność 5 cm, należy zadbać o 

to, aby połowa długości przedziału ufności była 

mniejsza lub równa niż 5 cm. Ze wzoru na przedział 

ufności dla rozkładu normalnego o znanym odchyleniu 

standardowym wynika, że dokładność estymacji 

powinna spełniać zależność:

background image

 

 

24

• Podstawiając do wzoru wartości σ = 25,28; d 

= 5 cm; 
u

 = 1,96 (wartość obliczona na podstawie 

tablic rozkładu normalnego lub w matlabie u

 

=

norminv

(1-/2,0,1) )

uzyskujemy minimalną wielkość próby na 
poziomie n=99. 

Mamy więc:

background image

 

 

25

Poziom istotności

• Poziom istotności

 - jest to prawdopodobieństwo 

popełnienia błędu I rodzaju (zazwyczaj oznaczane 
symbolem α). Określa również maksymalne ryzyko 
błędu, jakie badacz jest skłonny zaakceptować. Wybór 
wartości α zależy natury problemu i od tego jak 
dokładnie chce on weryfikować swoje hipotezy, 
najczęściej przyjmuje się 

α = 0,05, 0,03 lub 0,01

.

• Błąd pierwszego rodzaju

 ('false positive') - w 

statystyce pojęcie z zakresu 

weryfikacji hipotez 

statystycznych

 - błąd polegający na odrzuceniu 

hipotezy zerowej

, która w rzeczywistości jest 

prawdziwa. Błąd pierwszego rodzaju znany też jest 
jako: błąd pierwszego typubłąd przyjęcia lub alfa-
błąd
.

• Oszacowanie prawdopodobieństwa popełnienia błędu 

pierwszego rodzaju oznaczamy symbolem α i 
nazywamy 

poziomem istotności testu

.

background image

 

 

26

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych jest drugim, obok 
estymacji statystycznej, sposobem uogólniania wyników 
losowej próby na populacje z której próba pochodzi

Polega ona na sprawdzaniu przypuszczeń na temat 
rozkładów statystycznych jednej lub wielu zmiennych w 
populacji. 

Podobnie jak w przypadku estymacji, wnioskowanie z 
próby o populacji nie jest i nie może być niezawodne.

Będzie można jednak oceniać prawdopodobieństwa 
popełnienia błędów związanych ze stosowaną metodą 
weryfikacji hipotez. 

Hipotezą statystyczna nazywa się dowolne 
przypuszczeni dotyczące nieznanego rozkładu 
statystycznego jednej zmiennej lub łącznego rozkładu 
wielu zmiennych w populacji. 

background image

 

 

27

• Wyróżnia się hipotezy parametryczne dotyczące 

nieznanych wartości parametrów rozkładu 

statystycznego oraz hipotezy nieparametryczne, 

które są przypuszczeniami na temat klasy rozkładów 

do których należy rozkład statystyczny w populacji.

Przebieg procedury weryfikacyjnej

 

 

1. Sformułowanie hipotezy zerowej i alternatywnej 

• Hipoteza zerowa (H

0

)

 - Jest to hipoteza poddana procedurze 

weryfikacyjnej, w której zakładamy, że różnica między 

analizowanymi parametrami lub rozkładami wynosi zero. 

Przykładowo wnioskując o parametrach hipotezę zerową 

zapiszemy jako: 

H

0

: θ

1

 = θ

2

 . 

• Hipoteza alternatywna (H

1

)

 - hipoteza przeciwstawna do 

weryfikowanej. Możemy ją zapisać na trzy sposoby w zależności 

od sformułowania badanego problemu: 

» H

1

: θ

1

 ≠ θ

2

 

» H

1

: θ

1

 > θ

2

 

» H

1

: θ

1

 < θ

2

 

background image

 

 

28

2. Wybór statystyki testowej

Budujemy pewną statystykę 

W

, która jest 

funkcją wyników z próby losowej 

W = f(x

1

, x

2

, ..., 

x

n

)

 i wyznaczamy jej rozkład przy założeniu, że 

hipoteza zerowa jest prawdziwa. Funkcję 

W

 

nazywa się 

statystyką testową lub funkcją 

testową

3. Określenie poziomu istotności α

Na tym etapie procedury weryfikacyjnej 

przyjmujemy prawdopodobieństwo popełnienia 

błędu I rodzaju, który polega na odrzuceniu 

hipotezy zerowej wtedy, gdy jest ona prawdziwa. 

Prawdopodobieństwo to jest oznaczane 

symbolem 

α

 i nazywane poziomem istotności. Na 

ogół przyjmujemy prawdopodobieństwo bliskie 

zeru, ponieważ chcemy aby ryzyko popełnienia 

błędu było jak najmniejsze. Najczęściej 

zakładamy, że poziom istotności 

α≤ 0.1 (np. 

α=0.01 ; α=0.05 ; α=0.1)

 

background image

 

 

29

• 4. Wyznaczenie obszaru krytycznego testu

– Obszar krytyczny

 - obszar znajdujący się zawsze na 

krańcach rozkładu. Jeżeli obliczona przez nas wartość 
statystyki testowej znajdzie się w tym obszarze to 
weryfikowaną przez nas hipotezę 

H

o

 odrzucamy. 

Wielkość obszaru krytycznego wyznacza dowolnie mały 
poziom istotności α, natomiast jego położenie określane 
jest przez hipotezę alternatywną. 

– Obszar krytyczny od pozostałej części rozkładu 

statystyki odzielony jest przez tzw. 

wartości krytyczne 

testu (w

), czyli wartości odczytane z rozkładu 

statystyki przy danym 

α

, tak aby spełniona była relacja 

zależna od sposobu sformułowania 

H

1

• P{|w|≥w

} = α    gdy H

1

: θ

1

 ≠ θ

2

     (obszar 

dwustronny) 

• P{w ≥w

} = α    gdy H

1

: θ

1

 > θ

2

     (obszar 

prawostronny) 

• P{w ≤w

} = α    gdy H

1

: θ

1

 < θ

2

     (obszar 

lewostronny) 

background image

 

 

30

6.  Obliczenie statystyki na podstawie próby

Wyniki próby opracowujemy w odpowiedni 
sposób, zgodnie z procedurą wybranego 
testu i są one podstawą do obliczenia 
statystyki testowej. Większość statystyk 
testowych, mających dokładny rozkład 
normalny, t-Studenta lub graniczny rozkład 
normalny, obliczamy w następujący sposób: 

 
gdzie: 
• W - Statystyka testowa 
• a - Statystyka obliczona z próby 
• b - Hipotetyczna wartość parametru(ów) 
• c - Odchylenie standardowe rozkładu statystyki 

background image

 

 

31

6. Podjęcie decyzji

– Wyznaczoną na podstawie próby wartość 

statystyki porównujemy z wartością 
krytyczną testu. 

– Jeżeli wartość ta znajdzie się w obszarze 

krytycznym to hipotezę zerową należy 
odrzucić
 jako nieprawdziwą. Stąd wniosek, 
że prawdziwa jest hipoteza alternatywna. 

– Jeżeli natomiast wartość ta znajdzie się poza 

obszarem krytycznym, oznacza to, że brak 
jest podstaw do odrzucenia hipotezy 
zerowej
. Stąd wniosek, że hipoteza zerowa 
może, ale nie musi, być prawdziwa. 

background image

 

 

32

background image

 

 

33

Test dla średniej

Hipotezę zerową i alternatywną oznaczamy w 

następujący sposób:

H

o

: μ = μ

o

 

Zakłada ona, że nieznana średnia w populacji 

μ

 jest 

równa średniej hipotetycznej 

μ

o

 

H

1

: μ ≠ μ

o

 lub 

H

1

: μ > μ

o

 lub 

H

1

: μ < μ

o

 

Jest ona zaprzeczeniem 

H

o

, występuje w trzech 

wersjach w zależności od sformułowania badanego 

problemu. 

Sprawdzianem hipotezy jest statystyka testowa, 

która jest funkcją wyników próby losowej. Postać 

funkcji testowej (tzw.statystyki) zależy od:

– rozkładu cechy w populacji 

– znajomości wartości odchylenia standardowego w populacji 

– liczebności próby 

Biorąc pod uwagę powyższe przypadki, założoną 

przez nas hipotezę możemy sprawdzić za pomocą 

trzech testów:

background image

 

 

34

1.  Jeżeli populacja ma rozkład normalny 

N(μ,σ)

 o 

nieznanej średniej 

μ

 i znanym odchyleniu standardowym 

σ

, natomiast liczebność próby 

n

 jest dowolna, wtedy 

statystyka ma postać: 

gdzie: 

m

 - średnia z próby 

– Jeżeli 

H

o

 jest prawdziwa, to statystyka testowa 

Z

 ma 

rozkład asymptotycznie normalny. 

– Wartość statystyki, którą obliczymy korzystając z 

powyższego wzoru, oznaczamy jako 

z

. Następnie 

porównujemy ją z wartością krytyczną testu 

z

 , którą 

możemy odczytać z tablic standaryzowanego rozkładu 
normalnego, uwzględniając poziom istotności 

α

– Decyzję o odrzuceniu 

H

o

 

podejmujemy, jeżeli wartość 

statystyki znajduje się w obszarze krytycznym. Jeżeli 
natomiast wartość ta znajdzie się poza obszarem 
krytycznym, nie ma wtedy podstaw do odrzucenia 

H

o

background image

 

 

35

2.  Jeżeli rozkład populacji jest dowolny, o nieznanej średniej 

μ

 i nieznanym odchyleniu standardowym

 σ

, natomiast 

liczebność próby jest 

n > 30

, wtedy statystyka ma postać: 

• Jeżeli 

H

o

 jest prawdziwa, to statystyka testowa ma rozkład 

asymptotycznie normalny. 

3. Jeżeli rozkład populacji jest normalny 

N(μ,σ)

, o nieznanej 

średniej 

μ

 i nieznanym odchyleniu standardowym 

σ

natomiast liczebność próby jest 

n < 30

, wtedy statystyka 

ma postać: 

•  

• Jeżeli 

H

o

 jest prawdziwa, to statystyka testowa ma rozkład 

t-Studenta

 o liczbie stopni swobody 

ν = n-1

• Wartość statystyki, którą obliczymy korzystając z 

powyższego wzoru, oznaczamy jako 

t

. Następnie 

porównujemy ją z wartością krytyczną testu 

t

, którą 

odczytujemy z tablic rozkładu t-Studenta przy założonym 

poziomie istotności α oraz liczbie stopni swobody 

ν = n-1

.

background image

 

 

36

Testy dla jednej wariancji

 

• Porównujemy wariancję w populacji z „wzorcową” 

wartością  

o2

• Hipotezy mają postać: 

H

o

:  

2

= 

o2

H

1

: postać hipotezy alternatywnej zależy od 

sformułowania zagadnienia: 

(a) 

2

> 

o2

(b) 

2

< 

o2

(c)

 

2

 

o2

Postać statystyki i dalszy przebieg testu zależy od 

rozmiaru próby.

background image

 

 

37

Próby małe

• Wyznaczamy wartość statystyki

s

2

 jest tutaj wariancją z próby a 

n

 – liczebnością próby. Statystyka 

ta ma rozkład chi-kwadrat - zatem wartość krytyczną 

kryt2

 

odczytujemy z tablic rozkładu chi-kwadrat dla 

v = n − 1

 stopni 

swobody i dla poziomu istotności 

 gdy hipoteza alternatywna 

H

1

 

ma postać (a), w przypadku (b) – odczytujemy z tablic 

   w przypadku (c) - odczytujemy dwie wartości:                         
 oraz       

Przedział krytyczny 

• W przypadku (a) jest prawostronny, czyli gdy 

2

 >

 

kryt2

 

                         

 odrzucamy 

H

0

, w przypadku przeciwnym – nie ma podstaw do jej 

odrzucenia. 

• W przypadku (b) – przedział krytyczny jest lewostronny 
• (dla      

2

 <

kryt2

 

 odrzucamy 

H

0

), 

• W przypadku (c) – przedział krytyczny jest obustronny.
        

background image

 

 

38

Próby duże

• Dla liczebności próby 

n > 30

 możemy przekształcić 

wyznaczoną w poprzednim punkcie statystykę chi-kwadrat w 

statystykę z o rozkładzie normalnym obliczając:

•  

• W powyższym wzorze 

χ2

 oraz 

v = n − 1

 oznaczają statystykę 

chi-kwadrat i jej liczbę stopni swobody wyznaczone tak, jak 

w poprzednim paragrafie (dla prób małych).

• Wartości krytyczne znajdujemy z tablic dystrybuanty 

rozkładu normalnego.Jeżeli 

F

n

(z)

 jest dystrybuantą 

standardowego rozkładu normalnego, a 

F

n-1

(z)

 - funkcją 

odwrotną do dystrybuanty, natomiast 

α

 - założonym 

poziomem istotności – to odczytujemy: 

• dla przypadku (a)  
• w przypadku (b)  
• w przypadku (c) mamy 2 wartości graniczne: 

oraz  

z

kryty2

 = − z

kryt1

 

background image

 

 

39

Inne testy wariancji

• Testy dla dwóch wariancji 
• Testy dla dwóch prób niezależnych 
• Testy dla dwóch prób zależnych 
• Testy dla wielu wariancji 

background image

 

 

40

Testy nieparametryczne dla 

współczynnika korelacji

2

2

2
Y

2
X

)

Y

Y

(

)

X

X

(

)

Y

Y

)(

X

X

(

)

Y

,

X

cov(

r

Formułujemy zerowa hipotezę 

H

o

: „Brak korelacji 

pomiędzy zmienną 

X

 a zmienną 

Y

:

Ustalamy poziom istotności : 

1-

Hipotezę testujemy przy pomocy testu studenta o 

N-2

 stopniach swobody (N jest długością wektorów 

X i Y)

Wyznaczamy wartość:

2

r

1

2

N

r

t

background image

 

 

41

• Kolejno obliczamy wartości krytyczną testu t

• Jeśli t>t

 to hipotezę zerową odrzucamy w przeciwnym razie 

przyjmujemy. 

• Alternatywnie możemy zdefiniować krytyczną wartość 

współczynnika korelacji (na podstawie ostatniego wzoru):

2

c

t

2

N

t

r

background image

 

 

42

Przykład

• Mamy zbiór danych meteorologicznych zawierający: 

temperaturę na stacji A ora na stacji B. 

• Testujemy hipotezę, że obie wielkości nie są ze sobą 

skorelowane na poziomie istotności =0.05.  

• Wykujemy to w 2 przypadkach gdy bierzemy pod 

uwagę jedynie 6 punktów pomiarowych (niebieskie 
kwadraty na wykresie) oraz gdy bierzemy wszystkie 
punkty (20)

Przepadek 1.

Obliczamy współ. korelacji: 
r=0.47

Obliczamy wartość krytyczną 
testu (dla N=6)  studenta 

t

=tinv(1-0.05/2,4).

Następnie krytyczna wartość 
współ. korelacji r

c

=0.72.

r

c

> r wiec hipotezę 

przyjmujemy.

background image

 

 

43

• Przepadek 2 (wszystkie punkty).
• Obliczamy współ. korelacji: r=0.84
• Obliczamy wartość krytyczną testu (dla N=20) 

 studenta 
t

 =tinv(1-0.05/2,4).

• Następnie krytyczna wartość współ. korelacji 

r

c

 =0.44.

• r

c

 < r wiec hipotezę odrzucamy. Dane są 

skorelowane!!


Document Outline