METODY STATYSTYCZNE
Made by Heniu
1
Definicja przestrzeni probabilistycznej. Przy-
kład miary probabilistycznej dla skończo-
nej przestrzeni zdarzeń elementarnych
Definicja 1.1 (przestrzeni probabilistycznej) Trójkę (Ω, Z
ZL
, P
), gdzie
Ω-przestrzeń zdarzeń elementarnych, Z
ZL
-zbiór zdarzeń losowych, P -miara
probabilistyczna, nazywamy przestrzenią probabilistyczną.
Z
ZL
spełnia następujące warunki:
1. Ω ⊂ Z
ZL
.
2. Jeżeli zdarzenia A
1
, A
2
, ... należą do Z
ZL
, to również ich suma:
A
1
∪ A
2
∪ ...
oraz ich iloczyn:
A
1
∩ A
2
∩ ...
należą do zbioru Z
ZL
.
Zdarzenia należące do zbioru Z
ZL
mają ważną własność, mianowicie mie-
rzalność, tzn. można im przyporządkować różne miary. W szczególności jako
miarę na zdarzeniach A ∈ Z
ZL
określić można funkcję P (A) o wartościach
rzeczywistych spełniającą tzw. aksjomaty Kołmogorowa:
1. 0 ¬ P (A) ¬ 1.
2. P (Ω) = 1.
3. P (A
1
∪ A
2
∪ ...) =
P
i
P
(A
i
),jeśli zdarzenia A
1
, A
2
, ... są wyłączające się
(tzn. A
i
∩ A
j
= ∅, gdy i 6= j).
Tak określoną funkcję P nazywa się prawdopodobieństwem (lub miarą
probabilistyczną) zdarzeń losowych.
Przykład 1.1 Weźmy doświadczenie losowe polegające na jednokrotnym
rzucie kostką sześcienną do gry.
Przestrzeń zdarzeń elementarnych: Ω = {1, 2, 3, 4, 5, 6}.
Zbiór zdarzeń losowych: Z
ZL
= 2
Ω
= {∅, {1}, {2}, {3}, {4}, {5}, {6},
{1, 2}, {1, 3}, {1, 4}, {1, 5}, {1, 6}, {2, 3}, {2, 4}, {2, 5}, {2, 6}, {3, 4},
1
{3, 5}, {3, 6}, {4, 5}, {4, 6}, {5, 6}, {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 2, 6},
{1, 3, 4}, {1, 3, 5}, {1, 3, 6}, {1, 4, 5}, {1, 4, 6}, {1, 5, 6}, {2, 3, 4}, {2, 3, 5},
{2, 3, 6}, {2, 4, 5}, {2, 4, 6}, {2, 5, 6}, {3, 4, 5}, {3, 4, 6}, {3, 5, 6}, {4, 5, 6},
{1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 3, 6}, {1, 2, 4, 5}, {1, 2, 4, 6}, {1, 2, 5, 6},
{1, 3, 4, 5}, {1, 3, 4, 6}, {1, 3, 5, 6}, {1, 4, 5, 6}, {2, 3, 4, 5}, {2, 3, 4, 6},
{2, 3, 5, 6}, {2, 4, 5, 6}, {3, 4, 5, 6}, {1, 2, 3, 4, 5}, {1, 2, 3, 4, 6}, {1, 2, 3, 5, 6},
{1, 2, 4, 5, 6}, {1, 3, 4, 5, 6}, {2, 3, 4, 5, 6}, {1, 2, 3, 4, 5, 6} = Ω}.
Miarę P zdefiniujmy następująco:
P
(A) =
1
6
, gdzie A-zdarzenie polegające na wypadnięciu jakiejkolwiek
z cyfr.
Weźmy następujące zdarzenia losowe:
1. B-wypadła parzysta ilość oczek.
Wówczas układem ze zbioru Z
ZL
odpowiadającym naszemu wa-
runkowi jest układ {2, 4, 6}. Obliczmy prawdopodobieństwo:
P
(B) =
1
6
+
1
6
+
1
6
=
1
2
.
2. C-wypadła liczba oczek nie większa od 4.
Układem pasującym do warunku jest układ {1, 2, 3, 4}.
P
(C) =
1
6
+
1
6
+
1
6
+
1
6
=
2
3
.
Przykład 1.2 Weźmy teraz doświadczenie losowe polegające na dwukrot-
nym rzucie sześcienną kostką do gry.
Przestrzeń zdarzeń elementarnych: Ω = {{1, 1}, {1, 2}, {1, 3}, {1, 4}, {1, 5},
{1, 6}, {2, 1}, {2, 2}, ..., {5, 6}, {6, 1}, {6, 2}, {6, 3}, {6, 4}, {6, 5}, {6, 6}}.
Zbiór zdarzeń losowych: Z
ZL
= 2
Ω
= {∅, {{1, 1}}, {{1, 2}}, ..., {{6, 6}},
{{1, 1}, {1, 2}}, {{1, 1}, {1, 3}}, {{1, 1}, {1, 4}}, {{1, 1}, {1, 5}}, ...,
{{1, 1}, {1, 2}, {1, 3}, {1, 4}, ..., {6, 5}, {6, 6}} = Ω}.
Miara P zdefiniowana jak wyżej.
Weźmy następujące zdarzenia losowe:
1. B-wypadły liczby dające w sumie 11.
Układem pasującym do warunku jest układ {{5, 6}, {6, 5}}.
P
(B) =
1
6
∗
1
6
+
1
6
∗
1
6
=
1
18
.
2. C-za pierwszym razem wypadła liczba parzysta, za drugim niepa-
rzysta.
Układ: {{2, 1}, {2, 3}, {2, 5}, {4, 1}, {4, 3}, {4, 5}, {6, 1}, {6, 3}, {6, 5}}.
P
(C) = 9 ∗
1
6
∗
1
6
=
1
4
.
W powyższych przykładach przestrzeń zdarzeń elementarnych Ω była skoń-
czona. Oto kilka przykładów, gdzie Ω jest nieskończona:
2
Przykład 1.3 Weźmy doświadczenie losowe polegające na rzucaniu monetą
tak długo, aż wypadnie orzeł.
Ω = {O, RO, RRO, RRRO, RRRRO, ...}.
Taka przestrzeń jest nieskończona, ale przeliczalna.
Przykład 1.4 Weźmy doświadczenie losowe polegające na jednokrotnym
rzucie strzałką do tarczy, która jest kołem o promieniu 1: x
2
+ y
2
¬ 1.
Ω - zbiór wszystkich punktów koła.
Taka przestrzeń jest nieskończona i nieprzeliczalna.
2
Definicja prawdopodobieństwa warunkowe-
go i niezależności zdarzeń, twierdzenie o
prawdopodobieństwie całkowitym, zagadnie-
nie Bayesa i Bernoulliego
Definicja 2.1 (prawdopodobieństwa warunkowego) Zajście zdarzenia
A, kiedy wiadomo, że zachodzi jakieś zdarzenie B, nazywamy prawdopodo-
bieństwem warunkowym
.Odpowiada to sytuacji, gdy zdarzenie B już za-
szło. Prawdopodobieństwo warunkowe oznaczamy P (A
|B) i czytamy „praw-
dopodobieństwo zdarzenia A pod warunkiem zajścia zdarzenia B”. Wyraża
się ono wzorem:
P
(A|B) =
P
(A ∩ B)
P
(B)
.
(1)
Definicja 2.2 (niezależności zdarzeń) Zdarzenia A i B nazywamy zda-
rzeniami niezależnymi
wtedy i tylko wtedy, gdy zachodzi warunek:
P
(A ∩ B) = P (A) ∗ P (B).
(2)
Przykład 2.1 Zdarzeniami niezależnymi są np. kolejne rzuty monetą lub
kostką do gry.
Zdarzeniami zależnymi są np. losowanie kolejnych kul z urny bez zwra-
cania lub losowanie kolejnych kart do gry z talii bez zwracania.
Twierdzenie 2.1 (o prawdopodobieństwie całkowitym) Jeśli zdarzenia
B
1
, B
2
, ..., B
n
⊂ Ω spełniają warunki:
1. B
1
∪ B
2
∪ ... ∪ B
n
= Ω (ZUZ - zupełny układ zdarzeń),
2. dla każdego i, j
∈ {1, 2, ..., n} jeśli i 6= j to B
i
∩ B
j
= ∅ (innymi słowy
zdarzenia wykluczają się parami),
3
3. dla każdego i
∈ {1, 2, ..., n} P (B
i
) > 0 oraz A ⊂ Ω,
to prawdopodobieństwo całkowite zdarzenia A wyraża się wzorem:
P
(A) = P (A|B
1
) ∗ P (B
1
) + P (A|B
2
) ∗ P (B
2
) + ... + P (A|B
n
) ∗ P (B
n
). (3)
Zagadnienie Bayesa
Niech dane będą zdarzenia A, B
1
, B
2
, ..., B
n
tej samej przestrzeni probabili-
stycznej Ω, takie, że:
1. P (B
i
) > 0 dla i = 1, 2, ..., n,
2.
n
S
i
=1
B
i
= Ω,
3. dla każdego i, j ∈ {1, 2, ..., n}, jeśli i 6= j, to B
i
∩ B
j
= ∅.
Wiadomo, że zdarzenie A zaszło. W zagadnieniu Bayesa interesuje nas praw-
dopodobieństwo warunkowe zajścia zdarzenia B
i
(i = 1, 2, ..., n) pod warun-
kiem zajścia zdarzenia A, tzn. prawdopodobieństwo P (B
i
|A). Wynosi ono:
P
(B
i
|A) =
P
(A|B
i
) ∗ P (B
i
)
P
(A)
=
=
P
(A|B
i
) ∗ P (B
i
)
P
(A|B
1
) ∗ P (B
1
) + ... + P (A|B
n
) ∗ P (B
n
)
.
(4)
Schemat Bernoulliego
Prawdopodobieństwo P , że w n próbach nastąpi dokładnie k sukcesów, wy-
raża się za pomocą schematu Bernoulliego.
Niech:
p - prawdopodobieństwo sukcesu, 0 < p < 1,
q - prawdopodobieństwo porażki, q = 1 − p,
k - ilość sukcesów,
n - ilość prób,
to wówczas prawdopodobieństwo P
n
(k) otrzymania dokładnie k sukcesów w
n
próbach wyraża się wzorem:
P
n
(k) =
n
k
!
p
k
q
n−k
.
(5)
Ciąg doświadczeń jest przeprowadzony według schematu Bernoulliego, jeśli
spełnione są warunki:
4
• w każdym doświadczeniu otrzymujemy jeden z dwóch możliwych wy-
ników: A – sukces, A – porażka,
• doświadczenia są niezależne (wynik żadnego doświadczenia nie wpływa
na wyniki innych doświadczeń),
• prawdopodobieństwo sukcesu w każdym doświadczeniu jest jednakowe.
3
Definicja zmiennej losowej, jej dystrybuan-
ty, wartości przeciętnej, wariancji, kwanty-
la rzędu p
Definicja 3.1 (zmiennej losowej) Zmienną losową nazywamy funkcję
X
(ω) o wartościach rzeczywistych, określoną na przestrzeni Ω zdarzeń ele-
mentarnych ω danego doświadczenia losowego i mierzalną względem ciała
zdarzeń Z
ZL
, tzn. dla każdej liczby rzeczywistej k zachodzi
{ω : X(ω) < k} ∈
Z
ZL
, czyli jest zdarzeniem losowym z mierzalnego ciała zdarzeń Z
ZL
.
Przykład 3.1 Weźmy doświadczenie losowe polegające na rzucie kostką sze-
ścienną do gry. Określmy zmienną losową X w taki sposób, że jeżeli wy-
nik rzutu jest podzielny przez 3, to przyporządkowujemy mu liczbę 10,
w przeciwnym wypadku przyporządkowujemy mu liczbę 20. Obliczyć
prawdopodobieństwo P (8 ¬ X < 15).
Rozwiązanie Zmienna losowa X przyjmuje wartość 10 przyporządkowaną
zdarzeniom elementarnym {3, 6} oraz wartość 20 przyporządkowaną
zdarzeniom elementarnym {1, 2, 4, 5}.Jako, że liczność przestrzeni Ω
wszystkich zdarzeń elementarnych wynosi w tym zadaniu 6, to praw-
dopodobieństwa dla tych dwu wartości zmiennej losowej X wynoszą
odpowiednio
2
6
=
1
3
oraz
4
6
=
2
3
.Więc funkcja prawdopodobieństwa da-
nej zmiennej losowej będzie miała postać:
P
(X = 10) =
1
3
.
P
(X = 20) =
2
3
.
Szukane prawdopodobieństwo wynosi zatem:
P
(8 ¬ X < 15) = P (X = 10) =
1
3
.
Definicja 3.2 (dystrybuanty zmiennej losowej) Dystrybuantą zmien-
nej losowej
nazywamy funkcję F (x) zmiennej rzeczywistej x, określoną jako
F
(x) = P (X < x).
(6)
5
Dla konkretnej wartości zmiennej rzeczywistej x, wartość dystrybuanty zmien-
nej losowej X oblicza się ze wzoru:
F
(X) = P (X < x) =
P
x
i
<x
p
i
,
dla dyskretnej zmiennej losowej
z prawdopodobieństwami p
i
dla wartości x
i
,
x
R
−∞
f
(t)dt, dla ciągłej zmiennej losowej
z funkcją gęstości f (t).
(7)
Funkcja gęstości prawdopodobieństwa f(x) określa nam rozkład prawdopo-
dobieństwa zmiennej losowej X ciągłej, mającej nieskończoną nieprzeliczalną
liczbę wartości. Spełnia ona warunki:
1. f(x) 0,
2.
+∞
R
−∞
f
(x)dx = 1.
Dla zmiennej losowej ciągłej dystrybuanta jest funkcją ciągłą i zachodzi na-
stępujący związek między dystrybuantą a funkcją gęstości:
F
′
(x) = f(x).
Definicja 3.3 (wartości przeciętnej) Wartość oczekiwaną (zwaną też
wartością średnią, oczekiwana
lub nadzieją matematyczną) zmien-
nej losowej X o danym rozkładzie prawdopodobieństwa (dyskretnym lub cią-
głym) oznacza się zwykle symbolem E(X) lub m i definiuje wzorem:
m
= E(X) =
P
i
x
i
p
i
,
dla rozkładu dyskretnego,
+∞
R
−∞
xf
(x)dx, dla rozkładu ciągłego.
(8)
Definicja 3.4 (wariancji) Wariancja jest parametrem charakteryzującym
rozrzut wartości zmiennej losowej X wokół jej średniej m = E(X). Definiuje
się ją wzorem:
σ
2
= D
2
(X) = E[X−m]
2
=
P
i
(x
i
− m)
2
p
i
,
dla rozkładu dyskretnego,
+∞
R
−∞
(x − m)
2
f
(x)dx, dla rozkładu ciągłego.
(9)
Wygodniej jest często obliczać wariancję D
2
(X) za pomocą wartości przecięt-
nej:
D
2
(X) = E(X
2
) − [E(X)]
2
.
(10)
6
Definicja 3.5 (kwantyla rzędu p) Dla dowolnej liczby p (0 < p < 1)
kwantylem rzędu p
rozkładu zmiennej losowej X nazywamy liczbę x
p
speł-
niającą nierówności:
P
(X ¬ x
p
) p oraz P (X x
p
) 1 − p.
(11)
Dla ciągłych rozkładów prawdopodobieństwa kwantylem rzędu p jest wartość
x
p
spełniająca równość F (x
p
) = p, gdzie F (x) jest dystrybuantą zmiennej
losowej X.
Przykład 3.2 Dana jest dyskretna zmienna losowa X o funkcji prawdopo-
dobieństwa:
P
(X = 10) = 0, 1; P (X = 20) = 0, 2; P (X = 30) = 0, 3;
P
(X = 40) = 0, 3; P (X = 50) = 0, 1.
Dla tak podanej zmiennej losowej obliczyć różnicę E(X) − x
0,5
.
Rozwiązanie Obliczamy z definicji wartość oczekiwaną E(X), otrzymuje-
my:
E
(X) = 10 ∗ 0, 1 + 20 ∗ 0, 2 + 30 ∗ 0, 3 + 40 ∗ 0, 3 + 50 ∗ 0, 1 = 31.
Kwantyl rzędu
1
2
(inaczej zwany medianą) przyjmuje u nas wartość
x
0,5
= 30, gdyż jedynie dla niej zachodzi:
P
(X ¬ 30) = 0, 6 0, 5 oraz P (X 30) = 0, 7 0, 5.
Tak więc rozwiązaniem jest liczba 1, gdyż E(X) − x
0,5
= 31 − 30 = 1.
Przykład 3.3 Dana jest zmienna losowa ciągła o funkcji gęstości prawdo-
podobieństwa:
f
(x) =
1
2
sin x dla 0 ¬ x ¬ π,
0
dla pozostałych x.
Obliczyć dla tej zmiennej losowej różnicę E(X) − x
0,25
.
Rozwiązanie Obliczmy wartość oczekiwaną:
E
(X) =
π
Z
0
x
1
2
sin x dx =
1
2
π
7
(całkowanie przez części), natomiast pierwszy kwartyl, tzn. kwantyl
rzędu
1
4
, wynosi x
0,25
=
1
3
π
, gdyż F (
1
3
π
) =
1
4
; należało tu rozwią-
zać równanie, które wynika z definicji kwantyla rzędu p dla ciągłych
rozkładów prawdopodobieństwa (dla nas p = 0, 25):
x
0,25
Z
0
1
2
sin x dx =
1
4
.
4
Definicja funkcji prawdopodobieństwa dla
zmiennej losowej dyskretnej, przykłady roz-
kładów: Bernoulliego, Poissona
Definicja 4.1 (funkcji prawdopodobieństwa) Funkcja prawdopodo-
bieństwa
określa rozkład prawdopodobieństwa zmiennej losowej X typu dys-
kretnego, mającej skończoną lub przeliczalną liczbę wartości:
P
(X = x
i
) = p
i
, gdzie 0 < p
i
<
1,
(12)
przy czym
n
X
i
=1
p
i
= 1 lub
∞
X
i
=1
p
i
= 1.
Liczby p
i
oznaczają tu prawdopodobieństwa, z jakimi zmienna losowa przyj-
muje poszczególne wartości x
i
.
Rozkład Bernoulliego (dwumianowy)
Niech dany będzie tzw. schemat doświadczeń losowych typu Bernoulliego,
scharakteryzowany trzema podstawowymi założeniami:
1. Dokonuje się n niezależnych powtórzeń pewnego doświadczenia losowe-
go.
2. W każdym doświadczeniu mogą zajść tylko dwa wyłączające się wza-
jemnie zdarzenia: A (tzw. sukces) oraz A (tzw. niepowodzenie).
3. P (A) = p oraz P (A) = 1 − p = q.
Zmienna losowa X = k przyjmująca wartości równe liczbie sukcesów (tj.
liczbie realizacji zdarzenia A) w n doświadczeniach ma tzw. rozkład dwu-
mianowy z funkcją prawdopodobieństwa określoną wzorem:
P
(X = k) =
n
k
!
p
k
q
n−k
dla k = 0, 1, 2, ..., n.
(13)
8
Wartość oczekiwana i wariancja w rozkładzie dwumianowym wynoszą odpo-
wiednio:
E
(X) = np,
D
2
(X) = npq.
(patrz też schemat Bernoulliego - rozdział 2)
Przykład 4.1 Weźmy doświadczenie losowe polegające na trzykrotnym rzu-
cie monetą. Przyjmijmy, iż naszym „sukcesem” będzie wypadnięcie
orła. Jakie jest prawdopodobieństwo uzyskania w tym doświadczeniu
dwóch „sukcesów”, czyli wypadnięcia dwóch orłów?
Rozwiązanie Z warunków zadania wynika, iż:
n
= 3
k
= 2
p
=
1
2
q
=
1
2
Obliczmy więc szukane prawdopodobieństwo:
P
(X = 2) =
3
2
!
1
2
2
1
2
=
3!
2!(3 − 2)!
1
2
3
=
3
8
.
Rozkład Poissona
Niech w schemacie doświadczeń typu Bernoulliego liczba niezależnych do-
świadczeń n → ∞, przy czym prawdopodobieństwo p „sukcesu” maleje
tak, że np = λ = const. Przy takim założeniu funkcja prawdopodobień-
stwa zmiennej losowej o rozkładzie dwumianowym dąży w granicy do funkcji
prawdopodobieństwa w tzw. rozkładzie Poissona:
P
(X = k) =
λ
k
e
−
λ
k
!
dla k = 0, 1, 2, ...
(14)
Liczba wartości k (k-liczba zrealizowanych „sukcesów”) zmiennej losowej X
o rozkładzie Poissona jest nieskończona, przeliczalna. Rozkład ten posiada
ciekawą własność identyczności średniej i wariancji, zachodzi bowiem:
E
(X) = λ = D
2
(X).
Przykład 4.2 Pewna centrala telefoniczna obsługuje 300 niezależnych abo-
nentów. W ciągu każdej godziny każdy z abonentów tej centrali może
z prawdopodobieństwem 0, 01 zgłosić się, celem uzyskania połączenia.
Obliczyć prawdopodobieństwo, że w danej godzinie wystąpi co najwy-
żej jedno zgłoszenie abonenta.
9
Rozwiązanie Przyjmujemy λ = np = 300
∗ 0, 01 = 3.
Jako, że interesuje nas co najwyżej jedno zgłoszenie, to musimy wziąść
pod uwagę przypadek kiedy nastąpi dokładnie jedno zgłoszenie (k = 1)
oraz przypadek kiedy zgłoszenia nie będzie (k = 0). Dla takich wartości
λ
i k otrzymujemy z tablic rozkładu Poissona, że P (X = 0) = 0, 05
(po zaokrągleniu) oraz P (X = 1) = 0, 15 (po zaokrągleniu). Tak więc
szukane prawdopodobieństwo wynosi:
P
(X ¬ 1) = P (X = 0) + P (X = 1) = 0, 05 + 0, 15 = 0, 2.
5
Definicja gęstości dla zmiennej losowej cią-
głej, przykłady rozkładów: jednostajny, nor-
malny
Definicja 5.1 (gęstości zmiennej losowej ciągłej) Gęstość zmiennej
losowej ciągłej
to funkcja będąca pochodną dystrybuanty F (x), oznaczamy
ją jako f (x). Określa nam ona rozkład prawdopodobieństwa zmiennej loso-
wej ciągłej, mającej nieskończoną i nieprzeliczalną liczbę wartości. Gęstość
spełnia następujące warunki:
1. f (x)
0,
2.
+∞
R
−∞
f
(x)dx = 1.
Gęstość, oprócz tego, iż F
′
(x) = f(x), ma jeszcze następujący związek z
dystrybuantą:
F
(x) =
x
Z
−∞
f
(t)dt.
Rozkład jednostajny (prostokątny)
Rozkład jednostajny określony na przedziale [a, b] ma dystrybuantę postaci:
F
(x) =
0
x < a,
x−a
b−a
a
¬ x ¬ b,
1
x > b.
natomiast gęstość ma postać:
f
(x) =
0
x < a,
1
b−a
a
¬ x ¬ b,
0
x > b.
10
Wartość oczekiwana i wariancja w rozkładzie jednostajnym są odpowiednio
równe:
E
(X) =
a
+ b
2
,
D
2
(X) =
(b − a)
2
12
.
Rozkład normalny (Gaussa)
Rozkład ten jest najważniejszym rozkładem ciągłej zmiennej losowej. Funkcja
gęstości prawdopodobieństwa rozkładu normalnego ma postać:
f
(x) =
1
σ
√
2π
e
−
(x−m)2
2σ2
dla x ∈ (−∞, +∞).
(15)
Wykresem jej jest tzw. krzywa Gaussa w kształcie kapelusza:
Rozkład normalny zależy od dwóch parametrów m i σ i dlatego często rozkład
ten zapisuje się krótko symbolem N(m, σ). Parametry m i σ są odpowiednio
wartością oczekiwaną i odchyleniem standardowym zmiennej losowej X o
rozkładzie normalnym, gdyż zachodzi:
E
(X) = m,
D
2
(X) = σ
2
.
Rozkład normalny jest symetryczny względem średniej m.
W praktyce wygodnie jest korzystać z tzw. standardowego (unormowanego)
rozkładu normalnego N(0, 1), którego funkcja gęstości
f
(u) =
1
√
2π
e
−
1
2
u
2
oraz dystrybuanta
F
(x) =
x
Z
−∞
f
(u)du
zostały stablicowane.
11
6
Centralne twierdzenie graniczne
Twierdzenie 6.1 Niech X
i
i
= 1, 2, ..., n będą niezależnymi zmiennymi lo-
sowymi o jednakowym rozkładzie, takiej samej wartości oczekiwanej m i skoń-
czonej wariancji σ
2
, to wówczas zmienna losowa postaci:
1
σ
√
n
n
X
i
=1
(X
i
− m)
(16)
zbiega do standardowego rozkładu normalnego, gdy n
→ ∞.
Sformułujmy to twierdzenie troszkę inaczej. Otóż mówi ono ni mniej, ni wię-
cej, iż suma dużej liczby zmiennych losowych ma asymptotyczny (tzn. gra-
niczny) rozkład normalny.
Twierdzenie to tłumaczy niezwykłą częstotliwość występowania w praktyce
statystycznej rozkładu normalnego.
7
Definicja wektora losowego, rozkładu łącz-
nego zmiennych (X, Y ), brzegowych i wa-
runkowych, definicja kowariancji i współ-
czynnika korelacji zmiennych losowych X, Y
Definicja 7.1 (wektora losowego) Wektorem losowym nazywamy pe-
wien uporządkowany układ przyporządkowany wynikowi jakiegoś doświadcze-
nia losowego scharakteryzowanego przestrzenią probabilistyczną (Ω, Z
ZL
, P
).
Przykład 7.1 Przykładem tak zdefiniowanego wektora losowego może być
przyporządkowanie wylosowanej w badaniach nad budżetami rodzinny-
mi określonej rodzinie wektora jej miesięcznych wydatków na poszcze-
gólne dobra (chleb, masło, papierosy itd.). Mówimy wtedy, że określi-
liśmy na danej przestrzeni probabilistycznej wielowymiarową zmienną
losową lub wektor losowy.
Weźmy teraz dwuwymiarową zmienną losową (X, Y ).
Definicja 7.2 (rozkładu łącznego) Łączny dwuwymiarowy rozkład praw-
dopodobieństwa dyskretnej zmiennej losowej (X, Y ) określamy tzw. łączną
funkcją prawdopodobieństwa, podającą dla wszystkich par (i, j) wartości zmien-
nej losowej (X, Y ) ich prawdopodobieństwa:
P
(X = x
i
, Y
= y
j
) = p
ij
, gdzie
X
i
X
j
p
ij
= 1.
12
Dla dwuwymiarowej zmiennej losowej typu ciągłego (tj. przyjmującej nieskoń-
czoną i nieprzeliczalną liczbę par wartości (x, y)
∈ R
2
), łączny dwuwymiarowy
rozkład prawdopodobieństwa określa tzw. łączna funkcja gęstości prawdopo-
dobieństwa f (x, y), spełniająca warunki:
f
(x, y) 0 oraz
+∞
Z
−∞
+∞
Z
−∞
f
(x, y)dxdy = 1.
Natomiast niezależnie od tego czy dwuwymiarowa zmienna losowa jest ty-
pu dyskretnego czy ciągłego, określić można jej łączny rozkład prawdopo-
dobieństwa również przez podanie tzw. łącznej dwuwymiarowej dystrybuanty
F
(x, y), będącej funkcją zmiennych rzeczywistych (x
0
, y
0
), zdefiniowanej jako:
F
(x
0
, y
0
) = P (X < x
0
, Y < y
0
) =
P
x
i
<x
0
P
y
j
<y
0
p
ij
dla zmiennej dyskretnej,
x
0
R
−∞
y
0
R
−∞
f
(x, y)dxdy dla zmiennej ciągłej.
Definicja 7.3 (rozkładów brzegowych) Z łącznego rozkładu dwuwymia-
rowej zmiennej losowej (X, Y ) otrzymać można dwa tzw. rozkłady brzegowe
(jednowymiarowe) zmiennej X oraz zmiennej Y . Jeżeli dla łącznego dwuwy-
miarowego rozkładu dyskretnej zmiennej losowej (X, Y ) oznaczymy:
p
•
j
=
X
i
p
ij
oraz p
i•
=
X
j
p
ij
,
przy czym zachodzi:
X
i
p
i•
= 1 oraz
X
j
p
•
j
= 1,
funkcja prawdopodobieństwa brzegowego rozkładu zmiennej losowej X okre-
ślona jest jako:
P
(X = x
i
) = p
i•
,
natomiast funkcja prawdopodobieństwa brzegowego rozkładu zmiennej Y ma
postać:
P
(Y = y
j
) = p
•
j
.
Dla dwuwymiarowej ciągłej zmiennej losowej (X, Y ) rozkład brzegowy zmien-
nej X określony jest brzegową funkcją gęstości prawdopodobieństwa postaci:
f
1
(x) =
+∞
Z
−∞
f
(x, y)dy,
13
natomiast brzegowy rozkład zmiennej Y określony jest brzegową funkcją gę-
stości prawdopodobieństwa postaci:
f
2
(y) =
+∞
Z
−∞
f
(x, y)dx,
Definicja 7.4 (rozkładów warunkowych) Z łącznego rozkładu dwuwymia-
rowej zmiennej losowej (X, Y ) otrzymać można ponadto dwa inne rozkłady,
zwane rozkładami warunkowymi.
Dla dwuwymiarowej dyskretnej zmiennej losowej (X, Y ) warunkowy rozkład
zmiennej X przy ustalonej wartości y
j
zmiennej Y określony jest funkcją
prawdopodobieństwa:
P
(X = x
i
|Y = y
j
) =
p
ij
p
•
j
,
gdzie p
•
j
>
0 są prawdopodobieństwami w brzegowym rozkładzie zmiennej Y .
Podobnie warunkowy rozkład zmiennej Y przy ustalonej wartości x
i
zmiennej
X określony jest funkcją prawdopodobieństwa:
P
(Y = y
j
|X = x
i
) =
p
ij
p
i•
,
gdzie p
i•
>
0 są prawdopodobieństwami w brzegowym rozkładzie zmiennej X.
Dla dwuwymiarowej ciągłej zmiennej losowej (X, Y ) funkcja gęstości warun-
kowego rozkładu zmiennej X (przy ustalonej wartości y zmiennej Y ) ma
postać:
f
(x|y) =
f
(x, y)
f
2
(y)
,
gdzie f
2
(y) > 0 jest funkcją gęstości brzegowego rozkładu zmiennej Y , na-
tomiast funkcja gęstości warunkowego rozkładu zmiennej Y (przy ustalonej
wartości x zmiennej X) ma postać:
f
(y|x) =
f
(x, y)
f
1
(x)
,
gdzie f
1
(x) > 0 jest funkcją gęstości brzegowego rozkładu zmiennej X.
Definicja 7.5 (kowariancji) Kowariancję (współzmienność) zmiennych
losowych X i Y obliczamy z definicji jako:
σ
XY
= cov(X, Y ) =
P
i
P
j
(x
i
− E(X))(y
j
− E(Y ))p
ij
dla rozkładu dyskretnego,
+∞
R
−∞
+∞
R
−∞
(x − E(X))(y − E(Y ))f(x, y)dxdy dla rozkładu ciągłego.
(17)
14
Wygodniej jest czasem obliczać kowariancję za pomocą momentów zwykłych
jako:
cov
(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ).
Definicja 7.6 (współczynnika korelacji) Współczynnik korelacji mię-
dzy zmiennymi X i Y określony jest jako:
p
=
cov
(X, Y )
q
D
2
(X)D
2
(Y )
=
cov
(X, Y )
σ
X
σ
Y
=
σ
XY
σ
X
σ
Y
.
(18)
Gdy p = 0, to wówczas zmienne X i Y nazywamy nieskorelowanymi, nato-
miast gdy p
6= 0, zmienne losowe X i Y nazywamy skorelowanymi (dodatnio
lub ujemnie w zależności od znaku p).
8
Definicja modelu statystycznego, statysty-
ki z próby i przykłady: dystrybuanta em-
piryczna, wariancja z próby, definicja roz-
kładu empirycznego (szereg rozdzielczy)
Definicja 8.1 (modelu statystycznego) Model statystyczny opisuje
układ doświadczenia losowego za pomocą
{Z
n
W ZL
,
{P
0
}}, gdzie Z
W ZL
- zbiór
wartości zdarzenia losowego. Identyfikacja modelu statystycznego (znalezie-
nie miary probabilistycznej) na podstawie przeprowadzanych doświadczeń jest
podstawowym zadaniem statystyki.
Podstawą wnioskowania o populacji na podstawie wyników próby są wartości
pewnych charakterystyk próby, zwanych statystykami z próby.
Definicja 8.2 (statystyki z próby) Jeżeli n-elementową próbę (losową) ozna-
czymy jako wektor losowy przez X = (X
1
, X
2
, ..., X
n
), a realizację próby
(wektor liczbowych wyników próby) oznaczymy przez x = (x
1
, x
2
, ..., x
n
), to
statystyką
Z
n
nazywamy dowolną, byle o wartościach rzeczywistych, funkcję
próby X, tzn. Z
n
= g(X).
Do najczęściej używanych w praktyce statystycznej statystyk z próby należą
m.in. tzw. momenty rzędu r z próby określone jako:
A
r
= X
r
=
1
n
n
X
i
=1
X
r
i
.
15
Dla r = 1 dostajemy średnią arytmetyczną, a dla r = 2 średnią kwadratową.
Innymi statystykami z próby mogą być: kwantyle, rozstęp, wariancja z próby,
odchylenie standardowe z próby, współczynnik zmienności z próby.
Wariancja z próby
S
2
=
1
n
n
P
i
=1
(X
i
− X)
2
, gdzie X jest średnią arytmetyczną w próbie.
Definicja 8.3 (rozkładu empirycznego) Rozkładem empirycznym na-
zywamy szereg rozdzielczy utworzony z pojedynczych wyników próby przez za-
liczenie ich do przyjętych klas wielkości (lub przedziałów) i podanie ich licz-
ności odpowiadających każdej klasie.
Przykład 8.1 Oto przykład szeregu rozdzielczego wyników pewnej próby
n
= 120 mieszkań pewnego osiedla, badanych ze względu na wielkość
(w m
2
) powierzchni mieszkalnej:
Przedziały wartości [x
0j
, x
1j
) n
j
15-25
10
25-35
25
35-45
40
45-55
30
55-65
10
65-75
5
Tak więc widzimy, iż np. 40 mieszkań z próby posiada metraż w grani-
cach od 35 do 45 m
2
.
Z powyższego przykładu widać, że dla szeregu rozdzielczego zachodzi oczy-
wiście:
k
X
j
=1
n
j
= n.
Z szeregu rozdzielczego można uzyskać rozkład procentowy (tzw. rozkład
częstości) wyników próby rozdzielonych na k klas oraz tzw. szereg skumulo-
wanych liczebności, będący podstawą tzw. dystrybuanty empirycznej.
Definicja 8.4 (dystrybuanty empirycznej) Dystrybuanta empiryczna
jest to przyporządkowanie kolejnym wartościom cechy statystycznej (zmien-
nej) odpowiadających im częstości skumulowanych (względnie liczebności sku-
mulowanych). Określa się ją jako:
F
n
(x
1r
) =
1
n
r
X
j
=1
n
j
dla r
= 1, 2, ..., k.
(19)
16
Przykład 8.2 Dla podanego powyżej przykładu szeregu rozdzielczego próby
n
= 120 mieszkań, rozkład empiryczny (częstości) i jego dystrybuanta
empiryczna są podane w następującej tabelce:
j
x
1j
n
j
n
F
n
(x
1j
)
1 25 0,0833
0,0833
2 35 0,2084
0,2917
3 45 0,3333
0,6250
4 55 0,2500
0,8750
5 65 0,0833
0,9583
6 75 0,0417
1,0000
9
Definicja rozkładów: chi-kwadrat, t-Studenta,
F-Snedecora
Definicja 9.1 (rozkładu chi-kwadrat) Jeżeli X
1
, X
2
, ..., X
k
są niezależ-
nymi zmiennymi losowymi o standardowym rozkładzie normalnym N(0, 1)
każda, to zmienna losowa będąca sumą ich kwadratów, tzn.:
k
X
i
=1
X
2
i
,
(20)
ma rozkład χ
2
o k stopniach swobody.
Parametr k tego rozkładu, zwany liczbą stopni swobody, oznacza liczbę nie-
zależnych składników X
2
i
, które sumujemy.
Wartość oczekiwana i wariancja w rozkładzie χ
2
są odpowiednio równe:
E
(χ
2
) = k,
D
2
(χ
2
) = 2k.
Definicja 9.2 (rozkładu t-Studenta) Zmienną losową o rozkładzie t-Studenta
z k stopniami swobody definiuje się następująco:
t
=
U
q
V
k
,
(21)
gdzie:
U - zmienna losowa o unormowanym rozkładzie normalnym N(0, 1),
V - zmienna losowa o rozkładzie χ
2
o k stopniach swobody;
U i V zmienne niezależne.
17
Definicja 9.3 (rozkładu F-Snedecora) Zmienną losową o rozkładzie F-
Snedecora określa się jako:
F
=
U
k
1
V
k
2
=
U
V
·
k
2
k
1
,
(22)
gdzie U i V są niezależnymi zmiennymi losowymi o rozkładach χ
2
odpowied-
nio z k
1
i k
2
stopniami swobody.
10
Definicja estymatora punktowego parame-
trycznego, definicja nieobciążoności, efek-
tywności i zgodności estymatora, przykład
estymatora nieobciążonego wariancji, es-
tymatora nieobciążonego i efektywnego śred-
niej rozkładu cechy
Celem punktowej estymacji parametrycznej jest podanie jednej oceny war-
tości parametru θ na podstawie wyników próby losowej. Nazwa „estymacja
punktowa” pochodzi stąd, że ze zbioru możliwych wartości parametru θ po-
dajemy jedną liczbę (punkt)
b
θ
jako ocenę wartości parametru θ. Liczbę tę,
zwaną oceną parametru θ, wybieramy jako wartość pewnej statystyki zwanej
estymatorem szacowanego parametru, otrzymaną z wyników próby losowej.
Definicja 10.1 (estymatora) Estymatorem szacowanego parametru θ na-
zywamy każdą statystykę służącą do oszacowania parametru θ, a której roz-
kład zależy od parametru θ.
Definicja 10.2 (nieobciążoności) Estymator Z
n
parametru θ nazywa się
estymatorem nieobciążonym
tego parametru, jeżeli zachodzi równość:
E
(Z
n
) = θ.
(23)
Powyższa równość oznacza, że mamy do czynienia z taką statystyką, któ-
rej rozkład ma wartość oczekiwaną równą wartości szacowanego parametru.
Własność nieobciążoności estymatora gwarantuje otrzymywanie za jego po-
mocą ocen wolnych od błędu systematycznego, tj. nim nieobciążonych.
Definicja 10.3 (asymptotycznej nieobciążoności) Estymator obciążony
Z
n
(czyli taki, że E(Z
n
) 6= θ), dla którego obciążenie b
n
= E(Z
n
) − θ spełnia
równość:
lim
n→∞
b
n
= 0, tzn. lim
n→∞
E
(Z
n
) = θ,
(24)
18
nazywa się estymatorem asymptotycznie nieobciążonym.
Definicja 10.4 (estymatora najefektywniejszego) Estymator nieobcią-
żony Z
∗
n
nazywa się estymatorem najefektywniejszym parametru θ,
jeżeli wśród wszystkich estymatorów nieobciążonych tego parametru ma on
najmniejszą wariancję, tzn. jeżeli:
D
2
(Z
∗
n
) ¬ D
2
(Z
n
)
dla każdego estymatora nieobciążonego Z
n
parametru θ.
Definicja 10.5 (efektywności) Efektywnością dowolnego estymatora nie-
obciążonego Z
n
parametru θ nazywa się iloraz:
e
(Z
n
) =
D
2
(Z
∗
n
)
D
2
(Z
n
)
,
(25)
gdzie Z
∗
n
jest estymatorem najefektowniejszym parametru θ.
Oczywiście 0 < e(Z
n
) ¬ 1 przy czym e(Z
∗
n
) = 1.
Definicja 10.6 (zgodności) Estymator Z
n
parametru θ nazywa się estyma-
torem zgodnym
, jeżeli spełnia on równość:
lim
n→∞
P
(|Z
n
− θ| < ε) = 1 dla każdego ε > 0.
(26)
Przykład 10.1 Dla dowolnego rozkładu populacji z wariancją σ
2
oraz śred-
nią m niech statystyki:
S
2
∗
=
1
n
n
X
i
=1
(X
i
− m)
2
,
S
2
=
1
n
n
X
i
=1
(X
i
− X)
2
,
b
S
2
=
n
n
− 1
S
2
=
1
n
− 1
n
X
i
=1
(X
i
− X)
2
będą estymatorami wariancji σ
2
populacji z n -elementowej próby pro-
stej. Zachodzą następujące własności:
E
(S
2
∗
) = σ
2
, E
(S
2
) =
n
− 1
n
σ
2
, E
(
b
S
2
) = σ
2
.
Oznacza to, że dla dowolnego rozkładu populacji statystyki S
2
∗
oraz
b
S
2
są estymatorami nieobciążonymi wariancji σ
2
populacji, natomiast
statystyka S
2
, tzn. zwykła wariancja z próby, jest estymatorem obcią-
żonym wariancji σ
2
populacji.
19
Przykład 10.2 Niech populacja generalna ma rozkład normalny N(m, σ).
Z populacji tej wylosowano próbę prostą n -elementową. Średnia aryt-
metyczna X z tej próby jest estymatorem nieobciążonym i efektywnym
(a nawet najefektywniejszym) wartości średniej m w tej populacji.
Nieobciążoność:
E
(X) = E
1
n
n
P
i
=1
X
i
=
1
n
n
P
i
=1
E
(X
i
) =
1
n
n
P
i
=1
m
= m.
Efektywność:
Wariancja tego estymatora wynosi D
2
(X) =
σ
2
n
. Korzystając z nierów-
ności Rao-Cram´era (darujmy sobie to) i obliczając jej prawą stronę,
dochodzimy do nierówności:
D
2
(Z
n
) D
2
(X),
a to (z definicji najefektywniejszego estymatora) oznacza, że średnia z
próby X jest estymatorem najefektywniejszym wartości średniej m w
populacji o rozkładzie normalnym.
11
Definicja przedziału ufności, przedział uf-
ności dla średniej m w populacji normal-
nej N (m, σ
2
)
, gdzie σ-nieznane, definicja es-
tymatora jądrowego funkcji gęstości.
Definicja 11.1 (przedziału ufności) Niech cecha X ma rozkład w popu-
lacji z nieznanym parametrem Θ. Z populacji wybieramy próbę losową
(X
1
, X
2
, ..., X
n
). Przedziałem ufności (Θ − Θ
1
,
Θ + Θ
2
) o współczynniku uf-
ności 1
−α nazywamy taki przedział (Θ−Θ
1
,
Θ+Θ
2
), który spełnia warunek:
P
(Θ
1
<
Θ < Θ
2
) = 1 − α,
(27)
gdzie Θ
1
i Θ
2
są funkcjami wyznaczonymi na podstawie próby losowej.
Przedział ufności dla średniej m w populacji normalnej N(m, σ
2
),
gdzie σ-nieznane
Rozważmy teraz problem estymacji przedziałowej średniej m dla popula-
cji normalnej N(m, σ) z nieznaną również wariancją σ
2
. Jeżeli z populacji
20
tej wylosowano n-elementową próbę prostą, z której wyznacza się średnią
arytmetyczną X oraz odchylenie standardowe S, określone jako
S
=
v
u
u
t
1
n
n
X
i
=1
(X
i
− X)
2
,
(28)
to zgodnie z twierdzeniem:
Twierdzenie 11.1 Jeżeli z populacji o rozkładzie normalnym N(m, σ), gdzie
σ jest nieznane, losujemy n-elementową próbkę prostą, to statystyka
t
=
X
− m
S
√
n
− 1
(29)
ma rozkład t Studenta o n
− 1 stopniach swobody.
Powyższa statystyka t Studenta może być teraz podstawą do budowy prze-
działu ufności dla średniej m populacji normalnej.
Niech 1−α będzie ustalonym współczynnikiem ufności. Z tablicy rozkładu
t
Studenta dla n − 1 stopni swobody można odczytać taką liczbę t
α
, że
P
{−t
α
< t < t
α
} = 1 − α.
Możemy zatem napisać, że
P
n
− t
α
<
X
− m
S
√
n
− 1 < t
α
o
= 1 − α.
Przekształcając pod znakiem prawdopodobieństwa nierówność podwójną,
otrzymujemy następujący wzór na przedział ufności dla średniej m populacji
normalnej z nieznaną wariancją σ
2
:
P
n
X
− t
α
S
√
n
− 1
< m < X
+ t
α
S
√
n
− 1
o
= 1 − α
(30)
lub
P
n
X
− t
α
b
S
√
n
< m < X
+ t
α
b
S
√
n
o
= 1 − α,
(31)
gdy zamiast statystyki S
2
używamy
b
S
2
=
n
n−
1
S
2
.
Warto zwrócić tu uwagę, że w tej postaci przedział ufności dla średniej
m
populacji normalnej (z nieznaną wariancją σ
2
) ma nie tylko losowe końce,
ale i losową długość.
Gdy chcemy zagwarantować sobie określoną z góry precyzję (mierzoną
maksymalnym błędem standardowym) estymacji przedziałowej średniej m
21
populacji normalnej z nieznaną wariancją σ
2
, to minimalną liczebność próby
potrzebną do tego celu określić można za pomocą tzw. dwustopniowej metody
Steina. Jest ona następująca:
W pierwszym etapie losuje się małą (rzędu kilku elementów) próbę wstęp-
ną n
0
i wyznacza się z niej statystykę
b
S
2
. W drugim etapie korzysta się ze
wzoru
n
=
t
2
α
b
S
2
d
2
,
(32)
gdzie t
α
jest odczytaną z tablicy t Studenta dla n
0
−1 stopni swobody liczbą, a
d
jest daną z góry liczbą określającą żądaną precyzję estymacji przedziałowej
średniej m (n zaokrąglamy do liczby naturalnej w górę).
Jeżeli podstawiając do prawej strony tego wzoru wyrażenia t
2
α
,
b
S
2
, d
2
otrzymamy n ¬ n
0
, to próba wstępna o liczebności n
0
obserwacji jest cał-
kowicie wystarczająca do uzyskania żądanej precyzji estymacji przedziałowej
(tj. do uzyskania błędu maksymalnego szacunku nie większego niż d). Jeżeli
natomiast otrzymamy n > n
0
, to próba okazała się za mała i nie tracąc do
estymacji przedziałowej jej wyników należy dolosować jeszcze n − n
0
obser-
wacji.
Definicja 11.2 (estymatora jądrowego funkcji gęstości) Niech dana bę-
dzie n-wymiarowa zmienna losowa X, której rozkład posiada funkcję gęstości
f . Jej estymator jądrowy
b
f , wyznaczany w oparciu o m-elementową prostą
próbę losową x
1
, x
2
, ..., x
m
zdefiniowany jest wzorem:
b
f
(x) =
1
mh
n
m
X
i
=1
K
x
− x
i
h
,
(33)
gdzie symetryczne względem zera oraz posiadające w tym punkcie słabe mak-
simum globalne, mierzalne odwzorowanie K : R
n
→ [0, ∞) spełnia warunek:
Z
R
n
K
(x)dx = 1
(34)
i nazywane jest jądrem, natomiast dodatni współczynnik h określa się mia-
nem parametru wygładzania.
22
12
Definicja testu statystycznego, obszaru kry-
tycznego, błędu 1-go i 2-go rodzaju, funk-
cji mocy na poziomie testu, testu na po-
ziomie istotności α
Oznaczmy przez H
0
sprawdzaną hipotezę, a przez H
1
hipotezę alterna-
tywną do sprawdzanej.
Definicja 12.1 (testu statystycznego) Testem statystycznym nazywa-
my każdą taką regułę decyzyjną (funkcję decyzyjną), która każdej losowej pró-
bie przyporządkowuje jedną z dwóch decyzji: przyjąć sprawdzaną hipotezę sta-
tystyczną H
0
lub ją odrzucić.
Definicja 12.2 (obszaru krytycznego) Obszarem krytycznym nazy-
wamy taki zbiór ω możliwych wartości wybranej funkcji testowej, że zaob-
serwowanie w próbie wartości należącej do ω powodować będzie odrzucenie
hipotezy H
0
.
W postępowaniu decyzyjnym, zwanym testowaniem hipotezy statystycznej
w oparciu o wyniki próby, możliwe są dwie błędne decyzje, które przyjęło się
w statystyce nazywać błędami pierwszego i drugiego rodzaju. Ilustruje
je następujący schemat:
Hipoteza
Prawdziwa
Fałszywa
D
e
c
y
Przyjąć
decyzja prawidłowa
błąd II rodzaju
z
j
a Odrzucić
błąd I rodzaju
decyzja prawidłowa
Definicja 12.3 (błędu I i II rodzaju) W postępowaniu decyzyjnym we-
ryfikacji danej hipotezy statystycznej H
0
błędem I rodzaju
nazywamy od-
rzucenie sprawdzanej hipotezy H
0
wtedy, gdy jest ona prawdziwa, a błędem
II rodzaju
nazywamy przyjęcie sprawdzanej hipotezy H
0
wtedy, gdy jest ona
fałszywa.
23
Definicja 12.4 (funkcji mocy testu) Funkcją mocy testu nazywamy
funkcję wyrażającą zależność pomiędzy prawdopodobieństwem odrzucenia hi-
potezy H
0
, a różnymi alternatywami do tej hipotezy. Tak więc argumentami
tej funkcji są wartości parametru ze zbioru hipotez alternatywnych, a warto-
ściami - odpowiednie wartości mocy testu.
Definicja 12.5 (testu na poziomie istotności α) Testem na poziomie
istotności
α nazywamy test statystyczny uwzględniający w sposób bezpośred-
ni jedynie prawdopodobieństwo błędu I rodzaju α.
13
Statystyka testowa, obszar krytyczny dla
testu dla wartości średniej w populacji N (m, σ
2
)
,
σ -nieznane
Niestety, nic nie znalazłem na ten temat. Jedyne czym dysponuję, to skany z
opracowaniami. Poniżej umieszczam to, co udało mi się z nich rozszyfrować
:]
Statystyka testowa to funkcja wyników próby losowej:
ϕ
(x) =
(
1 x ∈ B,
0 x ∈ B.
Inaczej: ϕ : Z
W ZL
→ {0, 1}.
Test istotności w klasie N(m, σ
2
) dla wartości średniej, σ -nieznane:
H
0
: m = m
0
,
H
1
: m < m
0
(−∞, −t
1−α,n−1
),
m > m
0
[−t
1−α,n−1
,
+∞),
m
6= m
0
(−∞, −t
1−
α
2
,n−
1
] ∪ [t
1−
α
2
,n−
1
,
+∞).
Statystyka testowa ma rozkład t-Studenta: t =
X
n
−
m
0
S
√
n
− 1.
14
Test zgodności chi-kwadrat, test niezależ-
ności chi-kwadrat
Test zgodności χ
2
Przyjmujemy następujące założenia:
Populacja ma rozkład z nieznaną dystrybuantą F (x). Z populacji tej wyloso-
wano dużą n -elementową próbę prostą (n co najmniej kilkadziesiąt). Wyniki
24
próby grupujemy w szereg rozdzielczy o r rozłącznych klasach i o liczebno-
ściach n
i
w każdej klasie, przy czym powinno w zasadzie zachodzić n
i
8,
k
P
i
=1
n
i
= n. Otrzymany szereg rozdzielczy wyników próby stanowi tzw. roz-
kład empiryczny, z liczebnościami n
i
w poszczególnych klasach.
Należy sprawdzić zgodność tego rozkładu empirycznego z określonej posta-
ci rozkładem teoretycznym populacji, tzn. należy w oparciu o wyniki próby
losowej, tworzące rozkład empiryczny, zweryfikować nieparametryczną hipo-
tezę H
0
: F (x) = F
0
(x), wobec hipotezy alternatywnej H
1
: F (x) 6= F
0
(x),
gdzie F
0
(x) jest określonej postaci hipotetyczną dystrybuantą.
Test istotności dla hipotezy H
0
, zwany testem zgodności χ
2
, jest na-
stępujący:
1. Z rozkładu hipotetycznego (tzn. przy założeniu prawdziwości hipotezy
H
0
) wyznacza się dla każdej klasy (stanowiącej wartości x
i
dla rozkładu
dyskretnego lub przedziały [x
0i
, x
1i
) dla rozkładu ciągłego) prawdopo-
dobieństwa:
p
i
= P (x
0i
¬ X ¬ x
1i
) = F
0
(x
1i
) − F
0
(x
0i
) dla i = 1, 2, ..., r.
2. Wyznacza się dla każdej klasy liczebności teoretyczne np
i
hipotetycz-
nego rozkładu, które powinny były wystąpić w n -elementowej próbie,
gdyby rozkład populacji był zgodny z hipotezą H
0
. Zachodzi:
r
X
i
=1
np
i
= n
k
X
i
=1
p
i
= n.
3. Wyznacza się kolejno różnice n
i
− np
i
liczebności w rozkładach empi-
rycznym i hipotetycznym, ich kwadraty (n
i
− np
i
)
2
oraz wartość staty-
styki:
χ
2
=
r
X
i
=1
(n
i
− np
i
)
2
npi
.
4. Obszar krytyczny w teście zgodności χ
2
buduje się postaci:
Q
= {χ
2
: χ
2
χ
2
α
},
gdzie χ
2
α
jest odczytaną z tablicy rozkładu χ
2
o r − 1 (lub r − k − 1)
stopniach swobody taką wartość krytyczną, że dla przyjętego z góry
poziomu istotności α zachodzi P (χ
2
χ
2
α
) = α.
5. Dokonuje się porównania empirycznej wartości statystyki χ
2
z obszarem
krytycznym Q. Jeżeli χ
2
∈ Q, to hipotezę H
0
, mówiącą, że rozkład
populacji jest określonego typu, odrzuca się. W przeciwnym przypadku,
tj. gdy χ
2
/
∈ Q, nie ma podstaw do odrzucenia hipotezy H
0
.
25
Przykład 14.1 Wykonano n = 120 niezależnych rzutów kostką sześcienną
do gry i otrzymano:
„1”-11 razy,
„2”-30 razy,
„3”-14 razy,
„4”-10 razy,
„5”-33 razy,
„6”-22 razy.
Na poziomie istotności α = 0, 001 należy sprawdzić hipotezę, że każda
z liczb od 1 do 6 ma na tej kostce jednakową szansę wyrzucenia (kostka
rzetelna), tzn. hipotezę H
0
: p
i
=
1
6
dla i = 1, 2, ..., 6 wobec hipotezy
alternatywnej H
1
: p
i
6=
1
6
.
Obliczenia statystyki χ
2
w teście zgodności przeprowadzimy tabelarycz-
nie:
x
i
n
i
np
i
(n
i
− np
i
)
2
(n
i
−
np
i
)
2
np
i
1
11
20
81
4,05
2
30
20
100
5,00
3
14
20
36
1,80
4
10
20
100
5,00
5
33
20
169
8,45
6
22
20
4
0,20
χ
2
= 24, 50
Otrzymaliśmy zatem empiryczną wartość χ
2
= 24, 5. Dla przyjętego
poziomu istotności α = 0, 001 oraz r − 1 = 5 stopni swobody (nie
szacowano z próby żadnych parametrów) z tablicy rozkładu χ
2
odczy-
tujemy wartość krytyczną χ
2
α
= 20, 517, określającą obszar krytyczny
Q
= {χ
2
: χ
2
χ
2
α
}. Ponieważ χ
2
= 24, 5 ∈ Q, hipotezę H
0
: p
i
=
1
6
na-
leży odrzucić. Z prawdopodobieństwem błędu rzędu 0, 001 można więc
stwierdzić, że ta kostka sześcienna do gry nie jest rzetelna, tj. nie daje
jednakowych prawdopodobieństw równych
1
6
dla poszczególnych liczb
oznaczonych na ściankach kostki.
Test niezależności χ
2
Test niezależności χ
2
stosowany jest w przypadku badania niezależności cech
niemierzalnych (jakościowych) lub w przypadku badania niezależności cechy
jakościowej z ilościową.
Załóżmy, że przedmiotem badania jest populacja generalna. Z populacji tej
pobrano n -elementową próbę (przy czym ważne jest, by n > 30), której
26
wyniki sklasyfikowano w postaci tablicy wg jednej cechy w r wierszach i wg
drugiej cechy w k kolumnach. Wnętrze tablicy niezależności stanowią liczeb-
ności n
ij
elementów próby, które spełniają jednocześnie kryteria zawarte w
i
-tym wierszu i j -tej kolumnie. Tablica niezależności jest podstawą wery-
fikacji nieparametrycznej hipotezy zerowej głoszącej, że w populacji nie ma
zależności między cechami (zmiennymi) X i Y. Hipotezę tę można zapisać
zgodnie z pojęciem niezależności zmiennych losowych w sposób następujący:
H
0
: P (X = x
i
, Y
= y
j
) = P (X = x
i
) · P (Y = y
j
),
czyli, że cechy X i Y są niezależne oraz:
H
1
: P (X = x
i
, Y
= y
j
) 6= P (X = x
i
) · P (Y = y
j
),
czyli, że cechy X i Y są zależne,
przy przyjętym poziomie istotności α.
Do weryfikacji powyższych hipotez stosuje się statystykę χ
2
, której wartość
liczymy ze wzoru:
χ
2
=
r
X
i
=1
k
X
j
=1
(n
ij
−
b
n
ij
)
2
b
n
ij
,
gdzie
b
n
ij
=
r
P
i
=1
n
ij
·
k
P
j
=1
n
ij
n
.
Z tablic rozkładu χ
2
odczytujemy wartość statystyki χ
2
odczytaną przy po-
ziomie istotności α i przy (r − 1)(k − 1) stopniach swobody, czyli:
χ
2
α
;(r−1)(k−1)
.
Jeżeli χ
2
¬ χ
2
α
;(r−1)(k−1)
- H
0
odrzucamy na rzecz hipotezy alternatywnej.
Jeżeli χ
2
< χ
2
α
;(r−1)(k−1)
- nie ma podstaw do odrzucenia H
0
o niezależności
cech.
Przykład 14.2 Do badania wybrano 500 mieszkańców Rzeszowa, których
poproszono o określenie, jakiego typu programy rozrywkowe ogląda-
ją w TV - kabarety czy relacje z festiwali. Poniższa tabela przedsta-
wia wyniki odpowiedzi respondentów. Sprawdź, czy rodzaj oglądanych
programów rozrywkowych i płeć respondenta są niezależne, przyjmując
poziom istotności α = 0, 05.
Płeć
Oglądane programy
RAZEM
Kabarety Festiwale
Mężczyzna
30
80
110
Kobieta
170
220
390
RAZEM
200
300
500
27
Rozwiązanie Hipoteza zerowa mówi o niezależności cech.
H
0
: P (X = x
i
, Y
= y
j
) = P (X = x
i
) · P (Y = y
j
), czyli, że płeć i
rodzaj oglądanych programów są od siebie niezależne.
Hipoteza alternatywna głosi, że cechy nie są niezależne.
H
1
: P (X = x
i
, Y
= y
j
) 6= P (X = x
i
) · P (Y = y
j
), czyli, że płeć i
rodzaj oglądanych programów nie są od siebie niezależne.
Weryfikację przeprowadzamy przy poziomie istotności α = 0, 05.
Na podstawie danych można zauważyć, że w badanej grupie jest 110
mężczyzn i 390 kobiet. Spośród 500 badanych osób, 200 osób ogląda
kabarety, a 300 festiwale. Analizując bardziej szczegółowo, widzimy,
że w badanej grupie jest 30 mężczyzn, którzy oglądają kabarety i 80
mężczyzn, którzy oglądają festiwale. Wśród kobiet jest 170 kobiet, któ-
re oglądają kabarety i 220 kobiet, które oglądają festiwale. Taki jest
rzeczywisty rozkład obu badanych cech (czyli płci i oglądanych progra-
mów).
Hipotetyczny (teoretyczny) rozkład obu badanych cech przedstawia się
następująco: w badanej grupie powinno być 44 mężczyzn, którzy oglą-
dają kabarety i 66 mężczyzn, którzy oglądają festiwale. Wśród kobiet
powinno być 156 takich, które oglądają kabarety i 234 kobiet, które
oglądają festiwale.
Następnie obliczono dla każdego wariantu obu cech (kobiety, które oglą-
dają kabarety; kobiety, które oglądają festiwale; mężczyźni, którzy oglą-
dają kabarety; mężczyźni, którzy oglądają festiwale) kwadrat różnicy
między liczebnością zaobserwowaną a hipotetyczną, podzielony przez
liczebność hipotetyczną wariantu obu cech. Wyniki te zsumowano i
otrzymano wartość χ
2
:
χ
2
=
2
X
i
=1
2
X
j
=1
(n
ij
−
b
n
ij
)
2
b
n
ij
= 9, 518.
Z tablic rozkładu χ
2
odczytamy wartość przy poziomie istotności α =
0, 05 i przy (2−1)(2−1), czyli 1 stopniu swobody. Jest to wartość 3, 841.
W tej sytuacji χ
2
> χ
2
α
;(r−1)(k−1)
, ponieważ 9, 518 > 3, 841, a więc
hipotezę zerową odrzucamy na rzecz alternatywnej, głoszącej,
że płeć i rodzaj oglądanych programów nie są od siebie nieza-
leżne z prawdopodobieństwem popełnienia błędu I rodzaju
równym 0,05.
28
15
Ilościowe miary korelacji: współczynnik ko-
relacji liniowej, korelacji rang Spearmana
Z braku czasu nie przepisywałem opracowania, które dostaliście wcześniej na
temat pytania nr 15. Opracowanie wydaje mi się przyzwoite, można się uczyć
z niego :)
16
Klasyczny model regresji liniowej i jego
estymacja metodą najmniejszych kwadra-
tów, współczynnik dopasowania, warian-
cja resztowa
Funkcja regresji - służy do badania kształtu zależności istniejącej pomiędzy
zmiennymi losowymi X i Y w dwuwymiarowym rozkładzie (X, Y ).
Funkcja regresji, oznaczmy ją przez g(x), może być funkcją o dowolnym typie,
tzn. może mieć kształt potęgowy, wykładniczy, wielomianu itd. Stosunkowo
często w praktyce występuje liniowa funkcja regresji postaci:
g
(x) = βx + ε.
Definicja 16.1 (parametru β) Parametr β liniowej funkcji regresji g(x)
nazywa się współczynnikiem regresji liniowej Y względem X i wyraża przyrost
wartości oczekiwanej (warunkowej) zmiennej Y spowodowany jednostkowym
przyrostem zmiennej losowej X.
Metoda najmniejszych kwadratów (MNK)
Metoda ta stosowana jest do estymacji parametrów funkcji wyrażających róż-
ne zależności pomiędzy zmiennymi losowymi.
Niech y = g(x, θ) będzie pewną funkcją w wielowymiarowym rozkładzie
wektora losowego, którego obserwacje (y
i
, x
i
) dla i = 1, 2, ..., n stanowią n
-elementową próbę prostą.
Estymatorem otrzymanym MNK nazywamy taki estymator wektora θ
funkcji g, którego wartość, tj. wektor ocen
b
θ
, minimalizuje funkcję:
S
=
n
X
i
=1
[y
i
− g(x
i
, θ
)]
2
,
tzn. dla którego:
S
(
b
θ
) = min
n
X
i
=1
[y
i
− g(x
i
, θ
)]
2
.
29
Z przyjętej definicji wynika, że proces obliczeniowy w MNK sprowadza się
do rozwiązania odpowiedniego układu równań postaci:
∂S
∂θ
= 0.
Przykład 16.1 Niech w pewnej dwuwymiarowej populacji (X, Y ) funkcja
regresji Y względem X może być przyjęta w przybliżeniu za funkcję
liniową postaci:
g
(x) = βx + ε.
Z populacji tej wylosowano n -elementową próbę prostą otrzymując wy-
niki (x
i
, y
i
) dla i = 1, 2, ..., n. Na podstawie tych wyników oszacujemy
parametry β i ε funkcji regresji g(x) = βx + ε. za pomocą MNK.
Napiszmy wyraźnie postać funkcji S, którą będziemy minimalizować:
S
=
n
X
i
=1
(y
i
− βx
i
− ε)
2
.
Stosując warunek konieczny (i zarazem dostateczny) na minimum funk-
cji S, różniczkujemy funkcję S względem β i ε i otrzymane pochodne
przyrównujemy do zera:
∂S
∂β
= 2
n
X
i
=1
(y
i
− βx
i
− ε)(−x
i
) = 0,
∂S
∂ε
= 2
n
X
i
=1
(y
i
− βx
i
− ε)(−1) = 0.
Oznaczając szukane oceny (będące funkcjami wyników próby) parame-
trów β i ε odpowiednio przez b i a otrzymujemy następujący układ
równań normalnych:
b
n
X
i
=1
x
2
i
+ a
n
X
i
=1
x
i
=
n
X
i
=1
x
i
y
i
,
b
n
X
i
=1
x
i
+ an =
n
X
i
=1
y
i
.
Rozwiązanie tego układu równań daje następujące oceny odpowiednich
parametrów β i ε:
b
=
n
P
i
=1
(x
i
− x)(y
i
− y)
n
P
i
=1
(x
i
− x)
2
,
30
ε
= y − bx,
gdzie x i y są średnimi arytmetycznymi odpowiednio x
i
i y
i
.
Współczynnik b szacowanej prostej
b
y
= bx+a nosi nazwę współczynnika
regresji liniowej z próby.
Definicja 16.2 (wariancji resztowej) Wariancję resztową w modelu re-
gresji liniowej oznacza się jako:
S
2
=
1
n
− k − 1
n
X
j
=1
(y
j
−
b
y
j
)
2
,
(35)
gdzie
b
y
j
są wartościami oszacowanej funkcji regresji, a y
j
są empirycznymi
wartościami zmiennej Y .
31