Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
1
===============================================================================
I.
Rachunek prawdopodobieństwa
--------------------------------------------------------------------------------------------------------------------------------------
1) Zdarzenia losowe
Pojęcia pierwotne:
Zdarzenie elementarne ω – każdy możliwy wynik danego doświadczenia.
Przestrzeń zdarzeń elementarnych Ω – zbiór wszystkich ω.
Def.
Niech 2
Ω
oznacza zbiór wszystkich podzbiorów zbioru Ω. Niepustą klasę
Ω
⊂
2
F
nazywamy sigma
ciałem (σ-ciałem lub σ-algebrą) jeżeli:
(1.1)
F
A
A
F
A
∈
Ω
=
′
⇒
∈
\
(1.2)
U
∞
=
∈
⇒
∈
1
2
1
,...,
,
i
i
F
A
F
A
A
Parę (Ω, F) nawykamy przestrzenią mierzalną zaś dowolny element
F
A
∈
zdarzeniem losowym.
Własności:
Oznaczenia:
(1.3)
F
F
∈
Ω
∈
,
φ
(1.4)
F
B
A
F
B
A
∈
⇒
∈
\
,
(1.5)
I
∞
=
∈
⇒
∈
1
2
1
,...,
,
i
i
F
A
F
A
A
φ – zdarzenie niemożliwe
Ω – zdarzenie pewne
F
B
A
∈
,
i
φ
=
∩
B
A
to A i B zdarzenia rozłączne
F
A
A
A
n
∈
,...,
,
2
1
i
φ
=
∩
≠
j
i
A
A
j
i
to zdarzenia A
1
,…,A
n
parami
wykluczają się
B
A
⊂
zdarzenie A pociąga zdarzenie B
A
∈
ω
zdarzenie ω sprzyja zdarzeniu A
Zbiór przeliczalny to zbiór skończony lub równoliczny ze zbiorem liczb naturalnych.
Uwaga:
(1.6) Jeżeli Ω jest zbiorem przeliczalnym to F=2
Ω
, czyli dowolny podzbiór zbioru Ω jest zdarzeniem
losowym.
(1.7) Jeżeli Ω jest zbiorem nieprzeliczalnym, to nie każdy jego podzbiór jest zdarzeniem losowym.
--------------------------------------------------------------------------------------------------------------------------------------
2) Definicja prawdopodobieństwa (aksjomatyczna, zaproponowana przez Kołmogorowa w 1931 roku)
Niech (Ω, F) będzie przestrzenią mierzalną. Prawdopodobieństwem nazywamy dowolną funkcję
R
F
P
→
:
taką, że:
(2.1)
0
)
(
≥
A
P
(2.2)
1
)
(
=
Ω
P
(2.3)
∑
∞
=
∞
=
=
1
1
)
(
i
i
i
i
A
P
A
P
U
dla dowolnego ciągu zdarzeń
,...,
,
2
1
A
A
parami wykluczających się
Własności:
(2.4)
)
(
1
)
(
A
P
A
P
−
=
′
(2.5)
)
(
)
(
)
(
)
(
B
A
P
B
P
A
P
B
A
P
∩
−
+
=
∪
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
2
(2.6)
(
)
(
)
(
)
(
)
n
n
n
i
i
i
i
i
i
n
i
i
i
i
n
i
i
n
A
A
A
P
A
A
A
P
A
A
P
A
P
A
A
A
P
∩
∩
∩
−
+
+
∩
∩
+
∩
−
=
∪
∪
∪
+
≤
<
<
≤
≤
<
≤
=
∑
∑
∑
...
)
1
(
...
)
(
...
2
1
1
1
1
1
2
1
3
2
1
3
2
1
2
1
2
1
(2.7)
1
)
(
≤
A
P
(2.8)
)
(
)
(
B
P
A
P
B
A
≤
⇒
⊂
(2.9)
)
(
)
(
)
\
(
A
P
B
P
A
B
P
B
A
−
=
⇒
⊂
(A)
Ω={ω
1
, ω
2
, …, ω
n
} F=2
Ω
Twierdzenie
Jeżeli w przestrzeni Ω={ω
1
, ω
2
, …, ω
n
} zostały określone prawdopodobieństwa zdarzeń elementarnych
P({ω
1
})=P
1
, …, P({ω
n
})=P
n
tak, że:
0
≥
i
p
,
{
}
n
i
,...,
2
,
1
∈
oraz p
1
+p
2
+…+p
n
=1 to prawdopodobieństwo
dowolnego zdarzenia
{
}
k
i
i
i
A
ω
ω
ω
,...,
,
2
1
=
jest równe
k
i
i
i
p
p
p
A
P
+
+
+
=
...
)
(
2
1
.
Wniosek (klasyczna definicja La Place`a z 1812 roku):
Jeżeli Ω={ω
1
, ω
2
, …, ω
n
} i prawdopodobieństwa zdarzeń elementarnych są jednakowe
{ }
( )
{ }
(
)
n
P
P
n
1
1
=
=
ω
ω
to prawdopodobieństwo dowolnego zdarzenia A składające się z k zdarzeń
elementarnych i wynosi:
Ω
=
=
A
n
k
A
P
)
(
(B)
Ω={ω
1
, ω
2
, …}
F=2
Ω
Twierdzenie
Jeżeli w Ω określono prawdopodobieństwo zdarzeń elementarnych P({ω
1
})=P
1
, P({ω
2
})=P
2
tak, że
0
≥
i
p
,
{
}
,...
2
,
1
∈
i
oraz
1
1
=
∑
∞
=
i
i
p
to prawdopodobieństwo dowolnego zdarzenia
{
}
,...
,
2
1
i
i
A
ω
ω
=
wynosi
...
)
(
2
1
+
+
=
i
i
p
p
A
P
(C)
Ω nieprzeliczalny (prawdopodobieństwo geometryczne)
n
R
⊂
Ω
( )
{
}
Ω
∈
∈
=
=
A
R
B
A
R
B
F
n
:
)
(
Def.
Prawdopodobieństwo dowolnego zdarzenia
F
A
∈
wyznaczamy następująco:
)
(
)
(
)
(
Ω
=
m
A
m
A
P
gdzie m
jest miarą Lebesque`a w:
R – długość
R
2
– pole
R
3
– objętość
Uwaga
Prawdopodobieństwo geometryczne jest miarą bezatomową, tzn.
{ }
( )
0
=
∈
ω
ω
P
R
Koniec wykładu 01
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
3
--------------------------------------------------------------------------------------------------------------------------------------
3) Zmienne losowe
Def.
Dana jest przestrzeń probabilistyczna (Ω, F, P). Zmienną losową nazywamy dowolną funkcję
R
X
→
Ω
:
taką, że:
(3.1)
{
}
F
B
X
R
B
B
∈
∈
Ω
∈
∈
)
(
:
)
(
ω
ω
Uwaga:
(a)
warunek (3.1) jest równoważny warunkowi:
(3.2)
{
}
F
x
X
r
x
∈
<
Ω
∈
∈
)
(
:
ω
ω
(b)
Jeżeli Ω jest przeliczalny to zdarzeniem jest każdy podzbiór Ω czyli dowolna funkcja
R
X
→
Ω
:
będzie zmienną losową.
Zmienne losowe oznaczamy
Z
Y
X
,
,
, ich wartości (realizację) x, y, z.
Oznaczenia:
{
}
(
) (
)
)
(
)
(
:
R
B
B
B
X
P
B
X
P
∈
∈
=
∈
Ω
∈
ω
ω
{
}
(
) (
)
R
x
x
X
P
x
X
P
∈
<
=
<
Ω
∈
)
(
:
ω
ω
{
}
(
) (
)
R
x
x
X
P
x
X
P
∈
=
=
=
Ω
∈
0
0
0
)
(
:
ω
ω
{
}
(
) (
)
b
a
R
b
a
b
X
a
P
b
X
a
P
<
∈
<
≤
=
<
≤
Ω
∈
,
,
)
(
:
ω
ω
Def.
Dystrybuantą zmiennej losowej X określonej na przestrzeni probabilistycznej (Ω, F, P) nazywamy funkcję
R
R
F
X
→
:
określoną wzorem:
(3.3)
)
(
)
(
x
X
P
x
F
X
<
=
dla dowolnego
R
x
∈
Własności:
(3.4)
1
)
(
0
≤
≤
x
F
(3.5)
0
)
(
lim
=
−∞
→
x
F
x
1
)
(
lim
=
+∞
→
x
F
x
(3.6) F jest niemalejąca tzn. dla
)
(
)
(
y
F
x
F
y
x
≤
⇒
<
(3.7) F jest (co najmniej) lewostronnie ciągła tzn.
)
(
)
(
lim
0
0
0
x
F
x
F
x
x
R
x
=
−
→
∈
(3.8)
)
(
)
(
)
(
a
F
b
F
b
X
a
P
−
=
<
≤
(
) (
) (
)
a
X
P
b
X
P
b
X
a
P
<
−
<
=
<
≤
(
) (
)
)
,
,
\
,
b
a
a
b
≡<
∞
−
∞
−
(3.9)
)
(
)
(
lim
)
(
0
0
0
x
F
x
F
x
X
P
x
x
−
=
=
+
→
Wnioski:
•
z własności (3.9) wynika że funkcja F jest ciągła w x
0
⇔
gdy
0
)
(
0
=
=
x
X
P
;
•
funkcja F ma skok (nie jest ciągła) w punkcie x
0
⇔
gdy
0
)
(
0
>
=
x
X
P
.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
4
--------------------------------------------------------------------------------------------------------------------------------------
4) Typy zmiennych
Def.
Zmienna losowa X , określona na przestrzeni probabilistycznej (Ω, F, P) jest typu skokowego jeżeli istnieje
przeliczalny zbiór jej wartości
{
}
,...
,
,
3
2
1
x
x
x
s
=
.
(4.1)
0
)
(
>
=
=
i
i
p
x
X
P
{
}
...
3
,
2
,
1
∈
i
oraz
1
=
∑
i
i
p
Liczby x
1
,x
2
,x
3
… nazywamy punktami skokowymi, zaś p
1
,p
2
,p
3
… skokami.
Własności:
(4.2)
(
)
{
}
∑
∈
∈
=
∈
B
x
i
i
R
B
B
i
p
B
X
P
:
)
(
(4.3)
( )
{
}
∑
<
∈
=
x
x
i
i
R
x
i
p
x
F
:
(4.4) Ponieważ
(
)
0
>
=
=
i
i
x
X
P
p
to F ma skok w punkcie x
i
o wartości p
i
.
Def.
Zmienna losowa X , określona na przestrzeni probabilistycznej (Ω, F, P) jest typu ciągłego jeżeli
dystrybuanta tej zmiennej ma postać:
(4.5)
∫
∞
−
=
x
dt
t
f
x
F
)
(
)
(
dla dowolnego
R
x
∈
, gdzie f jest nieujemną funkcją całkowitą taką, że:
(4.6)
1
)
(
=
∫
+∞
∞
−
dt
t
f
funkcję f nazywamy gęstością prawdopodobieństwa zmiennej losowej X
Własności:
Dla zmiennej losowej X typu ciągłego zachodzą:
(4.7) F jest ciągła w R. Nie każda funkcja ciągła da się przedstawić w postaci (4.5).
(4.8) Jeśli f jest ciągła w punkcie x, to F jest różniczkowalna i
)
(
)
(
x
f
x
F
=
′
.
(4.9)
0
)
(
0
=
=
x
X
P
(4.10)
∫
=
<
<
=
≤
≤
=
≤
<
=
<
≤
b
a
dt
t
f
b
X
a
P
b
X
a
P
b
X
a
P
b
X
a
P
)
(
)
(
)
(
)
(
)
(
ogólnie:
∫
=
∈
B
dt
t
f
B
X
P
)
(
)
(
Koniec wykładu 02
∫
∞
−
=
<
=
x
dt
t
f
x
X
P
x
F
)
(
)
(
)
(
∫
=
<
<
b
a
dt
t
f
b
X
a
P
)
(
)
(
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
5
--------------------------------------------------------------------------------------------------------------------------------------
5) Charakterystyki liczbowe zmiennej losowej
Def.
Wartością oczekiwaną (przeciętną/średnią) zmiennej losowej X określonej na przestrzeni
probabilistycznej (Ω, F, P) nazywamy liczbę zdefiniowaną wzorem:
(5.1)
=
∫
∑
∞
∞
−
∈
ciaglego
typu
jest
X
gdy
dx
x
xf
skokowego
typu
jest
X
gdy
p
x
X
E
X
S
x
i
i
i
)
(
pod warunkiem, że szereg i całka po prawej stronie są bezwzględnie zbieżne, czyli
∞
<
∑
∈
X
S
x
i
i
i
p
x
i
∞
<
∫
∞
∞
−
dx
x
f
x
)
(
.
Własności:
(5.2)
R
c
c
Ec
∈
=
(5.3)
R
a
X
aE
X
a
E
∈
=
)
(
(5.4)
R
b
X
E
b
X
b
E
∈
+
=
+
)
(
(5.5)
0
)
(
=
−
X
E
X
E
(5.6)
EY
X
E
Y
X
E
+
=
+
)
(
(5.7)
EY
X
E
Y
X
E
=
)
(
wtedy gdy
Y
X ,
są niezależne, czyli dla dowolnych
R
y
x
∈
,
niezależne są
zdarzenia
{ }
x
X
<
i
{
}
y
Y
<
.
Uwaga:
=
∫
∑
∞
∞
−
∈
ciaglego
typu
jest
X
gdy
dx
x
f
x
skokowego
typu
jest
X
gdy
p
x
X
E
k
X
S
x
i
k
i
k
i
)
(
Def.
Wariancją zmiennej losowej X nazywamy liczbę:
(5.8)
2
2
)
(
X
E
X
E
X
D
−
=
Własności:
(5.9)
2
2
2
)
( X
E
X
E
X
D
−
=
(5.10)
0
2
≥
X
D
(5.11)
0
2
=
c
D
(5.12)
X
D
a
X
a
D
2
2
2
)
(
=
(5.13)
X
D
b
X
D
2
2
)
(
=
+
(5.14)
Y
D
X
D
Y
X
D
2
2
2
)
(
+
=
+
wtedy gdy
Y
X ,
są niezależne, czyli dla dowolnych
R
y
x
∈
,
niezależne
są zdarzenia
{ }
x
X
<
i
{
}
y
Y
<
.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
6
Def.
Odchyleniem standardowym zmiennej losowej X nazywamy liczbę:
(5.15)
X
D
2
=
σ
Uwaga:
Wartości oczekiwane nazywamy odpowiednio k-tym elementem: (zmiennej losowej X )
zwykłym
absolutnym
centralnym
k
k
m
X
E
=
k
X
E
k
k
X
E
X
E
µ
=
−
)
(
Inne wybrane charakterystyki liczbowe zmiennej losowej:
Położenie
•
kwantyl rzędu p – każda liczba
( )
1
,
0
,
∈
p
X
p
taka, że:
+
→
≤
≤
p
X
x
p
x
F
p
X
F
)
(
lim
)
(
∑
∑
≤
<
≤
≤
p
i
p
i
X
x
i
X
x
i
p
p
p
dla zmiennej skokowej
p
X
F
p
=
)
(
•
mediana – wartość środkowa – kwantyl rzędu
2
1
czyli
2
1
X :
+
→
≤
≤
2
1
)
(
lim
2
1
)
(
2
1
X
x
x
F
X
F
Rozproszenie
•
odchylenie przeciętne od wartości oczekiwanej:
X
E
X
E
d
−
=
•
współczynnik zmienności:
0
≠
=
X
E
X
E
V
σ
Asymetria
•
współczynnik skośności (asymetria):
(
)
3
3
3
3
σ
µ
σ
γ
=
−
=
X
E
X
E
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
7
Asymetria lewostronna
(
)
0
<
γ
Asymetria prawostronna
(
)
0
>
γ
Skupienie
•
współczynnik skupienia (kurtoza):
(
)
4
4
4
4
σ
µ
σ
=
−
=
X
E
X
E
K
słabo skupiona
skupiona
2
1
0
X
E
X
E
=
=
2
2
1
2
X
D
X
D
=
1
2
k
k
>
Maksimum
•
moda (dominat):
o
dla zmiennej skokowej jest to punkt skokowy
{
}
i
i
k
x
x
x
max
;
min
∉
ale którego
k
p jest maksimum
absolutnym;
Np.
(w tym wypadku 1 – moda)
x
i
0
1
2
p
i
4
1
2
1
4
1
Moda (x
2
)
Nie moda
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
8
=
0
1
n
X
o
dla zmiennej ciągłej jest to odcięta maksimum absolutnego funkcji gęstości w punkcie ciągłości.
Wybrane zmienne typu skokowego:
(1)
Rozkład jednopunktowy dla ustalonego
R
a
∈
(
)
1
=
=
a
X
P
>
≤
=
a
x
a
x
x
F
1
0
)
(
a
a
X
E
=
=
1
2
2
2
1
a
a
X
E
=
=
0
)
(
2
2
2
2
2
=
−
=
−
=
a
a
X
E
X
E
X
D
(2)
Rozkład 0-1 z parametrem
( )
1
,
0
∈
p
( )
p
X
P
=
=
1
(
)
q
p
X
P
=
−
=
=
1
0
>
≤
<
≤
=
1
1
1
0
0
0
)
(
x
x
q
x
x
F
p
p
q
X
E
=
+
=
1
0
p
p
q
X
E
=
+
=
2
2
2
1
0
pq
p
p
p
p
X
E
X
E
X
D
=
−
=
−
=
−
=
)
1
(
)
(
2
2
2
2
Realizacja:
gdy w n-tym doświadczeniu sukces
gdy w n-tym doświadczeniu porażka
dla dowolnego
N
n
∈
,
n
X ma rozkład 0-1.
(3)
Rozkład dwumianowy z parametrami
N
n
∈
,
( )
1
,
0
∈
p
(
)
k
n
k
q
p
k
n
k
X
P
−
=
=
{
}
n
k
,...,
2
,
1
,
0
∈
p
q
−
=
1
(
)
1
)
1
(
0
=
=
+
=
∑
=
−
n
n
n
k
k
n
k
q
p
q
p
k
n
rozkład jest dobrze określony
np
X
E
=
npq
X
D
=
2
x
i
a
p
i
1
x
i
0 1
p
i
q p
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
9
Realizacja:
X – liczba możliwych sukcesów w n doświadczeniach w schemacie Bernoulliego.
(4)
Rozkład geometryczny z parametrem
( )
1
,
0
∈
p
(
)
p
q
k
X
P
k 1
−
=
=
{
}
,...
3
,
2
,
1
∈
k
p
q
−
=
1
1
1
1
1
1
1
1
1
=
=
−
=
=
∑
∑
∞
=
−
∞
=
−
p
p
q
p
q
p
p
q
k
k
k
k
p
X
E
1
=
2
2
p
q
X
D
=
Realizacja:
X – liczba doświadczeń do momentu pierwszego sukcesu.
(5)
Rozkład Poissona z parametrem
0
>
λ
(
)
!
k
e
k
X
P
k
λ
λ
−
=
=
{
}
,...
2
,
1
,
0
∈
k
1
!
!
0
0
=
=
=
−
∞
=
−
∞
=
−
∑
∑
λ
λ
λ
λ
λ
λ
e
e
k
e
k
e
k
k
k
k
λ
=
X
E
λ
=
X
D
2
Uwaga:
Ciąg rozkładów dwumianowych jest zbieżny do rozkładu Poissona. W praktycznych
zastosowaniach dla:
1
,
0
,
10
,
50
≤
≤
≥
p
np
n
!
k
e
q
p
k
n
k
k
n
k
λ
λ
−
−
≈
np
=
λ
Realizacja:
X – liczba sukcesów w rozkładzie dwumianowym przy powyższych założeniach.
Koniec wykładu 03
Wybrane zmienne typu ciągłego:
(1)
Rozkład równomierny (jednostajny/prostokątny) na przedziale <a,b>
∉
∈
−
=
b
a
x
b
a
x
a
b
x
f
,
0
,
1
)
(
Dla
a
x
≤
F(x)=0
Dla
b
x
a
≤
≤
( )
a
b
a
x
t
a
b
dt
a
b
x
F
x
a
x
a
−
−
=
−
=
−
=
∫
1
1
Dla x>b
F(x)=1
( )
∑
∞
=
=
0
!
0
)
(
k
k
k
x
k
f
x
f
∑
∞
=
=
0
!
1
k
k
x
x
k
e
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
10
>
≤
<
−
−
≤
=
b
x
dla
b
x
a
dla
a
b
a
x
a
x
dla
x
F
1
0
)
(
(
)(
)
2
1
2
1
2
1
2
1
1
2
1
1
1
)
(
2
2
2
a
b
a
b
a
b
a
b
a
b
a
b
x
a
b
dx
a
b
x
dx
x
xf
X
E
b
a
b
a
+
=
+
−
−
=
−
−
=
−
=
−
=
=
∫
∫
+∞
∞
−
[ ]
(
)
(
)
(
)
3
1
3
1
1
3
1
3
1
1
1
)
(
2
2
2
2
3
3
3
2
2
2
a
ab
b
a
ab
b
a
b
a
b
a
b
a
b
x
a
b
dx
a
b
x
dx
x
f
x
X
E
b
a
b
a
+
+
=
+
+
−
−
=
−
−
=
−
=
−
=
=
∫
∫
+∞
∞
−
( )
12
)
(
12
2
12
3
6
3
4
4
4
4
)
(
3
2
2
2
2
2
2
2
2
2
2
2
2
2
a
b
a
ab
b
a
ab
b
a
ab
b
a
b
a
ab
b
X
E
X
E
X
D
−
=
+
−
=
−
−
−
+
+
=
+
−
+
+
=
−
=
Realizacja:
X – czas oczekiwania pasażera na autobus (0-10 min).
(2)
Rozkład wykładniczy z parametrem
0
>
λ
≥
<
=
−
0
0
0
)
(
x
dla
e
x
dla
x
f
x
λ
λ
1
1
1
lim
)
(
lim
1
1
1
)
(
0
0
0
0
0
0
=
+
−
=
=
+
−
=
−
=
−
=
−
=
−
=
−
=
=
−
=
−
=
=
+∞
→
−
−
+∞
→
∞
+
−
∞
+
∞
+
∞
+
∞
−
−
∞
+
∞
−
∫
∫
∫
x
x
x
x
x
t
t
t
x
e
e
e
e
e
e
dt
e
dt
dx
dt
dx
t
x
dx
e
x
f
λ
λ
λ
λ
λ
λ
λ
λ
λ
λ
λ
λ
λ
0
)
(
0
=
⇒
≤
x
F
x
[ ]
t
t
x
t
x
t
e
e
e
dt
e
x
F
x
λ
λ
λ
λ
λ
−
−
−
−
−
=
+
−
=
−
=
=
⇒
>
∫
1
1
)
(
0
0
0
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
11
>
−
≤
=
−
0
1
0
0
)
(
x
e
x
x
F
x
λ
λ
1
=
X
E
2
2
1
λ
=
X
D
Realizacja:
X – czas bezawaryjnej pracy badanego elementu, wówczas
λ – intensywność awarii,
( )
t
e
t
X
P
λ
−
=
≥
– niezawodność elementu.
(3a)
Rozkład normalny z parametrami
0
,
>
∈
σ
R
m
−
−
Π
=
2
2
2
)
(
2
1
)
(
σ
σ
m
x
e
x
f
Krzywa Gaussa
(3b)
Rozkład normalny z parametrami
σ
i
m
oznaczamy
(
)
σ
,
m
N
.
m
X
E
=
2
2
σ
=
X
D
Realizacja:
X oznacza:
•
wzrost lub wagę osobników jednorodnych populacji ludzkich lub zwierzęcych;
•
plon jednakowych poletek doświadczalnych;
•
losowe błędy pomiarów.
Rozkład normalny dla, którego
1
0
=
=
λ
i
m
nazywamy (normalnym) rozkładem standaryzowanym.
Funkcja gęstości o postaci
−
Π
=
2
2
1
)
(
2
x
e
x
f
jest symetryczna względem osi OY, stąd
wynika własności dystrybuanty tego rozkładu oznaczonej literą
Φ
:
)
(
1
)
(
x
x
Φ
−
=
−
Φ
.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
12
( )
{
}
F
x
X
n
R
x
∈
<
Ω
∈
∈
ω
ω
:
Wartości dystrybuanty tego rozkładu można znaleźć w tablicach statystycznych.
--------------------------------------------------------------------------------------------------------------------------------------
6) Standaryzacja zmiennej losowej
Def.
Zmienną losową X , taką że
0
=
X
E
i
1
2
=
X
D
nazywamy zmienną standaryzowaną.
Własności:
Niech X będzie zmienną, taką że
∞
<
=
X
E
m
oraz
0
2
2
>
=
X
D
σ
.
Zmienna losowa:
(6.1)
σ
m
X
U
−
=
jest zmienną standaryzowaną.
(
) (
)
(
)
0
1
1
1
)
(
=
−
=
−
=
−
=
−
=
m
m
m
X
E
m
X
E
m
X
E
U
E
σ
σ
σ
σ
(
)
1
1
1
1
2
2
2
2
2
2
2
2
=
=
=
−
=
−
=
σ
σ
σ
σ
σ
X
D
m
X
D
m
X
D
U
D
Zmienną losową U nawyzywamy standaryzacją zmiennej losowej X .
Reguła trzech sigm
Prawie 100% wartości zmiennej losowej o rozkładzie
(
)
σ
,
m
N
znajduje się w przedziale
(
)
σ
σ
3
,
3
+
−
m
m
.
Koniec wykładu 04
--------------------------------------------------------------------------------------------------------------------------------------
7) Wektory losowe
Def.
n-wymiarowym wektorem losowym (n-wymiarową zmienną losową) określoną na przestrzeni
probabilistycznej (Ω, F, P) nazywamy odwzorowanie
n
R
X
→
Ω
:
, czyli takie, że:
Uwaga:
( )
( ) ( )
( )
(
)
ω
ω
ω
ω
ω
n
X
X
X
X
X
,...,
,
:
2
1
=
→
R
X
→
Ω
:
( )
{
}
( ) ( )
( )
(
)
(
)
{
}
( )
{
}
I
n
i
i
i
n
n
x
X
x
x
X
X
X
x
X
1
1
2
1
:
,...,
,...,
,
:
:
=
<
Ω
∈
=
<
Ω
∈
=
<
Ω
∈
ω
ω
ω
ω
ω
ω
ω
ω
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
13
(
)
(
) (
)
(
)
y
x
F
y
x
F
y
x
F
y
y
x
x
R
y
x
,
lim
,
,
lim
0
0
0
0
,
0
0
2
0
0
−
−
→
→
∈
=
=
Twierdzenie
Dowolne odwzorowanie
n
R
X
→
Ω
:
określone wzorem
( )
( ) ( )
( )
(
)
ω
ω
ω
ω
n
X
X
X
X
,...,
,
2
1
=
dla
Ω
∈
ω
jest
wektorem losowym
i
X
⇔
jest zmienna losową,
{
}
n
i
,...,
2
,
1
∈
.
Oznaczenia:
( )
( )
( )
{
}
(
) (
)
,
,...,
,
,
,...,
,
:
2
2
1
1
2
2
1
1
n
n
n
n
x
X
x
X
x
X
P
x
X
x
X
x
X
P
<
<
<
≡
<
<
<
Ω
∈
ω
ω
ω
ω
( )
( )
( )
{
}
(
) (
)
,
,...,
,
,
,...,
,
:
2
2
1
1
2
2
1
1
n
n
n
n
x
X
x
X
x
X
P
x
X
x
X
x
X
P
=
=
=
≡
=
=
=
Ω
∈
ω
ω
ω
ω
Def.
Dystrybuantą wektora losowego
(
)
n
X
X
X
X
,...,
,
2
1
=
(dystrybuantą łączną zmiennych losowych
n
X
X
X
,...,
,
2
1
) nazywamy funkcję
R
R
F
n
→
:
określoną wzorem:
(7.2)
(
)
(
)
n
n
n
X
x
X
x
X
P
x
x
F
<
<
=
,...,
,...,
1
1
1
dla dowolnych
(
)
n
n
R
x
x
x
∈
,...,
,
2
1
Dwuwymiarowa zmienna losowa (n=2)
Dystrybuanta wektora losowego
( )
Y
X ,
określona wzorem
( )
(
)
y
Y
x
X
P
y
x
F
X
<
<
=
,
,
dla
( )
n
R
y
x
∈
,
ma następujące własności:
(7.3) F jest nie malejąca ze względu na każdą ze zmiennych
(
)
(
)
y
x
F
y
x
F
R
y
x
x
X
X
,
,
,
2
1
2
1
≤
⇒
∈
<
(
)
(
)
2
1
2
1
,
,
,
y
x
F
y
x
F
y
y
R
x
X
X
≤
⇒
<
∈
(7.4) F jest lewostronnie ciągła ze względu na każdą ze zmiennych
(7.5)
( )
0
,
lim
=
−∞
→
y
x
F
x
( )
1
,
lim
=
+∞
→
+∞
→
y
x
F
y
x
( )
0
,
lim
=
−∞
→
y
x
F
y
(7.6)
( )
( )
y
x
F
x
F
y
X
,
lim
+∞
→
=
( )
( )
y
x
F
y
F
x
Y
,
lim
+∞
→
=
Def.
Wektor losowy
( )
Y
X ,
jest typu skokowego jeżeli istnieje przeliczalny zbiór wartości
(
)
j
i
y
x ,
takich,
że:
(7.7)
(
)
0
,
>
=
=
=
ij
j
i
p
y
Y
x
X
P
{
}
...
3
,
2
,
1
,
∈
j
i
oraz
1
1
,
=
∑
∞
=
j
i
ij
p
Twierdzenie
Jeżeli
( )
Y
X ,
jest wektorem losowym typu skokowego określonym przez (7.7), to zmienne brzegowe
Y
X ,
są również typu skokowego o rozkładach:
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
14
( )
( )
(
)
( )
dx
dy
y
x
f
B
Y
X
P
B
R
B
B
∫∫
=
∈
∈
,
,
2
(
)
(
) ( )
( )
n
n
n
n
R
x
x
x
X
P
x
X
P
x
X
x
X
P
n
n
⋅
⋅
=
<
<
∈
...
,...,
1
1
1
1
,...,
1
(7.8)
(
)
∑
=
=
j
ij
i
p
x
X
P
{
}
...
3
,
2
,
1
∈
i
(
)
∑
=
=
i
ij
j
p
y
Y
P
{
}
...
3
,
2
,
1
∈
j
Def.
Wektor losowy
( )
Y
X ,
jest typu ciągłego, jeżeli jego dystrybuanta jest postaci:
(7.9)
( )
( )
∫ ∫
∞
−
∞
−
=
x
y
du
dv
v
u
f
y
x
F
,
,
dla
( )
2
,
R
y
x
∈
gdzie f jest funkcją nieujemną całkowalną, taką, że
(7.10)
( )
1
,
=
∫ ∫
+∞
∞
−
+∞
∞
−
dx
dy
y
x
f
gdzie: f jest funkcją gęstości wektora losowego
( )
Y
X ,
Własności:
(7.11)
(7.11)`
(
)
( )
∫ ∫
=
≤
≤
≤
≤
b
a
d
c
dx
dy
y
x
f
d
Y
c
b
X
a
P
,
;
(7.12) W punktach ciągłości f zachodzi równość:
( )
( )
y
x
f
y
x
y
x
F
,
,
2
=
δ
δ
δ
Twierdzenie
Jeżeli
( )
Y
X ,
jest wektorem losowym typu ciągłego o funkcji gęstości f to zmienne brzegowe
Y
X ,
są
typu ciągłego o gęstościach określonych następująco:
(7.13)
( )
( )
R
x
dy
y
x
f
x
f
X
∈
=
∫
+∞
∞
−
,
( )
( )
R
y
dx
y
x
f
y
f
Y
∈
=
∫
+∞
∞
−
,
--------------------------------------------------------------------------------------------------------------------------------------
8) Niezależność zmiennych losowych
Def.
Zmienne losowe
n
X
X
X
,...,
,
2
1
są niezależne, jeżeli dla dowolnego
(
)
n
n
R
x
x
x
∈
,...,
,
2
1
niezależne są
zdarzenia:
( )
{
}
( )
{
}
n
n
x
X
x
X
<
Ω
∈
<
Ω
∈
ω
ω
ω
ω
:
,...,
:
1
1
tzn.
(8.1)
Wnioski:
(8.2)
Y
X ,
są niezależne
( )
( ) ( )
y
F
x
F
y
x
F
Y
X
⋅
=
⇔
,
(8.3)
Y
X ,
typu skokowego są niezależne (dla dowolnego i, j)
(
) (
)
(
)
j
i
j
i
y
Y
P
x
X
P
y
Y
x
X
P
=
⋅
=
=
=
=
⇔
,
(8.4)
Y
X ,
typu ciągłego są nie zależne (dla dowolnego
( )
2
,
R
y
x
∈
)
( )
( ) ( )
y
f
x
f
y
x
f
Y
X
⋅
=
⇔
,
Koniec wykładu 05
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
15
--------------------------------------------------------------------------------------------------------------------------------------
9) Charakterystyki liczbowe zmiennej losowej dwu wymiarowej
Def.
Kowariancją zmiennych
Y
X ,
nazywamy liczbę:
(9.1)
( ) (
)
(
)
(
)
EY
Y
X
E
X
E
Y
X
−
−
=
,
cov
o ile ona istnieje.
Własności:
(9.2)
( ) ( )
EY
X
E
Y
X
E
Y
X
−
=
,
cov
przy czym
( )
( )
=
∫ ∫
∑∑
∞
+
∞
−
∞
+
∞
−
.
,
.
ciag
dx
dy
y
x
xyf
skok
p
y
x
Y
X
E
i
j
ij
j
i
(9.3)
( )
X
D
X
X
2
,
cov
=
(9.4)
( )
( )
X
Y
Y
X
,
cov
,
cov
=
(9.5) Jeżeli
Y
X ,
są NIEzależne to
( )
0
,
cov
=
Y
X
Jeżeli
Y
X ,
są zmiennymi losowymi i
( )
Y
X ,
cov
istnieje to:
(9.6)
(
)
( )
Y
X
Y
D
X
D
Y
X
D
,
cov
2
2
2
2
±
+
=
±
Wniosek:
Jeśli
Y
X ,
są niezależne to:
(
)
Y
D
X
D
Y
X
D
2
2
2
+
=
±
Def.
Jeżeli
Y
X ,
są zmiennymi losowymi i istnieje
( )
Y
X
Y
D
X
D
EY
X
E
,
cov
,
,
,
,
2
2
oraz
0
,
0
2
2
>
>
Y
D
X
D
to
liczbę:
( )
( )
Y
D
X
D
Y
X
Y
X
2
2
,
cov
,
⋅
=
ρ
nazywamy współczynnikiem korelacji zmiennych losowych
Y
X ,
.
Własności:
(9.8)
( )
1
,
≤
Y
X
ρ
(9.9) Jeżeli
Y
X ,
są niezależne to
( )
0
,
=
Y
X
ρ
(9.10) Jeżeli
( )
0
,
≠
Y
X
ρ
to
Y
X ,
są zależne
(9.11) Jeżeli
( )
1
,
=
Y
X
ρ
to dla
R
b
a
∈
≠
,
0
zachodzi równość
(
)
1
=
+
=
b
X
a
Y
P
Z własności (9.11) wynika, ze współczynnik korelacji można traktować jako miarę zależności
liniowych
Y
X ,
.
===============================================================================
II.
Statystyka matematyczna
--------------------------------------------------------------------------------------------------------------------------------------
1) Pojęcia wstępne
Statystyka – jest to nauka zajmująca się analizowaniem i opisywaniem zjawisk masowych.
Statystyka opisowa – zajmuje się gromadzeniem, prezentacją i opisem informacji.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
16
Statystyka matematyczna – głównym jej celem jest wnioskowanie o całej zbiorowości na podstawie
jej podzbioru za pomocą metod rachunku prawdopodobieństwa.
Opis statystyczny jest badaniem wystarczającym jeżeli badana jest cała zbiorowość statystyczna.
Zbiorowość (populacja generalna) – zbiór elementów podlegających badaniu ze względu na jedną lub
więcej cech, dla którego istnieje przynajmniej jedna własność wspólna kwalifikująca elementy do tego zbioru
oraz przynajmniej jedna cecha (własność) rozróżniająca elementy tego zbioru.
Jednostka statystyczna – element zbiorowości.
Rodzaje cech:
•
mierzalne – o charakterze ilościowym;
•
niemierzalne – o charakterze jakościowym.
Rangowanie – przypisywanie wartości cechy liczb (można zmienić na cechy mierzalne). Podrodzaje:
•
porządkowe – wartości da się uporządkować (np. jakość gleb);
•
nominalne – wartości nie da się uporządkować (np. płeć).
Badania statystyczne mogą być:
•
pełne (wyczerpujące, całkowite) – gdy badaniu podlegają wszystkie jednostki populacji generalnej;
•
częściowe – badaniu podlega skończony podzbiór populacji generalnej zwany populacją próbną lub
próbą statystyczną. Populacja próbna powinna stanowić dobrą reprezentację populacji generalnej,
tzn. zróżnicowanie wartości cechy w populacji generalnej i próbnej powinno być podobne. Osiągnie eis
to jeżeli elementy próbki będą losowane z populacji.
Rodzaje losowań:
•
zależne (bez zwracania, ze zwracaniem);
•
niezależne (bez zwracania, ze zwracaniem);
•
indywidualne (po jednym elemencie, lub zespołowe);
•
nieograniczone (z całej populacji);
•
ograniczone [warstwowe] (z części populacji);
•
jednostopniowe;
•
wielostopniowe.
Próba losowa prosta – gdy losowanie elementów populacji próbnej jest indywidualne, niezależne i
nieograniczone.
Koniec wykładu 06
--------------------------------------------------------------------------------------------------------------------------------------
2) Wstępna analiza wyników obserwacji
Szeregiem statystycznym (wyliczającym, szczegółowym) nazywamy próbkę wartości cechy badanej w
populacji zapasanej w kolejności losowania.
Szereg statystyczny prosty – szereg statystyczny w którym wartości cechy uporządkowano niemalejąco
lub nierosnąco.
Dla cechy środkowej (wartości całkowite lub mało zróżnicowane) określa się jej rozkład przez szereg
rozdzielczy punktowy, który tworzymy przyporządkowując k różnym wartościom cechy liczby ich wystąpień
(
)
i
i
n
x
→
lub częstości względne:
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
17
(2.1)
n
n
V
i
i
=
gdzie
∑
=
=
k
i
i
n
n
1
jest liczebnością próbki
Szereg rozdzielczy punktowy:
gdzie:
V – odpowiada prawdopodobieństwu P
x – odpowiada zmiennej losowej
Y
X ,
Dystrybuantę empiryczną wyznaczamy za pomocą częstości skumulowanych V
ski
następujące:
( )
1
1
0
1
+
>
≤
<
=
≤
=
∑
≤
i
k
i
j
i
j
ski
x
x
x
x
x
V
V
x
x
x
F
Wartość oczekiwana (średnia arytmetyczna) X w próbce wyznaczmy za pomocą wzorów:
(2.3)
∑
=
=
n
i
i
x
n
X
1
1
dla szeregu statystycznego
(2.4)
∑
=
=
k
i
i
i
n
x
n
X
1
1
dla szeregu rozdzielczego punktowego
Wariancje
2
S w próbce wyznaczamy za pomocą wzorów:
(2.5)
(
)
∑
=
−
=
n
i
i
X
x
n
S
1
2
2
1
dla szeregu statystycznego
(2.6)
(
)
∑
=
−
=
k
i
i
i
n
X
x
n
S
1
2
2
1
dla szeregu rozdzielczego punktowego
Odchylenie standardowe
σ
=
S
w próbce wyznaczmy za pomocą wzoru:
2
S
S
=
=
σ
x
i
n
i
V
i
x
1
n
1
V
1
.
.
.
.
.
.
.
.
.
x
k
n
k
V
k
n
1
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
18
Klasyczne parametry opisowe dla szeregu:
rozdzielczego punktowego
rozdzielczego przedziałowego
Średnia arytmetyczna
∑
=
=
k
i
i
i
n
x
n
X
1
1
∑
=
=
k
i
i
o
i
n
x
n
X
1
1
gdzie:
o
i
x – środek klasy i =
2
ig
id
o
i
x
x
x
+
=
Wariancja
(
)
∑
=
−
=
k
i
i
i
n
X
x
n
S
1
2
2
1
∑
=
−
=
k
i
i
o
i
n
X
x
n
S
1
2
2
1
Odchylenie standardowe
2
S
S
=
=
σ
2
S
S
=
=
σ
Odchylenie przeciętne
∑
=
−
=
k
i
i
i
n
X
x
n
d
1
1
1
∑
=
−
=
k
i
i
o
i
n
X
x
n
d
1
1
1
Współczynnik zmienności
X
S
=
∀
%
100
⋅
=
∀
X
S
Współczynnik asymetrii
3
3
1
S
µ
γ
=
gdzie:
(
)
∑
=
−
=
k
i
i
i
n
X
x
n
1
3
3
1
µ
3
3
1
S
µ
γ
=
gdzie:
∑
=
−
=
k
i
i
o
i
n
X
x
n
1
3
3
1
µ
Współczynnik spłaszczenia (kurtoza)
4
4
S
K
µ
=
gdzie:
(
)
∑
=
−
=
k
i
i
i
n
X
x
n
1
4
4
1
µ
4
4
S
K
µ
=
gdzie:
∑
=
−
=
k
i
i
o
i
n
X
x
n
1
4
4
1
µ
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
19
Pozycyjne parametry opisowe dla szeregu:
rozdzielczego punktowego
rozdzielczego przedziałowego
Mediana (kwantyl rzędu ½)
( )
x
F
x
F
x
x
+
→
≤
≤
2
1
lim
2
1
2
1
+
=
=
+
+
.
2
.
1
2
2
2
1
2
1
parzys
n
x
x
nieparz
n
x
x
x
n
n
n
me
kwantyl x
p
rzędu p wyznaczamy następująco:
( )
( ) ( )
h
x
F
x
F
x
F
p
x
x
pd
pg
pd
pd
p
−
−
+
=
gdzie: x
pd
, x
pg
– końce przedziału zawierającego
kwantyl
h – długość przedziału
Kwantyl dolny i górny Q
1
, Q
3
(kwantyl rzędu ¼ i ¾)
analogicznie do powyższego
analogicznie do powyższego
Dominanta (moda)
Nie istnieje
(
) (
)
h
n
n
n
n
n
n
x
x
d
d
d
d
d
d
dd
d
1
1
1
+
−
−
−
+
−
−
+
=
gdzie: x
dd
– lewy koniec przedziału dominanty
n
d
– liczebność przedziału dominanty
n
d-1
– liczebność przedziału poprzedniego
n
d+1
– liczebność przedziału następnego
Rozstęp empiryczny
min
max
X
X
R
−
=
min
max
X
X
R
−
=
Odchylenie ćwiartkowe
2
1
3
Q
Q
Q
−
=
2
1
3
Q
Q
Q
−
=
Współczynnik asymetrii
(
) (
)
Q
Q
x
x
Q
me
me
1
3
2
−
−
−
=
γ
Q
x
x
x
x
−
−
−
=
4
1
2
1
2
1
4
3
2
γ
Odchylenie przeciętne od mediany
∑
=
−
=
k
i
i
me
i
n
x
x
n
d
1
2
1
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
20
(2.7) Etapy budowy szeregu rozdzielczego przedziałowego
1) Obliczamy rozstęp empiryczny
min
max
X
X
R
−
=
2) Ustalamy liczbę klas
n
n
k
,
2
1
∈
3) Wyznaczamy długość klas
k
R
h
≈
(zaokrąglam w gorę)
4) Określamy granice przedziałów klasowych
α
−
=
min
1
x
x
d
min
1
x
x
d
=
h
x
x
x
d
g
+
=
=
min
2
1
.
.
.
max
x
x
kg
=
Koniec wykładu 07 (zawiera część wykładu 08)
--------------------------------------------------------------------------------------------------------------------------------------
3) Podstawowe pojęcia statystyki matematycznej
Dowolne n-elementowe próbki pobrane z populacji są na ogół różne. Wygodnie jest zatem traktować
ciąg liczbowy
(
)
n
x
x
x
,...,
,
2
1
jako realizację ciągu liczb losowych
(
)
n
X
X
X
,...,
,
2
1
.
Def.
Niech
X
będzie zmienna losową określoną na przestrzeni probabilistycznej (Ω, F, P). Ciąg zmiennych
losowych
(
)
n
X
X
X
,...,
,
2
1
nazywamy n-elementową statystyczną próbą prostą dla zmiennej losowej
X
jeżeli:
(3.1) zmienne
n
X
X
X
,...,
,
2
1
są niezależne
(3.2) rozkład
i
X gdzie
{
}
n
i
,...,
2
,
1
∈
jest taki sam jak rozkład zmiennej losowej
X
Ciąg liczbowy dowolnych wartości
(
)
n
x
x
x
,...,
,
2
1
zmiennej losowej
X
nazywamy realizacją próby
losowej
(
)
n
X
X
X
,...,
,
2
1
lub statystyczną próbą.
Def.
Niech
(
)
n
X
X
X
,...,
,
2
1
będzie próbą losową prostą. Statystyką nazywamy dowolną funkcję borelowską
tej próby, tj. zmienną losową
(
)
n
n
X
X
X
g
U
,...,
,
2
1
=
, gdzie
R
R
g
n
i
→
=
( )
( )
{
}
B
x
g
R
x
n
R
B
B
∈
∈
∈
:
SPRAWDZIĆ – problemy z odczytaniem
Uwaga:
Rozkład statystyki zależy od liczebności próby losowej, od rozkładu zmiennych losowych
n
X
X
X
,...,
,
2
1
i od postaci funkcji g.
Lp
x
i
n
i
1
g
d
x
x
1
1
,
n
1
2
(
g
d
x
x
2
2
,
n
2
.
.
.
.
.
.
.
.
.
k
(
kg
kd
x
x ,
n
k
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
21
Wnioskowanie statystyczne o populacji generalnej na podstawie próby losowej prostej opiera się na
rozkładach pewnych statystyk.
Określenie
Jeżeli
n
U
U
U
,...,
,
2
1
są niezależnymi zmiennymi losowymi o rozkładzie N(0,1) to statystyka:
(3.3)
2
2
2
2
1
2
...
n
m
U
U
U
+
+
+
=
χ
ma rozkład chi kwadrat z n stopniami swobody
Własności:
(3.4)
( )
n
E
m
=
2
χ
(3.5)
( )
n
D
m
2
2
2
=
χ
(3.6) Dla dużych n rozkład chi kwadrat jest zbieżny do normalnego
( )
1
,
0
2
2
N
n
n
n
→
−
χ
(3.7) W praktyce dla
50
≥
n
korzysta się z szybszej zbieżności statystyki
2
2
n
χ do rozkładu
(
)
1
;
1
2
−
n
N
( )
(
)
p
p
P
n
n
=
≤
2
2
χ
χ
Określenie
Niech U będzie zmienną losową o rozkładzie N(0,1) zaś Z
2
o rozkładzie
2
χ z n stopniami swobody.
Jeżeli U, Z
2
są niezależne, to statystyka:
(3.8)
n
Z
U
t
=
ma rozkład studenta z n stopniami swobody
Własności:
(3.9)
( )
0
=
t
E
(3.10)
( )
2
2
−
=
n
n
t
D
gdzie n>2
(3.11)
∞
→
n
rozkład t dąży do
N(0,1)
Koniec wykładu 08
Określenie
Jeżeli
2
1
Z i
2
2
Z są zmiennymi losowymi o rozkładzie
2
χ z odpowiednio n
1
i n
2
stopniami swobody to
statystyka:
(3.12)
2
2
1
2
1
2
Z
n
Z
n
F
=
ma rozkład Fishera-Snedecora z odpowiednio n
1
i n
2
stopniami swobody
Rozkład średniej arytmetycznej z prób
Twierdzenie
Niech
X
będzie zmienną losową o rozkładzie
)
,
(
σ
m
N
. Jeżeli
n
X
X
X
,...,
,
2
1
jest próbą losową prostą
dla zmiennej losowej
X
to statystyka:
(3.13)
(
)
n
X
X
n
X
,...,
1
1
=
ma rozkład normalny
n
m
N
σ
,
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
22
Wnioski:
(3.14) Wraz ze wzrostem liczebności próby maleje odchylenie standardowe średniej arytmetycznej.
(3.15) Rozkład średniej arytmetycznej zależy od odchylenia standardowego populacji, które zwykle nie jest
znane.
(3.16) Zmienna losowa
n
m
X
U
σ
−
=
ma rozkład N(0,1)
Twierdzenie
Jeżeli
n
X
X
X
,...,
,
2
1
są
niezależnymi
zmiennymi
losowymi
o
rozkładzie
(
)
σ
,
m
N
i
(
)
n
X
X
n
X
+
+
=
...
1
1
oraz
(
)
∑
=
−
=
n
i
i
X
X
n
S
1
2
2
1
to statystyka:
(3.17)
1
−
−
=
n
s
m
X
t
ma rozkład studenta o n-1 stopniach swobody
Rozkład wariancji z próby
(
)
∑
=
−
=
n
i
i
X
X
n
S
1
2
2
1
(
)
2
1
2
2
1
1
1
ˆ
S
n
n
X
X
n
S
n
i
i
−
=
−
−
=
∑
=
Jeśli znana jest wartość oczekiwana zmiennej losowej
X
w populacji
m
X
E
=
to należy wariancje z
próby wyznaczyć następująco:
(
)
∑
=
−
=
n
i
i
m
X
n
S
1
2
2
*
1
Rozkład statystyk
2
*
2
2
,
ˆ
,
S
S
S
są trudne do wyznaczenia.
Twierdzenie
Jeżeli
n
X
X
X
,...,
,
2
1
są niezależnymi zmiennymi losowymi o rozkładzie
(
)
σ
,
m
N
to statystyka:
(3.18)
(
)
2
1
2
2
2
2
ˆ
1
−
=
−
=
n
S
n
nS
χ
σ
σ
ma rozkład chi kwadrat z n-1 stopniami swobody
Wnioski:
(3.19)
( )
( )
2
2
2
2
2
2
1
1
1
σ
σ
σ
n
n
S
E
n
S
E
n
n
nS
E
−
=
⇒
−
=
⇒
−
=
( )
( )
2
2
2
2
2
1
1
1
1
ˆ
σ
σ
=
−
−
=
−
=
−
=
n
n
n
n
S
E
n
n
S
n
n
E
S
E
(3.20)
(
)
( )
(
)
( )
(
)
4
2
2
2
2
2
4
2
2
2
2
1
2
1
2
1
2
σ
σ
σ
n
n
S
D
n
S
D
n
n
nS
D
−
=
⇒
−
=
⇒
−
=
( )
(
)
( )
(
)
(
)
1
2
1
2
1
1
1
ˆ
4
4
2
2
2
2
2
2
2
2
2
2
2
−
=
−
−
=
−
=⇒
−
=
n
n
n
n
n
S
D
n
n
S
n
n
D
S
D
σ
σ
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
23
Rozkład wskaźnika struktury z prób
Czasami w badaniach statystycznych badana cecha ma charakter jakościowy wówczas możemy
stwierdzić jedynie czy element populacji posiada wyróżnioną cechę czy nie. Matematycznym modelem
rezultatu takiej populacji jest rozkład dwupunktowy (zero-jedynkowy). Cechę jakościową zamieniamy na
cechę ilościową w następujący sposób:
1 gdy ω posiada wyróżnioną cechę
0 gdy ω nie posiada wyróżnionej cechy
( )
p
X
P
=
=
1
(
)
p
q
X
P
−
=
=
=
1
0
Parametr p nazywamy wskaźnikiem struktury (frakcją, odsetkiem) elementów posiadających
wyróżnioną cechę.
Twierdzenie
Jeżeli
n
X
X
X
,...,
,
2
1
są niezależnymi zmiennymi losowymi o rozkładzie dwupunktowym to średnią
arytmetyczną można zapisać następująco:
(
)
p
n
L
X
X
n
X
n
ˆ
...
1
1
=
=
+
+
=
gdzie: L jest zmienna losową przyjmującą wartości równe liczbie
elementów wyróżnionych w próbce
pˆ wskaźnik struktury w próbce losowej
Twierdzenie
Jeżeli
n
X
X
X
,...,
,
2
1
są niezależnymi zmiennymi losowymi o rozkładzie dwupunktowym to statystyka:
(3.21)
n
L
p
=
ˆ
ma rozkład dwumianowy z parametrami n, p o wartościach
1
,
1
,...,
1
,
0
n
n
n
−
Wnioski:
(3.22)
( )
p
p
E
=
ˆ
(3.23)
( )
n
pq
p
D
=
ˆ
2
(3.24) Statystyka pˆ dąży do rozkładu normalnego
n
pq
p
N
,
przy
∞
→
n
zatem statystyka:
( )
1
,
0
N
n
pq
p
n
L
U
→
−
=
--------------------------------------------------------------------------------------------------------------------------------------
4) Estymatory i ich klasyfikacja
Gdy rozkład badanej cechy nie jest znany potrzeba oszacowania parametrów tego rozkładu. Załóżmy,
ze rozkład badanej cechy
X
zależy od nieznanego parametru
Θ
(theta) będziemy próbowali oszacować ten
parametr na podstawie próby losowej prostej.
Def.
Estymatorem parametru
Θ
nazywamy dowolną statystykę:
(
)
n
n
n
X
X
T
T
+
+
=
...
1
której wartości przyjmujemy jako ocenę wielkości parametry
Θ
( )
=
0
1
ω
X
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
24
Uwaga:
Jeżeli
(
)
n
x
x
x
,...,
,
2
1
jest realizacją próby losowej prostej i
(
)
n
n
n
x
x
x
t
t
,...,
,
2
1
=
to
n
t
≈
Θ
.
Def.
Estymator
n
T nazywamy zgodnym estymatorem parametru
Θ
jeżeli:
(4.1) Dla każdego
0
>
ε
(
)
(
)
1
lim
0
lim
=
<
Θ
−
⇔
=
≥
Θ
−
→∞
→∞
ε
ε
n
n
n
n
T
P
T
P
Def.
Estymator
n
T nazywamy nieobciążonym estymatorem parametru
Θ
jeżeli:
(4.2)
Dla każdego
N
n
∈
( )
Θ
=
n
T
E
za pomocą estymatora nieobciążonego wyznaczamy
Θ
bez błędu
systematycznego.
Def.
Jeżeli
( )
n
T
E
istnieje i
( )
0
≠
n
T
E
to estymator
n
T nazywamy obciążonym, zaś różnicę
( ) ( )
Θ
−
=
n
n
T
E
T
B
nazywamy obciążeniem.
Def.
Estymator
n
T nazywamy asymptotycznie nieobciążonym parametru
Θ
jeżeli:
(4.3)
( )
( )
0
lim
lim
=
Θ
−
=
∞
→
∞
→
n
n
n
n
T
E
T
B
Jeżeli
n
T i
*
n
T są nieobciążonymi estymatorami parametru
Θ
, o skończonych wariancjach
( )
n
T
D
2
i
( )
*
2
n
T
D
spełniających warunek:
( )
( )
*
2
2
n
n
T
D
T
D
<
to mówimy, że estymator
n
T jest efektywniejszy od estymatora
*
n
T
Def.
Nieobciążony estymator
n
T parametru
Θ
, który ma najmniejszą wariancję spośród wszystkich
nieobciążonych estymatorów tego parametru nazywamy estymatorem najefektywniejszym.
Twierdzenie
(4.4) Jeśli estymator
n
T spełnia warunki:
1)
( )
0
2
→
n
T
D
2) jest nieobciążony lub asymptotycznie nieobciążony
to jest estymatorem zgodnym.
Koniec wykładu 09
Brak wykładu 10 (zawierającego punkt 5), przechodzę od razu do wykładu 11
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
25
(B) Przedziały ufności dla wariancji lub odchylenia standardowego w populacji
Dla stosunkowo często występującego w zagadnieniach praktycznych rozkładu normalnego populacji,
wariancja jest drugim podstawowym parametrem. Estymację parametru
2
σ przeprowadza się na podstawie
próby losowej prostej, opierając się na dokładnych lub granicznych rozkładach estymatorów tego parametru.
Model
Założenia o
rozkładzie
Szacowany
parametr
Przedział ufności
Statystyka użyta do
konstrukcji
1
N(m,
σ
) nieznane
parametry, n
≤
50
σ
2
2
2
*
*
2
2
2
2
;
(1
,
1)
( ,
1)
nS
nS
n
n
α
α
χ
χ
−
−
−
2
2
2
nS
χ
σ
=
2
N(m,
σ
) lub zbliżony,
n>50
σ
2
2
(1
)
(1
)
2
2
;
1
1
u
u
n
n
S
S
α
α
−
−
+
−
2
2
2
1
k
U
k
χ
=
−
−
gdzie:
2
2
( ,
1),
n
α
χ
−
2
2
(1
,
1),
n
α
χ
−
−
kwantyle rozkładu
2
χ o n-1 stopniach swobody,
2
(1
)
u
α
−
kwantyl
rozkładu N(0, 1).
Aby otrzymać przedział ufności dla odchylenia standardowego w modelu 1, wystarczy ze wszystkich
członów nierówności wyciągnąć pierwiastek, wówczas mamy:
2
2
*
*
2
2
2
2
(1
,
1)
( ,
1)
nS
nS
n
n
α
α
σ
χ
χ
< <
−
−
−
Aby otrzymać przedział ufności dla wariancji w modelu 2 wystarczy wszystkie człony ostatniej
nierówności podnieść do kwadratu:
2
2
2
2
2
(1
)
(1
)
2
2
1
1
u
u
n
n
S
S
α
α
σ
−
−
<
<
+
−
(C) Przedział ufności dla wskaźnika struktury w populacji
W wielu badaniach statystycznych np. w ankietach rozważa się cechę jakościową. Dla takiej cechy
zachodzi często konieczność oszacowania wskaźnika struktury, który jest prawdopodobieństwem sukcesu
w rozkładzie dwupunktowym. Estymację parametru p przeprowadza się na podstawie próby losowej prostej za
pomocą zgodnego, nieobciążonego i najefektywniejszego estymatora:
1
1
ˆ
(
...
)
M
n
n
n
p
X
X
= =
+ +
gdzie M jest zmienną losową przyjmującą wartości liczby wyróżnionych
elementów w próbie.
Model
Niech
X
będzie zmienną losową o rozkładzie dwupunktowym z parametrem p. Dla dużej próby
(
100
n
>
) przedział ufności dla wskaźnika struktury p można skonstruować za pomocą estymatora ˆp , który dla
dużych n ma rozkład asymptotycznie normalny
( ,
(1
) / )
N p
p
p
n
−
. Po standaryzacji otrzymujemy zmienną
losową:
(1
)
ˆ
p
p
n
p
p
U
−
−
=
która ma w przybliżeniu rozkład normalny N(0, 1)
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
26
Dla ustalonego poziomu istotności 1
α
−
odczytujemy z tablic dystrybuanty rozkładu normalnego
wartość kwantyla rzędu
2
1
α
−
, tak aby:
2
2
(
(1
)
(1
))
1
P
u
U
u
α
α
α
−
−
< <
−
≈ −
Przekształcając nierówność podwójną tak aby p znalazło się w środkowym członie oraz podstawiając
(1
)
(1
)
L
L
n
n
p
p
n
n
−
−
≈
otrzymamy:
2
2
(1
)
(1
)
(1
)
L
n
L
L
n
n
p
u
u
n
α
α
−
−
− <
<
−
−
2
2
(1
)
(1
)
(1
)
(1
)
L
L
L
L
n
n
n
n
L
n
u
p
u
n
n
α
α
−
−
−
−
< − <
−
Zatem przedział ufności pokrywa wskaźnik struktury z prawdopodobieństwem w przybliżeniu równym
1
α
−
:
2
2
(1
)
(1
)
(1
)
(1
)
1
L
L
L
L
n
n
n
n
L
L
n
n
P
u
p
u
n
n
α
α
α
−
−
−
−
< < +
−
≈ −
--------------------------------------------------------------------------------------------------------------------------------------
6)
Weryfikacja hipotez statystycznych
Drugim
podstawowym
rodzajem
wnioskowania
statystycznego
jest
weryfikacja
hipotez
statystycznych. Weryfikacja hipotez polega na ustaleniu, czy można uznać za właściwe oszacowania
parametrów populacji, otrzymane na podstawie próbki.
Hipotezą statystyczną nazywamy każdy sąd (przypuszczenie) dotyczące populacji generalnej
wysunięty bez przeprowadzania badania wyczerpującego. Sądy te mogą dotyczyć postaci funkcyjnej rozkładu
prawdopodobieństwa badanej cechy (hipotezy nieparametryczne) lub wartości parametrów ustalonego typu
rozkładu (hipotezy parametryczne).
Hipotezy statystyczne weryfikujemy na podstawie próby losowej danej populacji, dlatego nie jest
możliwe udowodnienie ich prawdziwości lub fałszywości z całkowitą pewnością. Weryfikacja polega na
konfrontacji wyników próby losowej z treścią postawioną w hipotezie. Jeżeli wyniki próby losowej przeczą
sformułowanemu przypuszczeniu, to sprawdzaną hipotezę odrzucamy, gdy zaś popierają postawioną hipotezę
to ją przyjmujemy. Narzędziem służącym do sprawdzania hipotez jest test statystyczny.
Test statystyczny jest to metoda postępowania, która każdej możliwej realizacji próby losowej
przyporządkowuje z ustalonym prawdopodobieństwem decyzję przyjęcia lub odrzucenia sprawdzanej hipotezy.
Niech
X
będzie badaną cechą w populacji, zaś
0
H pewną hipotezą statystyczną, dotyczącą rozkładu
cechy
X
. Oprócz hipotezy sprawdzanej
0
H zwanej hipotezą zerową (podstawową, główną), wygodnie jest
określić drugą hipotezę
1
H zwaną hipotezą alternatywną (konkurencyjną), którą skłonni jesteśmy przyjąć
jeżeli
0
H okaże się fałszywa.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
27
Weryfikacja hipotezy
0
H zostanie przeprowadzona na podstawie próby losowej prostej
(
)
n
X
X
X
,...,
,
2
1
.
Budowa testu najogólniej ujmując jest następująca:
1) Wybieramy pewną statystykę
(
)
n
n
n
X
X
X
U
U
,...,
,
2
1
=
zwaną statystyką testową
lub
sprawdzianem, która mierzy różnice między wynikami próby a postacią hipotetyczną rozkładu
zmiennej losowej
X
.
2) Wyznaczamy zbiór liczbowy K, zwany obszarem krytycznym (odrzuceń), do którego należą
wszystkie możliwe wartości statystyki
n
U , które przemawiają przeciwko postawionej hipotezie
0
H .
3) Dla wyników
1
( ,...,
)
n
x
x próby losowej wyznaczamy wartość statystyki
n
U i podejmujemy jedną z
dwóch decyzji:
Ÿ odrzucamy hipotezę
0
H i przyjmujemy
1
H , jeżeli
1
( ,...,
)
n
n
n
u
U x
x
K
=
∈
;
Ÿ przyjmujemy hipotezę
0
H i odrzucamy
1
H , jeżeli
n
u
K
∉
.
Podjęta w wyniku testu decyzja odrzucenia lub przyjęcia hipotezy może być błędna, gdyż opiera się na
wynikach próby losowej.
Wyróżnia się dwa rodzaje błędów:
Ÿ błąd pierwszego rodzaju – polega na odrzuceniu hipotezy sprawdzanej, gdy jest ona prawdziwa,
prawdopodobieństwo popełnienia tego błędu nazywamy poziomem istotności i oznaczamy
α , zatem
(
)
0
n
P U
K H
α
=
∈
;
Ÿ błąd drugiego rodzaju – polega na przyjęciu hipotezy sprawdzanej, gdy jest ona fałszywa,
prawdopodobieństwo
popełnienia
tego
błędu
oznaczamy
β ,
czyli
(
)
(
)
1
1
1
n
n
P U
K H
P U
K H
β
=
∉
= −
∈
.
Z definicji błędów pierwszego i drugiego rodzaju wynika, że nie jest możliwe popełnienie obu tych
błędów jednocześnie. Jeżeli odrzucamy sprawdzaną hipotezę, to jesteśmy narażeni na popełnienie błędu
pierwszego rodzaju. W sytuacji, gdy test doprowadza do decyzji przyjęcia hipotezy, możemy popełnić błąd
drugiego rodzaju. Oczywiście najlepszy były test, dla którego błąd pierwszego i drugiego rodzaju wynosiłby
zero. Nie jest możliwe utworzenie takiego testu, który minimalizowałby jednocześnie oba błędy.
Zbiór krytyczny może być wyznaczony na wiele sposobów. Aby jednak uchronić się przed błędami,
zwykle dla ustalonego małego poziomu istotności
α wyznacza się taki zbiór krytyczny, który minimalizuje
prawdopodobieństwo popełnienia błędu drugiego rodzaju
β . Test oparty na takim obszarze krytycznym
nazywa się testem najmocniejszym.
Gdy hipoteza
0
H jest prawdziwa, to prawdopodobieństwo zdarzenia, że
n
U
K
∈
jest równe
α , czyli
bliskie zero. Jeżeli dla wyników pobranej próby losowej zaszło zdarzenie
n
U
K
∈
bardzo mało
prawdopodobne, to wnioskujemy że założenie prawdziwości hipotezy
0
H było błędne, dlatego należy ją
odrzucić.
Jeżeli
zaś
zaszło
zdarzenie
n
U
K
∉
o
dużym
prawdopodobieństwie
(
0
0
(
) 1
(
)
1
n
n
P U
K H
P U
K H
α
∉
= −
∈
= −
), to potwierdza założenie o prawdziwości hipotezy
0
H , dlatego nie
ma powodu do jej odrzucenia.
Przy podejmowaniu decyzji o przyjęciu hipotezy
0
H należy jednak liczyć się z błędem drugiego
rodzaju, który przy ustalonej małej wartości
α może dla niektórych próbek być stosunkowo duży.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
28
Dlatego w przypadkach, gdy prawdopodobieństwo popełnienia błędu drugiego rodzaju jest duże lub nie
jest znane, zamiast decyzji o przyjęciu hipotezy
0
H podejmuje się decyzję ostrożniejszą: nie ma podstaw do
odrzucenia sprawdzanej hipotezy.
W praktycznych weryfikacjach hipotez najczęściej nie wyznacza się błędów drugiego rodzaju, lecz
wyznacza obszar krytyczny dla ustalonego poziomu istotności
α , tak aby β było możliwie najmniejsze. Grupa
testów, w których uwzględnia się błąd pierwszego rodzaju
α , zaś nie uwzględnia się błędu drugiego rodzaju β
nosi nazwę testów istotności. W teście takim podejmuje się decyzję o odrzuceniu hipotezy bezpośrednio
sprawdzanej
0
H i przyjmuje hipotezę alternatywną
1
H , lub stwierdza brak podstaw do odrzucenia
0
H . Jeżeli
wartość statystyki testowej mieści się w wyznaczonym obszarze krytycznym, to zaszło zdarzenie bardzo mało
prawdopodobne dla jednej realizacji próby losowej, zatem sprzeczne było założenie o prawdziwości hipotezy
podstawowej i należy ją odrzucić. W przypadku, gdy wartość statystyki testowej dla próbki nie należy do
obszaru krytycznego (stosunkowo duże prawdopodobieństwo 1
α
−
), to nie można wnioskować o prawdziwości
hipotezy zerowej na podstawie tylko jednej próbki, gdyż taki wniosek może być obarczony poważnym błędem
drugiego rodzaju.
Konstrukcja parametrycznego testu istotności
Parametryczne testy służą do weryfikacji hipotezy, która dotyczy nieznanego parametru
Θ
rozkładu
badanej cechy
X
w populacji generalnej, na podstawie próby losowej prostej
(
)
n
X
X
X
,...,
,
2
1
. Hipoteza
podstawowa w teście parametrycznym ma postać:
0
0
:
H
Θ = Θ
gdzie:
0
Θ
jest wartością hipotetyczną, do której przyrównujemy parametr
rozkładu populacji.
Hipoteza alternatywna może być sformułowana następująco:
1
1
1
0
:
gdzie
H
Θ = Θ
Θ < Θ
1
1
1
0
:
gdzie
H
Θ = Θ
Θ > Θ
1
1
1
0
:
gdzie
H
Θ = Θ
Θ ≠ Θ
lub
1
0
:
H
Θ < Θ
1
0
:
H
Θ ≠ Θ
1
0
:
H
Θ > Θ
W parametrycznym teście istotności można wyróżnić następujące etapy:
1) Sformułowanie hipotezy podstawowej oraz alternatywnej.
2) Ustalenie prawdopodobieństwa popełnienia błędu pierwszego rodzaju
α .
3) Losowanie n elementowej próby losowej prostej
(
)
n
X
X
X
,...,
,
2
1
oraz dobór statystyki testowej
n
U ,
o znanym rozkładzie zależnym od parametru
Θ
.
4) Wyznaczenie obszaru krytycznego K z warunku
(
)
0
/ H
K
U
P
n
∈
=
α
, tak aby zminimalizować błąd
drugiego rodzaju. Okazuje się, że dla poszczególnych hipotez alternatywnych najmocniejszy test
będzie miał następujące obszary krytyczne: dla
1
0
:
H
Θ < Θ
lewostronny
(
,
K
k
= −∞ −
, dla
1
0
:
H
Θ ≠ Θ
obustronny
(
,
,
)
K
k
k
= −∞ − ∪
+∞
lub dla
1
0
:
H
Θ > Θ
prawostronny
,
)
K
k
=
+∞
.
5) Wyznaczenie wartości statystyki testowej
n
u na podstawie realizacji próby losowej
1
( ,...,
)
n
x
x .
6) Podjęcie decyzji:
Ÿ odrzucenie hipotezy
0
0
:
H
Θ = Θ
jeśli
n
u
K
∈
;
Ÿ brak podstaw do odrzucenia hipotezy
0
0
:
H
Θ = Θ
jeśli
n
u
K
∉
.
Testy istotności mają prostą konstrukcję, jednak wadą jest, że nie ma możliwości podjęcia decyzji o
przyjęciu weryfikowanej hipotezy. Dlatego w tych testach należy tak formułować hipotezy statystyczne, aby
mieć większe przekonanie o prawdziwości hipotezy alternatywnej.
Koniec wykładu 11
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
29
Sytuacje
Decyzje
0
H prawdziwa
0
H fałszywa
0
H przyjąć poprawna decyzja
(
)
α
−
1
błąd II rodzaju
β
0
H odrzucić
błąd I rodzaju
α
poprawna decyzja
(
)
β
−
1
--------------------------------------------------------------------------------------------------------------------------------------
7)
Parametryczne testy istotności w populacji
(A) Weryfikacja hipotezy dotyczącej wartości przeciętnej w populacji
(7.1) Model I
Jeżeli cecha X ma rozkład
(
)
σ
,
m
N
o niezmiennej wartości oczekiwanej i znanej wariancji
X
D
2
2
=
σ
to statystyka:
n
m
X
U
σ
0
−
=
ma rozkład normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza
H
0
:m=m
0
.
Hipoteza
zerowa
alternatywna
Statystyka testowa
Obszar krytyczny k
H
1
:m≠m
0
+∞
−
∪
−
−
∞
−
;
2
1
2
1
,
α
α
u
u
u
H
1
:m<m
0
(
)
(
−∞
−
∞
−
,
1
; u
H
0
:m=m
0
H
1
:m>m
0
n
m
X
U
σ
0
−
=
(
)
)
+∞
−
,
1
α
u
(7.2) Model II
Jeżeli cecha X ma rozkład
(
)
σ
,
m
N
o nieznanych parametrach
σ
,
m
to statystyka:
1
0
−
−
=
n
S
m
X
t
ma rozkład studenta o n-1 stopniach swobody, przy założeniu prawdziwości
H
0
:m=m
0
.
Hipoteza
zerowa
alternatywna
Statystyka testowa
Obszar krytyczny k
H
1
:m≠m
0
+∞
−
−
∪
−
−
−
∞
−
,
1
,
2
1
1
,
2
1
,
n
t
n
t
α
α
H
1
:m<m
0
(
)
(
1
,
1
;
−
−
−
∞
−
n
t
α
H
0
:m=m
0
H
1
:m>m
0
1
0
−
−
=
n
S
m
X
t
(
)
)
+∞
−
−
,
1
,
1
n
t
α
gdzie
(
)
1
,
1
,
1
,
2
1
−
−
−
−
n
t
n
t
α
α
są kwantylami rzędu
α
α
−
−
1
,
2
1
rozkładu studenta o n-1 stopniach swobody.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
30
(7.3) Model III
Jeżeli rozkład cechy X jest znany i próba jest duża (n≥100), to statystyka
n
m
X
U
σ
0
−
=
ma rozkład w przybliżeniu N(0,1) przy założeniu że prawdziwe jest H
0
:m=m
0
.
Wobec n≥100 można wartość
σ oszacować za pomocą estymatora S gdzie
(
)
∑
=
−
=
n
i
i
X
X
n
S
1
2
2
1
.
Obszary krytyczne wyznacza się jak w modelu (7.1).
(B) Weryfikacja hipotezy dotyczącej wariancji lub odchylenia standardowego w populacji
(7.4) Model I
Jeżeli cecha X ma rozkład
(
)
σ
,
m
N
o nieznanych parametrach
σ
,
m
to statystyka:
2
0
2
2
σ
χ
nS
=
ma rozkład chi kwadrat z n-1 stopniami swobody przy założeniu prawdziwości
(
)
0
2
0
2
0
:
σ
σ
σ
σ
=
=
H
Hipoteza
zerowa
alternatywna
Statystyka
testowa
Obszar krytyczny k
(
)
0
2
0
2
0
:
σ
σ
σ
σ
≠
≠
H
+∞
−
−
∪
−
,
1
,
2
1
1
,
2
,
0
2
2
n
n
α
χ
α
χ
(
)
0
2
0
2
0
:
σ
σ
σ
σ
>
>
H
(
)
1
,
,
0
2
−
n
α
χ
(
)
0
2
0
2
0
:
σ
σ
σ
σ
=
=
H
(
)
0
2
0
2
0
:
σ
σ
σ
σ
<
<
H
2
0
2
2
σ
χ
nS
=
(
)
+∞
−
−
,
1
,
1
2
n
α
χ
gdzie:
(
)
1
,
2
−
n
α
χ
jest kwantylem rzędu
α rozkładu chi kwadrat o n-1 stopniach swobody
(7.5) Model II
Jeżeli cecha X ma rozkład
(
)
σ
,
m
N
o nieznanych parametrach
σ
,
m
to dla dużej próby (n≥50)
statystyka:
3
2
2
2
−
−
=
n
U
χ
gdzie:
2
0
2
2
σ
χ
nS
=
ma rozkład w przybliżeniu N(0,1) pod warunkiem, że prawdziwa jest hipoteza
(
)
0
2
0
2
0
:
σ
σ
σ
σ
=
=
H
. Obszary krytyczne wyznacza się jak w modelu (7.1).
(7.6) Model III
Jeżeli rozkład cechy X jest znany (o skończonej wariancji
0
2
>
σ
) to dla dużej próby (n≥100)
statystyka:
2
ˆ
2
0
2
0
2
n
S
U
σ
σ
−
=
ma w przybliżeniu rozkład N(0,1) przy założeniu prawdziwości
(
)
0
2
0
2
0
:
σ
σ
σ
σ
=
=
H
. Obszary krytyczne wyznacza się jak w modelu (7.1).
Koniec wykładu 12
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
31
(C) Weryfikacja hipotezy dotyczącej wskaźnika struktury w populacji
(7.7) Model
Jeżeli badana cecha X ma rozkład 0-1 w populacji z nieznanym wskaźnikiem struktury p i próba jest
duża (n≥100) to statystyka:
gdzie: L oznacza zmienną losową przyjmującą wartości równe liczbie
elementów wyróżnionych w próbce
ma rozkład w przybliżeniu normalny N(0,1) przy założeniu, że prawdziwa jest hipoteza
0
0
:
p
p
H
=
.
Obszary krytyczne wyznacza się jak w modelu (7.1).
(D) Weryfikacja hipotezy o równości wartości oczekiwanych w dwóch populacjach
(7.8) Model I
Jeżeli badana cecha X ma w dwóch populacjach rozkłady
(
)
(
)
2
2
1
1
,
,
σ
σ
m
N
i
m
N
o znanych
2
1
σ
σ i
oraz nieznanych
2
1
m
i
m
to statystyka:
ma rozkład N(0,1) przy założeniu poprawności H
0
:m
1
=m
2
. Obszary
krytyczne wyznacza się jak w modelu (7.1).
(7.9) Model II
Jeżeli badana cecha X ma w dwóch populacjach rozkłady
(
)
(
)
2
2
1
1
,
,
σ
σ
m
N
i
m
N
i nieznanych
parametrach, ale równych wariancjach
(
)
2
2
2
1
σ
σ
=
to statystyka:
ma rozkład studenta o
2
2
1
−
+
n
n
stopniach swobody. Obszary
krytyczne dla hipotez alternatywnych wyznaczamy jak w modelu
(7.2) z tą różnicą, że wartości kwantyl odczytujemy z rozkładu
studenta o
2
2
1
−
+
n
n
stopniach swobody.
(7.10) Model III
Jeżeli rozkład cechy X w dwóch populacjach jest znany
(
)
2
2
1
1
,
m
X
E
m
X
E
=
=
i próby są duże
(n
1
≥100, n
2
≥100), to statystyka:
ma rozkład w przybliżeniu N(0,1), gdy prawdziwa jest hipoteza H
0
:m
1
=m
2
.
Obszary krytyczne wyznacza się jak w modelu (7.1).
Uwaga:
(1)
Jeżeli nie wiemy, czy spełnione jest założenie o równości wariancji (model 7.8) to należy je
zweryfikować za pomocą testu istotności (model 7.11).
(2)
Jeżeli badamy cechę X o rozkładzie normalnym w populacji przed pewną operacją – próbka
n
x
x
x
,...,
,
2
1
oraz po tej operacji – próbka
n
x
x
x
′′
′′
′′
,...,
,
2
1
to otrzymamy dane które mogą być od siebie
zależne. Wówczas hipotezy formułujemy następująco:
(
)
n
p
p
p
n
L
U
0
0
0
1
−
−
=
2
2
1
1
2
1
n
n
X
X
U
σ
σ
+
−
=
+
−
+
+
−
=
2
1
2
1
2
2
2
2
1
1
2
1
1
1
2
n
n
n
n
S
n
S
n
X
X
t
2
2
2
1
2
1
2
1
n
S
n
S
X
X
U
+
−
=
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
32
gdzie
2
1
m
m
m
−
=
. Obliczamy wyniki różnych par
n
x
x
x
,...,
,
2
1
następująco
{
}
n
i
x
x
x
i
i
i
,...,
1
;
∈
′′
−
′
=
. Weryfikacja hipotezy H
0
następuje przez zastosowanie
testu (7.2) do próbki
n
x
x
x
,...,
,
2
1
. Jest to test zmiennych połączonych (różnie
parami).
(E) Weryfikacja hipotezy o równości w dwóch populacjach
(7.11) Model
Jeżeli badana cecha X ma w dwóch populacjach rozkłady
(
)
(
)
2
2
1
1
,
,
σ
σ
m
N
i
m
N
to statystyka:
2
2
2
1
ˆ
ˆ
S
S
F
=
gdzie:
2
2
1
ˆ
S
n
n
S
−
=
ma rozkład Fischera-Snedecora z n
1
-1 i n
2
-1 stopniami swobody przy
założeniu prawdziwości
2
2
2
1
0
:
σ
σ
=
H
.
Hipoteza
zerowa
alternatywna
Statystyka
testowa
Obszar krytyczny k
2
2
2
1
0
:
σ
σ
≠
H
{ }
{ }
2
2
2
1
2
2
2
1
ˆ
,
ˆ
min
ˆ
,
ˆ
max
S
S
S
S
F
=
+∞
−
−
−
;
1
;
1
;
2
1
m
l
n
n
F
α
2
2
2
1
0
:
σ
σ
<
H
2
2
2
1
ˆ
ˆ
S
S
F
=
(
)
)
+∞
−
−
−
;
1
;
1
;
1
1
2
n
n
F
α
2
2
2
1
0
:
σ
σ
=
H
2
2
2
1
0
:
σ
σ
>
H
2
2
2
1
ˆ
ˆ
S
S
F
=
(
)
)
+∞
−
−
−
;
1
;
1
;
1
2
1
n
n
F
α
gdzie:
−
−
−
1
;
1
;
2
1
m
l
n
n
F
α
to kwantyl rozkładu F-S o
1
1
−
−
m
l
n
i
n
stopniach swobody (n
l
licznika, n
m
mianownika)
Koniec wykładu 13
(F) Weryfikacja hipotezy o równości wskaźników struktury w dwóch populacjach
(7.12) Model
Jeżeli cecha X ma w dwóch populacjach rozkłady 0-1 z nieznanymi wskaźnikami struktury p
1
,p
2
to dla
dużych prób (n
1
≥100, n
2
≥100) statystyka:
( )
n
p
p
n
L
n
L
U
−
+
=
1
2
2
1
1
gdzie:
2
1
2
1
n
n
L
L
p
+
+
=
2
1
2
1
n
n
n
n
n
+
=
ma rozkład w przybliżeniu N(0,1) przy założeniu, że prawdziwa
jest hipoteza
2
1
0
:
p
p
H
=
. Obszary krytyczne wyznacza się jak w
modelu (7.1).
0
:
0
:
0
:
0
:
1
0
1
0
1
0
1
0
>
<
≠
=
m
H
m
H
m
H
m
H
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
33
--------------------------------------------------------------------------------------------------------------------------------------
8)
Testy zgodności
Hipotezy formułujemy następująco:
0
H cecha X ma w populacji rozkład opisany dystrybuantą F
0
1
:~ H
H
(nieprawda że
0
H )
Do badania zgodności rozkładu cechy X w populacji z rozkładem hipotetycznym służą:
Ÿ test zgodności
2
χ Pearsona (n≥80);
Ÿ test
λ Kołmogorowa (cecha ciągła);
Ÿ test Shapiro-Wilka (rozkład normalny, n≤50).
8.1
Test zgodności
2
χ Pearsona
Załóżmy, że wyniki próbki pogrupowano w szereg rozdzielczy przedziałowy.
Lp Granice klas Liczebność
1
g
d
x
x
1
1
−
1
n
2
g
d
x
x
2
2
−
1
n
.
.
.
.
.
.
.
.
.
k
g
d
x
x
2
2
−
k
n
Jeżeli hipoteza
0
H jest prawdziwa to prawdopodobieństwo
i
p że badana cecha X przyjmuje wartość z
i-tej klasy wyznaczamy następująco:
( )
( )
id
ig
i
x
F
x
F
p
−
=
gdzie: F – dystrybuanta rozkładu hipotetycznego, wówczas liczebność
teoretyczną wyznaczamy według wzoru:
i
np
Jeżeli liczebność próby jest duża (n≥80) to statystyka:
(8.1)
(
)
∑
=
−
=
k
i
i
i
i
np
np
n
1
2
2
χ
ma w przybliżeniu rozkład chi kwadrat z k-1 stopniami swobody
Jeżeli dystrybuanta F rozkładu cechy X w populacji zależy od L parametrów o nieznanych wartościach
to statystyka (8.1) ma rozkład w przybliżeniu chi kwadrat z k-L-1 stopniami swobody.
Gdy hipoteza alternatywna jest prawdziwa to wartości statystyki chi kwadrat są dużo większe od zera.
Dlatego obszar krytyczny jest prawostronny
(
)
)
+∞
−
−
−
=
;
1
;
1
2
L
k
K
α
χ
.
Uwaga:
W klasie pierwszej i ostatniej liczebności powinny być nie mniejsze niż 5 w pozostałych klasach co
najmniej 10.
Egzamin - Teoria - Wykład 01-(10)-14-(15) v.0.12.63 BETA
Przygotował: Tomasz „Hatake_KAKASHI” Kotwis
34
--------------------------------------------------------------------------------------------------------------------------------------
9)
Badanie statystyczne ze względu na dwie cechy
Jeżeli badamy dwie cechy mierzalne X i Y w populacji, to będziemy starali się zaobserwować pewne
własności w rozkładzie
( )
Y
X ,
na podstawie wyników n-elementowej próby losowej którą stanowią pary
(
)
{
}
n
i
y
x
i
i
,...,
1
,
∈
. Pary te można umieścić w układzie współrzędnych otrzymując tzw. diagram korelacyjny.
Na podstawie diagramu korelacyjnego można wysunąć wstępne wnioski dotyczące zależności cechy X
i Y, np.
diagram (a) – silna zależność liniowa
diagram (b) – słaba zależność krzywoliniowa
diagram (c) – brak zależności między cechami X i Y
Zależność między cechami statystycznymi bada się za pomocą pojęcia korelacji i regresji.
Korelacja – mierzy siłę zależności między cechami X i Y. Miernikiem natężenia zależności liniowej
jest współczynnik korelacji liniowej Pearsona
( )
1
,
1
,
−
∈
Y
X
δ
. Jeśli
( )
1
,
=
Y
X
δ
to zależność między X i Y
jest ściśle liniowa. Natomiast
( )
0
,
=
Y
X
δ
oznacza, że cechy są NIE skorelowane (brak zależności).
Regresja – pozwala określić kształt zależności (liniowa, krzywoliniowa), tzn. poszukuje się pewnej
funkcji q, tak aby można było Y opisać za pomocą
( )
( )
X
q
Y
X
q
≈
:
metodą najmniejszych kwadratów, tzn. tak
aby wartość oczekiwana
( )
(
)
.
min
2
→
−
X
q
Y
E
Koniec wykładu 14
--------------------------------------------------------------------------------------------------------------------------------------
Teoretycznie brak wykładu 15 (nie wiem nawet czy się odbył)
KONIEC