Mikołaj Rybaczuk Materiały do ćwiczeń i wykładów ze statystyki Politechnika BIałostocka


Statystyka
Wydział Zarządzania Politechniki Białostockiej
Mikołaj Rybaczuk
Politechnika Białostocka
Wydział Zarządzania
Katedra Informatyki i Logistyki
MATERIAAY DO WYKAADÓW I ĆWICZEC
ZE STATYSTYKI
Białystok 2003
Statystyka
Wydział Zarządzania Politechniki Białostockiej
1. Statystyka  zespół informacji liczbowych dotyczących wybranej
grupy zjawisk masowych. Statystyka majątku narodowego,
statystyka produkcji,
! sztuka zdobywania informacji. Każdą decyzję poprzedza zebra-
nie informacji.
2. Statystyka  dyscyplina naukowa traktująca o metodach (narzę-
dziach) opisu i wnioskowania o prawidłowościach występujących
w procesach masowych.
Badanie statystyczne  pozyskiwanie danych, pomiary, zliczanie,
analiza i interpretacja danych.
Dane
a) pierwotne  zródłowe, indywidualne, uzyskane drogą bezpośred-
niej obserwacji (ankieta, wywiad, eksperyment),
b) wtórne  pogrupowane, przetworzone dane pierwotne.
Badania statystyczne dotyczą pewnych zbiorowości zwanych popula-
cją generalną lub zbiorowością generalną skończoną lub nieskoń-
czoną.
Elementy populacji generalnej mają różne właściwości zwane
cechami statystycznymi mierzalnymi lub niemierzalnymi. Cechy
mierzalne mogą być skokowe lub ciągłe.
Badania statystyczne mogą być pełne lub częściowe.
Badania częściowe polegają na zbadaniu podzbioru elementów
populacji generalnej zwanego próbą.
Liczebność próby  liczba elementów populacji wybranych do próby.
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
STATYSTYKA OPISOWA
Empiryczny rozkład cechy
Dane zródłowe (surowe):
Zmierzono wzrost 100 kandydatów na zarządzanie i marketing:
185, 190, 175, 165, 183, 169, 181, 174, 183, 175, 178, 179, 173, 169, 184, 181,
179, 182, 177, 176, 179, 182, 179, 185, 182, 178, 184, 186, 169, 180, 180, 180,
174, 175, 177, 173, 182, 172, 175, 185, 190, 171, 178, 190, 165, 176, 178, 171,
178, 179, 180, 172, 191, 173, 185, 175, 175, 177, 174, 181, 188, 178, 179, 173,
182, 185, 173, 180, 179, 180, 185, 178, 174, 177, 169, 173, 181, 172, 175, 175,
170, 182, 174, 174, 178, 181, 169, 187, 173, 182, 165, 176, 181, 175, 175, 176,
178, 174, 182, 188.
Min=165, Max=191, średnia arytmetyczna=177.9,
średnia geometryczna=177.8, mediana=178, dominanta=175,
kwartyl pierwszy=174, kwartyl trzeci=182, wariancja=31.848,
odchylenie standardowe=5.643, skośność=0.076, kurtoza=-0.120,
suma=17790.
Szereg rozdzielczy:
Ustalanie liczby klas:
n
k < 5log n k H" n k H" 1+ 3.3log n k d"
10
Szerokość klasy: H"(xmax xmin)/k
H"
H"
H"
Numer Zakres Liczba Liczebności Częstości Częstości
klasy klasy obserwacji skumulow. skumulow.
ni
wi
1 [160; 165] 11 0.01 0.01
2 (165; 170] 7 8 0.07 0.08
3 (170; 175] 22 30 0.22 0.30
4 (175; 180] 34 64 0.34 0.64
5 (180; 185] 25 89 0.25 0.89
6 (185; 190] 9 98 0.09 0.98
7 (190; 195] 2 100 0.02 1.00
3
Statystyka
Wydział Zarządzania Politechniki Białostockiej
4
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary położenia rozkładu:
Średnia arytmetyczna:
a) gdy dysponujemy n indywidualnymi obserwacjami:
n
1
x =
"
x
i
n i =1
b) gdy dysponujemy szeregiem rozdzielczym liczebności z k
przedziałami:
k
1
x =
"
x n
Ć
i i
i =1
n
c) gdy dysponujemy szeregiem rozdzielczym częstości z k
przedziałami:
k
n
i
x = , gdzie =
"
x w w
Ć
i i i
n
i =1
Numer Zakres Liczba Środek Częstości
klasy klasy obserwacji klasy
ni x
i
Ć x n
i i
Ć wi
1 [160; 165] 1162.5 162.5 0.01
2(165; 170] 7 167.5 1172.5 0.07
3(170; 175] 22 172.5 3795 0.22
4(175; 180] 34 177.5 6035 0.34
5(180; 185] 25 182.5 4562.5 0.25
6(185; 190] 9 187.5 1687.5 0.09
7(190; 195] 2 192.5 385 0.20
7
1
x = 17800 =178
"
xiwi = 17800
Ć
i=1
100
Średnia geometryczna:
xg = n
"x
x x i x n
1 2
5
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Średnia harmoniczna:
Stosuje się wtedy, gdy wartości cechy podane są w przeliczeniu na
stałą jednostkę innej cechy (wskazniki natężenia), wagi natomiast
w jednostkach liczników tych cech  np.: prędkość pojazdu w km/h
(wi  km), pracochłonność w min/szt. (wi  czas w min.), gęstość
zaludnienia (wi  osoby), spożycie w kg/osobę (wi  kg), cena
jednostkowa w zł/szt. (wi  zł).
n
xH =
n
1
"
i =1
x
i
k
dla szeregu rozdzielczego
"
n
i
i =1
xH =
k
n
i
"
i =1
x
i
W przypadku stosowania wag
k
W
H
x = , gdzie W = =
"
w w x n
i i i i
k
i =1
w
i
"
i =1
x
i
Mediana:
a) gdy dysponujemy n indywidualnymi obserwacjami  jest to war-
tość cechy, która dzieli obserwacje na tyle samo mniejszych i
większych od niej.
b) gdy dysponujemy szeregiem rozdzielczym liczebności:
n h m
ł łł
me = x0m + - n ( x0m )
ł śł
2 n m
ł ł
gdzie:
x 0m -
dolna granica przedziału, w którym znajduje się
wartość mediany,
n ( x0m ) -
suma liczebności wszystkich przedziałów
klasowych poprzedzających przedział mediany,
h m, n m - odpowiednio: rozpiętość i liczebność przedziału
mediany.
6
Statystyka
Wydział Zarządzania Politechniki Białostockiej
c) gdy dysponujemy szeregiem rozdzielczym częstości:
1 h m
ł łł
me = x0m + - F n ( x0m )
ł śł
2 w m
ł ł
x0m -
gdzie: dolna granica przedziału, w którym znajduje się
wartość mediany,
F n ( x0m ) -
skumulowana częstość względna dla dolnej granicy
przedziału mediany,
h m, w m -
odpowiednio: rozpiętość i częstość przedziału
mediany.
Dominanta:
d) gdy dysponujemy n indywidualnymi obserwacjami  jest to
wartość cechy, która występuje najczęściej.
e) gdy dysponujemy szeregiem rozdzielczym liczebności:
nd - nd - 1
do = x0d + hd
(nd - nd - 1) + (nd - nd + 1)
-
gdzie: x dolna granica przedziału dominującego,
0d
- liczebność przedziału dominującego,
n
d
- liczebność przedziału poprzedzającego
n
d -1
dominujący,
- liczebność przedziału następnego po dominującym,
n
d +1
rozpiętość przedziału dominującego.
-
h
d
7
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Kwantyle:
Kwantylem rzędu p (0taką wartość cechy kp., dla której (jako pierwszej) dystrybuanta
empiryczna spełnia warunek:
h
p
= +[p- ( )]w
e"
F n(kp) e" p
e"
e"
k x F x
p 0p n 0p
p
x0p -
gdzie: dolna granica przedziału, w którym znajduje się
wartość kwantyla rzędu p,
skumulowana częstość względna dla dolnej gra-
)
Fn ( x0p -
nicy przedziału kwantyla rzędu p,
odpowiednio: rozpiętość i częstość przedziału
hp,wp -
kwantyla rzędu p.
Szczególne kwantyle:
- centyle (percentyle  P1, P2, ..., P99),
- decyle (D1, D2, ..., D9),
- kwartyle (Q1 [pierwszy, dolny], Q2 [mediana], Q3 [trzeci, górny]).
8
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary zróżnicowania (rozrzutu) cechy:
Rozstęp: różnica między największą i najmniejszą wartością cechy.
Rozstęp (przedział) ćwiartkowy: różnica między kwartylami Q3 i Q1.
Odchylenie ćwiartkowe: połowa rozstępu ćwiartkowego, czyli
Q 3- Q 1
Q =
2
Wariancja:
a) gdy dysponujemy n indywidualnymi obserwacjami:
n
1
2
= =x2-x2
(xi -x)2
"
s
n
i=1
n
1 n
2 2
= =
S2
(xi -x)2
"
%5ń %5ń
n -1 n -1
i=1
b) gdy dysponujemy szeregiem rozdzielczym liczebności z k przedziałami:
k
1
2
= - x )2 n i
Ć
(x
"
%5ń
i
n - 1
i =1
c) gdy dysponujemy szeregiem rozdzielczym częstości z k przedziałami:
k
n
2
= - x)2 wi gdzie
Ć
(x
"
s wi = ni
i
i = 1
2 2
Odchylenie standardowe:
s = lub %5ń =
s %5ń
s
Współczynnik zmienności:
V = "100 %
x
9
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Asymetria rozkładu empirycznego
Miarą stopnia i kierunku asymetrii jest współczynnik asymetrii A
otrzymany w wyniku podzielenia momentu trzeciego stopnia przez
odchylenie standardowe do potęgi trzeciej.
'
M
3
A =
3
s
gdzie dla danych zródłowych
n
1
'
= -x)3
(x
"
M
3
i
n
i = 1
lub dla danych pogrupowanych w szereg rozdzielczy
k
1
'
= x)3 ni
Ć
(xi -
"
M
3
n
i=1
Współczynnik skośności: ze względu na łatwość obliczeń jest
częściej stosowany (w przypadku skrajnej asymetrii przekracza 1 co
do wartości bezwzględnej):
x - do
=
A
1
s
Pozycyjny współczynnik asymetrii:
(Q3 - me)-(me-Q1 )
=
A
2
2Q
gdzie Q jest odchyleniem ćwiartkowym.
10
Statystyka
Wydział Zarządzania Politechniki Białostockiej
24
22
22
20
20
18
16
13
14
12
11
12
10
8
8
6
6
3
4
2 2
1
2
0 0
0
0 400 800 1200 1600 2000 2400 2800
200 600 1000 1400 1800 2200 2600 3000
Histogram (Rozkl_na_cw.sta 16v*100c)
24
22
22
20
18
15
16
14
12
11
12
10
9
10
8
8
5
6
4
3
4
1
2
0 0
0
<= 680 (700;720] (740;760] (780;800] (820;840] (860;880] > 900
(680;700] (720;740] (760;780] (800;820] (840;860] (880;900]
ZEST_11
Histogram (Rozkl_na_cw.sta 16v*100c)
24
22
22
20
18
15
16
14
12
11
12
10
9
10
8
8
5
6
4
3
4
1
2
0 0
0
<= 500 (520;540] (560;580] (600;620] (640;660] (680;700] > 720
(500;520] (540;560] (580;600] (620;640] (660;680] (700;720]
ZEST_11A
11
Liczba obserwacji
Li cz ba obs.
Li cz ba obs.
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Koncentracja wartości cechy  nierównomierne rozdysponowanie
łącznej sumy wartości cechy w badanej zbiorowości pomiędzy jed-
nostki tworzące tę zbiorowość (skrajny przypadek  całą sumą
wartości cechy dysponuje tylko jedna jednostka zbiorowości).
Współczynnik koncentracji  miara skupienia (kurtozy)
k
4
1
"
( - x)
n
i
x
i
n
i =1
k =
4
s
Stanowi on podstawę do obliczenia współczynnika ekscesu 
relatywna ocena stopnia spłaszczenia:
- g<0  większe rozproszenie,
- g>0  mniejsze rozproszenie względem krzywej standardowej, dla
której k=3.
g = k -3
12
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Współczynnik Giniego  miara koncentracji (0  brak koncentracji, 1
 zupełna koncentracja)
K = 2T =1-2P
Znaczenie K i P na rysunku.
1
0.9
Krzywa Lorentza
0.8
Linia równomiernego rozdziału
0.7
0.6
0.5
0.4
T
0.3
'
P
G
i
0.2 '
G -1
i
0.1
w
i
0
G-1
i
G
i
Skumulowane częstości jednostek
xini
zi = k
"
x
j
1
j =
i -1 i
z z
j j
G' = " G' = "
i-1 i
j =1 j =1
i-1 i
= = = -
" "
G w G w w G G
i-1 j i j i i i-1
j=1 j=1
13
Skumulowane częstości wartości cechy
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Obliczenia dla szeregu rozdzielczego ze str. 3.
Częstość Częstość Skumulowana
i-1 i
studentów wzrostu częstość wzrostu
+
i
" "
z z
j j
i wi zi (2)*(5)
j=1 j=1
"
z
j
j=1
1 23 4 5 6
1 0,01 0,00913 0,00913 0,00913 0,00009
2 0,07 0,06587 0,07500 0,08413 0,00589
3 0,22 0,21320 0,28820 0,36320 0,07990
4 0,34 0,33904 0,62724 0,91544 0,31125
5 0,25 0,25632 0,88356 1,51080 0,37770
6 0,09 0,09480 0,97836 1,86192 0,16757
7 0,02 0,02164 1,00000 1,97836 0,03957
Razem 1,00 1,00000   0,97197
suma wzrostu w klasie
=
z
i
suma wzrostu ogólem
K=1-0,98197=0,01803
14
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary indeksowe dynamiki szeregu czasowego
Mierniki dynamiki zjawisk
Miary dynamiki
Przyrosty
Absolutne
jednopodstawowe
łańcuchowe
Względne
jednopodstawowe
łańcuchowe
Indeksy dynamiki
Indywidualne
jednopodstawowe
łańcuchowe
Agregatowe
(zespołowe)
jednopodstawowe
łańcuchowe
15
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary dynamiki jednopodstawowe (o stałej podstawie) służą
do kreślenia zmian, jakie nastąpiły w kolejnych okresach
względem okresu przyjętego jako podstawowy  podstawowe-
go (t*=1) lub innego wyróżnionego (t*=k).
Miary dynamiki o podstawie ruchomej (łańcuchowe) służą do
oceny zmian, jakie nastąpiły w kolejnych okresach względem
okresu poprzedniego (t*=t-1).
Przyrosty
a) absolutne  obliczane w stosunku do jednego okresu:
 t*=1 y2-y1, y3-y1, ..., yn-1-y1, yn-y1;
 t*=k y1-yk, y2-yk, ..., yn-1-yk, yn-yk; "t/k=yt-yk, t=1,2,...,n;
b) absolutne  obliczane w stosunku do stale zmieniającego
się okresu bazowego:
 y2-y1, y3-y2, ..., yn-1-yn-2, yn-yn-1; "t/t-1=yt-yt-1, t=1,2,...,n.
c) względne (wskazniki tempa wzrostu)  stosunek przyrostu
absolutnego zjawiska do jego poziomu w okresie bazowym:
 postać jednopodstawowa:
-
y y
"t / k t k
= = ; t = 1, 2, , n
d
t / k
y y
k k
 postać łańcuchowa:
-
y y
"t / t-1
t t-1
= = ; t = 2, 3, , n
d
t / t-1
y y
t-1 t-1
Przyrosty względne pomnożone przez 100 nazywane są
tempem zmian (przyrostu lub obniżki).
16
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Indywidualne indeksy dynamiki
Indeksy dynamiki  mierniki określające stosunek wielkości
zjawiska w dwóch różnych okresach.
Indeksy indywidualne dynamiki  dotyczą zjawisk opisanych
pojedynczym szeregiem czasowym.
 postać jednopodstawowa:
y
n
1
= = + ;
i d
n /1 n /1
y
1
 postać łańcuchowa:
y
n
1
= = + .
i d
n / n-1 n / n-1
y
n-1
Indeksy na ogół wyrażamy w procentach.
Przykład
Zanotowano ceny akcji Banku Rozwoju Eksportu w dniach
11-25 lipca 1994 roku. Obliczyć i zinterpretować przyrosty
bezwzględne i względne oraz indeksy indywidualne.
Przyrosty Przyrosty Indeksy
absolutne względne (w %) (w %)
Cena
Nr
jedno- jedno- jedno-
akcji
okresu łańcu- łańcu- łańcu-
(zł)
podsta- podsta- podsta-
chowe chowe chowe
wowe wowe wowe
tyt
"t/1 "t/t-1 dt/1"100 dt/t-1"100 it/1"100 it/t-1"100
1 32.3 0.0 0.0 100.00
2 32 -0.3 -0.3 -0,93 -0.93 99.09 99.07
3 32.9 0.6 0.9 1.86 2.81 101.86 102.81
4 34.6 2.3 1.7 7.12 5.17 107.12 105.17
5 38 5.7 3.4 17.65 9.83 117.65 109.83
6 41.8 9.5 3.8 29.41 10.00 129.41 110.00
7 44.9 12.6 3.1 39.01 7.42 139.01 107.42
8 42.2 9.9 -2.7 30.65 -6.01 130.65 93.99
9 38.6 6.3 -3.6 19.50 -8.53 119.50 91.47
17
Statystyka
Wydział Zarządzania Politechniki Białostockiej
n
Definicja średniej geometrycznej:
= " " "
x x x x
G 1 2 n
Średnie tempo zmian zjawiska w czasie wyznacza się za po-
mocą średniej geometrycznej indeksów łańcuchowych:
n-1 n-1
= " " " =
i i i i i
G n / n-1 n-1/ n-2 2 /1 n /1
lub w postaci logarytmicznej:
n
1 1
log = = log
"
i i i
G t / t-1 n /1
t=1
n -1 n -1
Średniookresowe tempo zmian (stopa wzrostu) w badanych
okresach:
r = = -1
T i
n G
lub w procentach:
[%] = "100 -100
i
T n G
Średnie tempo zmian ma wadę polegającą na pomijaniu war-
tości zawartych między wyrazami skrajnymi szeregu czaso-
wego.
Jeżeli założymy, że średnie tempo jest stałe we wszystkich ba-
danych okresach, to wielkość zjawiska w momencie n można
wyznaczyć znając początkową wartość zjawiska (y0) z wzoru:
n
=
y y (1
+r)
n 0
Ostatnie wyrażenie może być wykorzystane do określenia
przyszłej wartości pieniądza przy stałej stopie procentowej 
np. wartości zainwestowanego kapitału po n latach przy zało-
żeniu rocznej kapitalizacji odsetek.
Indeksy indywidualne są szeroko stosowane w analizach eko-
nomicznych. Szczególne znaczenie mają indeksy ilości, cen
i wartości różnych produktów (stosunek okresu n do bazo-
wego).
18
Statystyka
Wydział Zarządzania Politechniki Białostockiej
p
n
(pn, p0  ceny artykułu)
= - indeks cen
i
p
p
0
q
n
= - indeks iloślo
(qn, q0  ilości artykułu)
i
q
q
0
w
n
= - indeks wartośwa
(wn, w0  wartości artykułu)
i
w
w
0
Agregatowe indeksy dynamiki wartości absolutnych  indeksy
dynamiki zespołu zjawisk
Przykład
Student w przerwie między zajęciami zjada posiłek składający
się z kanapki, soku, ciastka i kawy. Koszt takiego posiłku
w czerwcu w stosunku do stycznia uległ zmianie:
Ceny
Lp. Indeks cen
Rodzaj styczeń Czerwiec
j p0j pnj ipj=pnj/p0j
1 Kanapka 1.0 1.2 1.20
2 Sok 0.8 1.0 1,25
3 Ciastko 0.4 0.8 2,00
4 Kawa 0.4 1.0 2.50
Razem 2.6 4.0 6.95
Indywidualny indeks zestawu obliczamy ze wzoru:
4 4
p
" "
i
pj
nj
40 6.95
j=1 j=1
= = = 1.538; = = = 1.73
i 4 i
p p
26 4 4
p
"
0 j
j=1
Koszt posiłku wzrósł o 53.8%. Średnio ceny składników
wzrosły o 73%. Wysoki wzrost cen tańszych składników po-
siłku spowodował wyższy wzrost średniego indeksu cen.
19
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład
W ciągu miesiąca student wypija przeciętnie 15 filiżanek
kawy, 5 opakowań soku, zjada 10 kanapek i 5 ciastek.
j Rodzaj p0j pnj q0j pnj/p0j p0jq0j pnjq0j
1 Kanapka 1.0 1.2 10 1.20 10 12
2 Sok 0.8 1.0 5 1,25 4 5
3 Ciastko 0.4 0.8 5 2,00 2 4
4 Kawa 0.4 1.0 15 2.50 6 15
Razem 2.6 4.0 6.95 22 36
Ilości składników traktujemy jako wagi.
Agregatowy indeks cen formuły Laspeyresa:
k
p q
"
nj 0 j
36
j=1
= = = 1.636
LI p k
22
p q
"
0 j 0 j
j=1
Wzrost cen spowodował wzrost wydatków przeciętnego stu-
denta o 63.6%.
Przykład
Załóżmy, że w badanym okresie nastąpiła zmiana cen oraz
zmiana struktury spożywanych składników:
j Rodzaj p0j pnj q0j qnj p0jq0j pnjq0j p0jqnj pnjqnj
1 Kanapka 1.0 1.2 10 10 10 12 10.0 12.0
2 Sok 0.8 1.0 5 10 4 5 8.0 10.0
3 Ciastko 0.4 0.8 5 8 2 4 3.2 6.4
4 Kawa 0.4 1.0 15 8 6 15 3.2 8.0
Razem 2.6 4.0 22 36 24.4 36.4
Agregatowy indeks cen formuły Paaschego:
k
p q
"
nj nj
36.4
j=1
= = = 1.492
PI k
p
24.4
p q
"
0 j nj
j=1
Na skutek zmian cen wydatki wzrosły o 49.2%.
20
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Agregatowe indeksy cen obrazują dynamikę zmian wartości
zespołu badanych jednostek (w przykładach składniki posiłku)
na skutek zmiany cen.
Indeks cen formuły Laspeyresa jest średnią arytmetyczną war-
tości indywidualnych indeksów cen, zaś indeks cen formuły
Paaschego jest średnią harmoniczną wartości indywidualnych.
Definicja średniej harmonicznej:
n
"
w
i
1
i=1
= , lub = gdzie
x x w - wagi
H H i
n n
1
w
i
" "
i=1 i=1
x x
i i
Agregatowy indeks ilości formuły Laspeyresa:
k
p q
"
0 j nj
24.4
j=1
= = = 1.109
LIq k
22
p q
"
0 j 0 j
j=1
Agregatowy indeks ilości formuły Paaschego:
k
p q
"
nj nj
36.4
j=1
= = = 1.01
PIq k
36
p q
"
nj 0 j
j=1
Agregatowe indeksy ilości obrazują zmiany wartości zespołu
jednostek (w przykładach - składników posiłku) na skutek
zmiany ilości.
Agregatowy indeks wartości  określa jak zmienił się koszt w ba-
danych okresach ze względu na zmiany cen i ilości łącznie:
k
p q
"
nj nj
36.4
j=1
= = = 1.655
Iw k
22
p q
"
0 j 0 j
j=1
= " = "
Równość indeksowa: Iw PI p LIq PIq LI p
21
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Agregatowe indeksy dynamiki wielkości stosunkowych
Obliczane są dla wskazników natężenia (kształtowanie się
jednego zjawiska na tle innego  iloraz).
Załóżmy, że między badanymi wielkościami zachodzą zależ-
ności:
x
j
= ; j = 1, 2, ..., k
y
j
z
j
Porównując ilorazy w dwóch okresach otrzymujemy indywi-
dualny indeks wielkości stosunkowych:
x x
nj 0 j
= : ; j = 1, 2, ..., k
i
jn,0
z z
nj 0 j
oraz indeks wszechstronny (wyraża zmiany w ogólnym pozio-
mie zmiennej y, które są spowodowane równocześnie zmiana-
mi cząstkowych poziomów zmiennych x i z):
k k k k
y y
" " " "
x x z0 j z0 j
nj 0 j
nj 0 j
y
( z )
j=1 j=1 j=1 j=1
n
= : = : =
I y k k k k
y
0
" " " "
znj z0 j znj z0 j
j=1 j=1 j=1 j=1
Przykład
Dysponujemy danymi o funduszu płac i zatrudnieniu w dwóch
zakładach przedsiębiorstwa. Przeanalizować dynamikę prze-
ciętnych płac w dwóch okresach mając dane:
Okres podstawowy Okres badany
Fundusz Zatrud- Przeciętna Fundusz Zatrud- Przeciętna
Zakład płac nienie płaca płac nienie płaca
(mln zł) (mln zł) (mln zł) (mln zł)
x0j z0j y0j= x0j/z0j xnj znj ynj= xnj/znj
I 240 60 4 336 70 4.8
II 20 10 2 300 120 2.5
y y
0 n
Razem 260 70 =3.71 636 190 =3.35
22
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wszechstronny indeks przeciętnej płacy wyznaczony z po-
wyższych wzorów wynosi 0.9  spadek dynamiki przecięt-
nych płac w całym przedsiębiorstwie o 10%.
W zakładzie I nastąpił wzrost przeciętnej płacy o 20%
(4.8/4=1.2), w zakładzie II  o 25% (2.5/2=1.25).
Indeksy o stałej strukturze eliminujące wpływ zmian w struk-
turze agregatu:
a) Laspeyresa
k
y
"
z0 j
nj
313
( s )
j=1
= = = 1.204
LI y k
260
y
"
z0 j
0 j
j=1
b) Paaschego
k
y
"
znj
nj
636
( s )
j=1
= = = 1.223
PI y k
520
y
"
z
nj
0 j
j=1
Wniosek:
Przy założeniu stałego poziomu i struktury zatrudnienia
z okresu podstawowego (indeks formuły Laspeyresa) płaca
w przedsiębiorstwie wzrosłaby w okresie badanym w stosunku
do podstawowego o 20.4%. Gdyby przyjąć niezmienne zatrud-
nienie, ale z okresu badanego (indeks Paaschego), wzrost ten
wynosiłby 22.3%.
Indeksy wpływu zmian strukturalnych:
c) Laspeyresa
k k
( z )
y y
" "
znj z0 j
0 j 0 j
520 260
j=1 j=1 I y
= : = = : = 0.737
LI k k
w.s.
( s )
190 70
PI y
" "
znj z0 j
j=1 j=1
23
Statystyka
Wydział Zarządzania Politechniki Białostockiej
d) Paaschego
k k
( z )
y y
" "
znj z0 j
nj nj
636 313
j=1 j=1 I y
= : = = : = 0.749
PI k k
w.s.
( s )
190 70
LI y
" "
znj z0 j
j=1 j=1
Wniosek:
Gdyby przyjąć średnie płace w obu zakładach na poziomie
okresu podstawowego, to ogólna przeciętna płaca w przed-
siębiorstwie w okresie badanym w stosunku do podstawowego
byłaby niższa o 26.3% na skutek zmian w strukturze zatrud-
nienia. Gdyby przyjąć średnie płace z okresu badanego 
spadek wynosiłby 25.1%.
Przykładami indeksów agregatowych są indeksy giełdowe
oraz indeksy kosztów utrzymania i inflacji (w oparciu o które
oblicza się płacę minimalną, zasiłek dla bezrobotnych, wielko-
ści emerytur i rent)
24
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Zmienne losowe i ich rozkłady
Zmienne losowe skokowe (dyskretne) i ciągłe
Rozkład zmiennej losowej skokowej stanowi zbiór par (xi,pi)
dla i=1,2,...,n, gdzie xi  wartości zmiennej losowej, pi 
prawdopodobieńtwa, z jakimi wartości te są przyjmowane.
Zapisujemy to:
n
= 1
P{X=xi}=pi, i=1, 2,..., n, p
"
i
i=1
Rozkład zmiennej losowej ciągłej określa funkcja gęstości f(x)
określona na zbiorze liczb rzeczywistych o następujących
własnościach:
10. f(x)e"0
"
} 1.
f (x)dx =P{-" < X d" " =
20.
+"
-"
Druga własność oznacza, że pole między wykresem funkcji
f(x) a osią OX jest dokładnie równe 1.
Funkcja gęstoSci prawdopodobieństwa
y=normal(x;0;1)
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
b
-3,50 -1,75 a 0,00 1,75 3,50
Dla dowolnych aosiągnie wartości z przedziału [a; b] wynosi (na rysunku 
b
pole nad tym odcinkiem):
f (x)dx =P{a < X d" b}
+"
a
25
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Dystrybuantą zmiennej losowej X nazywamy funkcję
zdefiniowaną następująco:
F(x)=P{Xd"x}.
Własności dystrybuanty:
a) 0d"F(x)d"1
b) F(x) jest funkcją niemalejącą
c) F(x) jest funkcją przynajmniej prawostronnie ciągłą
d) lim F(x) = 0 oraz
F(x) = 1
lim
x x
-" "
Dystrybuantą zmiennej losowej skokowej nazywamy funkcję
określoną wzorem:
F(x) =
p
"
i
xi d" x
Dystrybuantą zmiennej losowej ciągłej nazywamy funkcję
określoną wzorem:
x
F(x) = f (x)dx
+"
-"
Wartość oczekiwana zmiennej losowej jest określona za pomocą jednego ze wzorów:
a) skokowej
"
n
E(X ) =
lub
E(X ) =
p
p "
" x
x i
i
i
i
i=1
i=1
"
b) ciągłej
E(X ) = xf (x)dx
+"
-"
Wariancja zmiennej losowej jest określona wzorem:
a) skokowej
n
2
2
(X ) =
(xi-E(X )) p
"
D
i
i=1
n
2
2
(X ) = - E(X )
lub
()2
p
"
D x
i
i
i=1
26
Statystyka
Wydział Zarządzania Politechniki Białostockiej
b) ciągłej "
2
(X ) =
D
+"[x - E(X )]2 f (x)dx
-"
"
lub
2
(X ) = E(X)
x2 f (x)dx -()2
D
+"
-"
Odchylenie standardowe:
2
 = (X )
D
27
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wybrane rozkłady dyskretne
Rozkład zero-jedynkowy
P{X=1}=p
P{X=0}=q=1-p
E(X)=1"p+0"q=p
D2(X)=(1-p)2"p+(0-p)2"q=pq
Rozkład dwumianowy (binomialny)
n k n-k k n-k
ł ł n!
P{X = k}= ł ł =
p q p q
łk ł
k!(n - k)!
ł łł
gdzie k=0, 1, 2,..., n oraz q=1-p.
E(X)=np D2(X)=npq
Przykład: Zmienną losową zdefiniowano jako liczbę wyrzuco-
nych orłów przy pięciokrotnym rzucie monetą.
P{X=0}=0.03125
P{X=1}=0.15625
P{X=2}=0.31250
P{X=3}=0.31250
P{X=4}=0.15625
P{X=5}=0.03125
Rozkład Poissona
k
P{X = k}=
e- 
k!
E(X)=m= D2(X)=m
28
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład: W pewnym przedsiębiorstwie zaobserwowano, że
w ciągu miesiąca zdarzają się średnio 2 wypadki (m=2) i że
rozkład liczby wypadków może być opisany za pomocą roz-
kładu Poissona.
P{X=0}=0.135
P{X=1}=0.271
P{X=2}=0.271
P{X=3}=0.180
P{X=4}=0.090
29
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wybrane rozkłady ciągłej zmiennej losowej
Rozkład jednostajny
Rozkład normalny
Funkcja gęstości rozkładu: Rozkład normalny posiada
następującą funkcję gęstości:
2
(x-m)
1
2
f (x) =
2
e
 2Ą
gdzie
-" < x < +"
m parametr jest szacowany średnią arytmetyczną
>0 jest odchyleniem standardowym szacowany za pomocą s.
e jest stałą Eulera (2.71...)
Ą = pi (3.1415...)
0.8
N(5,0.5)
0.6
0.4
N(3,1)
N(5,1)
0.2
N(3,2)
0.0
-2 -1 0 1 234567
x
30
Statystyka
Wydział Zarządzania Politechniki Białostockiej
X -m
Standaryzacja:
U =

( , ) ł N
N m  łłł (0,1)
Rozkład wzrostu studentek II roku ZiM PB
(rok akademicki 1997/98)
0.20
0.18
P{1650.16
0.14
N(166.6,5.08)
0.12
0.10
0.08
0.06
0.04
0.02
0.00
145 150 155 160 165 170 175 180 185
Wzrost (X)
Dystrybuanta wzrostu studentek II roku ZiM PB
(rok akademicki 1997/98)
0.950
1.0
0.9
0.8
0.7
0.6
0.5
0.376
0.4
0.3
0.2
N(166.6,5.08)
0.1
0.0
145 150 155 160 165 170 175 180 185
Wzrost
31
Częstości względne
Częstości względne
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Funkcja gęstości prawdopodobieństwa
N(100,10)
0.05
Prawo trzech sigma:
 
P{m-1 0.04
 
P{m-2  
P{m-3 0.03
0.6827
0.02
0.9545
0.01
0.9973
0.00
70 80 90 100 110 120 130
Rozkład 2 (Chi-kwadrat)



Rozkładem 2 z  stopniami swobody nazywamy rozkład
następującej sumy:
2 2 2
+ + +
U U U
1 2 
gzie U1, U2,& ,U są niezależnymi zmiennymi losowymi o
rozkładzie normalnym N(0,1).
Funkcja gęstości rozkładu: Rozkład 2 posiada następującą



funkcję gęstości:
2


1
-1 -
f ( ) = "
2
( )
2 2 " 2
e


2
"ł ł
ł ł
2
2
ł łł
32
Statystyka
Wydział Zarządzania Politechniki Białostockiej
2 > 0,  = n-1, n = 1, 2, ...
gdzie
n jest liczbą stopni swobody
e jest stałą Eulera (2.71...)
 (gamma) jest funkcją Gamma (z argumentem ą)
Rozkład Chi2
0.175
P{Chi2<12.55}=0.972
n=5
0.131
P{Chi2<12.55}=0.75
0.087
0.044
n=10
0.000
0.00 6.25 12.50 18.75 25.00
Chi2
Rozkład t (Studenta)
Rozkładem Studenta z  stopniami swobody nazywamy
rozkład przwdopodobieństwa zmiennej losowej t określonej
następująco:
U
t = 
2


33
Statystyka
Wydział Zarządzania Politechniki Białostockiej
2
gdzie U i  są niezależnymi zmiennymi losowymi, U ma

2
rozkład normalny N(0,1) a ma rozkład Chi-kwadrat z  sto-


pniami swobody.
Funkcja gęstości rozkładu: Rozkład t-Studenta posiada nastę-
pującą funkcję gęstości (dla n = 1, 2, . . .):
 +1
v+1
( )
-ł ł
ł ł
2 t2 ł 2 łł
f (t) =
1+
( )


Ą ( )
2
gdzie
-"n jest parametrem kształtu - liczbą stopni swobody
 (gamma) jest funkcją Gamma
Ą jest stałą Pi (3.1415 . . .).
Rozkład t-Studenta
0.4
P{t<1}=0.83
0.3
n=10
0.2
n=1
P{t<1}=0.75
0.1
0.0
-3 -2 -1 0 1 23
t
34
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład F Snedecora
Rozkładem Snedecora ze stopniami swobody (r1,r2) nazywa-
my rozkład prawdopodobieństwa ilorazu:
2
1
r
1
1
Fr r = r
,
2
1 2 1
r
2
r
2
2 2
 r ,  r są niezależnymi zmiennymi losowymi mający
gdzie
1 2
mi rozkład Chi2 odpowiednio z r1 i r2 stopniami swobody.
Funkcja gęstości rozkładu Snedecora
1.0
0.8
F28,16
0.6
0.4
F4,10
0.2
0.0
0 1 23456
F
35
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład logarytmiczno-normalny
Funkcja gęstości rozkładu: Rozkład Lognormalny posiada
następującą funkcję gęstości::
2
(ln y-)
1
-
2
f (y) =
2
e 
y 2Ą
y>0, > 0,  > 0
gdzie
jest parametrem skali
 jest parametrem kształtu
e jest stałą Eulera (2.71...)
Ą = pi (3.1415...)
1 2
-

2
E(Y ) =
e
2 2
2 2+
ł

(Y ) =
ł ł
D e e -1ł
ł łł
Zmienna losowa X=ln Y ma rozkład normalny N(,), więc
P{ad"Yd"b}=P{ln ad"Xd" ln b}.
Przykład: P{2d"Yd"5}=P{ln 2d"Xd" ln 5} obliczamy korzystając
z rozkładu normalnego N(0,1) dokonując wcześniej ewentu-
alnej standaryzacji.
36
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład logarytmiczno-normalny
1.0
0.8
LN(1,0.5)
0.6
0.4
LN(0,0.5)
0.2
0.0
0 1 2345678
37
Statystyka
Wydział Zarządzania Politechniki Białostockiej
PRAWA WIELKICH LICZB
Prawo wielkich liczb Bernouliego
Ciąg zmiennych losowych {Xn} o rozkładach określonych
wzorem (rozkład dwumianowy):
n k n-k
ł ł
k
P{ = } = ł ł
p q
X
n łk ł
n
ł łł
jest zbieżny stochastycznie do wartości p. (prawdopodobieńs-
twa sukcesu), tzn.
k
lim P{| - p |< } = 1
n"
n
Sens zbieżności stochastycznej: wraz ze wzrostem n maleje
prawdopodobieństwo występowania dużych różnic między
zaobserwowaną częstością k/n a prawdopodobieństwem p.
Nie oznacza ona, że granicą tej częstości jest p, czyli
.
k
lim = p
n"
n
Prawo wielkich liczb Czebyszewa
Jeżeli dla ciągu zmiennych losowych {Xk} (k=1,2,...), z któ-
rych każda ma skończoną wartość oczekiwaną E(Xk) oraz
wariancję D2(Xk) jest spełniony warunek
2
lim ( ) = 0 ,
D X
k
k"
to ciąg ten jest zbieżny stochastycznie do wartości oczekiwa-
nej E(Xk), tzn.
lim P{| - E( ) |< } =1
X X
k k
k"
38
Statystyka
Wydział Zarządzania Politechniki Białostockiej
TWIERDZENIA GRANICZNE
Twierdzenie Moivre a-Laplace a
Niech Xn będzie zmienną losową o rozkładzie dwumianowym
z liczbą doświadczeń n i prawdopodobieństwem sukcesu p
w każdym doświadczeniu oraz niech X będzie zmienną losową
o rozkładzie normalnym N(np, ). Oznaczmy przez Fn(x)
npq
wartość dystrybuanty zmiennej losowej Xn w punkcie x i przez
F(x) wartość dystrybuanty zmiennej losowej X w punkcie x.
Między dystrybuantami Fn(x) i F(x) zachodzi związek:
.
lim (x) = F(x )
F
n
n"
Oznacza to, że jeśli próba jest duża (w praktyce n>30), to
rozkład zmiennej losowej o rozkładzie dwumianowym można
przybliżyć rozkładem normalnym o parametrach jak wyżej.
Przykład:
OBOP ocenia, że 50% polskich rodzin żyje poniżej minimum
socjalnego. Wybrano losowo próbę 100 rodzin polskich. Po-
liczmy, jakie jest prawdopodobieństwo, że wśród wybranych
będzie ponad 40 rodzin żyjących poniżej minimum.
Zmienna X100 ma rozkład dwumianowy z n=100 i p=0.5. Nie
można jej przybliżyć rozkładem Poissona (muszą być spełnio-
ne warunki: n>=20, stały iloczyn np równy m, p<0.2), gdyż
p>0.2. Rozkład tej zmiennej można przybliżyć (gdyż n>30)
rozkładem normalnym N(50,5). P{X>40}=1-F(40)=0.9773
(zastosować standaryzację i sprawdzić odczyt dystrybuanty
z tablic).
39
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Szczególny przypadek: zmienna Xn o rozkładzie dwumiano-
wym z parametrami n i p przyjmuje wartości 0, 1, 2, 3, ..., n.
Wtedy zmienna Yn przyjmuje wartości 0, 1/n, 2/n, 3/n, ..., 1.
pq
Rozkład zmiennej Yn można przybliżyć rozkładem N(p, ).
n
Przykład:
Wadliwość produktu A wynosi 5%. Z produkcji pobrano 100
sztuk towaru. Jakie jest prawdopodobieństwo, że udział wadli-
wych sztuk w wybranej partii jest większy niż 4%.
Ponieważ n=100>30, rozkład przybliżymy rozkładem
0.05" 0.95
N(0,05, ) - n=100, p=0.05, q=0.95.
100
Korzystając z tablic dystrybuant rozkładu normalnego może-
my odczytać P{Yn>0.04}=1-F(0.04).
Centralne twierdzenie graniczne Lindenberga-LŁvy ego
Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i zmienna
losowa Xi dla i=1, 2, ..., n ma rozkład N(mi,i), to zmienna
losowa Y=X1+X2+ ... +Xn dla dużych n ma rozkład
2 2 2
N( m1+m2+ ... +mn, + + + ).
  
1 2 n
Przypadek szczególny:
Załóżmy, że zmienne losowe X1, X2, ..., Xn są niezależne.
Jeżeli wszystkie zmienne losowe Xi dla i=1, 2, ..., n mają
rozkład N(m,), to zmienna losowa Y= X1+X2+ ... +Xn ma
rozkład
N(nm,  n ).
40
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład. Grupa 50 studentów II roku ZiM PB planuje wy-
cieczkę z przelotem samolotem do miejsca pobytu. Wiedząc,
że średnio każdy student waży 61 kg z odchyleniem stan-
dardowym 10.5 kg, oraz że waga ma rozkład normalny, obli-
czyć prawdopodobieństwo, że łączna waga grupy przekroczy
3200 kg.
Każda ze zmiennych Xi dla i=1, 2, ..., 50 ma rozkład
N(61,10.5). Aączna waga studentów Y=X1+X2+ ... +Xn, przy
założeniu identyczności rozkładów, będzie miała rozkład
N(50*61 kg, 10.5* ), czyli N(3050,74.2).
50
P{Y>3200}=1-F(3200)=0.0216
Wniosek z centralnego twierdzenia granicznego
Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i zmienna
losowa Xi dla i=1, 2, ..., n ma rozkład N(mi,i), to zmienna
losowa X = 1 (X1+X2+ ... +Xn) ma rozkład
n
1
2 2 2
N( (m1+m2+ ... +mn), 1 ).
+ +
 + 
1 2 n
n n
Szczególny przypadek:
Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i wszystkie
zmienne losowe Xi dla i=1, 2, ..., n mają rozkład N(m,), to
1
zmienna losowa = n (X1+X2+ ... +Xn) ma rozkład
X

N(m, ).
n
Przykład:
Z magazynu w sposób losowy wybrano 100 pudełek proszku
do prania. Waga każdego pudełka jest zmienną losową o war-
tości oczekiwanej 1 kg i odchyleniu standardowym równym
0.05 kg. Policzyć prawdopodobieństwo, że średnia waga
proszku w wybranych pudełkach jest większa niż 1.05 kg.
41
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Średnia waga proszku ma rozkład normalny N(1 kg,0.005 kg).
P{ >1.05}=1-F(1.05)=0.
X 100
Rozkład różnicy
Jeżeli zmienne losowe X1, X2 są niezależne i zmienna losowa
Xi dla i=1, 2 ma rozkład N(mi,i), to zmienna losowa Z=X1 X2
ma rozkład
2 2
+
N( m1 m2,   ).
1 2
42
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Zasady wnioskowania statystycznego
Cecha statystyczna a zmienna losowa.
Próba a zbiorowość statystyczna (populacja).
Postępowanie polegające na dopasowaniu jednego ze znanych
rozkładów prawdopodobieństw do właściwości cech w popu-
lacji (na podstawie informacji z próby) nazywamy wniosko-
waniem statystycznym.
Cele wnioskowania statystycznego:
- ustalenie, jaki rozkład prawdopodobieństwa jest właściwy
dla badanej cechy,
- skonstruowanie na podstawie przyjętego rozkładu prawdo-
podobieństwa rozkład cechy statystycznej.
Wnioskowanie nieparametryczne  gdy wnioskowanie doty-
czy postaci rozkładu prawdopodobieństwa, czyli postaci fun-
kcji prawdopodobieństw, funkcji gęstości, dystrybuanty.
Wnioskowanie parametryczne  gdy wiadomo jaki jest roz-
kład badanej cechy, a problem polega na ustaleniu wartości
parametrów tego rozkładu.
Metody wnioskowania statystycznego:
- estymacja, czyli szacowanie na podstawie informacji z pró-
by postaci rozkładu cechy statystycznej w populacji
generalnej,
- weryfikacja hipotez statystycznych, czyli sprawdzanie na
podstawie informacji z próby formułowanych założeń
o rozkładzie cechy statystycznej z populacji.
43
Statystyka
Wydział Zarządzania Politechniki Białostockiej
By wyniki wnioskowania statystycznego były prawidłowe,
próba powinna być dobierana losowo a stosowane techniki
muszą być wybierane właściwie.
Próba losowa prosta  jest to ciąg niezależnych zmiennych
losowych X1, X2, ..., Xn o jednakowym rozkładzie, takim jak
rozkład zmiennej losowej X w populacji.
Statystyką z próby nazywamy zmienną losową Zn będącą
funkcją zmiennych X1, X2, ..., Xn stanowiących próbę losową.
Rozkład statystyki Zn=z(X1, X2, ..., Xn) zależy od rozkładu
w populacji i liczebności próby.
Stwierdzenia istotne dla wnioskowania statystycznego:
1. Jeżeli dobór próby jest losowy, to najbardziej prawdopo-
dobne są próby zbliżone strukturą do struktury populacji.
2. Losowość próby oznacza, że każda z możliwych do wylo-
sowania prób ma określone prawdopodobieństwo poja-
wienia się, zwane jej wiarygodnością.
3. Statystyki z próby (średnia arytmetyczna, dominanta,
wariancja, częstość i inne) są zmiennymi losowymi.
4. Średnia arytmetyczna z próby losowej pobranej z popula-
cji, w której rozkład prawdopodobieństw jest określony
co do wartości parametrów E(X)=m i D2(X)=2, ma roz-
kład prawdopodobieństwa, który:
jest określony przez parametry o wartościach odpo-
wiednio: 2
2

E(X ) m (X ) =
=
D
n
wraz ze wzrostem próby rozkład średniej arytmetycz-
nej dąży do rozkładu normalnego (twierdzenie Linden-
berga-LŁvy ego).
44
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkłady dokładne wybranych statystyk
Rozkład średniej arytmetycznej z próby n-elementowej pocho-
dzącej z populacji normalnej o znanym m i :
Zn = ma rozkład N(m,  ).
X n
n
Rozkład średniej arytmetycznej z próby pochodzącej z popula-
cji normalnej o nieznanym odchyleniu standardowym
Statystyka
X - m
= n -1
T
n-1
S
ma rozkład Studenta z n-1 stopniami swobody, gdzie S jest
odchyleniem standardowym obliczonym z n-elementowej
próby wg wzoru:
n
2
2 1
=
( - X )
"
S
X
i
n
i=1
Przy dużych n (>30) statystyka n- 1 ma rozkład zbliżony do
T
rozkładu N(0,1).
Przykład:
Z populacji o rozkładzie normalnym N(12,) przy nieznanym
 pobrano próbkę liczącą 10 elementów. Jakie jest prawdo-
podobieństwo, że średnia arytmetyczna z próby jest większa
od 11.5 przy odchyleniu S=1.5.
X -12
T
9
Zmienna losowa = 9 ma rozkład Studenta z 9-
1.5
cioma stopniami swobody.
X -12 11.5 -12
P{ >11.5}=P{ }=P{T9>-1}=0.85
3 > 3
X
10
1.5 1.5
45
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Gdyby n=50, możemy skorzystać z tego, że rozkład Tn przy n
dużych jest zbliżony do rozkładu N(0,1).
X -12 11.5 -12
7 > 7
P{ >11.5}=P{ }=
X
50
1.5 1.5
=P{T9>-2.33}=F(-2.33)=1-F(2.33)=0.9906.
Rozkład różnicy średnich arytmetycznych z prób pochodzą-
cych z dwóch populacji normalnych o znanych odchyleniach
standardowych
1 próba pochodzi z populacji o rozkładzie N(m1,1)
2 próba pochodzi z populacji o rozkładzie N(m2,2)
2 2
 + 
1 2
Zn = X 1 - ma rozkład N(m1 m2, ).
X 2
n n
1 2
Rozkład różnicy średnich arytmetycznych z prób pochodzą-
cych z dwóch populacji normalnych z nieznanymi (ale nie
różniącymi się) odchyleniami standardowymi
Statystyka
( - ) - ( - ) "
X X m m n n
1 2 1 2 1 2
= ( + - )
n n 2
Tn n - 1 2
+
2 2
2
1 2
+
" " n n
1 2
n S +n S
1 1 2 2
ma rozkład Studenta z n1+n2-2 stopniami swobody, gdzie n1
i n2  liczebności prób, S1 i S2  odchylenia standardowe
z pierwszej i drugiej próbki.
46
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład wariancji z próby dla populacji normalnej
Jeżeli cecha X ma w populacji generalnej rozkład N(m,) a S2
jest to wariancja policzona z n-elementowej próby, to
statystyka
2
2 n
S
=

2
n-1

ma rozkład chi-kwadrat z n-1 stopniami swobody.
Rozkład ilorazu wariancji dla dwóch prób z populacji normal-
nych
Z dwu niezależnych populacji o rozkładach normalnych
N(m1,1) i N(m2,2) wylosowano próby proste liczące odpo-
2 2
wiednio r1 i r2 elementów i obliczono wariancje i 2 , to
S S
1
2
statystyka
r S
1 1
2
( -1)
 r
1 1
=
Fr 2
1-1,r
2-1
r S
2 2
2
( -1)
 r
2 2
ma rozkład Snedecora z r1-1 i r2-1 stopniami swobody.
47
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład częstości (frakcji)
Jeżeli zmienna losowa X zdefiniowana jako liczba  sukce-
sów w n losowaniach ma rozkład dwumianowy z prawdopo-
dobieństwem wylosowania  sukcesu w pojedynczym losowa-
niu p, to (biorąc pod uwagę twierdzenie Moivre a-Laplace a)
przy liczbie doświadczeń n częstość występowania  sukce-
sów
n
i
, gdzie ni oznacza liczbę sukcesów, także
=
w
i
n
ma rozkład dwumianowy o parametrach:
p(1- p)
E(
w) = p, D(w) =
i i
n
Przy odpowiednio dużej liczbie pomiarów (n>120), rozkład
częstości wi można przybliżyć rozkładem normalnym z po-
wyższymi parametrami.
Rozkład różnicy dwóch częstości (frakcji)
Jeżeli mamy dwie niezależne zmienne losowe, każda o rozkła-
dach dwumianowym, odpowiednio o parametrach p1 przy licz-
bie doświadczeń n1 i p2 przy n2 doświadczeniach, to różnica
między częstościami wi=w1i-w2i ma rozkład graniczny (przy
odpowiednio dużych n [n>120]) normalny o parametrach
m = E(
p p
w) = - ,
i
1 2
(1- ) (1- )
p p p p
1 1 2 2
 = D( +
w) =
i
n n
1 2
48
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Podstawy teorii estymacji (szacowania)
Estymacja punktowa
Jednym z narzędzi wnioskowania statystycznego jest estyma-
tor. Estymator to statystyka zbudowana na wynikach próby.
Estymatorami mogą być: średnia arytmetyczna, dominanta,
kolejne kwartyle, odchylenie standardowe i inne.
W przypadku wnioskowania parametrycznego estymatory
służą do oszacowania parametrów rozkładów.
Przykłady parametrów podlegających oszacowaniu w trakcie
wnioskowania statystycznego:
-  =E(X)  gdy zmienna X ma rozkład Poissona,
- p= E(X)/n  gdy zmienna X ma rozkład dwumianowy,
- m= E(X) i 2 (X )  gdy zmienna losowa X ma roz-
 =
D
kład normalny itd.
W przypadku wnioskowania nieparametrycznego celem jest
ustalenie postaci funkcji gęstości lub dystrybuanty rozkładu, a
estymatory służą do oceny prawdopodobieństw P{X=x0} dla
cech skokowych lub P{x1Oznaczmy ogólnie estymator przez Tn, a szacowany parametr
przez Ś (teta).
Różnicę Tn-Ś=d nazywamy błędem oszacowania (estymacji).
Błąd szacunku jest zmienną losową, a miarą tego błędu jest
"=E(Tn Ś)2
Jeżeli E(Tn)=Ś, to " jest wariancją D2(Tn) estymatora Tn.
Odchylenie standardowe D(Tn) nazywamy standardowym błę-
dem szacunku parametru Ś.
Wyrażenie D(Tn)/Ś nazywamy względnym błędem szacunku.
49
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Pożądane właściwości estymatorów:
Nieobciążoność estymatora:
Tn jest niebciążonym estymatorem parametru Ś, jeśli E(Tn)=Ś.
W przeciwnym przypadku estymator nazywamy obciążonym,
a b(Tn)=E(Tn) Ś nazywamy obciążeniem estymatora.
Przykłady estymatorów nieobciążonych:
- średnia arytmetyczna jest nieobciążonym estymatorem
wartości oczekiwanej, n
2
2 1
=
(
" - X )
\ X
i
- wariancja obliczona ze wzoru
jest obcią-
n
i=1
żonym estymatorem wariancji D2(X) w populacji z obciąże-
2
niem b( X)/n.
\ )= D2(n
2
Wariancja S2= - 1 jest estymatorem nieobciążonym.
\
n
Efektywność estymatora:
Najefektywniejszym estymatorem spośród nieobciążonych
estymatorów jest ten, który ma najmniejszą wariancję.
1 2
Rozważmy dwa nieobciążone estymatory i n parame-
T T
n
*
tru Ś. Jeżeli estymator jest estymatorem najefektywniej-
T
n
i
szym parametru Ś, to dla dowolnego estymatora iloraz:
T
n
2 *
( )
i
D T
n
e( ) =
T 2 i
n
( )
D T
n
i i
e )
T T
Jest miarą efektywności estymatora n . ( n przyjmuje
wartości z przedziału (0;1].
50
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Funkcja gęstości estymatora
T2n o parametrach Ś i D(T2n)
Funkcja gęstości
estymatora T1n
o parametrach Ś
i D(T1n)
Ś
Zgodność estymatora:
Estymator Tn parametru Ś jest estymatorem zgodnym, jeżeli
dla dowolnie małego >0 zachodzi:
lim P( - < ) = 1
T Ś
n
n"
Estymatory:
- nieobciążone dają, średnio biorąc, prawdziwe oceny para-
metru,
- najefektywniejsze dają, średnio biorąc, oceny parametru
najmniej różniące się od faktycznych wartości,
- zgodne dają oceny tym bliższe prawdy, im liczniejsza jest
próba będąca podstawą wnioskowania.
Metody konstrukcji estymatorów: metoda największej wiary-
godności i metoda najmniejszych kwadratów.
51
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Podsumowanie estymacji punktowej:
Przykład:
Stwierdzono, że liczba awarii urządzenia w ciągu godziny
może być uznana za zmienną losową o rozkładzie Poissona.
Nieznana jest wartość parametru m=E(X) w tym rozkładzie. W
ciągu 100 godzin pracy tego urządzenia zarejestrowano 10
awarii. Najlepszym estymatorem parametru m jest średnia
arytmetyczna. Dla tej próby =10/100=0.1.
x
Estymacja punktowa polega na przyjęciu za wartość parame-
tru wartości jego estymatora, czyli m=0.1.
Jedyną informacją o jakości takiego postępowania jest ocena
zróżnicowania wartości, jakie może przyjmować estymator,
czyli ocena jego średniego błędu szacunku wyrażonego przez
odchylenie standardowe D(Tn).
W przykładzie
D(X ) m
D(x) = = = 0.1/10 = 0.01
n n
Można powiedzieć, że m= x=0.1 ze średnim błędem szacunku
x
D( )=0.01.
Wynik estymacji punktowej można zapisać w następujący
sposób: Ś=TnąD(Tn)
Jeżeli estymator Ś ma rozkład normalny, to
P{Ś D(Tn)czyli
P{ Tn D(Tn)< Ś < Tn +D(Tn)}=0.68.
52
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Estymacja przedziałowa
Załóżmy, że cecha X ma rozkład z nieznanym parametrem .
Załóżmy, że na podstawie n-elementowej próby pochodzącej
z tej populacji możemy wyznaczyć dwie funkcje ( 1, 2 , , n)
x x x
oraz ( , , ) i dla przyjętego prawdopodobieństwa 1-
x ,x x
1 2 n
ą zachodzi:
P{( , , , ) <<( , , , )} = 1-ą
x x x x x x
1 2 n 1 2 n
(,)
Przedział nazywamy przedziałem ufności parametru ,
natomiast ustalone z góry prawdopodobieństwo 1-ą współ-
czynnikiem ufności.
Precyzja estymacji przedziałowej zależy:
- od decydenta, który ustala poziom ufności,
- od sytuacji decyzyjnej, czyli zakresu informacji o rozkła-
dzie badanej cechy, np. czy znane jest odchylenie standar-
dowe rozkładu D(X).
n n
2 2
2 1 2 1
() ()
Ustalmy, że = " - X oraz = " - X .
S
\ n -1 X X
i i
n
i=1 i=1
Przedział ufności dla parametru m w populacji normalnej
z nieznanym odchyleniem standardowym.
x - m
= n -1
t
n-1
s
P{- d" d" }= 1-ą
tą ,n-1 n-1 ,n-1
t tą
ńł ł
x -m
Pł- d" n-1 d" =1-ą
żł
t t
ą,n-1 ą,n-1
s
ół ł
ńł s s ł
Pł ą,n-1 d" md" =1-ą
żł
x-t x+t
ą,n-1
n-1 n-1ł
ół
53
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przedział ufności dla parametru p w populacji z rozkładem
dwumianowym.
Jeżeli zmienna losowa X ma rozkład dwumianowy z niezna-
X
nym p, estymatorem może być częstość , który ma
p =
Ć
n
p
Ć
także rozkład dwumianowy z wartością oczekiwaną E( )=p
p(1- p)
i odchylenie standardowym .
D( p) =
Ć
n
Dla dostatecznie dużych n na podstawie twierdzenia
X
Moivre a-Laplace a statystyka ma w przybliżeniu
p =
Ć
n
rozkład
p(1- p)
N( p, )
n
a statystyka
p - p
Ć
U = rozkład normalny N(0,1).
p(1- p)
n
P{- d" U d" }= 1-ą
uą
uą
Zatem
ńł ł
ł ł
p - p
Ć ł
Pł- d" d" = 1-ą
ł żł
uą
uą
p(1- p)
ł ł
ł ł
n
ół ł
Przyjmując
p(1- p) p(1- p)
Ć Ć
H"
n n
ńł ł
p(1 - p) p(1- p)
Ć Ć Ć Ć
Pł p - d" p d" p + = 1-ą
Ć Ć
żł
uą
uą
n n
ół ł
54
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wybrane parametry i ich najlepsze estymatory
oraz reguły konstrukcji przedziałów ufności:
Parametr Esty- Rozkład Przedział ufności
mator parametry
 
E(X)=m x Normalny
x - d" m d" x +
u u
ą ą
n n
 znane
Normalny n<=120 (30)
S S
 nieznane
x - d" m d" x +
tą ,n-1
tą ,n-1
n -1 n -1
Normalny n>120 (30)
S S
lub inny
x - d" m d" x +
u u
ą ą
n n
 nieznane
Normalny n<=30
D2(X)=2
n 2 2 n 2
d" d"
2 s  2 s
ą  ą
,n-1 1- ,n-1
2 2
lub
n - 1 2 2 n - 1 2
d" d"
2 s  2 s
 ą  ą
,n-1 1- ,n-1
2 2
S
D(X) Normalny n>30
S S
d" d"

u u
ą ą
1+ 1-
2n 2n
n>120
p
p
Ć Rozkład
dwumia-
p(1 - p) p(1- p)
Ć Ć Ć Ć
p - d" p d" p +
Ć Ć
uą
uą
nowy
n n
55
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Problem minimalnej liczebności próbki
a) Cecha ma rozkład N(m,) przy znanym  i konieczności
2
2
oszacowania parametru m:
"

u
ą
n=
2
d
b) Cecha ma rozkład N(m,) przy nieznanym  i konieczności
oszacowania parametru m:
Z wstępnej liczącej n0 elementów próbki oblicza się
n
2
2
1
=
"
( - X)
S
X
i
-1
i=1
n
0
a następnie
2 2
"
t s
ą, - 1
n
0
n =
2
d
c) W przypadku szacowania prawdopodobieństwa  sukcesu p
należy na podstawie próbki liczącej co najmniej 100 element-
ów należy oszacować wstępnie p i wyliczyć minimalną liczeb-
ność próbki:
2
" p "(1- p)
u
ą
n =
2
d
Jeżeli brak jest podstaw do oszacowania p, przyjmujemy
najmniej sprzyjający przypadek p=q=0.5 i mamy:
2
uą
=
n
2
4d
56
Statystyka
Wydział Zarządzania Politechniki Białostockiej
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Hipoteza statystyczna  każde przypuszczenie dotyczące
rozkładu cechy w populacji generalnej (jego postaci funkcyj-
nej lub wartości parametrów). Prawdziwość hipotezy staty-
stycznej ocenia się na podstawie wyników próby losowej.
Hipotezy:
 nieparametryczne dotyczą postaci funkcyjnej rozkładu,
współzależności cech, losowości próby;
 parametryczne dotyczą parametrów rozkładu w popula-
cji generalnej.
Hipotezą zerową H0 nazywamy hipotezę sprawdzaną
(weryfikowaną, testowaną).
Hipotezą alternatywną H1 nazywamy hipotezę, którą przyj-
mujemy, gdy odrzucamy hipotezę H0.
Test statystyczny jest to reguła postępowania, która przypo-
rządkowuje wynikom próby losowej decyzję przyjęcia lub
odrzucenia hipotezy H0.
Błąd I rodzaju polega na odrzuceniu hipotezy H0, mimo że
jest ona prawdziwa.
Poziomem istotności ą nazywamy prawdopodobieństwo po-
ą
ą
ą
pełnienia błędu I rodzaju. Wartości ą są bliskie zera i na ogół
przyjmuje się jako równe 0.1, 0.05, 0.02, 0.01, 0.005, 0.002,
0.001.
Błąd II rodzaju polega na przyjęciu hipotezy H0, gdy jest ona
fałszywa. Prawdopodobieństwo popełnienia błędu II rodzaju
oznacza się przez . Wartości ą i  są powiązane.
Zmniejszanie jednej z nich powoduje zwiększanie drugiej.
57
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Testy istotności (testy najmocniejsze) dla zadanego z góry
poziomu istotności ą zapewniają możliwie najmniejszą war-
tość prawdopodobieństwa .
Sprawdzianem hipotezy nazywamy taką statystykę z próby
Zn o znanym rozkładzie (najczęściej statystyka ta ma rozkład
normalny N(0,1), t-Studenta, 2, F Snedecora), której wartość
zn policzona na podstawie próby losowej, pozwala na podjęcie
decyzji, czy odrzucić hipotezę H0.
Rozkład sprawdzianu określa, z jakich tablic należy odczyty-
wać wartość krytyczną Zą, która wyznacza obszar krytyczny.
Obszarem krytycznym (odrzucenia hipotezy H0) nazywamy
zbiór tych wartości sprawdzianu hipotezy Z, które przemawia-
ją za odrzuceniem hipotezy H0.
W zależności od postaci hipotezy alternatywnej H1 obszar kry-
tyczny może być obszarem jednostronnym lub dwustron-
nym.
Parametryczne testy istotności
Testowanie hipotezy o wartości średniej w populacji
Model I. Populacja generalna ma rozkład N(m,), przy czym
 jest znane. Na podstawie próby n-elementowej sprawdzić
hipotezę
a) H0: m= m0,H1: m`"m0.
b) H0: m= m0,H1: mc) H0: m= m0,H1: m>m0.

Średnia ma rozkład N(m0, ).
X
n
X -
m
0
Sprawdzianem hipotezy H0 jest statystyka
= n
u
uobl

58
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Z tablic rozkładu N(0,1) lub t-Studenta z " liczbą stopni
swobody odczytujemy wartość krytyczną uą.
Rozkład normalny N(0,1)
a)
0.60 H0: m= , H1: m`" .
H1: m`"m0 (ą=0.05)
0.45
0.30
ą/2
ą/2
0.15
0.00
-3.92 -1.96 0.00 1.96 3.92
Przedział krytyczny
-uą uą Przedział krytyczny
U
Rozkład normalny N(0,1)
0.60
H1: m0.45
0.30
ą
0.15
0.00
-3.290 -1.645 0.000 1.645 3.290
Przedział krytyczny
-u2ą
U
59
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład normalny N(0,1)
0.60
H1: m>m0 (ą=0.05)
0.45
0.30
ą
0.15
0.00
-3.290 -1.645 0.000 1.645 3.290
u2ą Przedział krytyczny
U
Gdy uobl znajduje się w przedziale krytycznym, na poziomie
istotności ą za słuszną przyjmujemy H1. W przeciwnym razie
wniosek brzmi: brak podstaw do odrzucenia H0.
Model II. Populacja generalna ma rozkład N(m,), przy czym
 jest nieznane. Na podstawie próby n-elementowej spraw-
dzić hipotezę
a) H0: m= m0,H1: m`"m0.
b) H0: m= m0,H1: mc) H0: m= m0,H1: m>m0.
Sprawdzianem hipotezy H0 jest statystyka
X - m X - m
tobl, n - 1 = n -1 = n
s %5ń
60
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Z tablic rozkładu t-Studenta z n-1 stopniami swobody odczy-
tujemy wartość krytyczną tą,n-1. Dalej postępujemy analogicz-
nie jak w modelu I.
Przykład: Zakłada się, że  długość życia opon samochodo-
wych ma rozkład normalny. Producent twierdzi, że przeciętne
 życie jego opon wynosi 50 tys. km. Na podstawie 100 loso-
wo wybranych opon otrzymano =45 tys. km i s=8 tys. km.
X
Czy na poziomie istotności ą=0.05 można uważać, że produ-
cent ma rację?
X - m 45 - 50
tobl = n = 100 = -6.25
s 8
Ponieważ |tobl|>t0.05,99=1.98, więc można uznać na poziomie
istotności ą=0.05, że producent nie ma racji. Przeciętna
 długość życia jego opon jest istotnie krótsza niż 50 tys. km.
Model III. Populacja generalna ma dowolny rozkład z niezna-
nymi parametrami. Na podstawie dużej próby n-elementowej
sprawdzić hipotezę
a) H0: m= m0,H1: m`"m0.
b) H0: m= m0,H1: mc) H0: m= m0,H1: m>m0.
Korzystamy z tego, że średnia arytmetyczna z próby wylo-
sowanej z dowolnej populacji ma asymptotyczny rozkład nor-
malny, a odchylenie standardowe s z próby jest stochastycznie
zbieżne do D(X) w populacji.
Sprawdzianem hipotezy H0 jest statystyka
X - m
uobl = n
s
Z tablic rozkładu N(0,1) lub t-Studenta z " liczbą stopni
swobody odczytujemy wartość krytyczną uą.
61
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Testowanie hipotezy o równości dwóch średnich
Model I. Dane są dwie populacje o rozkładach normalnych
N(m1,1) i N(m2,2) ze znanymi 1 i 2. W oparciu o dwie
losowe próby n1 i n2 elementowe sprawdzić hipotezę
H0: m1= m2,H1: m1`" m2.
Sprawdzianem hipotezy H0 jest statystyka
-
X X
1 2
uobl =
2 2
 
1 2
+
n n
1 2
Z tablic rozkładu N(0,1) lub t-Studenta z " liczbą stopni
swobody odczytujemy wartość krytyczną uą.
Model II. Dane są dwie populacje o rozkładach normalnych
N(m1,1) i N(m2,2) z nieznanymi 1 i 2, ale 1=2. W opar-
ciu o dwie małe niezależne próby losowe n1 i n2 elementowe
sprawdzić hipotezę H0: m1= m2,H1: m1`" m2.
Sprawdzianem hipotezy H0 jest statystyka
-
X X
1 2
tobl =
2 2
+ ł ł
s s 1 1
n n
1 2
1 2
ł ł
+
ł ł
+ - 2
n n n n
1 2 ł 1 2 łł
Z tablic rozkładu t-Studenta z n1+n2-2 liczbą stopni swobody
odczytujemy wartość krytyczną tą.
62
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Jeżeli wnioskowanie odbywa się w oparciu o dwie małe zależ-
ne próby losowe n elementowe (n par obserwacji) sprawdzić
hipotezę H0: m1- m2=0, H1: m1-m2`"0.
Sprawdzianem hipotezy H0 jest statystyka
Z
tobl = n -1
s
Z
gdzie jest średnią arytmetyczną różnic pomiarów sparowa-
Z
nych a sz jest odchyleniem standardowym tych różnic.
Z tablic rozkładu t-Studenta z n-1 stopniami swobody odczy-
tujemy wartość krytyczną tą.
Model III. Dane są dwie populacje o rozkładach normalnych
N(m1,1) i N(m2,2) ze nieznanymi 1 i 2. W oparciu o dwie
duże losowe próby n1 i n2 elementowe sprawdzić hipotezę
H0: m1= m2,H1: m1`" m2.
Sprawdzianem hipotezy H0 jest statystyka
-
X X
1 2
uobl =
2 2
s s
1 2
+
n n
1 2
Z tablic rozkładu N(0,1) lub t-Studenta z " liczbą stopni
swobody odczytujemy wartość krytyczną uą.
63
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Test hipotezy o wariancji
Populacja generalna ma rozkład N(m,) o nieznanych parame-
trach. Z populacji tej wylosowano niezależnie n-elementową
próbę, na podstawie której należy sprawdzić hipotezę
2 2 2 2 2
H0: = kontra H1: > , gdzie jest hipote-
    
0 0 0
2
tyczną wartością wariancji .

Sprawdzianem hipotezy H0 jest statystyka
2 2
n
2
n (n -1)
1
2
s %5ń
obl =
 = =
(xi-x)
"
2 2 2
i=1
  
0 0 0
Z tablic rozkładu 2 z n-1 stopniami swobody odczytujemy
2

wartość krytyczną .
ą
Test hipotezy o dwóch wariancjach
Badamy dwie populacje generalne o rozkładach N(m1,1)
i N(m2,2) o nieznanych parametrach. Z populacji tej wyloso-
wano niezależnie dwie próby n1 i n2-elementowe próby, na
podstawie których należy sprawdzić hipotezę
2 2 2 2
H0: = 2 kontra H1: `" 2 .
   
1 1
Sprawdzianem hipotezy H0 jest statystyka
2
2 2
%5ń
1
Fobl = , >
2 %5ń %5ń
1 2
%5ń
2
Z tablic rozkładu F-Snedecora z r1=n1-1 i r2=n2-1 stopniami
swobody odczytujemy wartość krytyczną Fą.
64
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Test istotności dla frakcji (wskaznika struktury)
Populacja generalna ma rozkład zero-jedynkowy z parame-
trem p. Dla takiej populacji w oparciu o n-elementową dużą
próbę zweryfikujemy hipotezę, że parametr p ma w populacji
pewną wartość p0, czyli:
H0: p=p0 wobec alternatywnej hipotezy H1: p`"p0
Sprawdzianem hipotezy H0 jest statystyka
m
-
p
0
n
uobl = ,
(1- )
p p
0 0
n
gdzie m oznacza liczbę elementów wyróżnionych w próbie.
Z tablic rozkładu N(0,1) lub t-Studenta z " liczbą stopni
swobody odczytujemy wartość krytyczną uą.
Test istotności dla różnicy dwóch frakcji
Badamy dwie populacje generalne o rozkładach zero-jedynko-
wych z parametrami p1 i p2. Dla tych populacji w oparciu o n1
i n2-elementowe duże próby zweryfikujemy hipotezę:
H0: p1=p2 wobec alternatywnej hipotezy H1: p1`"p2
Sprawdzianem hipotezy H0 jest statystyka
m m
1 2
-
n n
1 2
uobl = ,
(1- )
p p
n
m + m
1
n n
1
p =
gdzie 2 , a 2 .
n =
+n
n +n
1
2 n
1
2
Z tablic rozkładu N(0,1) lub t-Studenta z " liczbą stopni
swobody odczytujemy wartość krytyczną uą.
65
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Nieparametryczne testy istotności
Testy zgodności
Test zgodności 2



Niech zerową hipotezą będzie przypuszczenie, że populacja
generalna ma rozkład określony dystrybuantą F0(x):
H0: F(x)=F0(x) (cecha ma rozkład zgodny z wybranym roz-
kładem teoretycznym),
H1: F(x)`"F0(x) (cecha ma rozkład inny niż wybrany roz-
kład teoretyczny).
Test zgodności 2 można stosować wtedy, gdy:
- dane pochodzą z dużej n-elementowej próby wylosowanej
w sposób niezależny,
- dane są przedstawione w postaci szeregu rozdzielczego o k
przedziałach klasowych o liczebnościach n1, n2, ... nk (nie"5),
- rozkład hipotetyczny sprecyzowany w H0 może być
rozkładem typu ciągłego jak i skokowego.
Sprawdzianem hipotezy H0 jest statystyka
2
k (ni -n )
pi
2
=

"
obl.
i = 1
n
p
i
pi  prawdopodobieństwo, że cecha X przyjmuje wartość
należącą do i-tego przedziału klasowego,
npi  liczba jednostek, które powinny znalezć się w i-tym
przedziale przy założeniu, że cecha ma rozkład zgodny z roz-
kładem teoretycznym określonym w H0.
Z tablic rozkładu 2 z k-s-1 stopniami swobody odczytujemy
2

wartość krytyczną (s  liczba parametrów, które szacuje-
ą
my z próby).
66
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład: Producent proszku do prania uważa, że rozkład wagi
pudełka proszku jest N(m,). Na podstawie 150 wylosowa-
nych niezależnie pudełek otrzymano:
Liczba pudełek
Waga pudełka (w gramach)
575-585 16
585-595 34
595-605 50
605-615 38
615-625 12
Na poziomie istotności ą=0.05 zweryfikować hipotezę, że
rozkład wagi pudełek proszku (X) jest normalny.
H0: X ma rozkład N(m,),
H1: X ma inny rozkład.
Parametry m i  są nieznane, więc szacujemy je z próby:
x =599.7; s2=122.59; s=11.07.
Oznaczmy:
i  nr klasy,
x - x
i1
=
t
xi1  górna granica i-tego przedziału, .
i1
s
2
(ni-n )
pi
i
xi1 ui1 F(ui1) pi npi ni
p
n
i
1 585 -1.33 0.0885 0.0885 13.3 16 0.548
2 595 -0.42 0.3446 0.2561 38.4 34 0.504
3 605 0.48 0.6915 0.3469 52.0 50 0.077
4 615 1.38 0.9192 0.2277 34.2 38 0.422
5 2.28 1,0000 0.0808 12.1 12 0.000
"
Razem 1.0000 150.0 150 1.551
2 2
5.991
 <
Stopni swobody=5-2-1=2, obl=1.551 0.05 = . Brak pod-

.
staw, by odrzucić hipotezę, że cecha ma rozkład normalny.
67
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Test zgodności 
-Kołmogorowa


Niech zerową hipotezą będzie przypuszczenie, że populacja
generalna ma rozkład typu ciągłego określony dystrybuantą
F0(x):
H0: F(x)=F0(x) (cecha ma rozkład zgodny z wybranym roz-
kładem teoretycznym),
H1: F(x)`"F0(x) (cecha ma rozkład inny niż wybrany roz-
kład teoretyczny).
Sprawdzianem hipotezy H0 jest statystyka
 = n
D
n
gdzie
= sup | F(x)-F*(x)|
D
n
-"68
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przy czym F(x) oznacza dystrybuantę teoretyczną, a F*(x) dy-
strybuantę empiryczną. Jeżeli ni sk jest liczebnością skumulo-
waną odpowiadającą wartościom cechy nie większym od x, to
n
i sk
F * ( x) =
n
Statystyka  przy założeniu prawdziwości H0 ma asympto-
tyczny rozkład -Kołmogorowa. Z tablic dystrybuant tego
rozkładu odczytujemy wartość krytyczną ą (P(e"ą)=ą).
Przykład: Inny sposób testowania hipotez
H0: waga pudełka proszku ma rozkład N(m,),
H1: ma inny rozkład
z poprzedniego przykładu (ą=0.05).
Wartości dystrybuanty F(ti1) wzięto z tabelki z poprzedniego
przykładu, pozostałe obliczenia pomocnicze zawiera poniższa
tabela:
i
xi1 ni ni sk F*(ti1) F(ti1) |F(ti1)-F*(ti1)|
1 585 16 16 0.11 0.0885 0.0215
2 595 34 50 0.33 0.3446 0.0146
3 605 50 100 0.67 0.6915 0.0215
4 615 38 138 0.92 0.9192 0.0008
5 12 150 1.00 1,0000 0.0000
"
= 150
Dn=0.0215, . "0.0215=0.263.

obl
Ponieważ obl=0.263 < 0.05=1.36, nie ma podstaw do odrzuce-
nia H0, że rozkład wagi pudełka proszku jest N(m,).
69
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Nieparametryczne (niezależne od rozkładu) testy istotności
dla dwóch prób
Testy te są nieparametryczną alternatywą dla testów do po-
równania średnich arytmetycznych wymagających spełnienia
podstawowego założenia, że cecha ma rozkład normalny.
Test Kołmogorowa-Smirnowa
Test służy do weryfikacji hipotezy, że dwie populacje mają je-
dnakowy rozkład (inaczej, że dwie próby pochodzą z tej samej
populacji). W obu populacjach cecha jest ciągła o rozkładach
opisanych dystrybuantami F1(x) i F2(x). Testowane hipotezy
mają postać:
H0: F1(x)=F2(x),
H1: F1(x)`"F2(x).
Sprawdzianem hipotezy H0 jest statystyka
"
n n
1 2
 = n
Dn n , n = n +n
1, 2
1 2
gdzie
* *
Dn n =sup |Fn (x)-Fn (x)|
1, 2 1 2
x
* *
Fn (x),Fn (x)
n1, n2  liczebności dużych prób z obu populacji,
1 2
są dystrybuantami empirycznymi w próbach.
Statystyka  przy założeniu prawdziwości H0 ma asympto-
tyczny rozkład -Kołmogorowa. Z tablic dystrybuant tego
rozkładu odczytujemy wartość krytyczną ą (P(e"ą)=ą).
70
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład: Mając dane zawarte w poniższej tabeli zweryfiko-
wać hipotezę, że rozkład wieku lekarzy na wsi i w mieście jest
taki sam (ą=0.05).
* *
*
*
Liczba lekarzy
Wiek Fn (x) Fn (x) |Fn (x)-Fn (x)|
2
1 2 1
wiejskich miejskich
25-30 30 20 0.086 0.050 0.036
30-35 40 30 0.200 0.125 0.075
35-40 70 80 0.400 0.325 0.075
40-45 100 90 0.686 0.550 0.136
45-50 60 110 0.857 0.825 0.032
50-55 40 40 0.971 0.925 0.046
55-60 10 30 1.000 1.000 0.000
H0: F1(x)=F2(x),
H1: F1(x)`"F2(x).
 = 186.7"0.136=1.86>0.05=1.36, więc odrzucamy hipote-
.
obl
zę H0 (struktury wieku lekarzy na wsi i w mieście są różne.
Test serii Walda-Wolfowitza
Hipoteza zerowa H0 stwierdza, że dwie porównywane
próby niezależne pochodzą z tej samej populacji, czyli mają
taki sam rozkład (normalny lub jakikolwiek inny). H1 stwier-
dza, że próby pochodzą z populacji o różnych rozkładach
(jakiekolwiek różnice).
Zasada: wszystkie pomiary z dwóch prób rangujemy łącznie
i określamy stopień przemieszania prób poprzez ustalenie licz-
by serii w szeregu rangowym:
określamy stopień przemieszania prób poprzez ustalenie
liczby serii w szeregu rangowym:
ABBBABAAAABAABAAAABBBBBBAA
Niech r oznacza liczbę serii, n1 i n2  liczebności prób.
71
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Jeżeli liczebności prób są mniejsze lub równe 20, musimy
skorzystać ze specjalnych tabel lub pakietów statystycznych.
Jeżeli n1 i n2 są większe niż 20, to rozkład liczby serii można
przybliżyć rozkładem normalnym:
2n1n 2 2n1n 2(2n1n 2-n1-n 2)
N(1+ , )
2
+n
(n1+n 2)
n (n1+n 2-1)
1 2
mr

r
Sprawdzianem hipotezy H0 jest statystyka
r -
m
r
uobl =

r
gdzie r oznacza liczbę serii.
Z tablic rozkładu N(0,1) lub t-Studenta z " liczbą stopni
swobody odczytujemy wartość krytyczną uą.
Przykład: W celu porównania wyników studiów studentów
dwóch wydziałów pewnej uczelni, wylosowano dwie próby
reprezentujące studentów obu wydziałów. Dla wydziału A
otrzymano następujące średnie oceny z sesji egzaminacyjnej:
3.64, 4.20, 3.25, 4.50, 4.63, 4.88, 2.65, 4.00, 3.24, 4.15, 4.73,
5.00, 2.60, 2.94, 3.05, a dla wydziału B oceny: 4.30, 4.05,
2.80, 3.00, 3.75, 3.00, 4.35, 3.45, 3.66, 2.50, 3.75, 3.50, 4.48,
4.07, 3.90. Na poziomie istotności ą=0.05 zweryfikować
hipotezę, że studenci obu wydziałów uzyskali takie same
wyniki w sesji egzaminacyjnej.
72
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Porządkujemy łącznie obie serie ocen zaznaczając, z którego
wydziału pochodzą.
2.5 b 3.45 b 4.15 a
2.6 a 3.5 b 4.2 a
2.65 a 3.64 a 4.28 b
2.8 b 3.66 b 4.3 b
2.94 a 3.75 b 4.35 b
3 b 3.75 b 4.5 a
3 b 3.9 b 4.63 a
3.05 a 4 a 4.73 a
3.24 a 4.05 b 4.88 a
3.25 a 4.07 b 5 a
Liczymy serie (r=14) oraz mr=16 i r=2.69.
Następnie obliczamy wartość sprawdzianu:
14 -16
uobl = = -0.74349
2.69
Ponieważ |uobl|=0.74349odrzucenia hipotezy H0, że studenci obu wydziałów uzyskali
jednakowe wyniki w sesji.
Testy U Manna-Whitneya (Wilcoxona) dla prób niezależ-
nych oraz test Wilcoxona rang dla par
Wszystkie założenia i hipotezy są identyczne jak w teście
omówionym wyżej. Inna jest zasada. Test U Manna-Whitneya
jest alternatywą testu serii Walda-Wolfowitza o wyższej mocy
opartą o sumy rang. Dostępne w pakietach statystycznych.
Trzy ostatnie testy stanowią alternatywę dla testów porównu-
jących średnie w próbach niezależnych (niepowiązanych, nie-
sparowanych)  testy Walda-Wolfowitza i U Manna-Whit-
neya, oraz w próbach zależnych (powiązanych, sparowanych)
73
Statystyka
Wydział Zarządzania Politechniki Białostockiej
 test Wilcoxona dla par w sytuacji, gdy badane cechy staty-
styczne nie mają rozkładu normalnego.
Pakiet STATISTICA  test t-Studenta dla dwóch średnich
Pakiet STATISTICA  test t-Studenta dla par
74
Statystyka
Wydział Zarządzania Politechniki Białostockiej
STATISTICA  testy nieparametryczne
75
Statystyka
Wydział Zarządzania Politechniki Białostockiej
CECHY STATYSTYCZNE WIELOWYMIAROWE
Każda jednostka badanej zbiorowości jest opisywana przez
wiele cech statystycznych jednocześnie. Zbiór tych cech
nazywamy cechą statystyczną wielowymiarową.
Ważna jest odpowiedz na pytanie, czy między obserwowany-
mi właściwościami istnieje związek, czyli czy wystąpienie
pewnych cech warunkuje wystąpienie innych, ściśle
określonych, czy też takich powiązań nie ma?
Pytanie to dotyczy związku przyczynowo-skutkowego między
cechami (np. cena wyrobu  > wielkość sprzedaży).
Jeżeli cechy statystyczne są mierzalne, to ich współwystępo-
wanie można opisać za pomocą związku funkcyjnego.
Rozkład zmiennej losowej dwuwymiarowej
Rozkładem łącznym prawdopodobieństw dwuwymiarowej
zmiennej losowej skokowej (dyskretnej) (X,Y) nazywa się
k l
zbiór prawdopodobieństw:
=1
p
""
ij
i=1 j=1
P(X=xi,Y=yj)=pij dla i=1,2,...,k, j=1,2,...,l,
Dystrybuanta dwuwymiarowej zmiennej skokowej:
F(x, y) =
p
" "
ij
xi76
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład dwuwymiarowej zmiennej losowej dyskretnej w po-
staci tabeli korelacyjnej:
Y
X
y1, ..., yl
x1 p11, ..., p1l p1.
x2 p21, ..., p2l p2.
. . .
. . .
. . .
xk pk1, ..., pkl pk.
p.1, ..., p.l
1
Funkcją gęstości dwuwymiarowej zmiennej losowej ciągłej
(X,Y) jest dowolna funkcja f(x,y) spełniająca warunki:
" "
f(x,y)e"0 oraz
+" +"f (x, y)dxdy =1
-"-"
Dystrybuantą dwuwymiarowej zmiennej losowej ciągłej (X,Y)
x y
jest funkcja:
F(x, y) = f (x, y)dxdy
+" +"
-"-"
Rozkłady brzegowe:
a) zmienna losowa skokowa
l
P(X = xi) = = , dla i =1,2,...,k
p p
- zmiennej X "
ij i.
j=1
77
Statystyka
Wydział Zarządzania Politechniki Białostockiej
k
- zmiennej Y
P(Y = yj) = = , dla j =1,2,...,l
p p
"
ij . j
i=1
b) zmienna losowa ciągła
"
- zmiennej X
f 1(x) = f (x, y)dy
+"
-"
"
f 2(y) = f (x, y)dx
- zmiennej Y
+"
-"
Zmienne losowe X i Y są niezależne, gdy dla każdej pary war-
tości (xi,yj) spełniony jest warunek:
pij =P(X=xi,Y=yj)= P(X=xi)"P(Y=yj)= pi. p.j
Jeśli zmienne losowe skokowe X i Y są niezależne, to
P(X = xi,Y = yj) P(X = xi)P(Y = yj)
P(X = xi /Y = yj) = = =
P(Y = yj) P(Y = yj)
= P(X = xi) = pi., dla i =1,2,...,k
oraz
P(X = xi,Y = yj) P(X = xi)P(Y = yj)
P(Y = yj / X = xi) = = =
P(X = xi) P(X = xi)
= P(Y = yj) = p.j, dla j =1,2,...,l
78
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Warunkiem niezależności w przypadku zmiennych losowych
ciągłych X i Y jest: f(x,y)=f1(x)"f2(y) dla każdej pary (x,y).
Dla niezależnych zmiennych losowych ciągłych X i Y mamy
f (x, y) f 1(x) f 2(y)
f (x / y) = = = f 1(x)
f 2(y) f 2(y)
f (x, y) f 1(x) f 2(y)
f (y / x) = = = f 2(y)
f 1(x) f 1(x)
Jeśli cechy X i Y są niezależne, to wszystkie rozkłady warun-
kowe (P(X=xi/Y=yj), f(x/y)) są identyczne z rozkładami brze-
gowymi.
Kowariancja zmiennych losowych (X,Y):
C(X,Y)=E(XY)-E(X)"E(Y)
Współczynnik korelacji między zmiennymi losowymi X i Y:
C(X ,Y )
(X ,Y ) = , -1d" (X ,Y ) d"1
D(X ) " D(Y )
gdzie D(X) i D(Y) to odchylenia standardowe cech X i Y.
Mierzy on siłę zależności liniowej między zmiennymi X i Y.
Warunkowa wartość oczekiwana zmiennej X:
k k
pij
E(X /Y = yj) = xiP(X = xi /Y = yj) = xi = m1(yj)
" "
i=1 i=1
p " j
Równanie regresji pierwszego rodzaju zmiennej X względem
zmiennej Y: ,
E(X /Y = yj) = m1(yj)
analogicznie, równanie regresji pierwszego rodzaju zmiennej
Y względem zmiennej X: .
E(Y / X = xi) = m2(xi)
79
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Jeśli zmienne losowe X i Y są niezależne, to E(X/Y=yj)=E(X)
oraz E(Y/X=xi)=E(Y).
Warunkowe wariancje zmiennych losowych X i Y:
D2(X/Y)=E[X/Y-E(X/Y)]2
D2(Y/X)=E[Y/X-E(Y/X)]2
Zbiór punktów płaszczyzny (aj,bj) o współrzędnych:
(aj=E(X/Y=yj)=m1(y), bj=yj), i=1,2,...,l nazywa się regresją
pierwszego rodzaju zmiennej X względem Y.
Zbiór punktów płaszczyzny (cj,dj) o współrzędnych:
(cj=xi, di=E(Y/X=xi)=m2(x)), i=1,2,...,k nazywa się regresją
pierwszego rodzaju zmiennej Y względem X.
Funkcje regresji II rodzaju
Wezmy funkcję liniową h(x) postaci:
h(X)=ąyX+y
Jeśli parametry funkcji h(X) wyznaczymy tak, by spełniony
był warunek:
E[Y-E(ąyX+y)]2=min
wówczas otrzymamy liniową funkcję regresji II rodzaju
zmiennej Y względem X. Oznaczamy ją Y=ąyX+y.
Parametry i określone są wzorami:
y y
C(X ,Y )
ąy = , y = E(Y ) -ąyE(X ).
2
(X )
D
80
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Analogicznie funkcję liniową regresji II rodzaju X względem
Y oznaczamy: X=ąxY+x, a parametry ąx i x określone są
wzorami:
C(X ,Y )
ąx = , x = E(X ) -ąxE(Y ).
2
(Y )
D
Obie funkcje regresji przechodzą przez punkt o współrzęd-
nych (E(X),E(Y)).
Przykład: Wydajność pracy (X) w tys. sztuk wyrobu oraz czas
dojazdu w kwadransach do pracy (Y) przedstawia tabela kore-
lacyjna:
Czas dojazdu (Y)
1 23
50 0.1 0.3
Wydajność (X) 6 0 0.2 0.1
70.1 0.1 0.1
Rozkłady brzegowe:
X: P(X=5)=0.4, P(X=6)=0.3, P(X=7)=0.2
Y: P(Y=1)=0.1, P(Y=2)=0.4, P(Y=3)=0.5
Zmienne X i Y są zależne, gdyż są pij`"pi.p.j.
Np. P(X=5,Y=1)=0 `" P(X=5)"P(Y=1)=0.4"0.1=0.04
E(X)=5"0.4+6"0.3+7"0.3=5.9
E(Y)=1"0.1+2"0.4+3"0.5=2.4D2(X)
=(5-5.9)2"0.4+(6-5.9)2"0.3+(7-5.9)2"0.3=0.690
81
Statystyka
Wydział Zarządzania Politechniki Białostockiej
D(X)=0.83
D2(Y)=(1-2.4)2"0.1+(2-2.4)2"0.4+(3-2.4)2"0.5=0.520
D(Y)=0.72
Policzymy kowariancję:
C(X,Y)=(5"1"0+6"1"0+7"1"0.1+5"2"0.1+6"2"0.2+7"2"0.1+
+5"3"0.3+6"3"0.1+7"3"0.1)-(5.9"2.9)=13.9-14.1=-0.26
Między zmiennymi X i Y istnieje korelacja ujemna.
Aby znalezć siłę korelacji policzmy współczynnik korelacji:
C(X ,Y ) - 0.26
(X ,Y ) = = = -0.43
D(X ) " D(Y ) 0.83"0.72
Funkcje regresji I rodzaju:
P(Y=1/X=5)=0/0.4=0.00 P(Y=1/X=6)=0/0.3=0.00
P(Y=2/X=5)=0.3/0.4=0.25 P(Y=2/X=6)=0.2/0.3=0.67
P(Y=3/X=5)=0.3/0.4=0.75 P(Y=3/X=6)=0.1/0.3=0.33
P(Y=1/X=7)=0.1/0.3=0.33
P(Y=2/X=7)=0.1/0.3=0.33
P(Y=3/X=7)=0.1/0.3=0.33
Warunkowe wartości oczekiwane zmiennej Y pod warunkiem,
że zmienna X przyjmuje wartości 5, 6, 7:
m1(5)=E(Y/X=5)=1"0+2"1/4+3"3/4=2.75,
m1(6)=E(Y/X=6)=1"0+2"2/3+3"1/3=2.33,
82
Statystyka
Wydział Zarządzania Politechniki Białostockiej
m1(7)=E(Y/X=7)=1"1/3+2"1/3+3"1/3=2.00.
Linię regresji I rodzaju Y względem X wyznaczają punkty
o współrzędnych:
(x=5, m1(5)=2.75), (x=6, m1(6)=2.33), (x=7, m1(7)=2.00).
Analogicznie wyliczając możemy sprawdzić, że linię regresji I
rodzaju X względem Y wyznaczają punkty o współrzędnych:
(m2(1)=7, y=1), (m2(2)=6, y=2), (m2(3)=5.6, y=3).
Obliczymy parametry ąy i y liniowej funkcji regresji II rodza-
ju zmiennej Y względem zmiennej X:
ąy=-0.26/0.69=-0.38,
y=2.4+0.26"5.9=3.93.
Funkcja regresji zmiennej Y względem zmiennej X ma postać:
Y=-0.38 X+3.93
Obliczymy parametry ąx i x liniowej funkcji regresji II rodza-
ju zmiennej X względem zmiennej Y:
ąx=-0.26/0.52=-0.5,
x=5.9+0.5"2.4=7.1.
Funkcja regresji zmiennej X względem zmiennej Y ma postać:
X=-0.5 Y+7.1.
Parametry ąy i ąx nazywamy współczynnikami regresji.
Dalej zajmiemy się ważnym problemem statystyki jakim jest
analiza współzależności cech statystycznych jakościowych
(niemierzalnych i mierzalnych) na podstawie obserwacji
z próby.
83
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Testowanie niezależności między
cechami jakościowymi testem niezależności 2



Test przeznaczony jest do oceny współzależności między:
 dwiema cechami jakościowymi (niemierzalnymi),
 cechami jakościową i ilościową,
 dwiema cechami ilościowymi skategoryzowanymi.
Weryfikuje on nieparametryczne hipotezy:
H0: dwie cechy opisujące zbiorowość statystyczną są
niezależne (pij=pi.p.j dla wszystkich par wskazników
i, j  oznaczenia jak niżej),
H1: dwie cechy są współzależne (pij`"pi.p.j dla niektórych
par wskazników i, j  oznaczenia jak niżej).
Dla zweryfikowania tych hipotez należy dysponować odpo-
wiednio dużą próbą (nije"5 dla każdej pary wskazników i, j).
Wyniki obserwacji przedstawiamy w postaci tzw. tablicy
dwudzielnej o k wierszach i l kolumnach.
Cecha Y
Cecha X ni.
y1, ..., yl
x1 n11, ..., n1l n1.
x2 n21, ..., n2l n2.
xk nk1, ..., nkl nk.
n.j n.1, ..., n.l
n
84
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Oszacowania brzegowych rozkładów cechy X i cechy Y uzys-
kujemy w sposób następujący:
n
i" n
" j
P(X=xi)=pi. H" P(Y=yj)=p.jH"
n
n
Zakładając prawdziwość H0 liczebności teoretyczne oblicza-
my następująco:
i" " j
npij=npi.p.j= n n .
n
Sprawdzianem H0 jest statystyka
2
(nij-n )
k l pij
2
=

""
obl .
i=1 j=1
n
p
ij
Wartość krytyczną 2 dla zadanego poziomu istotności ą odczy-
tujemy z tablic wartości krytycznych rozkładu 2 z (k-1)(l-1)
2 2
 
stopniami swobody. Jeżeli > odrzucamy H0, czy-
obl . ą ,( k -1)(l-1)
li cechy X i Y są zależne.
Ocena siły współzależności cech jakościowych:
a) współczynnik  Yule a:
2

obl.
 =
n
gdy k=2, l  dowolne  to 0d"  d"1,
gdy k>2, l  dowolne  to  może być większe od 1.
b) współczynnik zbieżności T Czuprowa:
2

obl.
T =
n (k -1)(l -1)
gdy k=l  to 0d" ń d"1,
gdy k`"l  to T może być znacznie mniejsze od 1.
c) współczynnik V Cramera:
2

obl .
V =
n min(k -1,l -1)
85
Statystyka
Wydział Zarządzania Politechniki Białostockiej
gdy k=l  to 0d" V d"1, (V=T),
gdy k`"l  to 0d" V d"1, (V>T),
Gdy obliczony współczynnik jest  w pobliżu zera  cechy X
i Y są stochastycznie niezależne, im jest bliższy jedności  tym
silniejsza zależność. Gdy k=l=2, to =V=T.
Przykład: W celu oceny skuteczności specjalnej diety odchu-
dzającej wśród członków klubu  fitness przeprowadzono
ankietę dotyczącą jej stosowania. Wyniki zawiera tabela:
Stosowanie diety
Utrata wagi Ogółem
Nie stosuje Stosuje
Bez utraty 80 20 100
Utrata 100 100 200
Ogółem 180 120 300
Przyjmując ą=0.05 zweryfikować hipotezę, że utrata wagi
zależy od stosowania diety.
H0: utrata wagi nie zależy od stosowania diety,
H1: utrata wagi zależy od stosowania diety.
Stosowanie diety
Ogółem
Utrata wagi 1. Nie stosuje 2. Stosuje
ni.
npi1 npi2
1. Bez utraty np11=60 np12=40 n1.=100
2. Utrata np21=120 np22=80 n2.=200
Ogółem n.j n.1=180 n.2=120 n=300
2 2 2 2
(80-60) (20-40) (100-120) (100-80)
2
= + + + = 25

obl.
60 40 120 80
2 2 2
> = =
  
Ponieważ 3.841, odrzucamy H0, czyli
obl . 0.05,( 2-1)( 2-1) 0.05,1
utrata wagi w istotny sposób zależy od stosowania diety.
86
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Analiza zależności korelacyjnej
między cechami mierzalnymi
Istotą zależności korelacyjnej jest to, że określonym wartoś-
ciom jednej cechy przyporządkowane są ściśle określone
średnie drugiej cechy. Zależność jest tym silniejsza, im
mocniej różne wartości przyjmowane przez cechę niezależną
różnicują średni poziom wartości cechy zależnej.
Korelacja dodatnia Korelacja ujemna
yy
rxy>0 rxy<0
xx
y y
Brak korelacji Zależność
rxyH"0
krzywoliniowa
rxyH"0
x x
Miarą siły związku liniowego między dwiema cechami jest
współczynnik korelacji liniowej Pearsona obliczany wg wzoru:
n
y
"( - x)( - y)
x
i
i
COV (X ,Y )
i=1
= =
rxy
n n
2
2
s s
x y
( y)
(xi-x) yi-
""
i=1 i=1
87
Statystyka
Wydział Zarządzania Politechniki Białostockiej
gdy wyniki obserwacji dane są w postaci szeregów szczegóło-
wych lub wg wzoru poniżej gdy wyniki dane są w postaci
tablicy korelacyjnej.
k l
- w -
""( Ć x)( y)
x n
i ij
j
COV (X ,Y )
i=1 j=1
= =
r
xy
k l
2
2
s s
x y
(xi-x)
""(w j- y)
n n
i. . j
Ć
i=1 j=1
" -1;1
, korelacja jest tym silniejsza, im współczynnik co
rxy
do wartości bezwzględnej jest bliższy jedności:
- gdy |r|<0.2, najczęściej brak związku między cechami,
- gdy 0.2d"|r|<0.4, zależność liniowa słaba,
- gdy 0.4d"|r|<0.7, zależność liniowa umiarkowana,
- gdy 0.7d"|r|<0.9, zależność liniowa znacząca,
- gdy |r|e"0.9, zależność liniowa bardzo silna.
Do weryfikacji hipotez: H0: r=0, H1: r`"0 można zastoso-
wać test t-Studenta dla współczynnika korelacji.
Sprawdzianem hipotezy H0 jest statystyka
r
tobl = n - 2
2
1-
r
Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczy-
tujemy wartość krytyczną tą.
Do opisu siły korelacji dwóch cech w przypadku
- gdy cechy nie są  dobrze mierzalne, ale istnieje możliwość
ich uporządkowania,
- gdy cechy są mierzalne ale ich rozkłady są mocno niesyme-
tryczne
stosowany jest współczynnik korelacji rang Spearmana:
n
2
6
"
d
i
i=1
=1- , " -1;1
r r
s s
2
n( -1)
n
88
Statystyka
Wydział Zarządzania Politechniki Białostockiej
gdzie di oznaczają różnice między rangami odpowiadających
sobie wartości cech xi i yi (i=1,2,...,n).
Siłę korelacji ocenia się analogicznie jak przy współczynniku
korelacji liniowej. Do weryfikacji hipotez: H0: r=0, H1: r`"0
można także zastosować test t-Studenta dla współczynnika
korelacji opisany wyżej.
Przykład: W tabeli zestawiono liczbę ludności i powierzchnię
10-ciu województw. Za pomocą współczynnika korelacji rang
ocenić, czy istnieje współzależność między liczbą ludności
a powierzchnią województw.
Powierzchnia Ludność Rangi Rangi
Województwo di di2 Średnia
X Y X Y ranga
Katowickie 6655 3953.0 6 1 -5 25 3.5
Warszawskie 3788 2409.1 8 2 -6 36 5
Gdańskie 7394 1437.7 5 3 -2 4 4
Poznańskie 8151 1341.4 4 4 0 0 4
Krakowskie 3254 1232.4 9 5 -4 16 7
Kieleckie 9211 1135.6 2 6 4 16 4
Wrocławskie 6287 1131.6 7 7 0 0 7
Aódzkie 1523 1130.7 10 8 -2 4 9
Bydgoskie 10349 1123.0 1 9 8 64 5
Opolskie 8535 1026.0 3 10 7 49 6.5
6 " 214
=1- = -0.297
rs
10(100 -1)
Między badanymi cechami zachodzi niewielka korelacja
ujemna. Województwa o dużej liczbie ludności mają relatyw-
nie mniejszą powierzchnię (wyższa gęstość zaludnienia).
Średnie rangi można wykorzystać do porządkowania obiektów
ze względu na dwie lub więcej cech.
89
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Liniowa funkcja regresji
Jeżeli stwierdzona zostanie istotna korelacja między cechami
X i Y można wyznaczyć liniową funkcję regresji
w = x + lub x = y + .
Ć
a b a b
y y x x
Np. Parametry ay i by można wyznaczyć metodą najmniej-
szych kwadratów z warunku:
n n
2 2
( ) = yi-(ay x+by)) ! min .
yi- wi
" "(
i=1 i=1
Wyprowadzając z powyższego warunku wzory na obliczanie
ay i by otrzymujemy:
n
y
"( - x)( - y)
x
i
i
COV (X ,Y )
s
y
i=1
= = = ,
a n r
y xy
2
2
s s
x x
(xi-x)
"
i=1
= y - x.
b a
y y
ay  współczynnik regresji określa, o ile jednostek zmieni się
wartość zmiennej objaśnianej (zależnej) przy zmianie zmien-
nej objaśniającej (niezależnej) o jednostkę.
Do oceny dopasowania prostej regresji do punktów empirycz-
nych wykorzystuje się reszty ei, które stanowią różnicę między
wartościami empirycznymi a oczekiwanymi (wyliczonymi
y - w
z równania regresji)  e = dla i=1, 2,..., n.
i
i i
Odchylenie standardowe reszt ei, nazywane jest średnim błę-
dem szacunku, określa się wzorem:
n
2
( )
yi- wi
"
i=1
= .
s
e
n - 2
W analizie regresji do oceny dopasowania funkcji regresji
najczęściej stosuje się współczynnik zbieżności
90
Statystyka
Wydział Zarządzania Politechniki Białostockiej
n
2
( )
yi- wi
"
2
i=1
= ,

n
yx
2
)
yi- yi
"(
i=1
który przyjmuje wartości z przedziału [0; 1]  im wartość
bliższa 0, tym lepsze dopasowanie.
Współczynnikiem determinacji R2 nazywa się wyrażenie
R2=1-2.
W przypadku zależności liniowej zachodzi równość:
R2=ryx2=1-2.
Testowanie hipotez dotyczących współczynników linii regresji
Odchylenia standardowe współczynników ay i by wyrażają się
wzorami:
n
2
2
( )
yi- wi
"
s
e i=1
= .
sa = n n
y 2 2
(n - 2)
(xi-xi) (xi-xi)
" "
i=1 i=1
n n n
2
2 2 2
( )
yi- wi x
" ""
s x
e i i
i=1 i=1 i=1
= .
sb = n n
y 2 2
n (n - 2)n
(xi-xi) (xi-xi)
" "
i=1 i=1
By zweryfikować hipotezy dotyczące ay H0: ay=a0 i H1: ay`"a0
stosujemy sprawdzian
-a ,
a
y 0
tobl =
a0  pewna stała, np. 0.
sa
y
Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczy-
tujemy wartość krytyczną tą.
By zweryfikować hipotezy dotyczące by H0: by=b0 i H1: by`"b0
stosujemy sprawdzian
-b ,
b 0
y
tobl =
a0  pewna stała, np. 0.
sb
y
Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczy-
tujemy wartość krytyczną tą.
91
Statystyka
Wydział Zarządzania Politechniki Białostockiej
92
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Analiza dynamiki zjawisk
Szeregiem czasowym nazywamy ciąg wyników obserwacji
uporządkowanych w czasie {t, yt}, gdzie t oznacza numery ko-
lejnych jednostek czasu, a yt  wielkość badanej cechy w mo-
mencie t.
Celem analizy szeregów czasowych jest odpowiedz na pyta-
nia:
 jaka jest dynamika badanego zjawiska?
 co wywołuje zmienność badanego zjawiska?
 jakie są prognozy na przyszłe okresy?
Metody służące odpowiedzi na te pytania można podzielić na:
 analizę szeregów czasowych,
 metody indeksowe, umożliwiające liczbowe określenie
tempa i intensywności zmian zjawiska w czasie.
Analiza szeregów czasowych
Wykresy przedstawiają przykładowe szeregi czasowe:
Produkcja energii elektrycznej w Polsce w latach 1991-94
(mld kWh)
15 15
14 14
13 13
12 12
11 11
10 10
9 9
8 8
0 5 10 15 20 25 30 35 40 45 50
Numery obs.
93
Energia
Statystyka
Wydział Zarządzania Politechniki Białostockiej
a) Przykład ze str. 452 - Józwiak, Podgórski
Miesiące
Lata
V
I II III IV VI VII VIII IX X XI XII
14,0 12,9 12,8 11,3 10,6 9,2 9,0 9,0 9,3 11,2 12,1 13,3
1991
13,4 12,2 12,5 11,0 9,6 9,0 9,0 9,0 9,7 12,0 12,3 13,2
1992
13,4 12,2 12,8 10,7 9,3 8,9 8,7 9,1 9,8 11,5 13,0 13,5
1993
12,9 12,3 12,7 10,9 9,9 9,4 9,3 9,5 9,8 12,3 12,3 13,6
1994
Dane do obliczeń brane są z tabeli:
t 1 2 3 4 5 ... 45 46 47 48
Yt 14,0 12,9 12,8 11,3 10,6 9,8 12,3 12,3 13,6
Wykr. zmiennej: SZEREG_G
Miesięczna liczba pasażerów (w tysiącach)
700 700
Liczba pasażerów linii lotniczej
600 600
w ciągu miesiąca w latach 1949-1960
500 500
400 400
300 300
200 200
Wahania okresowe proporcjonalne do poziomu
100 100
zjawiska  model multyplikatywny
0 0
-10 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Numery obs.
Składniki szeregu czasowego:
 trend  wyraża ogólną tendencję rozwojową zjawiska.
Wydzielenie składnika charakteryzującego trend poprzez
eliminację z szeregu wahań okresowych i przypadkowych
nazywa się wygładzaniem (wyrównywaniem);
 wahania okresowe (krótkookresowe, długookresowe) 
zmiany powtarzające się co pewien okres. Odstęp czasu,
w którym występują wszystkie fazy wahań nazywa się
cyklem. Wyróżniamy model addytywny (wahania nieza-
94
SZEREG_G
Statystyka
Wydział Zarządzania Politechniki Białostockiej
leżne od poziomu zjawiska) i multyplikatywny (wahania
proporcjonalne do poziomu zjawiska);
 wahania przypadkowe (losowe)  występują z różną siłą
i w różnych kierunkach;
 wahania koniunkturalne  wahania rozwoju gospodarki
obserwowane w dłuższych okresach czasu.
Metody wyrównywania szeregów czasowych:
 obliczanie średnich ruchomych,
 dopasowanie odpowiedniej funkcji do danych szeregu
czasowego.
Obliczanie średnich ruchomych
Jeżeli oznaczmy kolejne wartości szeregu czasowego jako
y1, y2, y3, ..., yn-2, yn-1, yn,
to średnie ruchome z nieparzystej liczby okresów, np. z 3
okresów (k=3), wyznaczane są ze wzorów:
+ + + + + +
y y y y y y y y y
1 2 3 2 3 4 n-2 n-1 n
= ; = ; =
y y y
2 3 n-1
3 3 3
z parzystej zaś liczby okresów (średnie scentrowane), np. z 4
okresów (k=4), wyznaczane są ze wzorów:
1 1 1 1
+ + + + + + + +
y y y y y y
y y y y
2 3 4 3 4 5
1 5 2 6
2 2 2 2
= ; = ;
y y
3 4
4 4
1 1
+ + + +
y y y
y y
n-3 n-2 n-1
n-4 n
2 2
=
y
n-2
4
Efekt wyrównywania (dla przykładu a)):
95
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Produkcja energii elektrycznej w Polsce w latach 1991-94
15 15
14 14
13 13
= at + b
w
t
12 12
11 11
10 10
9 9
dane zródłowe
3 okresy (k=3)
8 8
6 okresów (k=6)
0 5 10 15 20 25 30 35 40 45 50
10 okresów (k=10)
Numery obs.
Wygładzanie analityczne zilustrujemy na przykładzie trendu
liniowego. Dla szeregu czasowego należy wyznaczyć para-
metry liniowej funkcji trendu postaci:
Parametry a i b możemy wyliczyć za pomocą wzorów:
a  oznacza okresowe tempo wzrostu (a>0) lub ubytku (a<0)
n
(t - t ) "
y
"
t
t =1
a = , b = y - a t ,
n
2
(t
" - t )
t =1
n n
1 n + 1 1
gdzie t = t = ; y =
" "
t
t
t =1 t =1
n 2 n
wielkości badanego zjawiska
b  oznacza stan zjawiska w okresie wyjściowym (t=0).
Przykład obliczeń:
Mając dane o miesięcznej wielkości produkcji wyrobu A
w ciągu roku wyznaczyć średnie ruchome (k=3) oraz oszacu-
jemy parametry trendu liniowego produkcji.
96
energia
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Średnia
2
2
2
t yt ruchoma -t - t)
t (t
y
( yt- wt yt-y)
) (
(t-t)
w
t
t
k=3
1 90 -5,5 -495 30,25 81,15 78,25 3600
2 85 95 -4,5 -382,5 20,25 93,67 75,19 4225
3 110 106,7 -3,5 -385 12,25 106,19 14,53 1600
4 125 118,3 -2,5 -312,5 6,25 118,71 39,61 625
5 120 131,7 -1,5 -180 2,25 131,22 125,97 900
6 150 136,7 -0,5 -75 0,25 143,74 39,17 0
7 140 150,0 0,5 70 0,25 156,26 264,35 100
8 160 166,7 1,5 240 2,25 168,78 77,02 100
9 200 183,3 2,5 500 6,25 181,29 349,93 2500
10 190 203,3 3,5 665 12,25 193,81 14,53 1600
11 220 206,7 4,5 990 20,25 206,33 186,91 4900
12 210 5,5 1155 30,25 218,85 78,25 3600
78 1800 1790 143,00 1800,00 1343,71 23750

Stąd
Wynik wygładzania średnimi ruchomymi (k=3)
i wyznaczenia trendu liniowego
240 240
s 11,59
V = = = 0,077
220 220
yt=12,52t+68,64
y 150
200 200
180 180
160 160
140 140
120 120
100 100
80 80
60 60
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Miesiąc (t)
.
a= 1790/143=12,52 ton/mies. b=150-12,52"6,5=68,64 ton.
Współczynnik zmienności resztowej równa się
97
t
Wielkość produkcji (y)
Statystyka
Wydział Zarządzania Politechniki Białostockiej
i oznacza, że odchylenia przypadkowe równania trendu stano-
wią średnio 7,7% przeciętnego poziomu zaobserwowanej
zmienności produkcji.
Do oceny jakości dopasowania linii trendu do danych empi-
rycznych wykorzystamy średni błąd resztowy i współczynnik
n
2
( )
yt- wt 1343,7
"
2
t =0
= = = 134,37
s
n - k 10
n
2
( - wt 1343 ,7
)
yt
"
2
t =1
= = = 0,057

n
2
23750
( - y)
yt
"
t =1
zbieżności.
Niski współczynnik zbieżności =0,057 i małe odchylenie
standardowe składnika resztowego s=11,6 wskazują, że funk-
cja trendu dobrze opisuje produkcję w badanym okresie.
Znajomość równania trendu daje możliwość prognozowania.
Najprostszą metodą prognozowania jest ekstrapolacja.
Analiza wahań okresowych
Najprostszą metodą pomiaru wahań okresowych jest wyko-
rzystanie wskazników wahań okresowych (wskazników sezo-
nowości). Sposób konstrukcji wskazników jest uzależniony od
tego, czy w badanym szeregu czasowym występuje silny
trend, czy też jest umiarkowany lub nie występuje wcale oraz
czy wahania nakładają się na trend w sposób addytywny czy
multyplikatywny.
Załóżmy, że szereg czasowy wykazuje wahania okresowe i że
w każdym cyklu jest k faz wahań.
Konstrukcja wskaznika wahań okresowych przy tych założe-
niach polega na:
98
Statystyka
Wydział Zarządzania Politechniki Białostockiej
a) wygładzeniu szeregu czasowego metodą mechaniczną
(średnich ruchomych z k okresów) lub analityczną;
b) uwolnieniu szeregu czasowego od trendu  uzyskujemy to
stosując przekształcenie:
y
t
= ; t = 1, 2, ..., n
w
t
w
t
(wartości wt zawierają wahania okresowe i przypadkowe).
c) eliminacji wahań przypadkowych z wielkości wt  dla
jednoimiennych okresów, tj. pochodzących z tej samej
fazy wahań, obliczamy średnie arytmetyczne z wyrazów
wt; otrzymane w ten sposób wartości nazywamy surowy-
mi wskaznikami wahań okresowych:
s
"
w
i+ j"k
' j=0
= ; i = 1, 2, ..., k
c
i
s
s oznacza liczbę jednoimiennych okresów, k  liczbę
wahań w cyklu; surowe wskazniki wahań informują, o ile
procent poziom zjawiska w danej fazie cyklu jest wyższy
lub niższy od poziomu, jaki byłby osiągnięty, gdyby nie
było wahań, a rozwój postępował zgodnie z trendem;
d) obliczeniu czystych wskazników wahań okresowych ct 
wskazniki surowe dzieli się przez średnią arytmetyczną
wskazników surowych (suma równa się liczbie faz
wahań).
Przykład:
Produkcja piwa w jednym z browarów kształtuje się nastę-
pująco:
Kwartał
Lata
I II III IV
1993 3 4 8 5
1994 4 6 10 6
1995 5 8 12 7
99
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Trend produkcji piwa jest rosnący i wykazuje kwartalne waha-
nia sezonowe (cztery fazy wahań w cyklu rocznym).
Produkcja piwa w latach 1993-95
14 14
12 12
10 10
8 8
6 6
4 4
2 2
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Numery obs.
Wyznaczmy kwartalne wskazniki sezonowości.
a) wygładzamy szereg empiryczny  wyznaczymy równanie
trendu liniowego
63
a = = 0,441; b = 6,5 - 0,441" 6,5 = 3,636
143
Równanie trendu ma postać
= 0,441t + 3,636
w
t
100
Wielkośc produkcji (tys. hl)
Statystyka
Wydział Zarządzania Politechniki Białostockiej
2
= :
yt wt
t yt Kwartał (t - t)
y w yt wt= :yt
yt
t
(t-t)
w
t
t
1 3 I -16,5 30,25 4,08 0,736
2 4 II -18 20,25 4,52 0,885
3 8 III -28 12,25 4,96 1,614 5,13 1,56
4 5 IV -12,5 6,25 5,40 0,926 5,50 0,91
5 4 I -6 2,25 5,84 0,685 6,00 0,67
6 6 II -3 0,25 6,28 0,955 6,38 0,94
7 10 III 5 0,25 6,72 1,488 6,63 1,51
8 6 IV 9 2,25 7,16 0,838 7,00 0,86
9 5 I 12,5 6,25 7,60 0,658 7,50 0,67
10 8 II 28 12,25 8,04 0,995 7,88 1,02
11 12 III 54 20,25 8,48 1,415
12 7 IV 38,5 30,25 8,92 0,784
- 78 63 143,00

b) Uwalniamy wyrazy szeregu od trendu (kolumny 7 i 9)
'
t
c) Obliczamy surowe wskazniki sezonowości c . W celu
wyeliminowania wahań przypadkowych obliczamy średnie
arytmetyczne wartości wt dla tej samej fazy wahań (średnie
dla czterech kwartałów).
Metoda analityczna
Lata
I II III IV
1993 0,736 0,885 1,614 0,926
1994 0,685 0,955 1,488 0,838
1995 0,658 0,955 1,415 0,784
Sumy kwartalne 2,079 2,836 4,516 2,549
'
c
t
Surowe wskazniki 0,693 0,945 1,505 0,850
Metoda mechaniczna
Lata
I II III IV
1993 1,56 0,91
1994 0,67 0,94 1,51 0,86
1995 0,67 1,02
Sumy kwartalne 1,34 1,96 3,07 1,77
'
c
t
Surowe wskazniki 0,667 0,979 1,535 0,883
101
Statystyka
Wydział Zarządzania Politechniki Białostockiej
d) Czyste wskazniki sezonowości (ich suma ma się równać 4,
gdyż jest tyle faz wahań). Korekta wskazników surowych
polega na podzieleniu ich przez ich średnią arytmetyczną,
czyli
0,693 + 0,945 + 1,505 + 0,850
= 0,9983
4
Czyste wskazniki wahań ci
Metoda Razem
I II III IV
Analityczna 4 0,694 0,947 1,508 0,851
Mechaniczna 4 0,656 0,963 1,511 0,869
Interpretacja: w I kwartale każdego roku na skutek działania
składnika okresowego produkcja piwa jest niższa od przecięt-
nej kwartalnej o 30,6%, w II kwartale niższa o 5,3%, w III
wyższa o 50,8%, w czwartym niższa o 14,9%.
e) prognoza na 1996 rok
Do prognozowania wykorzystujemy równanie trendu:
= 0,441t + 3,636
w
t
Dla kolejnych kwartałów 1996 roku, a więc dla t=13, 14, 15,
16, prognozy punktowe są następujące:
I kw. 1996: 0,44113+3,636=9,369;
II kw. 1996: 0,44114+3,636=9,81;
III kw. 1996: 0,44115+3,636=10,251;
IV kw. 1996: 0,44116+3,636=10,692;
By trafnie prognozować produkcję w poszczególnych kwarta-
łach przy założeniu, że wahania sezonowe będą wpływać po-
dobnie jak w latach poprzednich, należy prognozy te pomno-
żyć przez odpowiednie wskazniki sezonowości.
Skorygowany poziom produkcji wynosi odpowiednio:
I  6,502; II  9,29; III  15,48; IV  9,099
102
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Organizacja badań statystycznych
Etapy badania statystycznego
1. Projektowanie
2. Gromadzenie materiału (pomiar, obserwacja statystyczna)
3. Porządkowanie, opracowanie w postaci tablic, wykresów
4. Analiza wyników, wnioskowanie, podejmowanie decyzji
Ad. 1. Projektowanie badania
a) sprecyzować cel i rodzaj badania, ustalić ograniczenia
środków, zespół badawczy, limit czasu
- cele badań statystycznych:
- poznanie rozkładu zbiorowości pod względem wybra-
nych cech, wyznaczenie wartości wybranych parame-
trów zbiorowości statystycznej,
- ustalenie związków między cechami,
- porównanie i porządkowanie obiektów wielocecho-
wych,
- porównanie dynamiki zjawisk w zbiorowości.
- rodzaj badania statystycznego
- pełne (całkowite, wyczerpujące) - umożliwia dokład-
ne określenie wybranych parametrów populacji.
Przykłady:
- spis statystyczny,
- rejestracja statystyczna (urodzeń, zgonów, nowo-
tworów, przedsiębiorstw [REGON], kierowców),
- sprawozdawczość statystyczna,
Badania pełne mogą być:
- ciągłe (sprawozdawczość i rejestracja ciągła)
- okresowe (spisy)
103
Statystyka
Wydział Zarządzania Politechniki Białostockiej
- dorazne (badania ankietowe, referenda, sondaże,
badanie kondycji spółek notowanych na giełdzie
papierów wartościowych w Warszawie)
- częściowe (np. badanie jakości produktów)  podstawo-
wym problemem jest dobór próby
- reprezentacyjne (odpowiednio liczna próbka do-
brana losowo)
- monograficzne (opis jednostki lub niewielkiej ich
liczby szczegółowy. Często wybiera się jednostki
przodujące lub odstające. Poznawanie i rozpow-
szechnianie wzorców)
- ankietowe (ustalanie faktów i opinii o nich na ogół
z zachowaniem anonimowości)
b) zdefiniować zbiorowość statystyczną (populację  ściśle
określić kogo, gdzie, w jakim czasie badamy) i jednostkę
statystyczną (jednostkę badania  podmiot badania)
c) dokonać wyboru cech statystycznych (zakres badania)
d) określić metodę badania
e) ustalić zródła pozyskiwania informacji (zródła pierwotne,
wtórne [sprawozdawczość, publikacje statystyczne])
f) opracować formularze i makiety tablic wynikowych
g) zapewnić odpowiednią kontrolę materiału statystycznego
h) ewentualne badanie pilotażowe
Metody losowania
- losowanie indywidualne
- zespołowe
Operat losowania  lista wszystkich jednostek losowania.
- losowanie nieograniczone
- losowanie ograniczone (pewne jednostki nie mogą się
znalezć w próbie jednocześnie)
104
Statystyka
Wydział Zarządzania Politechniki Białostockiej
- losowanie zależne
- losowanie niezależne
- losowanie proste (niezależne - ze zwracaniem)
- indywidualne, nieograniczone, zależne
- losowanie warstwowe - proporcjonalne
- losowanie systematyczne
- losowanie za pomocą liczb losowych
- losowanie wielostopniowe
105


Wyszukiwarka

Podobne podstrony:
Wybór materiałów z zakresu ćwiczeń Wykład 2
Materialy do cwiczenia 8
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 6
Ćw Materiały do ćwiczeń z elektrotechniki
PG materiały do ćwiczeń testy
BAL materiały do ćwiczeń
Materiały do cwiczenia nr 11
Fwd materialy?ukacyjne do cwiczen z rachunkowosci ?zNazwy1
Materiały do ćwiczeń z geologii te co umieć
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 2
Materiały do cwiczenia 11
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 3
Materiały do ćwiczeń projektowych cz 1 Wodociągi
material do cwiczen
material do cwiczen1
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 7
MATERIALY DO CWICZENIA BIOLOGIA CYTOMETR

więcej podobnych podstron