background image

1. Charakterystyka i klasyfikacja cech 

statystycznych. Rodzaje badań 

statystycznych.

Planując badanie należy dokonać wyboru tzw. cech 

statystycznych, które będą obserwowane. Cechami statystycznymi 
nazywamy właściwości, którymi odznaczają się jednostki wchodzące w 

skład badanej zbiorowości. 

Cechy zmienne przypisywane jednostkom danej zbiorowości 

możemy podzielić na mierzalne i niemierzalne. Cecha mierzalna daje 
się wyrazić za pomocą jednostek miary(liczb), poszczególne warianty 

cechy niemierzalnej określane są za pomocą słów. Cechy mierzalne 
można podzielić na ciągłe i skokowe. Cechę nazwiemy ciągłą, jeśli 

może przyjąć każdą wartość z określonego skończonego przedziału 
liczbowego. Cechę nazwiemy skokową, jeżeli może ona przyjmować 

tylko niektóre wartości z określonego przedziału liczbowego.

W przypadku badań zbiorowości wielowymiarowych zmienne 

(cechy mierzalne) dzielimy na: stymulanty - te cechy, których wyższe 
wartości pozwalają zakwalifikować daną jednostkę statystyczną jako 

lepszą z punktu widzenia realizowanego badania; dominanty - cechy, 
których wysokie wartości świadczą o niskiej pozycji jednostki w zbiorze. 

Przedmiotem badań statystycznych są określone zbiorowości 
statystyczne, które stanowią zbiór jednostek powiązanych ze sobą 

logicznie. Rozróżnić możemy dwa rodzaje zbiorowości: generalną 
(obejmuje wszystkie elementy będące przedmiotem badania) i próbną 

(jest podzbiorem zbiorowości generalnej wybranym w określony 
sposób).

Badania całej zbiorowości generalnej są przeprowadzane 

stosunkowo rzadko ze względu na możliwość zniszczenia w trakcie 

badania jednostek zbiorowości generalnej, wysokie koszty i 
czasochłonność, często nieskończoną liczbę elementów w zbiorowości 

generalnej. Badanie obejmujące wszystkie elementy zbiorowości 
generalnej nazywamy badaniem pełnym. Najczęściej stosowane są: 

-spis statystyczny;
-rejestracje statystyczne;

-sprawozdawczość statystyczna.
Badanie części zbiorowości generalnej wymaga pobrania próby w 

sposób losowy bądź celowy. Na zbiorowość generalną można uogólniać 
wyniki z próby losowej. Badanie takie nazywamy badaniem częściowym. 

Wyróżniamy 3 rodzaje tych badań:
-reprezentacyjne, które możemy uogólnić na zbiorowość generalną;

-monograficzne, niekoniecznie losowe, dokładnie opisane, którego 
nie można uogólniać;

-ankietowe, na dużej próbie, dość dokładne.
Trzeci rodzaj badania statystycznego to szacunki interpolacyjne i 

ekstrapolacyjne. Wyróżnić można 4 etapy badania statystycznego:
1. Planowanie badania. 2. Obserwacja statystyczna.

3. Opracowanie zebranego materi. 4. Opis i wnioskowanie statystyczne.

2. Formy prezentacji zebranego materiału 

statystycznego. Charakterystyka tablicy 

statystycznej i symboli umownych 

stosowanych w publikacjach 

statystycznych.

W wyniku obserwacji statystycznej otrzymujemy tzw. surowy materiał 

statystyczny. Materiał ten po dokładnej kontroli poddajemy grupowaniu. 
Prezentacji zebranego materiału możemy dokonać w formie: 

-Prezentacji opisowej – polega na włączaniu danych statystycznych 
do tekstu (opisu) o prezentowanym zjawisku. Prezentacja ta jest 

stosowana tylko wówczas, gdy liczba danych jest niewielka. Przy 
większej liczbie danych tekst staje się nieczytelny;

-Prezentacji graficznej – jest mniej dokładana niż prezentacja 
tabelaryczna. Jednak graficzne przedstawianie danych statystycznych 

pozwala na szybkie wyobrażenie sobie zdania na temat kształtowania 
się poziomu badanego zjawiska. Do najczęściej stosowanych metod 

graficznej prezentacji materiału statystycznego należą: metoda liniowa, 
metoda powierzchniowa, prezentacja w układzie współrzędnych, 

metoda obrazkowa, metoda ilościowa, metoda wiedeńska i kartogramy;
-Prezentacji tabelarycznej – pozwala na podanie w bardzo 

przejrzystej, zrozumiałej, systematycznej i zwięzłej formie wielu 
informacji, które w formie opisowej byłyby bardzo obszerne. Dlatego ta 

forma jest najczęściej stosowana w publikacjach przedstawiających 
dane statystyczne, np. w rocznikach statystycznych. Forma tabelaryczna 

jest wykorzystywana do prezentacji danych statystycznych 
uporządkowanych według jednego lub kilku kryteriów. W ramach 

tabelarycznej formy prezentacji materiału statystycznego wyróżnia się 
szeregi statystyczne oraz tablice statystyczne.

Szeregiem statystycznym nazywamy ciąg wielkości statystycznych 
wzrastających lub malejących, uporządkowanych wg określonych cech. 

Rozróżniamy następujące rodzaje szeregów:
---szczegółowe---strukturalne z cechą jakościową----rozdzielcze z cechą 

ilościową----kumulacyjne-----geograficzne----czasowe.
Tablica statystyczna prezentuje daną zbiorowość z perspektywy 

dwóch cech jednocześnie lub kilka zbiorowości wg 1 cechy.
W ich budowie można wyróżnić trzy elementy: tytuł, część właściwą 

oraz część końcową, która obejmuje wskazanie źródła danych i 
dodatkowe objaśnienia. Tytuł określa zbiorowość statystyczną, której 

dotyczą informacje zawarte w części właściwej, także zakres badań 
zbiorowości, czyli cechy statystyczne objęte badaniem. Przy wypełnieniu 

części właściwej należy przestrzegać zasady wypełniania wszystkich 
pozycji zapisu. Część właściwa  składa się z główki tablicy, boczku 

tablicy i danych. Tablica musi być także zaopatrzona w numer (z prawej 
strony u góry).

Znaki umowne stosowane w tablicach statystycznych:
„-” zjawisko nie występuje

„.” Brak informacji lub wiarygodnych informacji
„0”zjawisko występuje, ale w ilościach mniejszych od tych, które 

zostały wyrażone w tablicy.
„x” w rubryce, która nie może być wypełniona ze względu na budowę 

tablicy
„!” przy liczbach, które w danym wydawnictwie zmieniono w stosunku 

do poprzedniego.
„w tym” oznacza, że nie podaje się wszystkich składników sumy.

3. Charakterystyka i zastosowanie 

klasycznych miar przeciętnych.

Tendencja centralna w zbiorowości to wskazanie wartości badanej 
cechy w zbiorowości statystycznej, wokół której skupione są wartości 

cech wszystkich jednostek wchodzących w skład tej zbiorowości. 
Tendencję centralną można określić wykorzystując miary tendencji 

centralnej (inaczej miary przeciętne lub średnie).
Miary przeciętne
 charakteryzują zbiorowość statystyczną niezależnie 

od różnic między poszczególnymi obserwacjami.
Miary przeciętne można podzielić na dwie zasadnicze grupy:

Klasyczne miary przeciętne.
Pozycyjne miary przeciętne.

Do klasycznych miar przeciętnych (obliczanych na podstawie cechy 
wszystkich jednostek badanej zbiorowości) zaliczamy średnią 

arytmetyczną, średnią harmoniczną, średnią geometryczną i średnią 
kwadratową.

Średnia arytmetyczna definiowana jest jako iloraz sumy wszystkich 
wartości cechy i liczby obserwacji (liczebności badanej zbiorowości).

 

Jeżeli średnia jest obliczana z danych zawartych w szeregu 
rozdzielczym, wówczas ma ona postać: 

 gdzie k to liczba wyróżnionych przedziałów 

klasowych, xi środek i-tego przedziału klasowego.
Własności średniej arytmetycznej:

-Suma wartości cechy X jest równa średniej arytmetycznej pomnożonej 

przez ogólną liczebność. : 

-Suma odchyleń poszczególnych wartości cechy od średniej 

arytmetycznej jest równa 0.

 

lub 

-Suma kwadratów odchyleń poszczególnych wartości cechy od średniej 

arytmetycznej jest wartością najmniejszą, tzn. suma takich kwadratów 
przyjmuje minimum.

 

lub 

-Średnia arytmetyczna jest wielkością mianowaną 
Obliczanie średniej arytmetycznej oparte jest na wszystkich 

obserwacjach. Średnia arytmetyczna obliczana na podstawie szeregu 
rozdzielczego o przedziałach klasowych jest wielkością przybliżoną, a 

wielkość przybliżenia zależy od zastosowanej metody grupowania 
danych statystycznych. Średniej arytmetycznej nie można obliczać w 

przypadku szeregu rozdzielczego o otwartych przedziałach klasowych.
Niewskazane jest obliczanie średniej arytmetycznej gdy:

zbiorowość badana jest nieliczna i występują w niej nietypowe wartości 
cechy.;; zbiorowość badana jest niejednorodna z punktu widzenia 

analizowanej cechy.;;Im bardziej zróżnicowane są poszczególne 
wartości cechy, tym mniejsza jest wartość poznawcza średniej 

arytmetycznej.
Średnią harmoniczną należy stosować w przypadku, gdy wartości 

cechy podane są w formie odwrotności, tzn. gdy wartości jednej cechy 
są  podane w przeliczeniu na stałą jednostkę innej cechy. Średnia ta 

stosowana jest do obliczania przeciętnej prędkości pojazdów, ceny 
towarów, szybkości obrotów pieniężnych i przeciętnego czasu 

niezbędnego do wykonania pewnych czynności.
Średnia harmoniczna jest odwrotnością średniej arytmetycznej z 

odwrotności cechy X, czyli:

 lub 

Jeżeli wartości cechy powtarzają się wielokrotnie wówczas stosowana 

jest średnia harmoniczna ważona
Średnia geometryczna trafniej niż średnia arytmetyczna opisuje 

cechę gdy wartości tej cechy przedstawione są w postaci liczb 
względnych(ilorazy). Stosowana powinna być przede wszystkim wtedy, 

gdy występują duże różnice pomiędzy obserwacjami, ponieważ jest 
mniej wrażliwa na wartości nietypowe niż średnia arytmetyczna. 

Średnia kwadratowa stosowana jest, gdy wyrazy w próbie 

odpowiadają odchyleniom od zadanego wzorca (standardu). Wyrazy w 
takiej próbie są niektóre ujemne, dodatnie, a inne zerowe. Obliczanie 

średniej kwadratowej sprowadza się do podniesienia do kwadratu 
wartości obserwacji w próbie lub środków przedziałów klasowych w 

szeregach rozdzielczych. i ich przemnożenia przez częstości klasowe, a 
następnie sumowaniu tych wielkości i wyznaczenia pierwiastka 

kwadratowego

4. Charakterystyka i zastosowanie 

pozycyjnych miar przeciętnych.

Przeciętne miary pozycyjne są to wartości cechy pewnych jednostek 
zbiorowości statystycznej wyróżnionych ze względu na ich położenie w 

tej zbiorowości. Przy ich wyznaczaniu dane liczbowe muszą być 
uporządkowane niemalejąco lub nierosnąco. Do miar pozycyjnych 

przeciętnych zaliczamy: kwartyle i dominantę.
Kwartylem, który ma największe znaczenie, jest kwartyl drugi, który 

nazywany jest medianą lub wartością środkową. 
Przez medianę należy rozumieć taką wartość cechy mierzalnej w 

uporządkowanym zbiorze ich wartości, poniżej i powyżej której znajduje 
się jednakowa liczba jednostek zbiorowości statystycznej.

Metody wyznaczania mediany:
1. Dane indywidualne (szereg szczegółowy) Gdy liczebność 

zbiorowości jest liczbą niepar mediana  ma postać

    

 

Gdy liczebność zbiorowości jest liczbą parzystą : 

     

2. Wyznaczanie Me z szeregu rozdzielczego. Przybliżoną wartość Me 

z szeregu rozdzielczego można obliczyć ze wzoru:   

x

0

 – dolna granica przedziału mediany, h

0

 – rozpiętość przedziału, n

0

 – 

liczebność przedziału mediany, 

N

Me

 

– numer mediany obliczany ze 

wzoru:                 

N

Me

= N/2 gdy N parzyste

                                  (N+1)/2 gdy N nieparzyste

n

sk(-1)

 – skumulowana liczebność przedziału, który poprzedza przedział 

mediany. Mediana jest wielkością mianowaną. Jej wielkość nie zależy od 

skrajnych wartości cechy. Stosowana może być zwłaszcza wtedy, gdy 
podstawą obliczeń jest szereg rozdzielczy o otwartych przedziałach 

klasowych, a więc wtedy gdy obliczenie średniej arytmetycznej jest z 
reguły niemożliwe. Mediana ma wtedy jednak wartość przybliżoną, tym 

dokładniejszą, im mniejsze są rozpiętości przedziałów klasowych.
Kwartyl pierwszy jest to ta wartość cechy jednostki statystycznej, 

która dzieli szereg w ten sposób, że ¼ jednostek ma wartość cechy od 
niej nie większą, a ¾ nie mniejszą.

Q

1

=x

0

+h

0

/n

0

(N

Q1

-n

sk(-1)

)

Gdzie 

N

Q1

= N/4 dla N

 parzystych

                    

(N+1)/4 dla N

 nieparzystych

Kwartyl trzeci jest natomiast tą wartością cechy jednostki 

statystycznej, która dzieli szereg w ten sposób, że ¾ jednostek 
zbiorowości ma wartość cechy od niej nie większą, a ¼ nie mniejszą

Q

3

=x

0

+h

0

/n

0

(N

Q3

-n

sk(-1)

)

Gdzie N

Q1

= 3N/4 dla N parzystych

                    (3N+1)/4 dla N nieparzystych
Dominanta (moda) jest to ta wartość cechy, która w zbiorowości 

występuje najliczniej i najczęściej. Przybliżoną wartość dominanty 
obliczyć można z szeregu rozdzielczego pod warunkiem, że spełnione są 

dwa warunki:
W szeregu rozdzielczym istnieje przedział o największej liczebności.

Rozpiętość tego przedziału oraz rozpiętości przedziałów z nim 
bezpośrednio sąsiadujących są jednakowe. (Krzywa liczebności w 

otoczeniu dominanty ma kształt funkcji kwadratowej).
Przy spełnieniu powyższych warunków przybliżoną wartość dominanty 

możemy obliczyć przy pomocy wzoru:

5. Charakterystyka i zastosowanie 

bezwzględnych i względnych miar 

zróżnicowania.

Bezwzględne miary zróżnicowania czielimy na klasyczne i pozycyjne

klasyczne

Odchylenie przeciętne 

(d

x

)

 jest to średnia arytmetyczna z 

bezwzględnych wartości  różnic między poszczególnymi wartościami 
cechy a średnią arytmetyczną. W przypadku danych o charakterze 

szczegółowym odchylenie przeciętne obliczamy przy pomocy wzoru:

d

x

=1/N *

Σ

|x

i

-x

_

|

Natomiast gdy podstawą obliczeń są dane zawarte w szeregu 
rozdzielczym 

d

x

 

obliczamy wg wzoru:

d

x

=1/N *

Σ

|x

i

o

-x

_

|*n

i

Odchylenie przeciętne jest miarą mianowaną,. Ocena stopnia 

zróżnicowania wartości cechy połączona powinna być z odniesieniem do 
wielkości średniej arytmetycznej. 
Wariancja 

(S

x

2

definiowana jest jako średnia arytmetyczna 

kwadratów różnic poszczególnych wartości cechy jednostek zbiorowości 

statystycznej od średniej arytmetycznej. W przypadku danych 

szczegółowych:  

W przypadku szeregu rozdzielczego: 

Odchylenie standardowe 

(S

x

)

 jest defin jako  

S

x

 

jest wielkością mianowaną a interpretowane powinno być łącznie ze 

średnią arytmetyczną. Gdy stanowi ono dużą część średniej 

arytmetycznej świadczy to o silnym zróżnicowaniu wartości cechy.

Pozycyjne miary zróżnicowania

 to rozstęp odchylenie 

ćwiartkowe.
Rozstep(Obszar zmienności) R

x

 wyznaczany jest jako różnica między 

największą i najmniejszą wartością cechy:

Miernik ten ma niewielką wartość poznawczą, gdyż uzależniony jest od 

skrajnych wartości cechy. Pozostałe wartości nie uczestniczą w 
rachunku, a tym samym nie mają żadnego wpływu na uzyskany wynik. 

Miernik ten wykorzystywany jest głównie przy wstępnej analizie stopnia 
zróżnicowania wartości cechy. 

Odchylenie ćwiartkowe Q

x

 definiowane jest jako połowa 

różnicy między kwartylem trzecim i pierwszym: 

Odchylenie ćwiartkowe jest wielkością mianowaną, a jej interpretacja 

odbywać się powinna łącznie z medianą. Jeśli stanowi dużą część 
mediany, to występuje silne zróżnicowanie cechy.

Względne miary zróżnicowania

W przypadku gdy porównujemy stopień zróżnicowania wartości cechy w 

kilku zbiorowościach, w których średnie wartości cechy różnią się, a 
także gdy badany stopień zróżnicowania w jednej zbiorowości dwóch 

różnych cech obliczane powinny być współczynniki zmienności. 
Współczynnik zmienności oparty na odchyleniu standardowym lub 

na odchyleniu przeciętnym:

 

lub 

Współczynniki te informują jaki procent średniej stanowi odchylenie 

standardowe lub przeciętne. Jeżeli wartości współczynników zmienności 
przekraczają 50% to oznacza to, że mamy do czynienia ze zbiorowością 

względnie niejednorodną z punktu widzenia badanej cechy.
Współczynnik zmienności oparty na odchyleniu ćwiartkowym 

V

Qx

=Qx/Me 100%

Informuje jaki procent mediany stanowi Qx. Jest on stosowany wtedy, 

gdy przeciętny poziom cechy charakteryzowany jest za pomocą 
mediany.

6. Miary asymetrii charakterystyka i 

zastosowanie

W analizie struktury zbiorowości możemy określić czy rodzaj rozkładu 

zbiorowości jest symetryczny bądź wykazuje deformacje w postaci 
wydluzenia jednego z ramion krzywej liczebności. Oznacza to, że szeregi 

mogą być zbudowane symetrycznie lub asymetrycznie.
Współczynnik skośności to miara asymetrii równa różnicy między 

średnią arytmetyczna a dominantą. 

D

x

W

s

=

_

Jeśli różnica ta jest większa od zera mamy do czynienia z asymetrią 
dodatnią (prawostronną), a jeżeli różnica ta jest ujemna to mamy do 

czynienia z asymetrią ujemną (lewostronną). Różnica miedzy średnią 
arytmetyczną a dominantą informuje nas o kierunku zależności, lecz 

jest zależna od wielkości cechy, a przy tym nie nadaje sie do 
porównywania sił asymetrii w przypadku, gdy porównywane cechy 

wyrażone są w różnych jednostkach. Stosuje sie wtedy unormowany 
współczynnik asymetrii
, który wyraża sie wzorem:

W

s

 

S

D

x

   S – odchylenie standardowe   D – dominanta

Jeśli szereg jest symetryczny to współczynnik ten jest równy zero. Im 

większą asymetrią charakteryzuje sie rozkład badanej cechy, tym 
większe wartości współczynnika, a znak informują nas o kierunku 

asymetrii. 
iloraz momentu centralnego trzeciego rzędu i sześcianu 

odchylenia standardowego. Im większa wartość bezwzględna tego 
miernika, tym większy stopień asymetrii. 

Jeżeli z uzasadnionych powodów nie jest możliwe obliczenie 
przeciętnych miar klasycznych, wówczas jako miarę asymetrii 

zastosowanie znajduje wskaźnik asymetrii oparty na kwantylach.

3

1

2

_

1

3

_

1

3

1

3

}

)

(

1

{

)

(

1

)

(

)

(

)

(

)

(

=

=

=

+

=

k

i

i

i

k

i

i

i

s

s

n

x

x

N

n

x

x

N

M

Q

Me

Me

Q

Q

Me

Me

Q

A

background image

7. Metody pomiaru siły związku 

korelacyjnego dwóch cech w przypadku 

korelacji prostoliniowej.

a) Współczynnik korelacji rang Spearmana R

Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech 
mierzalnych. Zastosowanie znajduje również w przypadku cech 

niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się 
uporządkować (porangować). Miernik ten jest miarą unormowaną i 

zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R 
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym 

słabsza korelacja. Bliskie jedynki wartości modułu R informują 
natomiast, że między cechami występuje silna zależność korelacyjna. 

Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia, 
R<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w 

oparciu o wzór:

2

1

2

6

1

;

(

1)

n

i

i

s

d

r

n n

=

×

= −

ĺ

 gdzie n – liczeb badanej zbiorowości

d

i

 

– różnica i-tych rang cechy x i y

Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się 
ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy. 

Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką 
samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie 

zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich 
wartości cechy. Współczynnik korelacji rang stosowany powinien być w 

przypadku zbiorowości niezbyt licznych (n<40). Współczynnik ten nie 
jest miarą zbyt precyzyjną, bo obliczany jest w oparciu nie o 

rzeczywiste wartości cech, ale w oparciu o ich rangi.
b) Współczynnik korelacji liniowej Pearsona stosowany jest do 

pomiaru siły i kierunku zależności korelacyjnej prostoliniowej. Jest on 
definiowany jako iloraz kowariancji z cech i iloczynu odchyleń 
standardowych tych cech. Oznaczać będziemy go symbolem 

r

yx

r

x y

s x

s y

=

cov( , )

( ) * ( )

  gdzie 

cov( , )

(

)(

)

x y

n

x

x y

y

i

i

n

i

=

=

1

1

Współczynnik korelacji liniowej jest miarą unormowaną i zawiera się w 

przedziale <-1,1>. O sile zależności korelacyjnej informuje wartość 
bezwzględna 

r

yx

Bliskie zera wartości 

r

yx

 świadczą o słabej korelacji 

bądź o jej braku. W przypadku gdy 

|r

yx

|

 jest bliski 1 oznacza to, że 

między cechami występuje bardzo silna korelacja prostoliniowa. W 
szczególności kiedy 

|r

yx

|=1

 oznacza to tzw. korelację doskonałą. 

Znak współczynnika korelacji liniowej informuje o kierunku zależności 

(r

yx

>0 

oznacza korelację dodatnią,

 r

yx

<0

 oznacza korelację 

ujemną). Miara ta jest miarą symetryczną, tzn.

 r

yx

=r

xy

.

8. Metody badania siły zależności 

korelacyjnej dwóch cech w przypadku 

korelacji krzywoliniowej oraz w 

przypadku cech niemierzalnych.

a) Stosunek korelacji 

η

yx 

stosowany jest do badania siły zależności 

korelacyjnej 2 cech, z których co najmniej jedna musi być cechą 

mierzalną, może być stosowany bez względu na charakter zależności. 
Wymaga, by badana zbiorowość była liczna, a zebrane informacje 

pogrupowane w tablicy korelacyjnej. Ogólnie można powiedzieć, że 
stosunek korelacji jest pierwiastkiem kwadratowym z ilorazu wariancji 

objaśnionej i wariancji całkowitej, czyli Miernik ten przyjmuje zawsze 
wartości z przedziału <0,1>. Im bliższa jedności jest jego wartość, tym 
silniejszy jest związek korelacyjny 2 cech. W szczególności gdy 

η

yx

=1 

oznacza to, że między cechami występuje zależność  funkcyjna. Bliskie 
zera wartości 

η

yx

 

oznaczają natomiast bardzo słabą korelację albo jej 

brak. Miernik ten jest niesymetryczny, tzn. 

η

yx

≠η

xy

.

 Miernik ten 

wykorzystywany może być również do badania charakteru zależności 
korelacyjnej. Jeżeli 

|r

yx

|=

η

yx

 

wówczas stwierdzamy, że między 

badanymi cechami występuje zależność korelacyjna prostoliniowa. 
Stosunek korelacji można wyrazić za pomocą wzoru:

 

b) Współczynnik kontyngencji C Pearsona Miara ta stosowana jest 
do pomiaru siły zależności między dwiema cechami niemierzalnymi. Jest 

obliczana przy pomocy wzoru:
 

Współczynnik ten zawiera się w przedziale <0,1). Jeżeli wartość C jest 

bliska jedności wówczas stwierdzamy silną zależność między badanymi 
cechami, natomiast bliskie zera wartości cech oznaczają bardzo słabą 

zależność bądź jej brak. 
c) Współczynnik korelacji rang Spearmana R

Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech 
mierzalnych. Zastosowanie znajduje również w przypadku cech 

niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się 
uporządkować (porangować). Miernik ten jest miarą unormowaną i 

zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R 
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym 

słabsza korelacja. Bliskie jedynki wartości modułu R informują 
natomiast, że między cechami występuje silna zależność korelacyjna. 

Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia, 
R<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w 

oparciu o wzór:

)

1

(

6

1

2

1

2

×

=

=

n

n

d

r

n

i

i

s

 gdzie n – liczebność badanej zbiorowości

d

i

 – różnica i-tych rang cechy x i y

Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się 

ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy. 
Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką 

samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie 
zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich 

wartości cechy.
Współczynnik korelacji rang stosowany powinien być w przypadku 

zbiorowości niezbyt licznych (n<40). Współczynnik ten nie jest miarą 
zbyt precyzyjną, bo obliczany jest w oparciu nie o rzeczywiste wartości 

cech, ale w oparciu o ich rangi.

9. Metoda szacowania parametrów 

liniowej funkcji regresji i jej 

zastosowanie. Interpretacja 

współczynnika regresji „b”.

Przy badaniu populacji generalnej równocześnie ze względu na dwie lub 
więcej cech mierzalnych posługujemy się pojęciami regresji i korelacji. 

Oba te pojęcia dotyczą zależnośći między zmiennymi, przy czym 
korelacja zajmuje się siłą tej zależności, a regresja – jej kształtem.

Wyrażenie zależności między cechami badanymi za pomocą określonej 
funkcji matematycznej nazywać będziemy  regresją. Po wyborze klasy 

funkcji na podstawie danych empirycznych musimy naszą funkcję jak 
najlepiej dopasować do danych liczbowych ujętych na wykresie 

punktowym.

Metodą szacowania parametrów funkcji regresji jest tzw. klasyczna 
metoda najmniejszych kwadratów pozwalająca tak dobrać funkcję do 

danych empirycznych aby suma kwadratów odchyleń poszczególnych 
wartości empirycznych od wartości funkcji regresji równała się mini...

Dla takiej postaci funkcji regresji warunek najmniejszych kwadratów to:
Jest to funkcja dwóch zmiennych a i b. Osiąga ekstremum dla warunku 

koniecznego:

Przekształcamy ten układ do postaci 2 równań o 2 
niewiadomych a i b:

Układ ten nazywamy układem równań normalnych. W wyniku jego 

rozwiązania otrzymujemy współczynniki a i b, a tym samym równanie 
linii regresji:

Parametr b nazywany współczynnikiem regresji, wyraża o ile przeciętnie 
zmieni się zmienna zależna y gdy zmienna niezależna x wzrośnie o 

jednostkę. Jeżeli miedzy dwoma cechami występuje współzależność 
wówczas możemy wyznaczyć drugie równanie linii regresji

^

 

       x = A + By

Jeżeli znamy dwa ramiona linii regresji wówczas istnieje możliwość 
obliczenia współczynnika korelacji liniowej:

r = sgn b √bB

 ^                               _      _

 y = ryx  Sy/Sx  (x – x ) + y

Równanie linii regresji wykorzystać można do sporządzania prognoz, tj. 

określenia wielkości cechy y przy danym x. każda prognoza obarczona 
jest błędem, którego wielkość można oszacować obliczając odchylenie 

standardowe resztowe: 

Yi 

oznacza empiryczne wartości cechy y

Yi 

z daszkiem to teoretyczne wartości y obliczane na podstawie 

równania linii regresji zapisanego powyżej.

10. Rozkład i parametry zmiennej losowej 

skokowej. Charakterystyka poznanych 

rozkładów teoretycznych zmiennej 

losowej skokowej.

Zmienna losowa jest typu skokowego, jeżeli zbiór jej wartości jest 
skończony lub przeliczalny (zbiór liczb naturalnych, całkowitych). 

Rozkładem zmiennej losowej skokowej X nazywa się prawdopodobień 
tego,że zmienna ta przybiera wartości 

x

i

 (i = 1,2,3…),

co można 

zapisać:  

P(X=x

i

) = p

i   

i=(1,2,3…)   ;;;  

Σ p

i

 = 1

Drugą charakterystyką zmiennej losowej jest dystrybuanta.

Funkcja F(X) = P(X<x) nazywana jest dystrybuantą zmiennej losowej X.
F(X) przyjmuje zawsze wartości z przedziału : <0,1>

Związek między rozkładem i dystrybuantą : załóżmy, że wartości 
zmiennej losowej X zostały uszeregowane w porządku rosnącym.: 

x1<x2<x3<…..<x

n-1

<x

n  

Niech  x

<x<x

n+1 

F(X) = P(X<x) = p

1+

p

2+

p

3+…+

p

i  

, gdzie p

=P(X=x

i

)

Parametry zmiennej losowej skokowej
Podstawowymi parametrami zmiennej losowej skokowej są: 

wartość oczekiwana (wartość przeciętna, nadzieja matematyczna) 
wariancja (odchylenie standardowe). 
Wartość oczekiwana 

E(X)= Σx

i

p

i

Wariancja  

D

2

(X) = E(X – E(X))

2

D

2

(X)=

=

N

i

i

i

p

X

E

x

1

2

))

(

(

lub  D

2

(X)=

=

N

i

i

i

X

E

p

x

1

2

2

)]

(

[

,

Odchylenie standardowe D(X) = 

)

(

2

X

D

Rozkłady zmiennej losowej skokowej:

Rozkład dwupunktowy – powiemy, że zmienna losowa X ma rozkład 
dwupunktowy jeżeli z dodatnimi prawdopodobieństwami przyjmuje 
tylko dwie wartości 

x

i x

2

.

 Funkcja rozkładu prawdopodobieństwa tej 

zmiennej losowej określona jest więc następującoP(X=x

1

) = p, 

P(X=x

2

)=1-p 

niekiedy dla wygody przyjmuje się, że 

x

1

=1 i x

2

=0. 

Przy czym

 x

1

=1

 nazywamy sukcesem a

 x

2

=0

 porażką. Wówczas 

P(X=1)=p

   P(X=0)=1-p=q

Rozkład zmiennej losowej X określonej powyższymi wzorami nosi nazwę 

rozkładu zero-jedynkowego. 

 Parametry rozkładu  E(X) = p ;;; D

2

(X) = pq ;;; D(X) = 

pq

X~Z-J(p,

pq

- Zmienna losowa X ma rozkładu zero-jedynkowy o 

wartości oczekiwanej p i odchyleniu standardowym 

pq

Rozkład dwumianowy(Bernoulliego)
Niech będzie dana zmienna losowa X, taka, że  

X= X

1

 +X

2

 + ….X

N

gdzie 

X

1

,X

2,

 ….,X

N

 

są zmiennymi losowymi, które mają rozkład 

zerojedynkowy o wartości oczekiwanej p. Wynika stąd, że zmienna 

losowa X przyjmuje wartości 0,1,2…n. Tak zdefiniowana zmienna 
losowa ma rozkład nazywany rozkładem dwumianowym. Funkcja 

rozkładu prawdopodobieństwa tej zmiennej losowej wyraża się wzorem:

P(X=k)=

k

n

k

k

n

q

p

C

 , k

)

,

0

n

, przy czym 

=

=

=

n

k

k

X

P

0

1

)

(

Dystrybuanta zmiennej losowej, która ma rozkład dwumianowy 

określona jest wzorem:  F(X)=P(X<x)=

<

x

k

k

n

k

k

n

q

p

C

Parametry rozkładu dwumianowego

E(X)=np  ;;; D(X)=

npq

  oraz X~D(np,

npq

)

W praktyce mamy  do czynienia z rozkładem dwumianowy przy 
losowaniu zwrotnym elementów ze zbiorowości ograniczonej  lub przy 

losowaniu bezzwrotnym ze zbiorowości nieograniczonej, nieskończonej 
jeżeli wynik pojedynczego losowania jest zmienną losową o rozkładzie 

zero-jedynkowym.
Własności rozkładu dwumianowego:

1.Jest on rozkładem sumy n-niezależnych zmiennych losowych z 
których każda ma rozkład zero-jedynkowym.

2.Jeśli p=q rozkład jest symetryczny, jeśli p różne od q to rozkład jest 
asymetryczny.

Rozkład Poissona
Niech zmienna losowa X ma rozkład dwumianowy. Załóżmy że przy n 

dążącym do nieskończoności p zmienia się w ten sposób, że np =m 
gdzie m jest pewną stałą. Można wówczas wykazać, że 

k

k

n

e

k

m

k

X

P

=

=

!

)

(

lim

,  

k

n

k

k

n

q

p

C

k

X

P

=

=

)

(

Rozkład zmiennej losowej X określony powyższym wzorem nazywany 

jest rozkładem Poissona. Wzór ten zachodzi dla n dążącego do 
nieskończoności(praktycznie dla dużych wart. n) ale przy ustalonym m i 

dużym n, e musi być małe: p<0,1 ;  n>30,    q=1-p
Wart. oczekiwana:E(X)=m  Odchylenie standardowe:D(X)=

m

11. Rozkład i parametry zmiennej losowej 

ciągłej. Charakterystyka poznanych 

rozkładów teoretycznych zmiennej 

losowej ciągłej.

Zmienną losową nazywamy ciągłą, jeżeli zbiór jej wartości jest 
nieprzeliczalny. Zmiennej losowej ciągłej nie można scharakteryzować 

za pomocą funkcji rozkładu prawdopodob., ponieważ zbiór wartości tej 
funkcji jest nieprzeliczalny. Dodatkowo dowodzi się, że jeśli X jest 

zmienną losową ciągłą, to prawdopodobieństwo, że zmienna losowa 
przybierze tę wartość wynosi 0. Zmienną losową ciągłą można 

scharakteryzować podając jej dystrybuantę. 
Dystrybuantą zmiennej losowej ciągłej X nazywać będziemy funkcję:

F(X) = P(X<x)  

Można udowodnić następujące twierdzenie: 

Jeżeli dystrybuanta F(X) ma pochodną w punkcie x, tzn. jeżeli istnieje 

granica ilorazu różnicowego:

To pochodna ta nazywa się gęstością prawdopodobieństwa zmienn 
los.X. Gęstość prawdopodobień oznaczamy f

(x) i f(x)= F’(X)

Istnieje również możliwość obliczenia dystrybuanty zmiennej losowej X 
jeżeli znamy jej funkcję gęstości:

F(X) = 

x

dx

x

)

(

Funkcja gęstości zmiennej losowej X ma nast. Własności:
---jest nieujemna

---jest ciągła z wyjątkie co najwyżej skończonej liczby punktów 
nieciągłości

--- 

=

1

)

dx

x

f

Parametry zmiennej losowej ciągłej

=

dx

x

xf

X

E

)

(

)

(

   ;;;  

=

dx

x

f

X

E

x

X

D

)

(

))

(

(

)

(

2

2

=

2

2

2

))

(

(

)

(

)

(

X

E

dx

x

f

x

X

D

;;; 

)

(

)

(

2

x

D

x

D

=

Rozkład normalny (Gaussa) Mówimy , że zmienna losowa X ma 
rozkład normalny z parametrami 

µ

 i  

0

>

δ

, co zapisujemy

)

,

(

~

δ

µ

N

X

, jeśli jej funkcja gęstości jest określona 

wzorem :  

2

2

2

)

(

*

2

1

)

(

δ

µ

π

δ

=

x

e

x

f

  , dla 

)

;

(

+∞

−∞

x

gdzie : 

µ

=

)

(x

E

  ;; 

2

2

)

(

δ

=

x

D

Reguła 3 sigm:

6826

,0

)

(

=

+

<

<

δ

µ

δ

µ

X

P

 ;

9545

,0

)

2

2

(

=

+

<

<

δ

µ

δ

µ

X

P

9973

,

0

)

3

3

(

=

+

<

<

δ

µ

δ

µ

X

P

Jest ona wykorzystywana w badaniach empirycznych w celu eliminacji 
obserwacji nietypowych, nie przystających do pozostałych, co do 

których istnieją przypuszczenia , że pochodzą z innej zbiorowości. Za 
wątpliwe uznaje się takie obserwacje , których wartość różni się od 

średniej o więcej niż 3 odchylenia standardowe.
Rozkład normalny standaryzowany to rozkład normalny z 
wartością oczekiwaną 

0

=

µ

 i odchyleniem standardowym 

1

=

δ

Każdy rozkład normalny  

)

,

(

:

δ

µ

N

X

może być transformowany 

do rozkładu normalnego 

)

1

,

0

(

N

Z

 poprzez procedurę standaryzacji 

zmiennej X do Z. Czasami zamiast Z stosuje się literę U ( unormowana )

Zmienna los standaryzowana wyraża się wzorem :

δ

µ

=

X

Z

  

Procedura standaryzacji ma swoje uzasadnienie w tym, że tylko rozkład 

normalny standaryzowany jest stablicowany. Najczęściej korzysta się z 
tablic dystrybuanty .

Rozkład chi – kwadrat 

2

(

χ

 ) 

Zakładając  , że  

X

1

, X

2

 , ..., X

k

 są niezależnymi zmiennymi losowymi 

o rozkładzie normalnym o parametrach 

0

=

µ

 i 

1

=

δ

 , zmienna 

losowa  

2

χ

 określona w sposób następujący : 

=

=

k

i

i

X

1

2

2

χ

 

zmienna ta ma rozkład  

2

χ

 o 

k

 stopniach swobody

Zmienna losowa o rozkładzie chi-kwadrat przyjmuje wartości dodatnie, 

a jej rozkład zależy od liczby stopni swobody k . Dla małych wartości k 
jest to rozkład silnie asymetryczny, w miarę wzrostu k asymetria jest 

coraz mniejsza. Liczbę stopni swobody k wyznaczamy najczęściej w 
sposób następujący 

:k=n-1 lub k=n-r-1

,gdzie : 

n – liczebność próby
r – liczba szacowanych parametrów z próby

Parametry rozkładu 

2

χ

 :

k

E

=

)

(

2

χ

;; 

k

D

2

)

(

2

2

=

χ

;;

k

D

2

)

(

=

χ

 

Wraz ze wzrostem k ( powyżej  30 ) rozkład 

2

χ

 przechodzi w rozkład 

asymptotycznie normalny o tych samych parametrach 

k

E

=

)

(

2

χ

  i  

k

D

2

)

(

2

2

=

χ

.

Rozkład t – Studenta Jest to rozkład stosowany głównie do małych 

prób. Rozkład  t – Studenta jest rozkładem symetrycznym względem 
prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu normalnego 
standaryzowanego (jest nieco bardziej spłaszczony ). Jeżeli  

Z :N(0;1) 

i

 

)

2

;

(

:

2

2

k

k

χ

χ

 są niezależnymi zmiennymi 

losowymi , to zmienna 

k

Z

T

2

χ

=

 ma rozkład t- Studenta o k 

stopniach swobody . 
Parametry rozkładu t Studenta:

E(t)=0 dla     k>=2

2

)

(

2

=

k

k

T

D

  

dla 

   

3

k

  

  

dla  

3

k

Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do 
rozkładu normalnego standaryzowanego  [ N : ( 0 , 1 ) ]

Rozkład F – Snedecora 

Jeżeli  zmienne  

1

Y

 i  

2

Y

 są zmiennymi niezależnymi i mają rozkłady 

2

χ

  o 

1

k

 i 

2

k

 stopniach swobody , to zmienna losowa  

2

1

k

k

F

 ma 

rozkład F – Snedecora :

2

2

1

1

/

/

2

1

k

Y

k

Y

F

k

k

=

gdzie  

1

k

 i 

2

k

 są stopniami swobody .

parametry rozkładu F Snedecora

2

)

(

2

2

=

k

k

F

E

    dla  

2

2

>

k

)

4

(

)

2

(

)

2

(

2

)

(

2

2

2

1

2

1

2

2

2

+

=

k

k

k

k

k

k

F

D

     dla  

4

2

>

k

 

=

2

2

2

2

.

/

1

.

)

(

/

1

y

j

jn

y

N

y

ni

xi

y

N

yx

η

N

C

+

=

2

2

χ

χ

 gdzie N- liczebność badanej zbiorowości a 

=

Npij

Npij

nij

2

2

)

(

χ

 

( )

2

k

D t

k

=

 

=

2

2

2

2

.

/

1

.

)

(

/

1

y

j

jn

y

N

y

ni

xi

y

N

yx

η

background image

12. Estymatory i ich podstawowe 

własności. Estymacja przedziałowa 

wskaźnika struktury.

Jednym z głównych zagadnień statystyki matematycznej jest 

szacowanie wartości parametrów rozkładu populacji generalnej na 
podstawie próby pobranej z tej populacji. Szacowania możemy dokonać 

w dwóch postaciach:
1) nieznaną wartość parametru możemy oszacować podając jedną 

liczbę odpowiadającą przypuszczalnej wartości parametru; w tym 
przypadku mówimy o tzw. estymacji punktowej;

2) nieznaną wartość parametru możemy oszacować podając przedział, 
w który mieści się prawdziwa wartość parametru. Mówimy wówczas o 

tzw. estymacji przedziałowej.
Załóżmy, że dystrybuanta

 F(x)

 charakteryzuje rozkład populacji 

generalnej, a 

θ

 

niech oznacza nieznany parametr tej populacji. Niech 

x

1

x

2

,…,x

n

 

będzie n-elementową próbą pobraną z tej populacji. 

Statystykę 

T

n

 będącą funkcją zmiennych 

x

1

, x

2

,…,x

(funkcją próby) 

T

n

 = T(x

1

, x

2

,…,x

n

),

 służącą do oszacowania parametru 

θ

,

 nazywać 

będziemy estymatorem. Jej wartość 

t

n

 = t(x

1

, x

2

,…,x

n

odpowiadającą realizacji próby 

x

1

, x

2

,…,x

n

 

nazywamy oceną 

parametru. Estymator jest więc zmienną losową zaś jego ocena jest 
konkretną liczbą odpowiadającą danej realizacji próby. Pojęcie 

estymatora można sformułować też nieco inaczej: estymatorem 
parametru 

θ

 nazywamy funkcję 

T

n

 = T(x

1

, x

2

,…,x

n

)

, która ma tę 

własność, że prawdopodobieństwo zdarzenia 

T

 

θ

 jest tym bliższe 1 

im większa jest liczebność próby.

Jeżeli szacujemy określony parametr, to istnieje możliwość posługiwania 
się różnymi estymatorami. Jeśli np. szacowanym parametrem jest 

średnia w zbiorowości generalnej, to podstawą tego szacunku mogą być 
takie estymatory, jak: średnia arytmetyczna, mediana, dominanta, 

średnia geometryczna itp.
Cechy dobrego estymatora:
---- Zgodność – estymator 

T

parametru 

θ

 jest zgodny jeżeli ciąg różnic 

{ T

n

 -

θ

}

 jest przy n dążącym do nieskończoności stochastycznie 

zbieżny do 0, tzn. Gdy:

 

[

]

>

=

<

0

ε

1

)

(

θ

n

n

dla

P

T

lim

ε

Własność ta oznacza, że w miarę jak rośnie liczebność próby, 
prawdopodobieństwo przekroczenia dowolnie małej różnicy (co do 
wartości bezwzględnej) między estymatorem Tn a parametrem 

θ 

zmierza do 0. estymatory spełniające powyższy warunek nazywamy 
estymatorami zgodnymi. Stosując taki estymator unikamy przy dużych 

próbach popełnienia dużego błędu.
---- Nieobciążoność – powiemy, że estymator T

jest nieobciążonym 

estymatorem parametru

 

θ

, jeżeli 

E(T

n

) = 

θ  

Jeśli przy pomocy 

nieobciążonego estymatora szacujemy parametr 

θ

, to w prawdzie w 

poszczególnych przypadkach uzyskane oceny mogą się różnić od 
wartości parametru 

θ

,

 jednak w dużej serii dokonywania takich ocen 

ich średnia będzie równa 

θ

.

 Posługiwanie się estymatorem 

nieobciążonym zabezpiecza nas przed systematycznymi błędami w 
ocenie. Różnicę 

E(T

n

) - 

θ

 nazywamy obciążeniem estymatora.

---- Efektywność – powiemy, że estymator 

T

n

 

parametru 

θ

 jest 

estymatorem najefektywniejszym, jeżeli wśród estymatorów 

nieobciążonych posiada najmniejszą wariancję.
---- Dostatecznosc (wystarczalność) – estymator 

T

n

 

parametru 

θ

 jest 

dostateczny, jeżeli zawiera wszystkie informacje, jakie na temat 
parametru 

θ

 występują w próbie i żaden inny estymator nie może dać 

dodatkowych informacji o szacowanym parametrze.

Przedział ufności dla wskaźnika struktury p otrzymujemy z 
odpowiedniego rozkładu estymatora. Najlepszym estymatorem jest 

wskaźnik struktury z próby m/n, gdzie m oznacza liczbę elementów 
wyróżnionych znalezionych w losowej próbie o liczebności n.

Model: Populacja generalna ma rozkład dwupunktowy z parametrem p 
Z populacji losujemy niezależnie dużą próbę o liczebności (n>100). 
Wtedy przedział ufności dla parametru 

θ

 = p jest określony wzorem:

α

α

α

=





 −

+

<

<

 −

1

1

1

n

n

m

n

m

n

m

p

n

n

m

n

m

n

m

P

u

u

gdzie

u

α 

 

wielkość, którą odczytujemy z tablic dystrybuant rozkładu 

normaln w oparciu o zależność 

P(

U

≤

 u

α

)=1-

α

 i 

U~N(0,1)

13. Estymacja przedziałowa średniej – 

kryteria wyboru określonego przedziału 

ufności.

Szacując wartość nieznanego parametru, konstruujemy na podstawie 
losowej próby przedział ufności, w którym znajduje się nieznana dla nas 

wartość szacowanego parametru. Nie mamy jednak pewności, że 
utworzony przez nas przedział zawiera wartość szacowanego 

parametru, możemy tylko ustalić wiarygodność tego faktu z pewnym 
prawdopodobieństwem, zwanym współczynnikiem ufności. Najlepszym 

estymatorem średniej wartości m populacji generalnej jest średnia 

arytmetyczna 

x

 z próby. Ma ona wszystkie cechy dobrego 

estymatora (zgodność, nieobciążoność, efektywność, dostateczność). 
Budując przedział ufności dla średniej w zbiorowości generalnej 

możemy napotkać trzy możliwości:

Model I: Populacja generalna ma rozkład 

N(m,

σ

), przy czym 

σ

 jest 

wielkością znaną. Szacowanym parametrem jest 

θ

 

= m, gdzie 

m oznacza średnią w zbiorowości generalnej. Z populacji 

generalnej wylosowano niezależnie próbę o liczebności 

elementów. Wówczas przedział ufności dla średniej 

m populacji 

otrzymuje się ze wzoru:

α

σ

σ

α

α

=

+

<

<

1

}

{

n

x

m

n

x

P

u

u

, gdzie

x

 

oznacza obliczoną z wyników 

x

i

 

próby średnią arytmetyczną

σ

 

znane odchylenie standardowe

1-

α

 

współczynnik ufności, który określa precyzję szacunku

u

α

wielkość, którą odczytujemy z tablic dystrybuant rozkładu 

normalnego w oparciu o zależność 

P(

U

≤

 u

α

)=1-

α

 i 

U~N(0,1)

Model II: Zbiorowość generalna ma rozkład 

N(m,

σ

),

 gdzie 

nieznana jest zarówno wartość 

m, jak i odchylenie standardowe 

σ

 

 w 

zbiorowości. Ze zbiorowości tej losujemy niezależnie próbę (zazwyczaj o 

małej liczebności, często nawet mniejszej od 10), na podstawie 
tej próby wyliczamy 

x

 i 

s (odchylenie standardowe), korzystając ze 

wzorów dla szeregu szczegółowego. Przedział ufności dla średniej 

zbiorowości generalnej ma wówczas postać:

α

α

α

=

+

<

<

1

}

1

1

{

n

s

x

m

n

s

x

P

t

t

lub wg wzoru równoważnego:

α

α

α

=

+

<

<

1

}

{

n

s

x

m

n

s

x

P

t

t

gdzie  

=

=

n

i

i

x

x

n

s

1

2

)

(

1

1

t

α 

wartość zmiennej 

t -Studenta odczytana z tablicy tego rozkładu dla 

n-1 stopni swobody w taki sposób, by spełniona była relacja: 

P(|t|<

 t

α

) = 1-

α

Model III: Populacja generalna ma dowolny rozkład o średniej 

m i 

skończonej wariancji 

σ

(nieznanej). Aby można było oszacować 

parametr 

m, pobieramy niezależnie dużą próbę, wyniki najczęściej 

grupujemy w szereg rozdzielczy i na jego podstawie wyliczamy 

x

 oraz 

odchylenie standardowe 

s. Przedział ufności dla średniej m w populacji 

generalnej przyjmuje wtedy postać:

α

α

α

=

+

<

<

1

}

{

n

s

x

m

n

s

x

P

u

u

Wartość

 

u

α

 

odczytujemy w analogiczny sposób, jak w modelu I.

14. Niezbędna liczba pomiarów przy 

szacowaniu przedziałowym średniej i 

wskaźnika struktury

Szacując metodą przedziałową parametr 

θ

, budujemy dla niego 

przedział ufności w oparciu o rozkład estymatora, przy założeniu 

posiadanych wyników próby o ustalonej z góry liczebności 

n. Otrzymany 

przedział ma pewną długość 

2d, a połowa długości tego przedziału 

ufności (

d) jest miarą maksymalnego błędu szacunku. Aby uzyskać z 

góry założoną dokładność szacunku  można dobrać dostateczną 

liczebność próby. Dla dwóch najczęściej szacownych parametrów 
populacji, a mianowicie wartości średniej 

m oraz wskaźnika struktury p, 

można otrzymać wzory na minimalną liczebność próby potrzebną do 
oszacowania tych parametrów z żądaną z góry dokładnością. W 

zależności od posiadanych informacji, niezbędną liczebność próby w 
losowaniu niezależnym można ustalić według wzorów w następujących 

modelach:
Model I: populacja generalna ma rozkład normalny 

N(m,

σ

) bądź 

zbliżony do normalnego, wariancja 

σ

2

 jest znana, szacowanym 

parametrem 

θ

 

 jest wartość średnia populacji m. Przy ustalonym 

współczynniku ufności 

1-

α

 

żądamy, by maksymalny błąd szacunku nie 

przekroczył 

d. Niezbędną do uzyskania tego celu liczebność próby n 

oblicza się wtedy ze wzoru:

Gdzie 

u

α

 jest wartością zmiennej normalnej 

N(0,1) odczytanej z tablicy dystrybuant rozkładu 
normalnego w oparciu o relację P(

U

≤

 u

α

)=

1-

α

Model II: populacja generalna ma rozkład 

N(m,

σ

), przy czym 

wariancja 

σ

2

 jest nieznana, ale znamy wartość statystyki

 

s^

2

uzyskanej z małej próby  o liczebności 

n

0

. Zakładamy, że szacunek 

będzie przeprowadzany przy współczynniku ufności 

1-

α

. Niezbędną 

liczebność próby, jaką należy wylosować, by z maksymalnym błędem 
szacunku 

d zbudować przedział ufności dla średniej, obliczany jest ze 

wzoru:

 

d

s

t

n

2

2

2

=

α

, gdzie   

=

=

n

i

n

x

x

s

i

0

1

0

2

2

_

(

1

1

)

jest wariancją z próby wstępnej, 

t

α

 jest wartością zmiennej 

t Studenta 

odczytanej z tablicy tego rozkładu w oparciu o relację 

P(|t|

t

α

)=

1-

α 

i dla 

n

0

-1 

stopni swobody. Jeżeli obliczona liczebność próby właściwej 

n spełnia nierówność 

n

n

0

 

to liczebność 

n

0

 próby wstępnej jest 

wystarczająca. Jeżeli 

n>n

0

to należy dolosować do właściwej próby 

jeszcze 

n-n

0

 elementów.

Model III: populacja generalna ma rozkład dwupunktowy z 
parametrem 

(tzn. wskaźnik struktury w populacji generalnej wynosi 

p). Przy współczynniku ufności 1-

α

 chcemy tak oszacować parametr 

p, 

aby maksymalny błąd szacunku tego wskaźnika struktury nie 

przekroczył liczby 

d.

---- Jeżeli znamy spodziewany rząd wielkości 

p, to niezbędną wielkość 

próby ustalamy według wzoru:  

d

pq

u

n

2

2

α

=

gdzie 

p jest spodziewanym rzędem wielkości szacowanego wskaźnika 

struktury (wyrażonym jako ułamek właściwy), 

q=1-p, zaś 

u

α

 

wartością 

odczytaną jak w modelu I.

---- Jeżeli nie znamy rzędu wielkości szacowanego wskaźnika struktury 

p, to przyjmując za iloczyn pq jego największą wartość ¼ otrzymujemy 

następujący wzór na liczebność próby:

 

d

u

n

2

2

4

α

=

Jeżeli prawdziwa wartość 

p spełnia nierówność p

1/2, to obliczona 

wielkość próby powyższym wzorem jest za duża (tzn. stosując tak 

wielką próbę otrzymujemy maksymalny błąd szacunku mniejszy niż 
założona wartość 

d)

15. Estymacja przedziałowa mierników 

zróżnicowania.

W badaniach statystycznych ze względu na cechę mierzalną do 
najczęściej szacowanych parametrów obok średniej należą wariancja 

σ

lub odchylenie standardowe 

σ

 badanej cechy. Najczęściej używanymi 

estymatorami wariancji 

σ

2

 populacji generalnej są statystyki określone 

wzorami:

=

=

n

i

i

x

x

n

s

1

2

2

_

(

1

)

oraz

=

=

n

i

n

x

x

s

i

1

2

2

_

(

1

1

)

natomiast estymatorami odchylenia standardowego są najczęściej 

statystyki

 s i 

s

.

Model I: populacja generalna ma rozkład normalny N(m,

σ

) o 

nieznanych parametrach m i 

σ

. Z populacji tej losujemy niezależnie do 

próby n elementów (liczebność nie musi być duża, n<30), na 
podstawie próby  obliczamy s lub 

. Przedział ufności przyjmuje 

wówczas postać:

α

σ

=

<

<

1

1

2

2

2

2

c

ns

c

ns

P

lub postać równoważną:

(

)

(

)

α

σ

=





<

<

1

1

1

1

2

2

2

2

c

s

n

c

s

n

P

   gdzie

c

1

 i c

2

 

są wartościami zmiennej 

χ

2

 wyznaczonym z tablicy rozkładu 

χ

dla n-1 stopni swobody oraz współczynnika ufności 1-

α

 w taki sposób, 

by spełnione były relacje: 
P(

χ

2

<c

1

)=1/2

α

 

 ;;;

P(

χ

2

 

>

c

1

)=1-1/2

α

P(

χ

2

>=

c

2

)=1/2

α

Przy tych samych założeniach można wyznaczyć przedział ufności dla 

odchylenia standardowego pierwiastkując otrzymane krańce przedziału 
ufności dla wariancji. Przedział ufności dla odchylenia standardowego 

ma postać:

 

α

σ

=





<

<

1

1

2

2

2

c

ns

c

ns

P

Model II: populacja generalna ma rozkład N(m,

σ

) lub zbliżony do 

normalnego o nieznanych parametrach m i 

σ

. Z populacji losujemy 

dużą próbę n-elementową (n co najmniej kilkadziesiąt), na podstawie 

próby obliczamy s (odchylenie standardowe z próby). Przedział ufności 
dla odchylenia standardowego jest określony wzorem:

α

σ

α

α

=





<

<

+

1

2

1

2

1

n

u

s

n

u

s

P

  gdzie 

u

α

 

jest wartością zmiennej normalnej 

N(0,1) odczytanej z tablicy 

dystrybuant rozkł. normalnego w oparciu o relacj 

P(

U

≤

 u

α

)=

1-

α

.

16. Weryfikacja hipotez o równości dwóch 

średnich

W zależności od posiadanych o porównywanych populacjach informacji 
wyróżniamy trzy modele.

Model I. Badamy dwie populacje generalne mające rozkłady normalne 
N(m1,

σ

1) i N(m2,

σ

2). Odchylenia standardowe tych populacji są znane. 

W oparciu o wyniki dwu niezależnych prób, odpowiednio o 

liczebnościach n1 i n2, wylosowanych z tych populacji należy sprawdzić 
hipotezę H0: m1=m2, wobec hipotezy alternatywnej H1: m1

m2, gdzie 

m1 i m2 to odpowiednio wartość średnia w pierwszej i drugiej 

zbiorowości. Sprawdzianem hipotezy H0 jest następująca statystyka:

gdzie x1 i x2 to średnie obliczone 

na podstawie prób z pobranych 
odpowiednio z pierwszej i drugiej 

zbiorowości

Następnie, przy ustalonym poziomie istotności 

α

,

 z tablic dystrybuant 

rozkładu normalnego odczytujemy wartość krytyczną 

u

α

, która spełnia 

zależność: 

P(|U|

u

α

)=

α

 i U~N(0,1).

 W kolejnym kroku 

porównujemy wartość krytyczną i wartość sprawdzianu. Jeśli zachodzi 
nierówność 

|u|

u

α

,

 wówczas na poziomie istotności 

α

 hipotezę H0 

należy odrzucić na korzyść hipotezy alternatywnej, co oznacza, że 

m1

m2

. Jeżeli |u|<u

α

, stwierdzamy, że brak jest podstaw do 

odrzucenia hipotezy H0. Uwaga: dla hipotezy alternatywnej H1:m1>m2 

stosujemy test z prawostronnym obszarem krytycznym, tzn hipotezę H0 
odrzucamy gdy zachodzi nierówność U

u

α

, a dla U<u

α

 stwierdzamy, że 

brak jest podstaw do jej odrzucenia. Inaczej wyznaczamy też wartość u

α

: odczytujemy ją na podstawie zależności 

P(U

u

α

)=

α

.

Model II. Badamy dwie populacje generalne mające rozkłady 

normalne N(m1,

σ

1) i N(m2,

σ

2),przy czym wartości 

σ

1 i 

σ

2 są nieznane 

ale wiadomo, że 

σ

1=

σ

2. na podstawie wyników dwu małych prób 

odpowiednio o liczebnościach n1 i n2, wylosowanych niezależnie z tych 
populacji, należy zweryfikować hipotezę H0: m1=m2, wobec hipotezy 
alternatywnej H1: m1

m2, gdzie m1 i m2 to odpowiednio wartość 

średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0 
jest wtedy statystyka

Wartość sprawdzianu porównujemy z wartością krytyczną 

t

α

,

 którą 

odczytujemy z tablic rozkładu t Studenta dla założonego z góry poziomu 
istotności 

α

 i dla (n1+n2-2) stopni swobody, tak aby spełniona była 

zależność

 P(|t|

t

α

)=

α

Nierówność 

|t|

t

α

 

określa dwustronny 

obszar krytyczny testu, tzn. jeśli zachodzi nierówność |t|

t

α

 to hipotezę 

H0 odrzucamy, zaś dla |t|<t

α

 stwierdzamy, że brak jest podstaw do 

odrzucenia tej hipotezy. Podobnie jak w modelu I, gdy hipoteza 

alternatywna ma postać H1:m1>m2 stosujemy prawostronny obszar 
krytyczny, tzn hipotezę H0 odrzucamy, gdy zachodzi 

t

t

α

,

 a wartość t

α 

odczytujemy na podstawie zależności 

P(t

t

α

)=

α

 

 P(|t|

t

α

)=2

α

Uwaga. Jeśli sprawdzimy, że dla badanych populacji 

σ

1

≠σ

2, wówczas 

stosujemy modyfikację Cohrana-Koxa. Sprawdzian hipotezy H0 ma 

postać:

A wartość krytyczną t

α

 odczytujemy w oparciu o relację P(|t|

t

α

)=

α

gdzie t~ Studenta o 

stopniach swobody 

Model III. Badamy dwie populacje generalne mające rozkłady 
normalne lub inne byle o skończonych wariancjach 

σ

1

2

 i 

σ

2

2

,

 które są 

nieznane. Na podstawie wyników dwu dużych prób (n1 i n2 co najmniej 

kilkadziesiąt) sprawdzamy hipotezę H0: m1=m2, wobec hipotezy 
alternatywnej H1: m1

m2, gdzie m1 i m2 to odpowiednio wartość 

średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0 

jest wtedy statystyka

Obszar krytyczny budujemy w analogiczny sposób jak w modelu I, 
analogicznie odczytujemy też wartość krytyczną u

α

.

17. Testy normalności przy dużej i małej 

próbie.

Wyróżnia się dwie podstawowe grupy hipotez statystycznych
1)

Hipotezy głoszące, że rozpatrywana zmienna losowa ma 

określony typ rozkładu oraz

2)

Hipotezy formułujące przypuszczenie, że dwie badane 

zbiorowości mają ten sam rozkład

Spośród hipotez należących do pierwszej grupy wyróżnić można 

hipotezę o normalności rozkładu danej zmiennej losowej. Jednym z 
testów statystycznych, który może być stosowany do weryfikacji takiej 
hipotezy, jest test zgodności 

χ

2

. Test ten może być skonstruowany tylko, 

gdy wyniki próby liczącej co najmniej kilkadziesiąt elementów są 
pogrupowane w szereg rozdzielczy. Należy pamiętać, że klasy na jakie 
dzieli się wyniki próby w teście zgodności 

χ

2

, nie powinny być zbyt mało 

liczne (co najmniej 8 elementów w każdym z przedziałów). Załóżmy, że 
populacja generalna ma dowolny rozkład o dystrybuancie F(x). Z 

populacji tej wylosowano niezależnie dużą próbę (n co najmniej 
kilkadziesiąt elementów), której wyniki podzielono na r przedziałów 
klasowych o liczebnościach 

n

i

 

w każdym przedziale, przy czym 

=

i

n

n

. Otrzymaliśmy w ten sposób rozkład empiryczny. Na 

podstawie wyników tej próby należy sprawdzić hipotezę H

0

, którą 

zapisujemy symbolicznie   

H

0

: F(x) 

 

Ω   

gdzie   F(x) jest 

dystrybuantą badanej zmiennej, a

jest klasą dystrybuant normalnych

Hipoteza alternatywna ma postać:   

H

1

: F(x) 

 

lub 

H

1

: ~H

0

Sprawdzianem tej hipotezy jest statystyka 

χ

wyrażona wzorem:

(

)

=

=

r

i

i

i

i

np

np

n

1

2

2

χ

 gdzie:

– liczebność próby

n

– liczba elementów próby należących do i-tego przedziału klasowego

p

i

 

– prawdopodobieństwo, że badana zmienna losowa przyjmie wartość 

należącą do i-tego  przedziału klasowego

np

i

 

– liczebność teoretyczna, czyli taka liczebność, jaka powinna 

znajdować się w i-tym przedziale, gdyby hipote H

0

 była prawdziwa

W kolejnym kroku określamy wartość poziomu istotności, czyli 
prawdopodobieństwa popełnienia błędu pierwszego rodzaju, następnie 
z tablic rozkładu 

χ

 odczytujemy wartość krytyczną 

χ

α

2

w oparciu o 

następującą zależność:  P(

χ

 

χ

α

2

)=

α   

gdzie

χ

 ~ 

χ

 o r-k-1

 stopniach swobody

r – liczba przedziałów klasowych

k – liczba szacowanych parametrów
Jeżeli między wartością krytyczną a wartością sprawdzianu zachodzi 

nierówność:  

 

χ

 

χ

α

2

 

wówczas na poziomie istotności 

α 

stwierdzamy, że hipotezę sprawdzaną należy odrzucić na korzyść 

hipotezy alternatywnej. W przypadku, gdy   

χ

 

χ

α

2

stwierdzamy, że na poziomie istotności 

α

 brak jest podstaw do 

odrzucenia hipotezy sprawdzanej 

H

0.

Testem stosowanym do sprawdzania normalności rozkładu populacji 
generalnej na podstawie małej próby jest test Shapiro-Wilka

Sposób przeprowadzania tego testu jest następujący: z badanej 
zbiorowości losujemy próbę  i na jej podstawie weryfikujemy hipotezę 

H

0

: F(x) = F

0

 (x)

gdzie

F(x) 

jest dystrybuantą rozkładu badanej zmiennej

F

0

 (x) 

jest dystrybuantą rozkładu normalnego

Hipoteza alternatywna ma postać:

H

1

: F(x) 

 F

0

 (x)

  lub postać równoważną:

H

1

:~ H

0

Sprawdzianem tej hipotezy jest statystyka

(

)

( )

(

)

(

)

=





=

+

+

=

n

i

i

n

i

i

i

n

i

n

x

x

x

x

a

W

1

2

2

2

1

1

1

  gdzie

a

n-i+1 

– wielkość stablicowana

x

(i)

 – i-ta wartość cechy dla wartości cech uporządkowa niemalejąca..

Następnie, przy określonym poziomie istotności 

α

 oraz przy danej 

wielkości próby n, odczytujemy z odpowiedniej tablicy wartości 
krytycznych dla testu Shapiro-Wilka wartość 

W

α

.

 Jeśli obliczona wartość 

statystyki i wartość krytyczna spełniają nierówność   

W

α

 

  to na 

poziomie istotności 

α

 stwierdzamy, że brak jest podstaw do odrzucenia 

hipotezy H

0

 o normalności rozkładu zbiorowości generalnej. Jeżeli zaś 

zachodzi nierówność:  

W <W

α

 

  to hipotezę należy odrzucić na korzyść 

hipotezy alternatywnej.

18. Charakterystyka i zastosowanie 

poznanych testów serii.

testy serii uzywa sie dla sprawdzenia hipotezy, że dwie populacje mają 
ten sam rozkład. Testy nieparametryczne mają mniejsza moc od testów 

parametrycznych, ale górują nad nimi prostotą budowy i rachunków. 
Serią nazywamy każdy podciąg  złożony z kolejnych elementów 

jednego rodzaju utworzony w ciągu uporządkowanych w dowolny 
sposób elementów dwu rodzajów. Gdy elementy danego ciągu są 

losowe, to długość i ilość serii są zmiennymi losowymi.
Model I.

Dana jest populacja generalna o dowolnym rozkładzie. Z populacji tej 
pobrano w pewien określony sposób próbę n elementów. Należy 

sprawdzić hipotezę, że jest to próba losowa. Test istotności dla tej 
hipotezy jest następujący. Z uporządkowanego wg kolejności pobierania 

elementów do próby ciągu wyników próby obliczamy medianę z próby. 
Każdemu wynikowi próby 

x

i

 w tym uporządkowanym chronologicznie 

ciągu przypisujemy symbol a jeśli 

x

i

<Me, 

bądź symbol b, jeśli 

xi>Me. 

Wynik xi=Me można odrzucić. Otrzymujemy w ten sposób ciąg złożony 

z symboli a i b. W ciągu tym otrzymujemy określoną liczbę serii. Przy 
założeniu prawdziwości hipotezy o losowości próby liczba serii k ma 
znany i stablicowany rozkład zależny od 

n

1

 i n

2

 

liczebności elementów 

a i b. Tablice rozkładu liczby serii podają taką wartość 

k

α

 że 

P(k

 k

α

)=

α

.

 W oparciu o ten rozkład budujemy dwustronny obszar 

krytyczny dla testu losowości w taki sposób, że dla przyjętego poziomu 
istotności 

α

 odczytujemy z tablic takie dwie wartości krytyczne 

k

1

 i k

2

aby zachodziły relacje:  

P(k 

 k

1

)=1/2

α

 i P(k 

 k

2

)=1-1/2

α

Jeżeli zajdzie jedna z nierówności 

k

k

1

 lub   k 

k

2

to hipotezę o 

losowości próby należy odrzucić(otrzymaliśmy zbyt małą lub zbyt dużą 
liczbę serii). Natomiast gdy zajdzie nierówność 

k

1

< k <k

, nie ma 

podstaw do odrzucenia hipotezy o losowości próby.

Model II.
Dane są dwie populacje generalne o dowolnych rozkładach badanej 

cechy. Z populacji tych wylosowano dwie próby o liczebnościach 
odpowiednio

 n

1

 i n

2

Na podstawie wyników tych prób należy 

zweryfikować hipotezę, że rozkłady obu populacji nie różnią się, czyli 
hipotezę H

0

: dwie próby pochodzą z jednej populacji.

Test istotności dla tej hipotezy, oparty na rozkładzie liczby serii, jest 
następujący. Wyniki obu prób ustawiamy w jeden ciąg wg rosnących 

wartości. Oznaczamy elementy próby z jednej populacji za pomocą 
symbolu a, a z drugiej za pomocą symbolu b. Odczytujemy z 

niemalejącego ciągu liczbę serii k. Obszar krytyczny budujemy 
lewostronnie w taki sposób, ze z rozkładu liczby serii otrzymujemy dla 
odpowiednich

 n

1

 i n

2

 

oraz dla ustalonego z góry poziomu istotności 

α 

taką wartość krytyczną

 k

α

 

by

 P(k

 k

α

)=

α

Jeżeli otrzymamy liczbę 

serii k z danego ciągu, która spełnia nierówność 

k

 k

α

 ,

 to hipotezę 

H

odrzucamy, tzn. dwie próby różnią się istotnie. W przeciwnym wypadku 

nie ma podstaw do odrzucenia hipotezy, że rozkłady obu populacji są 
takie same.

2

2

2

1

2

1

2

1

n

n

x

x

U

σ

σ +

=





+

+

+

=

21

1

2

1

2

2

2

2

1

1

2

1

1

1

2

n

n

n

n

s

n

s

n

x

x

t





+

=

21

2

2

1

2

1

2

1

n

s

n

s

x

x

t

(

)





+

+

+

+

4

2

4

1

2

2

2

1

2

1

2

1

2

s

s

s

s

n

n

d

σ

u

n

2

2

2

α

=

2

2

2

1

2

1

2

1

n

s

n

s

x

x

U

+

=

background image

19.Testy istotności dla współczynnika 

korelacji liniowej i dla współczynnika 

regresji.

Model I Test istotności dla współczynnika korelacji

Dwuwymiarowy rozkład badanych cech X i Y w populacji generalnej jest 
normalny lub zbliżony do normalnego. Z populacji tej wylosowano 

niekoniecznie dużą próbę n-elementową. Na podstawie wyników tej 
próby należy sprawdzić hipotezę, ze zmienne X i Y nie są skorelowane, 

tzn. hipotezę 

0

H

: ρ = 0 wobec hipot alternatywnej

1

H

0

ρ

 

Obliczamy z próby r zgodnie z wzorem : 

(

)(

)



=

=

=

=

=

=

=

n

i

r

i

j

i

i

i

r

i

ij

i

i

n

i

n

i

i

i

n

i

i

i

yx

n

y

y

n

x

x

n

y

y

x

x

y

y

x

x

y

y

x

x

r

1

1

2

2

1

1

1

2

2

1

)

(

)

(

)

)(

(

)

(

)

(

j

i

y

x

 ,

- średnie poszczegól przedziałów klasowych zmiennych X i Y

ij

n

 - liczebność dla poszczególnej kratki tablicy

j

i

n

n

,

 - liczebności brzegowe tablicy korelacyjnej

Sprawdzianem tej hipotezy jest statystyka t postaci:

2

1

2

=

n

r

r

t

yx

yx

Statystyka ta ma przy założeniu prawdziwości hipotezy H

0

 rozkład 

t-Studenta z n-2 stopniami swobody. Z tablicy rozkładu t Studenta dla 
ustalonego z góry poziomu istotności 

α

 i dla n-2 stopni swobody 

odczytujemy wartość krytyczną 

α

t

 tak, by P(

α

t

t

)=

α

a) Jeżeli 

α

t

t

, to hipotezę 

0

H

o braku korelacji między 

zmiennymi należy odrzucić, tzn. że między tymi zmiennymi istnieje 

zależność korelacyjna. 

W przypadku nierówności 

α

t

t

<

 stwierdzamy, że brak jest 

podstaw do odrzucenia hipotezy sprawdzanej 

0

H

, że zmienne X i Y są 

nieskorelowane. Gdy hipoteza alternatywna precyzuje znak 
współczynnika korelacji, tzn. gdy jest

1

H

:

0

<

ρ

 lub 

1

H

:

0

>

ρ

, wówczas w tym teście korzystamy z obszaru krytycznego 

odpowiednio lewostronnego lub prawostronnego.
Test istotności dla współczynnika regresji liniowej

W analizie regresji sprawdzana jest często hipoteza dotycząca istotności 
otrzymanego z próby współczynnika regresji liniowej.

Dwuwymiarowy rozkład badanych dwóch cech  X, Y w populacji 
generalnej jest normalny lub zbliżony do normalnego. Z populacji tej 

wylosowano do próby n elementów i otrzymano wyniki 

(x

i

, y

i

) (i=1,2,..., n).

 Na podstawie wyników tej próby należy 

sprawdzić hipotezę, że współczynnik regresji 

β

0

 liniowej funkcji regresji 

y=

α

+

β

0

w populacji ma określoną wartość, tj. hipotezę: 

0

0

:

β

β =

H

 wobec hipotezy alternatywnej 

0

1

:

β

β ≠

H

Jeżeli współczynnik regresji okaże się istotnie różny od 0, wówczas 

funkcja regresji może być wykorzystywana do sporządzania prognoz. 
Jeśli zaś współczynnik regresji z próby nie okaże się istotnie różny od 0, 

to oznacza, że funkcja regresji w zbiorowości może być stała, co 
wskazuje na brak zależności między badanymi zmiennymi.

Na podstawie wylosowanej próby, wykorzystując metodę najmniejszych 
kwadratów, wyznaczamy równanie linii regresji postaci

bx

a

y

+

=

ˆ

; następnie obliczamy wartość sprawdzianu, który ma postać: 

(

)

=

=

n

i

i

r

x

x

S

b

t

1

2

0

β

gdzie 

(

)

=

=

n

i

i

r

y

y

n

S

1

2

ˆ

2

1

Wartości sprawdzianu porównujemy następnie z wartością krytyczną 

α

t

, którą przy określonym poziomie istotności 

α

 i (n-2) stopniach 

swobody odczytujemy z tablic wartości krytycznych rozkładu t-Studenta. 

Jeżeli spełniona jest zależność 

α

t

t

, wówczas hipotezę 

0

H

 

odrzucamy na korzyść hipotezy alternatywnej, tzn. 

0

β

β ≠

Gdy hipoteza alternatywna jest sformułowana w postaci   :

0

1

:

β

β <

H

, to

0

H

odrzucam na korzyść 

1

H

, gdy 

α

t

t

0

1

:

β

β >

H

, to 

0

H

odrzucam na korzyść 

1

H

, gdy 

α

t

t

20. Test niezależności chi- kwadrat. 

Metoda pomiaru siły zależności 

korelacyjnej w przypadku cech 

niemierzalnych.

test niezależności chi- kwadrat- za pomocą tego testu możemy 
zweryfikować hipotezę że dwie badane cechy są niezależne.

Hipotezę sprawdzaną H

0

 formułujemy:

 

H

:P(X=x

, Y=y

 i

) = P(X=x

i

)* P(Y=y

 i

Hipotezę alternatywną H

1

 formułujemy: 

H

1

:~ H

0

W celu zweryfikowania prawdziwości tej hipotezy z badanej zbiorowości 

losujemy dużą próbę a jej wyniki grupujemy w postaci tzw. tablicy 

niezależności. 

∑∑

=

=

=

r

i

s

j

ij

ij

ij

np

np

n

1

1

2

2

)

(

χ

Wartość tego sprawdzianu porównujemy z wartością krytyczną 

Χ

2

α 

którą przy danym poziomie istotności 

α

 oraz dla (w-1)(k-1) stopni 

swobody odczytujemy z tablicy wartości krytycznych rozkładu 

Χ

2

 w 

oparciu o następującą zależność: 

α

χ

χ

α

=

)

(

2

2

P

., 

U

2

 ~

Χ

2

o (w-1)(k-1) 

st. swobody

Jeżeli spełniona jest nierówność  

(

Χ

2

≥Χ

2

α

wówczas na poziomie 

istotności 

α

 hipotezę sprawdzaną H

0

 odrzucamy na korzyść hipotezy 

alternatywnej, co oznacza że badane zmienne są zależne.
Jeżel

i(

Χ

2

2

α

stwierdzamy, że brak jest podstaw do odrzucenia 

hipotezy sprawdzanej 

H

0

Istnieje wiele metod pomiaru zależności  korelacyjnej w przypadku cech 
niemierzalnych, np. współczynnik 

ϕ

 Youl’a czy V Cramera, jednak 

najwygodniejszy jest współczynnik kontyngencji C Pearsona, gdyż może 
być stosowany przy tablicach wielodzielnych dowolnej wielkości i 

dowolnej formy. Wartości tego miernika zawarte są w przedziale <0,1> 
Bliskie 1 wartości C świadczą o silnej zależności.

Współczynnik C- Pearsona obliczany jest w oparciu o następujący wzór: 

C= 

 ( 

Χ

2

 /

Χ

2

+N)

Gdzie  

∑∑

=

=

=

r

i

s

j

ij

ij

ij

np

np

n

1

1

2

2

)

(

χ

21.Rodzaje szeregów czasowych i metody 

ich analizy.

Analizę dynamiki zjawisk masowych przeprowadza się na podstawie 
szeregów czasowych (dynamicznych, chronologicznych).

Szeregiem czasowym nazywamy ciąg wartości badanego zjawiska 
obserwowanego w kolejnych jednostkach czasu. W szeregach 

czasowych zmienną niezależną jest czas, natomiast zmienną zależną – 
wartości liczbowe badanego zjawiska: 

Zmienna niezależna może być ujmowana różnie, w zależności od celu 
badania i właściwości zjawisk masowych. Zjawiska zmieniające się 

wolno są ujmowane w pewnych ściśle określonych momentach. Szeregi 
zbudowane w ten sposób noszą nazwę szeregów czasowych 

momentów. Szeregi czasowe zawierające informacje o rozmiarach 
zjawiska w pewnych – dłuższych lub krótszych – okresach (np. 

półrocze, kwartał) nazywamy szeregami czasowymi okresów. 
Przeciętny poziom zjawisk przedstawionych w postaci szeregów 

czasowych okresów – przy założeniu, że przyjęte przedziały czasowe są 
równe – oblicza się za pomocą średniej arytmetycznej.

Do obliczania średniego poziomu zjawisk przedstawionych w formie 
szeregów czasowych momentów wykorzystuje się średnią 

chronologiczną. Oblicza się ją wg wzoru:

1

2

1

...

2

1

1

1

+

+

+

=

n

y

y

y

y

n

n

ch

gdzie:

 y

1

, y

2

, …, y

n

 

oznaczają wielkość badanego zjawiska w 

kolejnych momentach. Rozwój zjawisk przedstawiony za pomocą 

szeregów czasowych może być właściwie oceniony wówczas, gdy 
poszczególne wyrazy szeregów czasowych są wielkościami 

jednorodnymi i porównywalnymi.
Porównywalność danych statystycznych przedstawionych w formie 

szeregów czasowych jest możliwa, gdy spełnione są określone 
warunki:

Zjawiska przedstawione w szeregach czasowych powinny być wyrażone 
w tych samych jednostkach miar; Szeregi czasowe okresów mogą być 

porównywane z szeregami czasowymi okresów, a szeregi czasowe 
momentów z szeregami czasowymi momentów, przy czym muszą one 

dotyczyć tych samych momentów lub okresów;  Badane w czasie 
zjawiska powinny dotyczyć tego samego obszaru terytorialnego;

W szeregach dynamicznych okresów przedziały czasowe powinny być 
jednakowe.

Proste metody badania zmian szeregu dynamicznego
1. Przyrosty absolutne
 - Odejmowanie dwóch wielkości liczbowych 

daje w wyniku dodatni lub ujemny przyrost absolutny. Przyrosty 
absolutne mogą być obliczane w stosunku do jednego okresu 

(momentu) przyrosty absolutne o podstawie stałej (jednopodstawowe) 
lub też okresu  stale zmieniającego się przyrosty absolutne o podstawie 

zmiennej (łańcuchowe). Przyrosty absolutne informują o tym, o ile 
jednostek wzrósł  lub zmalał  poziom badanego zjawiska w okresie 

(momencie) badanym w porównaniu z okresem przyjętym za podstawę. 
2. Przyrosty względne - Przyrostem względnym nazywamy iloraz 

przyrostów absolutnych zjawiska do jego poziomu w okresie 
(momencie) przyjętym za podstawę do porównań. Przyrosty względne 

podobnie jak absolutne mogą być jednopodstawowe lub łańcuchowe.
Informują o tym, o ile wyższy lub niższy jest poziom badanego zjawiska 

w danym okresie w stosunku do okresu bezpośrednio poprzedzającego 
(przyrosty względne łańcuchowe) lub w porównaniu z okresem 

przyjętym za podstawę (przyrosty względne jednopodstawowe). 
Przyrosty względne określane są mianem wskaźników tempa wzrostu.

Wskaźniki dynamiki (indeksy) - Indeksem nazywamy każdą liczbę 
względną powstałą przez podzielenie wielkości danego zjawiska w 

okresie badanym (sprawozdawczym) przez wielkość tego zjawiska w 
okresie podstawowym (bazowym). Jeżeli poziom zjawiska w okresie 
(momencie) badanym oznaczamy symbolem 

y

1

,

 a w okresie 

(momencie) podstawowym symbolem y

0

 to wzór na indeks przyjmuje 

postać: 

0

1

y

y

i

=

 Indeks jest wielkością niemianowaną i może 

być wyrażony w ułamkach lub w procentach. Jeżeli indeks przyjmuje 
wartość z przedziału 0 < i < 1, to świadczy to o spadku poziomu 

zjawiska w badanym okresie w stosunku do okresu podstawowego. 
Wartość większa od 1 (lub od 100%) świadczy o wzroście poziomu 

zjawiska w okresie badanym w stosunku do okresu podstawowego. 
Wartość indeksu równa 1 świadczy o tym, że poziom zjawiska w 

okresach badanym i podstawowym są takie same. 
W zależności od przyjętej podstawy wyróżniamy indeksy 

jednopodstawowe lub łańcuchowe.
Ciąg indeksów o podstawie stałej zapisujemy następująco:

1

1

1

1

2

1

1

,

,....,

,

y

y

y

y

y

y

y

y

n

n

 

Ciąg indeksów łańcuchowym (oparty na zasadzie odnoszenia poziomu 
badanego zjawiska z okresu badanego do poziomu tego zjawiska w z 

okresu bezpośrednio poprzedzającego) zapisujemy następująco:

1

2

1

2

3

1

2

,

,....,

,

n

n

n

n

y

y

y

y

y

y

y

y

Do oceny tempa zmian zjawiska w pewnym okresie czasu 

wykorzystywany jest miernik nazywany średnim okresowym 
tempem zmian zjawiska
, definiowany jako średnia geometryczna z 

indeksów łańcuchowych, które dla danego okresu mogą być obliczone.

G=

1

1

1

1

3

4

2

3

1

2

...

=

=

n

n

n

n

n

g

y

y

i

i

i

i

i

y

n - liczba okresów  ;; Do interpretacji wykorzystujemy   (G-1)100%

22. Charakterystyka i zastosowanie 

agregatowych indeksów wartości, ilości i 

cen.

Indeksy zespołowe (agregatowe) pozwalają analizować zmiany wartości 

, cen oraz ilości zbioru (grupy produktów,artykułów ) które nie są 
jednorodne, czyli ich poszczególne składniki nie są sumowalne.

p

o

,p

1

-

 ceny jednostkowe pewnego towaru odpowiednio w okresie 

podstawowym i w okresie badanym 

q

0

, q

1

-

 ilości towaru w okresie podstawowym i badanym  

i

p

=

p

p

0

1

  

i

q

=

q

q

0

1

    ;;

I

w

-

 agregatowy indeks wartości  

I

w

=

=

=

n

i

i

i

n

i

i

i

q

p

q

p

1

0

0

1

1

1

*

*

lub prostszy zapis  

I

w

=

=

=

n

i

o

n

i

q

p

q

p

1

0

1

1

1

*

Gdzie 

I

w

 

– agregatowy indeks wartości badanego zespołu artykułów; 

Σ

q

1

p

1

 

– suma wartości badanego zespołu w okresie badanym; 

Σ

q

0

p

0

 

– suma wartości badanego zespołu w okresie podstawowym.

Operowanie jedynie indeksem wartości jest niewystarczające, gdyż nie 
wiemy, który z czynników (ceny lub ilości) miał większy wpływ na 

stwierdzony wzrost lub spadek wartości produkcji. Zachodzi zatem 
konieczność obliczenia dodatkowych indeksów, które informowałyby, co 

było przyczyną wzrostu lub spadku wartości produkcji. Indeksy te noszą 
nazwę agregatowych indeksów cen i agregatowych indeksów ilości.

Jeśli założymy we wzorze indeksów wartości, że ceny porównywanych 
wyrobów w porównywanych latach nie zmieniały się i były takie jak w 

okresie podstawowym, wówczas otrzymamy agregatowy indeks ilości o 

formule Laspeyresa:  

L

I

q

=

=

=

n

i

n

i

q

p

q

p

1

0

0

1

1

0

*

*

Gdyby natomiast przyjąć założenie,że w porównywanych latach ceny 

jednostkowe towarów nie zmieniały się i były takie jak w okresie 
podstawowym, wówczas otrzymamy agregatowy indeks ilości 

Paaschego:  

p

I

q

=

q

p

q

p

n

i

n

i

0

1

1

1

1

1

*

*

=

=

Jeżeli założymy, że w formule indeksu wartości ilości towarów w 
porównywanych okresach nie zmieniały się, wówczas otrzymamy 

agregatowy indeks cen. Gdy założymy, że w porównywanych okresach 
ilości towarów nie zmieniały się i były takie jak w okresie badanym, 

wówczas otrzymamy agregatowy indeks cen o formule Laspeyresa:

L

I

p

=

q

p

q

p

n

i

n

i

0

1

0

1

0

1

*

*

=

=

Jeśli założymy, że w porównywanych okresach ilości towarów nie 

zmieniały się i były takie jak w okresie badanym, wówczas otrzymamy 
agregatowy indeks cen o formule Paaschego:

p

I

p

=

q

p

q

p

n

i

n

i

1

1

0

1

1

1

*

*

=

=

Agregatowe indeksy cen i ilości obliczone wg formuł standaryzacyjnych 

Laspeyresa i Paaschego dla tego samego zespołu artykułów zwykle 
różnią się między sobą. Przyjmuje się, że jeżeli układ wyjściowy 

informacji na to pozwala, wskazane jest obliczenie indeksów wg 
obydwu formuł standaryzacyjnych.

Między indeksami zachodzą tzw. równości indeksowe
wykorzystywane do obliczania indeksów tzw. metodą pośrednią:

I

w

=

L

I

q*p

I

p

I

w

=

p

I

q*L

I

p

23. Metody wyodrębniania głównej 

tendencji rozwojowej zjawisk oraz 

wpływu czynnika przypadkowego.

Model zmian w czasie 

y

f t

q t

z t

t

=

+

+

( )

( )

( )

f(t)

-trend (tendencja rozwojowa)

q(t)

-wahania okresowe (sezonowe) 

z(t)-

wahania przypadkowe (losowe)

Identyfikacji trendu możemy dokonać dwiema metodami:
1. metoda mechaniczna- polega na zastępowaniu danych 

empirycznych (z kolejnych okresów) średnimi ruchomymi z okresu 
badanego i kilku okresów przyległych. Dzięki zastosowaniu średnich 

ruchomych eliminuje się wartości przypadkowe i otrzymuje się wartości 
będące wynikiem działania czynników głównych.

2. metoda analityczna- polega na wyznaczaniu równania linii w taki 
sposób aby linia ta była w najlepszym stopniu dopasowana do danych 

empirycznych. W przypadku gdy podstawę naszych badań stanowi 
szereg czasowy , możemy sporządzić jego wykres na płaszczyźnie. W 

niektórych przypadkach punkty na płaszczyźnie skupione są wokół 
pewnej prostej. Istnieje możliwość znalezienia równania tej linii, która 

nazywana jest linią trendu. W celu wyznaczenia linii trendu, czyli 
równania prostej najlepiej dopasowanej do danych empirycznych, 

stosuje się metodę najmniejszych kwadratów. Przyjmijmy, że 
poszukiwana linia ma równanie: 

y^ = a +bt

Spośród wszystkich możliwych linii, które można by poprowadzić przez 
punkty będące wykresem szeregu czasowego, najlepiej do tych 

punktów dopasowana będzie ta linia, której równanie spełnia warunek: 

Σ

(y

i

 – y^

i

)

2

 = min  

 relacja ta oznacza, że suma kwadratów 

różnic wartości empirycznych i teoretycznych zmiennej y osiągać musi 

minimum. 

F(a,b) = 

Σ

i=1

N

 (y

-a – bt

i

)

2

 = min

Poszukujemy minimum funkcji F(a,b). Warunkiem koniecznym istnienia 

ekstremum tej funkcji jest:

δ

F/

δ

a =0  i  

δ

F/

δ

b=0

rozpisując układ tych 2 równań otrzymujemy 2 równania o 2 
niewiadomych, które nazywamy układem równań normalnych:

Σ

i=1

N

  y

=a N + b

Σ

i=1

N  

t

i

Σ

i=1

N

  y

t

i

 = a 

Σ

i=1

N

  t

i

 +b 

Σ

i=1

N

  t

i

2

rozwiązaniem tego układu jest para liczb a i b, które są parametrami 
poszukiwanego równania linii trendu.

Parametr b nazywamy współczynnikiem kątowym równania linii 
trendu. Informuje, jak średnio zmienia się wielkość zjawiska z okresu na 

okres. Równanie linii trendu wykorzystywane jest w praktyce do 
sporządzania prognoz, czyli do przewidywania wielkości zjawiska w 

przyszłości. Prognoza taka będzie miała sens jeśli w przyszłości 
charakter dotychczasowej tendencji rozwojowej zjawiska  nie zmieni 

się. Na zmiany zjawiska wpływają czynniki losowe (przypadkowe), które 
można wyodrębnić porównując rzeczywistą wartość badanej cechy „y” z 

jej teoretyczną wartością skorygowaną o wahania sezonowe. Wielkość 
błędu prognozy możemy ocenić za pomocą odchylenia standardowego 

resztowego, obliczanego wg wzoru:

S

y

 = 

{[

Σ

i=1

N

  (y

i

 – y^

i

)

2

]/N-2}

24. Metoda wyodrębniania wpływu 

czynnika sezonowego. Podać przykłady 

występowania sezonowości zjawisk.

Zmiany zjawisk zależą w pewnym stopniu od zmiany przyczyn o 

charakterze sezonowym. Sezonowość obserwowana jest nie w skali 
roku a w podokresach

 

roku. Wyodrębnienie tego czynnika jest ważne 

przy dokonywaniu wszelkiego rodzaju prognoz. 
Wyróżnić można 2 metody wyodrębnian wpływu czynnika sezonowego:

---- metoda mechaniczna - oparta jest na obliczen średnich ruchomych
-----metoda analityczna – polega na wykorzystaniu przy obliczaniu tzw. 

wskaźników sezonowości równania linii trendu.
Przyjmijmy, że podstawą naszych obliczeń będą informacje dotyczące 

wielkości zjawiska w pewnych podokresach określonego przedziału 
czasowego. Załóżmy, że równanie wyznaczonej linii trendu ma postać:

bt

a

y

+

=

ˆ

Wówczas wskaźniki sezonowości wyznaczane są przy pomocy wzoru:

( )
( )

=

t

i

t

i

i

t

y

t

y

O

ˆ

     ;          

 i = 1, 2, ..., d

Gdzie 

( )

t

i

t

y

 i 

( )

t

i

t

yˆ

 oznaczają odpowiednio sumy 

wartości empirycznych i teoretycznych dla okresów jednoimiennych.

d – liczba podokresów wyróżnionych w roku

Jeżeli 

=

d

i

i

d

O

1

, to obliczamy tzw. skorygowane wskaźniki 

sezonowości wg wzoru:  

R

O

O

i

i

=

    

=

=

d

i

i

O

d

R

1

Wpływ badań sezonowych wyrażony w wielkościach absolutnych 
obliczamy wg wzoru:

y

y

O

t

g

i

i

=

)

(

  , 

=

=

d

i

i

t

g

1

0

)

(

y

 - średnia okresowa wielkość danego zjawiska

* np. gdy wskaźnik sezonowości dla I kwartału 

926

,

0

1

=

O

oznacza, że w każdym pierwszym kwartale w badanym okresie wielkość 
sprzedaży towaru była niższa o 7,4% od średniej kwartalnej wielkości 

sprzedaży towaru w wyniku oddziaływania czynnika sezonowego.