na egzamin opracowane 24 tematy

background image

1. Charakterystyka i klasyfikacja cech

statystycznych. Rodzaje badań

statystycznych.

Planując badanie należy dokonać wyboru tzw. cech

statystycznych, które będą obserwowane. Cechami statystycznymi
nazywamy właściwości, którymi odznaczają się jednostki wchodzące w

skład badanej zbiorowości.

Cechy zmienne przypisywane jednostkom danej zbiorowości

możemy podzielić na mierzalne i niemierzalne. Cecha mierzalna daje
się wyrazić za pomocą jednostek miary(liczb), poszczególne warianty

cechy niemierzalnej określane są za pomocą słów. Cechy mierzalne
można podzielić na ciągłe i skokowe. Cechę nazwiemy ciągłą, jeśli

może przyjąć każdą wartość z określonego skończonego przedziału
liczbowego. Cechę nazwiemy skokową, jeżeli może ona przyjmować

tylko niektóre wartości z określonego przedziału liczbowego.

W przypadku badań zbiorowości wielowymiarowych zmienne

(cechy mierzalne) dzielimy na: stymulanty - te cechy, których wyższe
wartości pozwalają zakwalifikować daną jednostkę statystyczną jako

lepszą z punktu widzenia realizowanego badania; dominanty - cechy,
których wysokie wartości świadczą o niskiej pozycji jednostki w zbiorze.

Przedmiotem badań statystycznych są określone zbiorowości
statystyczne, które stanowią zbiór jednostek powiązanych ze sobą

logicznie. Rozróżnić możemy dwa rodzaje zbiorowości: generalną
(obejmuje wszystkie elementy będące przedmiotem badania) i próbną

(jest podzbiorem zbiorowości generalnej wybranym w określony
sposób).

Badania całej zbiorowości generalnej są przeprowadzane

stosunkowo rzadko ze względu na możliwość zniszczenia w trakcie

badania jednostek zbiorowości generalnej, wysokie koszty i
czasochłonność, często nieskończoną liczbę elementów w zbiorowości

generalnej. Badanie obejmujące wszystkie elementy zbiorowości
generalnej nazywamy badaniem pełnym. Najczęściej stosowane są:

-spis statystyczny;
-rejestracje statystyczne;

-sprawozdawczość statystyczna.
Badanie części zbiorowości generalnej wymaga pobrania próby w

sposób losowy bądź celowy. Na zbiorowość generalną można uogólniać
wyniki z próby losowej. Badanie takie nazywamy badaniem częściowym.

Wyróżniamy 3 rodzaje tych badań:
-reprezentacyjne, które możemy uogólnić na zbiorowość generalną;

-monograficzne, niekoniecznie losowe, dokładnie opisane, którego
nie można uogólniać;

-ankietowe, na dużej próbie, dość dokładne.
Trzeci rodzaj badania statystycznego to szacunki interpolacyjne i

ekstrapolacyjne. Wyróżnić można 4 etapy badania statystycznego:
1. Planowanie badania. 2. Obserwacja statystyczna.

3. Opracowanie zebranego materi. 4. Opis i wnioskowanie statystyczne.

2. Formy prezentacji zebranego materiału

statystycznego. Charakterystyka tablicy

statystycznej i symboli umownych

stosowanych w publikacjach

statystycznych.

W wyniku obserwacji statystycznej otrzymujemy tzw. surowy materiał

statystyczny. Materiał ten po dokładnej kontroli poddajemy grupowaniu.
Prezentacji zebranego materiału możemy dokonać w formie:

-Prezentacji opisowej – polega na włączaniu danych statystycznych
do tekstu (opisu) o prezentowanym zjawisku. Prezentacja ta jest

stosowana tylko wówczas, gdy liczba danych jest niewielka. Przy
większej liczbie danych tekst staje się nieczytelny;

-Prezentacji graficznej – jest mniej dokładana niż prezentacja
tabelaryczna. Jednak graficzne przedstawianie danych statystycznych

pozwala na szybkie wyobrażenie sobie zdania na temat kształtowania
się poziomu badanego zjawiska. Do najczęściej stosowanych metod

graficznej prezentacji materiału statystycznego należą: metoda liniowa,
metoda powierzchniowa, prezentacja w układzie współrzędnych,

metoda obrazkowa, metoda ilościowa, metoda wiedeńska i kartogramy;
-Prezentacji tabelarycznej – pozwala na podanie w bardzo

przejrzystej, zrozumiałej, systematycznej i zwięzłej formie wielu
informacji, które w formie opisowej byłyby bardzo obszerne. Dlatego ta

forma jest najczęściej stosowana w publikacjach przedstawiających
dane statystyczne, np. w rocznikach statystycznych. Forma tabelaryczna

jest wykorzystywana do prezentacji danych statystycznych
uporządkowanych według jednego lub kilku kryteriów. W ramach

tabelarycznej formy prezentacji materiału statystycznego wyróżnia się
szeregi statystyczne oraz tablice statystyczne.

Szeregiem statystycznym nazywamy ciąg wielkości statystycznych
wzrastających lub malejących, uporządkowanych wg określonych cech.

Rozróżniamy następujące rodzaje szeregów:
---szczegółowe---strukturalne z cechą jakościową----rozdzielcze z cechą

ilościową----kumulacyjne-----geograficzne----czasowe.
Tablica statystyczna prezentuje daną zbiorowość z perspektywy

dwóch cech jednocześnie lub kilka zbiorowości wg 1 cechy.
W ich budowie można wyróżnić trzy elementy: tytuł, część właściwą

oraz część końcową, która obejmuje wskazanie źródła danych i
dodatkowe objaśnienia. Tytuł określa zbiorowość statystyczną, której

dotyczą informacje zawarte w części właściwej, także zakres badań
zbiorowości, czyli cechy statystyczne objęte badaniem. Przy wypełnieniu

części właściwej należy przestrzegać zasady wypełniania wszystkich
pozycji zapisu. Część właściwa składa się z główki tablicy, boczku

tablicy i danych. Tablica musi być także zaopatrzona w numer (z prawej
strony u góry).

Znaki umowne stosowane w tablicach statystycznych:
„-” zjawisko nie występuje

„.” Brak informacji lub wiarygodnych informacji
„0”zjawisko występuje, ale w ilościach mniejszych od tych, które

zostały wyrażone w tablicy.
„x” w rubryce, która nie może być wypełniona ze względu na budowę

tablicy
„!” przy liczbach, które w danym wydawnictwie zmieniono w stosunku

do poprzedniego.
„w tym” oznacza, że nie podaje się wszystkich składników sumy.

3. Charakterystyka i zastosowanie

klasycznych miar przeciętnych.

Tendencja centralna w zbiorowości to wskazanie wartości badanej
cechy w zbiorowości statystycznej, wokół której skupione są wartości

cech wszystkich jednostek wchodzących w skład tej zbiorowości.
Tendencję centralną można określić wykorzystując miary tendencji

centralnej (inaczej miary przeciętne lub średnie).
Miary przeciętne
charakteryzują zbiorowość statystyczną niezależnie

od różnic między poszczególnymi obserwacjami.
Miary przeciętne można podzielić na dwie zasadnicze grupy:

Klasyczne miary przeciętne.
Pozycyjne miary przeciętne.

Do klasycznych miar przeciętnych (obliczanych na podstawie cechy
wszystkich jednostek badanej zbiorowości) zaliczamy średnią

arytmetyczną, średnią harmoniczną, średnią geometryczną i średnią
kwadratową.

Średnia arytmetyczna definiowana jest jako iloraz sumy wszystkich
wartości cechy i liczby obserwacji (liczebności badanej zbiorowości).

Jeżeli średnia jest obliczana z danych zawartych w szeregu
rozdzielczym, wówczas ma ona postać:

gdzie k to liczba wyróżnionych przedziałów

klasowych, xi środek i-tego przedziału klasowego.
Własności średniej arytmetycznej:

-Suma wartości cechy X jest równa średniej arytmetycznej pomnożonej

przez ogólną liczebność. :

-Suma odchyleń poszczególnych wartości cechy od średniej

arytmetycznej jest równa 0.

lub

-Suma kwadratów odchyleń poszczególnych wartości cechy od średniej

arytmetycznej jest wartością najmniejszą, tzn. suma takich kwadratów
przyjmuje minimum.

lub

-Średnia arytmetyczna jest wielkością mianowaną
Obliczanie średniej arytmetycznej oparte jest na wszystkich

obserwacjach. Średnia arytmetyczna obliczana na podstawie szeregu
rozdzielczego o przedziałach klasowych jest wielkością przybliżoną, a

wielkość przybliżenia zależy od zastosowanej metody grupowania
danych statystycznych. Średniej arytmetycznej nie można obliczać w

przypadku szeregu rozdzielczego o otwartych przedziałach klasowych.
Niewskazane jest obliczanie średniej arytmetycznej gdy:

zbiorowość badana jest nieliczna i występują w niej nietypowe wartości
cechy.;; zbiorowość badana jest niejednorodna z punktu widzenia

analizowanej cechy.;;Im bardziej zróżnicowane są poszczególne
wartości cechy, tym mniejsza jest wartość poznawcza średniej

arytmetycznej.
Średnią harmoniczną należy stosować w przypadku, gdy wartości

cechy podane są w formie odwrotności, tzn. gdy wartości jednej cechy
są podane w przeliczeniu na stałą jednostkę innej cechy. Średnia ta

stosowana jest do obliczania przeciętnej prędkości pojazdów, ceny
towarów, szybkości obrotów pieniężnych i przeciętnego czasu

niezbędnego do wykonania pewnych czynności.
Średnia harmoniczna jest odwrotnością średniej arytmetycznej z

odwrotności cechy X, czyli:

lub

Jeżeli wartości cechy powtarzają się wielokrotnie wówczas stosowana

jest średnia harmoniczna ważona
Średnia geometryczna trafniej niż średnia arytmetyczna opisuje

cechę gdy wartości tej cechy przedstawione są w postaci liczb
względnych(ilorazy). Stosowana powinna być przede wszystkim wtedy,

gdy występują duże różnice pomiędzy obserwacjami, ponieważ jest
mniej wrażliwa na wartości nietypowe niż średnia arytmetyczna.

Średnia kwadratowa stosowana jest, gdy wyrazy w próbie

odpowiadają odchyleniom od zadanego wzorca (standardu). Wyrazy w
takiej próbie są niektóre ujemne, dodatnie, a inne zerowe. Obliczanie

średniej kwadratowej sprowadza się do podniesienia do kwadratu
wartości obserwacji w próbie lub środków przedziałów klasowych w

szeregach rozdzielczych. i ich przemnożenia przez częstości klasowe, a
następnie sumowaniu tych wielkości i wyznaczenia pierwiastka

kwadratowego

4. Charakterystyka i zastosowanie

pozycyjnych miar przeciętnych.

Przeciętne miary pozycyjne są to wartości cechy pewnych jednostek
zbiorowości statystycznej wyróżnionych ze względu na ich położenie w

tej zbiorowości. Przy ich wyznaczaniu dane liczbowe muszą być
uporządkowane niemalejąco lub nierosnąco. Do miar pozycyjnych

przeciętnych zaliczamy: kwartyle i dominantę.
Kwartylem, który ma największe znaczenie, jest kwartyl drugi, który

nazywany jest medianą lub wartością środkową.
Przez medianę należy rozumieć taką wartość cechy mierzalnej w

uporządkowanym zbiorze ich wartości, poniżej i powyżej której znajduje
się jednakowa liczba jednostek zbiorowości statystycznej.

Metody wyznaczania mediany:
1. Dane indywidualne (szereg szczegółowy) Gdy liczebność

zbiorowości jest liczbą niepar mediana ma postać

Gdy liczebność zbiorowości jest liczbą parzystą :

2. Wyznaczanie Me z szeregu rozdzielczego. Przybliżoną wartość Me

z szeregu rozdzielczego można obliczyć ze wzoru:

x

0

– dolna granica przedziału mediany, h

0

– rozpiętość przedziału, n

0

liczebność przedziału mediany,

N

Me

– numer mediany obliczany ze

wzoru:

N

Me

= N/2 gdy N parzyste

(N+1)/2 gdy N nieparzyste

n

sk(-1)

– skumulowana liczebność przedziału, który poprzedza przedział

mediany. Mediana jest wielkością mianowaną. Jej wielkość nie zależy od

skrajnych wartości cechy. Stosowana może być zwłaszcza wtedy, gdy
podstawą obliczeń jest szereg rozdzielczy o otwartych przedziałach

klasowych, a więc wtedy gdy obliczenie średniej arytmetycznej jest z
reguły niemożliwe. Mediana ma wtedy jednak wartość przybliżoną, tym

dokładniejszą, im mniejsze są rozpiętości przedziałów klasowych.
Kwartyl pierwszy jest to ta wartość cechy jednostki statystycznej,

która dzieli szereg w ten sposób, że ¼ jednostek ma wartość cechy od
niej nie większą, a ¾ nie mniejszą.

Q

1

=x

0

+h

0

/n

0

(N

Q1

-n

sk(-1)

)

Gdzie

N

Q1

= N/4 dla N

parzystych

(N+1)/4 dla N

nieparzystych

Kwartyl trzeci jest natomiast tą wartością cechy jednostki

statystycznej, która dzieli szereg w ten sposób, że ¾ jednostek
zbiorowości ma wartość cechy od niej nie większą, a ¼ nie mniejszą

Q

3

=x

0

+h

0

/n

0

(N

Q3

-n

sk(-1)

)

Gdzie N

Q1

= 3N/4 dla N parzystych

(3N+1)/4 dla N nieparzystych
Dominanta (moda) jest to ta wartość cechy, która w zbiorowości

występuje najliczniej i najczęściej. Przybliżoną wartość dominanty
obliczyć można z szeregu rozdzielczego pod warunkiem, że spełnione są

dwa warunki:
W szeregu rozdzielczym istnieje przedział o największej liczebności.

Rozpiętość tego przedziału oraz rozpiętości przedziałów z nim
bezpośrednio sąsiadujących są jednakowe. (Krzywa liczebności w

otoczeniu dominanty ma kształt funkcji kwadratowej).
Przy spełnieniu powyższych warunków przybliżoną wartość dominanty

możemy obliczyć przy pomocy wzoru:

5. Charakterystyka i zastosowanie

bezwzględnych i względnych miar

zróżnicowania.

Bezwzględne miary zróżnicowania czielimy na klasyczne i pozycyjne

klasyczne

Odchylenie przeciętne

(d

x

)

jest to średnia arytmetyczna z

bezwzględnych wartości różnic między poszczególnymi wartościami
cechy a średnią arytmetyczną. W przypadku danych o charakterze

szczegółowym odchylenie przeciętne obliczamy przy pomocy wzoru:

d

x

=1/N *

Σ

|x

i

-x

_

|

Natomiast gdy podstawą obliczeń są dane zawarte w szeregu
rozdzielczym

d

x

obliczamy wg wzoru:

d

x

=1/N *

Σ

|x

i

o

-x

_

|*n

i

Odchylenie przeciętne jest miarą mianowaną,. Ocena stopnia

zróżnicowania wartości cechy połączona powinna być z odniesieniem do
wielkości średniej arytmetycznej.
Wariancja

(S

x

2

)

definiowana jest jako średnia arytmetyczna

kwadratów różnic poszczególnych wartości cechy jednostek zbiorowości

statystycznej od średniej arytmetycznej. W przypadku danych

szczegółowych:

W przypadku szeregu rozdzielczego:

Odchylenie standardowe

(S

x

)

jest defin jako

S

x

jest wielkością mianowaną a interpretowane powinno być łącznie ze

średnią arytmetyczną. Gdy stanowi ono dużą część średniej

arytmetycznej świadczy to o silnym zróżnicowaniu wartości cechy.

Pozycyjne miary zróżnicowania

to rozstęp i odchylenie

ćwiartkowe.
Rozstep(Obszar zmienności) R

x

wyznaczany jest jako różnica między

największą i najmniejszą wartością cechy:

Miernik ten ma niewielką wartość poznawczą, gdyż uzależniony jest od

skrajnych wartości cechy. Pozostałe wartości nie uczestniczą w
rachunku, a tym samym nie mają żadnego wpływu na uzyskany wynik.

Miernik ten wykorzystywany jest głównie przy wstępnej analizie stopnia
zróżnicowania wartości cechy.

Odchylenie ćwiartkowe Q

x

definiowane jest jako połowa

różnicy między kwartylem trzecim i pierwszym:

Odchylenie ćwiartkowe jest wielkością mianowaną, a jej interpretacja

odbywać się powinna łącznie z medianą. Jeśli stanowi dużą część
mediany, to występuje silne zróżnicowanie cechy.

Względne miary zróżnicowania

W przypadku gdy porównujemy stopień zróżnicowania wartości cechy w

kilku zbiorowościach, w których średnie wartości cechy różnią się, a
także gdy badany stopień zróżnicowania w jednej zbiorowości dwóch

różnych cech obliczane powinny być współczynniki zmienności.
Współczynnik zmienności oparty na odchyleniu standardowym lub

na odchyleniu przeciętnym:

lub

Współczynniki te informują jaki procent średniej stanowi odchylenie

standardowe lub przeciętne. Jeżeli wartości współczynników zmienności
przekraczają 50% to oznacza to, że mamy do czynienia ze zbiorowością

względnie niejednorodną z punktu widzenia badanej cechy.
Współczynnik zmienności oparty na odchyleniu ćwiartkowym

V

Qx

=Qx/Me 100%

Informuje jaki procent mediany stanowi Qx. Jest on stosowany wtedy,

gdy przeciętny poziom cechy charakteryzowany jest za pomocą
mediany.

6. Miary asymetrii charakterystyka i

zastosowanie

W analizie struktury zbiorowości możemy określić czy rodzaj rozkładu

zbiorowości jest symetryczny bądź wykazuje deformacje w postaci
wydluzenia jednego z ramion krzywej liczebności. Oznacza to, że szeregi

mogą być zbudowane symetrycznie lub asymetrycznie.
Współczynnik skośności to miara asymetrii równa różnicy między

średnią arytmetyczna a dominantą.

D

x

W

s

=

_

Jeśli różnica ta jest większa od zera mamy do czynienia z asymetrią
dodatnią (prawostronną), a jeżeli różnica ta jest ujemna to mamy do

czynienia z asymetrią ujemną (lewostronną). Różnica miedzy średnią
arytmetyczną a dominantą informuje nas o kierunku zależności, lecz

jest zależna od wielkości cechy, a przy tym nie nadaje sie do
porównywania sił asymetrii w przypadku, gdy porównywane cechy

wyrażone są w różnych jednostkach. Stosuje sie wtedy unormowany
współczynnik asymetrii
, który wyraża sie wzorem:

W

s

=

S

D

x

S – odchylenie standardowe D – dominanta

Jeśli szereg jest symetryczny to współczynnik ten jest równy zero. Im

większą asymetrią charakteryzuje sie rozkład badanej cechy, tym
większe wartości współczynnika, a znak informują nas o kierunku

asymetrii.
iloraz momentu centralnego trzeciego rzędu i sześcianu

odchylenia standardowego. Im większa wartość bezwzględna tego
miernika, tym większy stopień asymetrii.

Jeżeli z uzasadnionych powodów nie jest możliwe obliczenie
przeciętnych miar klasycznych, wówczas jako miarę asymetrii

zastosowanie znajduje wskaźnik asymetrii oparty na kwantylach.

3

1

2

_

1

3

_

1

3

1

3

}

)

(

1

{

)

(

1

)

(

)

(

)

(

)

(

=

=

=

+

=

k

i

i

i

k

i

i

i

s

s

n

x

x

N

n

x

x

N

M

Q

Me

Me

Q

Q

Me

Me

Q

A

background image

7. Metody pomiaru siły związku

korelacyjnego dwóch cech w przypadku

korelacji prostoliniowej.

a) Współczynnik korelacji rang Spearmana R

Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech
mierzalnych. Zastosowanie znajduje również w przypadku cech

niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się
uporządkować (porangować). Miernik ten jest miarą unormowaną i

zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym

słabsza korelacja. Bliskie jedynki wartości modułu R informują
natomiast, że między cechami występuje silna zależność korelacyjna.

Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia,
R<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w

oparciu o wzór:

2

1

2

6

1

;

(

1)

n

i

i

s

d

r

n n

=

×

= −

ĺ

gdzie n – liczeb badanej zbiorowości

d

i

– różnica i-tych rang cechy x i y

Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się
ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy.

Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką
samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie

zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich
wartości cechy. Współczynnik korelacji rang stosowany powinien być w

przypadku zbiorowości niezbyt licznych (n<40). Współczynnik ten nie
jest miarą zbyt precyzyjną, bo obliczany jest w oparciu nie o

rzeczywiste wartości cech, ale w oparciu o ich rangi.
b) Współczynnik korelacji liniowej Pearsona stosowany jest do

pomiaru siły i kierunku zależności korelacyjnej prostoliniowej. Jest on
definiowany jako iloraz kowariancji z cech i iloczynu odchyleń
standardowych tych cech. Oznaczać będziemy go symbolem

r

yx

r

x y

s x

s y

=

cov( , )

( ) * ( )

gdzie

cov( , )

(

)(

)

x y

n

x

x y

y

i

i

n

i

=

=

1

1

Współczynnik korelacji liniowej jest miarą unormowaną i zawiera się w

przedziale <-1,1>. O sile zależności korelacyjnej informuje wartość
bezwzględna

r

yx

.

Bliskie zera wartości

r

yx

świadczą o słabej korelacji

bądź o jej braku. W przypadku gdy

|r

yx

|

jest bliski 1 oznacza to, że

między cechami występuje bardzo silna korelacja prostoliniowa. W
szczególności kiedy

|r

yx

|=1

oznacza to tzw. korelację doskonałą.

Znak współczynnika korelacji liniowej informuje o kierunku zależności

(r

yx

>0

oznacza korelację dodatnią,

r

yx

<0

oznacza korelację

ujemną). Miara ta jest miarą symetryczną, tzn.

r

yx

=r

xy

.

8. Metody badania siły zależności

korelacyjnej dwóch cech w przypadku

korelacji krzywoliniowej oraz w

przypadku cech niemierzalnych.

a) Stosunek korelacji

η

yx

stosowany jest do badania siły zależności

korelacyjnej 2 cech, z których co najmniej jedna musi być cechą

mierzalną, może być stosowany bez względu na charakter zależności.
Wymaga, by badana zbiorowość była liczna, a zebrane informacje

pogrupowane w tablicy korelacyjnej. Ogólnie można powiedzieć, że
stosunek korelacji jest pierwiastkiem kwadratowym z ilorazu wariancji

objaśnionej i wariancji całkowitej, czyli Miernik ten przyjmuje zawsze
wartości z przedziału <0,1>. Im bliższa jedności jest jego wartość, tym
silniejszy jest związek korelacyjny 2 cech. W szczególności gdy

η

yx

=1

oznacza to, że między cechami występuje zależność funkcyjna. Bliskie
zera wartości

η

yx

oznaczają natomiast bardzo słabą korelację albo jej

brak. Miernik ten jest niesymetryczny, tzn.

η

yx

≠η

xy

.

Miernik ten

wykorzystywany może być również do badania charakteru zależności
korelacyjnej. Jeżeli

|r

yx

|=

η

yx

wówczas stwierdzamy, że między

badanymi cechami występuje zależność korelacyjna prostoliniowa.
Stosunek korelacji można wyrazić za pomocą wzoru:

b) Współczynnik kontyngencji C Pearsona Miara ta stosowana jest
do pomiaru siły zależności między dwiema cechami niemierzalnymi. Jest

obliczana przy pomocy wzoru:

Współczynnik ten zawiera się w przedziale <0,1). Jeżeli wartość C jest

bliska jedności wówczas stwierdzamy silną zależność między badanymi
cechami, natomiast bliskie zera wartości cech oznaczają bardzo słabą

zależność bądź jej brak.
c) Współczynnik korelacji rang Spearmana R

Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech
mierzalnych. Zastosowanie znajduje również w przypadku cech

niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się
uporządkować (porangować). Miernik ten jest miarą unormowaną i

zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym

słabsza korelacja. Bliskie jedynki wartości modułu R informują
natomiast, że między cechami występuje silna zależność korelacyjna.

Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia,
R<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w

oparciu o wzór:

)

1

(

6

1

2

1

2

×

=

=

n

n

d

r

n

i

i

s

gdzie n – liczebność badanej zbiorowości

d

i

– różnica i-tych rang cechy x i y

Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się

ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy.
Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką

samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie
zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich

wartości cechy.
Współczynnik korelacji rang stosowany powinien być w przypadku

zbiorowości niezbyt licznych (n<40). Współczynnik ten nie jest miarą
zbyt precyzyjną, bo obliczany jest w oparciu nie o rzeczywiste wartości

cech, ale w oparciu o ich rangi.

9. Metoda szacowania parametrów

liniowej funkcji regresji i jej

zastosowanie. Interpretacja

współczynnika regresji „b”.

Przy badaniu populacji generalnej równocześnie ze względu na dwie lub
więcej cech mierzalnych posługujemy się pojęciami regresji i korelacji.

Oba te pojęcia dotyczą zależnośći między zmiennymi, przy czym
korelacja zajmuje się siłą tej zależności, a regresja – jej kształtem.

Wyrażenie zależności między cechami badanymi za pomocą określonej
funkcji matematycznej nazywać będziemy regresją. Po wyborze klasy

funkcji na podstawie danych empirycznych musimy naszą funkcję jak
najlepiej dopasować do danych liczbowych ujętych na wykresie

punktowym.

Metodą szacowania parametrów funkcji regresji jest tzw. klasyczna
metoda najmniejszych kwadratów pozwalająca tak dobrać funkcję do

danych empirycznych aby suma kwadratów odchyleń poszczególnych
wartości empirycznych od wartości funkcji regresji równała się mini...

Dla takiej postaci funkcji regresji warunek najmniejszych kwadratów to:
Jest to funkcja dwóch zmiennych a i b. Osiąga ekstremum dla warunku

koniecznego:

Przekształcamy ten układ do postaci 2 równań o 2
niewiadomych a i b:

Układ ten nazywamy układem równań normalnych. W wyniku jego

rozwiązania otrzymujemy współczynniki a i b, a tym samym równanie
linii regresji:

Parametr b nazywany współczynnikiem regresji, wyraża o ile przeciętnie
zmieni się zmienna zależna y gdy zmienna niezależna x wzrośnie o

jednostkę. Jeżeli miedzy dwoma cechami występuje współzależność
wówczas możemy wyznaczyć drugie równanie linii regresji

^

x = A + By

Jeżeli znamy dwa ramiona linii regresji wówczas istnieje możliwość
obliczenia współczynnika korelacji liniowej:

r = sgn b √bB

^ _ _

y = ryx Sy/Sx (x – x ) + y

Równanie linii regresji wykorzystać można do sporządzania prognoz, tj.

określenia wielkości cechy y przy danym x. każda prognoza obarczona
jest błędem, którego wielkość można oszacować obliczając odchylenie

standardowe resztowe:

Yi

oznacza empiryczne wartości cechy y

Yi

z daszkiem to teoretyczne wartości y obliczane na podstawie

równania linii regresji zapisanego powyżej.

10. Rozkład i parametry zmiennej losowej

skokowej. Charakterystyka poznanych

rozkładów teoretycznych zmiennej

losowej skokowej.

Zmienna losowa jest typu skokowego, jeżeli zbiór jej wartości jest
skończony lub przeliczalny (zbiór liczb naturalnych, całkowitych).

Rozkładem zmiennej losowej skokowej X nazywa się prawdopodobień
tego,że zmienna ta przybiera wartości

x

i

(i = 1,2,3…),

co można

zapisać:

P(X=x

i

) = p

i

i=(1,2,3…) ;;;

Σ p

i

= 1

Drugą charakterystyką zmiennej losowej jest dystrybuanta.

Funkcja F(X) = P(X<x) nazywana jest dystrybuantą zmiennej losowej X.
F(X) przyjmuje zawsze wartości z przedziału : <0,1>

Związek między rozkładem i dystrybuantą : załóżmy, że wartości
zmiennej losowej X zostały uszeregowane w porządku rosnącym.:

x1<x2<x3<…..<x

n-1

<x

n

Niech x

1

<x<x

n+1

F(X) = P(X<x) = p

1+

p

2+

p

3+…+

p

i

, gdzie p

i

=P(X=x

i

)

Parametry zmiennej losowej skokowej
Podstawowymi parametrami zmiennej losowej skokowej są:

wartość oczekiwana (wartość przeciętna, nadzieja matematyczna)
i wariancja (odchylenie standardowe).
Wartość oczekiwana

E(X)= Σx

i

p

i

Wariancja

D

2

(X) = E(X – E(X))

2

D

2

(X)=

=

N

i

i

i

p

X

E

x

1

2

))

(

(

lub D

2

(X)=

=

N

i

i

i

X

E

p

x

1

2

2

)]

(

[

,

Odchylenie standardowe D(X) =

)

(

2

X

D

Rozkłady zmiennej losowej skokowej:

Rozkład dwupunktowy – powiemy, że zmienna losowa X ma rozkład
dwupunktowy jeżeli z dodatnimi prawdopodobieństwami przyjmuje
tylko dwie wartości

x

1

i x

2

.

Funkcja rozkładu prawdopodobieństwa tej

zmiennej losowej określona jest więc następującoP(X=x

1

) = p,

P(X=x

2

)=1-p

niekiedy dla wygody przyjmuje się, że

x

1

=1 i x

2

=0.

Przy czym

x

1

=1

nazywamy sukcesem a

x

2

=0

porażką. Wówczas

P(X=1)=p

P(X=0)=1-p=q

Rozkład zmiennej losowej X określonej powyższymi wzorami nosi nazwę

rozkładu zero-jedynkowego.

Parametry rozkładu E(X) = p ;;; D

2

(X) = pq ;;; D(X) =

pq

X~Z-J(p,

pq

)

- Zmienna losowa X ma rozkładu zero-jedynkowy o

wartości oczekiwanej p i odchyleniu standardowym

pq

Rozkład dwumianowy(Bernoulliego)
Niech będzie dana zmienna losowa X, taka, że

X= X

1

+X

2

+ ….X

N

,

gdzie

X

1

,X

2,

….,X

N

są zmiennymi losowymi, które mają rozkład

zerojedynkowy o wartości oczekiwanej p. Wynika stąd, że zmienna

losowa X przyjmuje wartości 0,1,2…n. Tak zdefiniowana zmienna
losowa ma rozkład nazywany rozkładem dwumianowym. Funkcja

rozkładu prawdopodobieństwa tej zmiennej losowej wyraża się wzorem:

P(X=k)=

k

n

k

k

n

q

p

C

, k

)

,

0

( n

, przy czym

=

=

=

n

k

k

X

P

0

1

)

(

Dystrybuanta zmiennej losowej, która ma rozkład dwumianowy

określona jest wzorem: F(X)=P(X<x)=

<

x

k

k

n

k

k

n

q

p

C

Parametry rozkładu dwumianowego

E(X)=np ;;; D(X)=

npq

oraz X~D(np,

npq

)

W praktyce mamy do czynienia z rozkładem dwumianowy przy
losowaniu zwrotnym elementów ze zbiorowości ograniczonej lub przy

losowaniu bezzwrotnym ze zbiorowości nieograniczonej, nieskończonej
jeżeli wynik pojedynczego losowania jest zmienną losową o rozkładzie

zero-jedynkowym.
Własności rozkładu dwumianowego:

1.Jest on rozkładem sumy n-niezależnych zmiennych losowych z
których każda ma rozkład zero-jedynkowym.

2.Jeśli p=q rozkład jest symetryczny, jeśli p różne od q to rozkład jest
asymetryczny.

Rozkład Poissona
Niech zmienna losowa X ma rozkład dwumianowy. Załóżmy że przy n

dążącym do nieskończoności p zmienia się w ten sposób, że np =m
gdzie m jest pewną stałą. Można wówczas wykazać, że

k

k

n

e

k

m

k

X

P

=

=

!

)

(

lim

,

k

n

k

k

n

q

p

C

k

X

P

=

=

)

(

Rozkład zmiennej losowej X określony powyższym wzorem nazywany

jest rozkładem Poissona. Wzór ten zachodzi dla n dążącego do
nieskończoności(praktycznie dla dużych wart. n) ale przy ustalonym m i

dużym n, e musi być małe: p<0,1 ; n>30, q=1-p
Wart. oczekiwana:E(X)=m Odchylenie standardowe:D(X)=

m

11. Rozkład i parametry zmiennej losowej

ciągłej. Charakterystyka poznanych

rozkładów teoretycznych zmiennej

losowej ciągłej.

Zmienną losową nazywamy ciągłą, jeżeli zbiór jej wartości jest
nieprzeliczalny. Zmiennej losowej ciągłej nie można scharakteryzować

za pomocą funkcji rozkładu prawdopodob., ponieważ zbiór wartości tej
funkcji jest nieprzeliczalny. Dodatkowo dowodzi się, że jeśli X jest

zmienną losową ciągłą, to prawdopodobieństwo, że zmienna losowa
przybierze tę wartość wynosi 0. Zmienną losową ciągłą można

scharakteryzować podając jej dystrybuantę.
Dystrybuantą zmiennej losowej ciągłej X nazywać będziemy funkcję:

F(X) = P(X<x)

Można udowodnić następujące twierdzenie:

Jeżeli dystrybuanta F(X) ma pochodną w punkcie x, tzn. jeżeli istnieje

granica ilorazu różnicowego:

To pochodna ta nazywa się gęstością prawdopodobieństwa zmienn
los.X. Gęstość prawdopodobień oznaczamy f

(x) i f(x)= F’(X)

Istnieje również możliwość obliczenia dystrybuanty zmiennej losowej X
jeżeli znamy jej funkcję gęstości:

F(X) =

x

dx

x

f )

(

Funkcja gęstości zmiennej losowej X ma nast. Własności:
---jest nieujemna

---jest ciągła z wyjątkie co najwyżej skończonej liczby punktów
nieciągłości

---

=

1

)

( dx

x

f

Parametry zmiennej losowej ciągłej

=

dx

x

xf

X

E

)

(

)

(

;;;

=

dx

x

f

X

E

x

X

D

)

(

))

(

(

)

(

2

2

=

2

2

2

))

(

(

)

(

)

(

X

E

dx

x

f

x

X

D

;;;

)

(

)

(

2

x

D

x

D

=

Rozkład normalny (Gaussa) Mówimy , że zmienna losowa X ma
rozkład normalny z parametrami

µ

i

0

>

δ

, co zapisujemy

)

,

(

~

δ

µ

N

X

, jeśli jej funkcja gęstości jest określona

wzorem :

2

2

2

)

(

*

2

1

)

(

δ

µ

π

δ

=

x

e

x

f

, dla

)

;

(

+∞

−∞

x

gdzie :

µ

=

)

(x

E

;;

2

2

)

(

δ

=

x

D

Reguła 3 sigm:

6826

,0

)

(

=

+

<

<

δ

µ

δ

µ

X

P

;

9545

,0

)

2

2

(

=

+

<

<

δ

µ

δ

µ

X

P

9973

,

0

)

3

3

(

=

+

<

<

δ

µ

δ

µ

X

P

Jest ona wykorzystywana w badaniach empirycznych w celu eliminacji
obserwacji nietypowych, nie przystających do pozostałych, co do

których istnieją przypuszczenia , że pochodzą z innej zbiorowości. Za
wątpliwe uznaje się takie obserwacje , których wartość różni się od

średniej o więcej niż 3 odchylenia standardowe.
Rozkład normalny standaryzowany to rozkład normalny z
wartością oczekiwaną

0

=

µ

i odchyleniem standardowym

1

=

δ

.

Każdy rozkład normalny

)

,

(

:

δ

µ

N

X

może być transformowany

do rozkładu normalnego

)

1

,

0

(

: N

Z

poprzez procedurę standaryzacji

zmiennej X do Z. Czasami zamiast Z stosuje się literę U ( unormowana )

Zmienna los standaryzowana wyraża się wzorem :

δ

µ

=

X

Z

Procedura standaryzacji ma swoje uzasadnienie w tym, że tylko rozkład

normalny standaryzowany jest stablicowany. Najczęściej korzysta się z
tablic dystrybuanty .

Rozkład chi – kwadrat

2

(

χ

)

Zakładając , że

X

1

, X

2

, ..., X

k

są niezależnymi zmiennymi losowymi

o rozkładzie normalnym o parametrach

0

=

µ

i

1

=

δ

, zmienna

losowa

2

χ

określona w sposób następujący :

=

=

k

i

i

X

1

2

2

χ

zmienna ta ma rozkład

2

χ

o

k

stopniach swobody

Zmienna losowa o rozkładzie chi-kwadrat przyjmuje wartości dodatnie,

a jej rozkład zależy od liczby stopni swobody k . Dla małych wartości k
jest to rozkład silnie asymetryczny, w miarę wzrostu k asymetria jest

coraz mniejsza. Liczbę stopni swobody k wyznaczamy najczęściej w
sposób następujący

:k=n-1 lub k=n-r-1

,gdzie :

n – liczebność próby
r – liczba szacowanych parametrów z próby

Parametry rozkładu

2

χ

:

k

E

=

)

(

2

χ

;;

k

D

2

)

(

2

2

=

χ

;;

k

D

2

)

(

=

χ

Wraz ze wzrostem k ( powyżej 30 ) rozkład

2

χ

przechodzi w rozkład

asymptotycznie normalny o tych samych parametrach

k

E

=

)

(

2

χ

i

k

D

2

)

(

2

2

=

χ

.

Rozkład t – Studenta Jest to rozkład stosowany głównie do małych

prób. Rozkład t – Studenta jest rozkładem symetrycznym względem
prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu normalnego
standaryzowanego (jest nieco bardziej spłaszczony ). Jeżeli

Z :N(0;1)

i

)

2

;

(

:

2

2

k

k

χ

χ

są niezależnymi zmiennymi

losowymi , to zmienna

k

Z

T

2

χ

=

ma rozkład t- Studenta o k

stopniach swobody .
Parametry rozkładu t Studenta:

E(t)=0 dla k>=2

2

)

(

2

=

k

k

T

D

dla

3

k

dla

3

k

Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do
rozkładu normalnego standaryzowanego [ N : ( 0 , 1 ) ]

Rozkład F – Snedecora

Jeżeli zmienne

1

Y

i

2

Y

są zmiennymi niezależnymi i mają rozkłady

2

χ

o

1

k

i

2

k

stopniach swobody , to zmienna losowa

2

1

k

k

F

ma

rozkład F – Snedecora :

2

2

1

1

/

/

2

1

k

Y

k

Y

F

k

k

=

gdzie

1

k

i

2

k

są stopniami swobody .

parametry rozkładu F Snedecora

2

)

(

2

2

=

k

k

F

E

dla

2

2

>

k

)

4

(

)

2

(

)

2

(

2

)

(

2

2

2

1

2

1

2

2

2

+

=

k

k

k

k

k

k

F

D

dla

4

2

>

k

=

2

2

2

2

.

/

1

.

)

(

/

1

y

j

jn

y

N

y

ni

xi

y

N

yx

η

N

C

+

=

2

2

χ

χ

gdzie N- liczebność badanej zbiorowości a

=

Npij

Npij

nij

2

2

)

(

χ

( )

2

k

D t

k

=

=

2

2

2

2

.

/

1

.

)

(

/

1

y

j

jn

y

N

y

ni

xi

y

N

yx

η

background image

12. Estymatory i ich podstawowe

własności. Estymacja przedziałowa

wskaźnika struktury.

Jednym z głównych zagadnień statystyki matematycznej jest

szacowanie wartości parametrów rozkładu populacji generalnej na
podstawie próby pobranej z tej populacji. Szacowania możemy dokonać

w dwóch postaciach:
1) nieznaną wartość parametru możemy oszacować podając jedną

liczbę odpowiadającą przypuszczalnej wartości parametru; w tym
przypadku mówimy o tzw. estymacji punktowej;

2) nieznaną wartość parametru możemy oszacować podając przedział,
w który mieści się prawdziwa wartość parametru. Mówimy wówczas o

tzw. estymacji przedziałowej.
Załóżmy, że dystrybuanta

F(x)

charakteryzuje rozkład populacji

generalnej, a

θ

niech oznacza nieznany parametr tej populacji. Niech

x

1

,

x

2

,…,x

n

będzie n-elementową próbą pobraną z tej populacji.

Statystykę

T

n

będącą funkcją zmiennych

x

1

, x

2

,…,x

n

(funkcją próby)

T

n

= T(x

1

, x

2

,…,x

n

),

służącą do oszacowania parametru

θ

,

nazywać

będziemy estymatorem. Jej wartość

t

n

= t(x

1

, x

2

,…,x

n

)

odpowiadającą realizacji próby

x

1

, x

2

,…,x

n

nazywamy oceną

parametru. Estymator jest więc zmienną losową zaś jego ocena jest
konkretną liczbą odpowiadającą danej realizacji próby. Pojęcie

estymatora można sformułować też nieco inaczej: estymatorem
parametru

θ

nazywamy funkcję

T

n

= T(x

1

, x

2

,…,x

n

)

, która ma tę

własność, że prawdopodobieństwo zdarzenia

T

n

θ

jest tym bliższe 1

im większa jest liczebność próby.

Jeżeli szacujemy określony parametr, to istnieje możliwość posługiwania
się różnymi estymatorami. Jeśli np. szacowanym parametrem jest

średnia w zbiorowości generalnej, to podstawą tego szacunku mogą być
takie estymatory, jak: średnia arytmetyczna, mediana, dominanta,

średnia geometryczna itp.
Cechy dobrego estymatora:
---- Zgodność – estymator

T

n

parametru

θ

jest zgodny jeżeli ciąg różnic

{ T

n

-

θ

}

jest przy n dążącym do nieskończoności stochastycznie

zbieżny do 0, tzn. Gdy:

[

]

>

=

<

0

ε

1

)

(

θ

n

n

dla

P

T

lim

ε

Własność ta oznacza, że w miarę jak rośnie liczebność próby,
prawdopodobieństwo przekroczenia dowolnie małej różnicy (co do
wartości bezwzględnej) między estymatorem Tn a parametrem

θ

zmierza do 0. estymatory spełniające powyższy warunek nazywamy
estymatorami zgodnymi. Stosując taki estymator unikamy przy dużych

próbach popełnienia dużego błędu.
---- Nieobciążoność – powiemy, że estymator T

n

jest nieobciążonym

estymatorem parametru

θ

, jeżeli

E(T

n

) =

θ

Jeśli przy pomocy

nieobciążonego estymatora szacujemy parametr

θ

, to w prawdzie w

poszczególnych przypadkach uzyskane oceny mogą się różnić od
wartości parametru

θ

,

jednak w dużej serii dokonywania takich ocen

ich średnia będzie równa

θ

.

Posługiwanie się estymatorem

nieobciążonym zabezpiecza nas przed systematycznymi błędami w
ocenie. Różnicę

E(T

n

) -

θ

nazywamy obciążeniem estymatora.

---- Efektywność – powiemy, że estymator

T

n

parametru

θ

jest

estymatorem najefektywniejszym, jeżeli wśród estymatorów

nieobciążonych posiada najmniejszą wariancję.
---- Dostatecznosc (wystarczalność) – estymator

T

n

parametru

θ

jest

dostateczny, jeżeli zawiera wszystkie informacje, jakie na temat
parametru

θ

występują w próbie i żaden inny estymator nie może dać

dodatkowych informacji o szacowanym parametrze.

Przedział ufności dla wskaźnika struktury p otrzymujemy z
odpowiedniego rozkładu estymatora. Najlepszym estymatorem jest

wskaźnik struktury z próby m/n, gdzie m oznacza liczbę elementów
wyróżnionych znalezionych w losowej próbie o liczebności n.

Model: Populacja generalna ma rozkład dwupunktowy z parametrem p
Z populacji losujemy niezależnie dużą próbę o liczebności (n>100).
Wtedy przedział ufności dla parametru

θ

= p jest określony wzorem:

α

α

α

=





 −

+

<

<

 −

1

1

1

n

n

m

n

m

n

m

p

n

n

m

n

m

n

m

P

u

u

gdzie

u

α

wielkość, którą odczytujemy z tablic dystrybuant rozkładu

normaln w oparciu o zależność

P(

U

≤

u

α

)=1-

α

i

U~N(0,1)

13. Estymacja przedziałowa średniej –

kryteria wyboru określonego przedziału

ufności.

Szacując wartość nieznanego parametru, konstruujemy na podstawie
losowej próby przedział ufności, w którym znajduje się nieznana dla nas

wartość szacowanego parametru. Nie mamy jednak pewności, że
utworzony przez nas przedział zawiera wartość szacowanego

parametru, możemy tylko ustalić wiarygodność tego faktu z pewnym
prawdopodobieństwem, zwanym współczynnikiem ufności. Najlepszym

estymatorem średniej wartości m populacji generalnej jest średnia

arytmetyczna

x

z próby. Ma ona wszystkie cechy dobrego

estymatora (zgodność, nieobciążoność, efektywność, dostateczność).
Budując przedział ufności dla średniej w zbiorowości generalnej

możemy napotkać trzy możliwości:

Model I: Populacja generalna ma rozkład

N(m,

σ

), przy czym

σ

jest

wielkością znaną. Szacowanym parametrem jest

θ

= m, gdzie

m oznacza średnią w zbiorowości generalnej. Z populacji

generalnej wylosowano niezależnie próbę o liczebności

n

elementów. Wówczas przedział ufności dla średniej

m populacji

otrzymuje się ze wzoru:

α

σ

σ

α

α

=

+

<

<

1

}

{

n

x

m

n

x

P

u

u

, gdzie

x

oznacza obliczoną z wyników

x

i

próby średnią arytmetyczną

σ

znane odchylenie standardowe

1-

α

współczynnik ufności, który określa precyzję szacunku

u

α

wielkość, którą odczytujemy z tablic dystrybuant rozkładu

normalnego w oparciu o zależność

P(

U

≤

u

α

)=1-

α

i

U~N(0,1)

Model II: Zbiorowość generalna ma rozkład

N(m,

σ

),

gdzie

nieznana jest zarówno wartość

m, jak i odchylenie standardowe

σ

w

zbiorowości. Ze zbiorowości tej losujemy niezależnie próbę (zazwyczaj o

małej liczebności, często nawet mniejszej od 10), na podstawie
tej próby wyliczamy

x

i

s (odchylenie standardowe), korzystając ze

wzorów dla szeregu szczegółowego. Przedział ufności dla średniej

m

zbiorowości generalnej ma wówczas postać:

α

α

α

=

+

<

<

1

}

1

1

{

n

s

x

m

n

s

x

P

t

t

lub wg wzoru równoważnego:

α

α

α

=

+

<

<

1

}

{

n

s

x

m

n

s

x

P

t

t

gdzie

=

=

n

i

i

x

x

n

s

1

2

)

(

1

1

t

α

wartość zmiennej

t -Studenta odczytana z tablicy tego rozkładu dla

n-1 stopni swobody w taki sposób, by spełniona była relacja:

P(|t|<

t

α

) = 1-

α

Model III: Populacja generalna ma dowolny rozkład o średniej

m i

skończonej wariancji

σ

2

(nieznanej). Aby można było oszacować

parametr

m, pobieramy niezależnie dużą próbę, wyniki najczęściej

grupujemy w szereg rozdzielczy i na jego podstawie wyliczamy

x

oraz

odchylenie standardowe

s. Przedział ufności dla średniej m w populacji

generalnej przyjmuje wtedy postać:

α

α

α

=

+

<

<

1

}

{

n

s

x

m

n

s

x

P

u

u

Wartość

u

α

odczytujemy w analogiczny sposób, jak w modelu I.

14. Niezbędna liczba pomiarów przy

szacowaniu przedziałowym średniej i

wskaźnika struktury

Szacując metodą przedziałową parametr

θ

, budujemy dla niego

przedział ufności w oparciu o rozkład estymatora, przy założeniu

posiadanych wyników próby o ustalonej z góry liczebności

n. Otrzymany

przedział ma pewną długość

2d, a połowa długości tego przedziału

ufności (

d) jest miarą maksymalnego błędu szacunku. Aby uzyskać z

góry założoną dokładność szacunku można dobrać dostateczną

liczebność próby. Dla dwóch najczęściej szacownych parametrów
populacji, a mianowicie wartości średniej

m oraz wskaźnika struktury p,

można otrzymać wzory na minimalną liczebność próby potrzebną do
oszacowania tych parametrów z żądaną z góry dokładnością. W

zależności od posiadanych informacji, niezbędną liczebność próby w
losowaniu niezależnym można ustalić według wzorów w następujących

modelach:
Model I: populacja generalna ma rozkład normalny

N(m,

σ

) bądź

zbliżony do normalnego, wariancja

σ

2

jest znana, szacowanym

parametrem

θ

jest wartość średnia populacji m. Przy ustalonym

współczynniku ufności

1-

α

żądamy, by maksymalny błąd szacunku nie

przekroczył

d. Niezbędną do uzyskania tego celu liczebność próby n

oblicza się wtedy ze wzoru:

Gdzie

u

α

jest wartością zmiennej normalnej

N(0,1) odczytanej z tablicy dystrybuant rozkładu
normalnego w oparciu o relację P(

U

≤

u

α

)=

1-

α

Model II: populacja generalna ma rozkład

N(m,

σ

), przy czym

wariancja

σ

2

jest nieznana, ale znamy wartość statystyki

s^

2

,

uzyskanej z małej próby o liczebności

n

0

. Zakładamy, że szacunek

będzie przeprowadzany przy współczynniku ufności

1-

α

. Niezbędną

liczebność próby, jaką należy wylosować, by z maksymalnym błędem
szacunku

d zbudować przedział ufności dla średniej, obliczany jest ze

wzoru:

d

s

t

n

2

2

2

=

α

, gdzie

=

=

n

i

n

x

x

s

i

0

1

0

2

2

_

(

1

1

)

jest wariancją z próby wstępnej,

t

α

jest wartością zmiennej

t Studenta

odczytanej z tablicy tego rozkładu w oparciu o relację

P(|t|

t

α

)=

1-

α

i dla

n

0

-1

stopni swobody. Jeżeli obliczona liczebność próby właściwej

n spełnia nierówność

n

n

0

to liczebność

n

0

próby wstępnej jest

wystarczająca. Jeżeli

n>n

0

,

to należy dolosować do właściwej próby

jeszcze

n-n

0

elementów.

Model III: populacja generalna ma rozkład dwupunktowy z
parametrem

p

(tzn. wskaźnik struktury w populacji generalnej wynosi

p). Przy współczynniku ufności 1-

α

chcemy tak oszacować parametr

p,

aby maksymalny błąd szacunku tego wskaźnika struktury nie

przekroczył liczby

d.

---- Jeżeli znamy spodziewany rząd wielkości

p, to niezbędną wielkość

próby ustalamy według wzoru:

d

pq

u

n

2

2

α

=

,

gdzie

p jest spodziewanym rzędem wielkości szacowanego wskaźnika

struktury (wyrażonym jako ułamek właściwy),

q=1-p, zaś

u

α

wartością

odczytaną jak w modelu I.

---- Jeżeli nie znamy rzędu wielkości szacowanego wskaźnika struktury

p, to przyjmując za iloczyn pq jego największą wartość ¼ otrzymujemy

następujący wzór na liczebność próby:

d

u

n

2

2

4

α

=

Jeżeli prawdziwa wartość

p spełnia nierówność p

1/2, to obliczona

wielkość próby powyższym wzorem jest za duża (tzn. stosując tak

wielką próbę otrzymujemy maksymalny błąd szacunku mniejszy niż
założona wartość

d)

15. Estymacja przedziałowa mierników

zróżnicowania.

W badaniach statystycznych ze względu na cechę mierzalną do
najczęściej szacowanych parametrów obok średniej należą wariancja

σ

2

lub odchylenie standardowe

σ

badanej cechy. Najczęściej używanymi

estymatorami wariancji

σ

2

populacji generalnej są statystyki określone

wzorami:

=

=

n

i

i

x

x

n

s

1

2

2

_

(

1

)

oraz

=

=

n

i

n

x

x

s

i

1

2

2

_

(

1

1

)

natomiast estymatorami odchylenia standardowego są najczęściej

statystyki

s i

s

.

Model I: populacja generalna ma rozkład normalny N(m,

σ

) o

nieznanych parametrach m i

σ

. Z populacji tej losujemy niezależnie do

próby n elementów (liczebność nie musi być duża, n<30), na
podstawie próby obliczamy s lub

s . Przedział ufności przyjmuje

wówczas postać:

α

σ

=

<

<

1

1

2

2

2

2

c

ns

c

ns

P

lub postać równoważną:

(

)

(

)

α

σ

=





<

<

1

1

1

1

2

2

2

2

c

s

n

c

s

n

P

gdzie

c

1

i c

2

są wartościami zmiennej

χ

2

wyznaczonym z tablicy rozkładu

χ

2

dla n-1 stopni swobody oraz współczynnika ufności 1-

α

w taki sposób,

by spełnione były relacje:
P(

χ

2

<c

1

)=1/2

α

;;;

P(

χ

2

>

c

1

)=1-1/2

α

,

P(

χ

2

>=

c

2

)=1/2

α

Przy tych samych założeniach można wyznaczyć przedział ufności dla

odchylenia standardowego pierwiastkując otrzymane krańce przedziału
ufności dla wariancji. Przedział ufności dla odchylenia standardowego

ma postać:

α

σ

=





<

<

1

1

2

2

2

c

ns

c

ns

P

Model II: populacja generalna ma rozkład N(m,

σ

) lub zbliżony do

normalnego o nieznanych parametrach m i

σ

. Z populacji losujemy

dużą próbę n-elementową (n co najmniej kilkadziesiąt), na podstawie

próby obliczamy s (odchylenie standardowe z próby). Przedział ufności
dla odchylenia standardowego jest określony wzorem:

α

σ

α

α

=





<

<

+

1

2

1

2

1

n

u

s

n

u

s

P

gdzie

u

α

jest wartością zmiennej normalnej

N(0,1) odczytanej z tablicy

dystrybuant rozkł. normalnego w oparciu o relacj

P(

U

≤

u

α

)=

1-

α

.

16. Weryfikacja hipotez o równości dwóch

średnich

W zależności od posiadanych o porównywanych populacjach informacji
wyróżniamy trzy modele.

Model I. Badamy dwie populacje generalne mające rozkłady normalne
N(m1,

σ

1) i N(m2,

σ

2). Odchylenia standardowe tych populacji są znane.

W oparciu o wyniki dwu niezależnych prób, odpowiednio o

liczebnościach n1 i n2, wylosowanych z tych populacji należy sprawdzić
hipotezę H0: m1=m2, wobec hipotezy alternatywnej H1: m1

m2, gdzie

m1 i m2 to odpowiednio wartość średnia w pierwszej i drugiej

zbiorowości. Sprawdzianem hipotezy H0 jest następująca statystyka:

gdzie x1 i x2 to średnie obliczone

na podstawie prób z pobranych
odpowiednio z pierwszej i drugiej

zbiorowości

Następnie, przy ustalonym poziomie istotności

α

,

z tablic dystrybuant

rozkładu normalnego odczytujemy wartość krytyczną

u

α

, która spełnia

zależność:

P(|U|

u

α

)=

α

i U~N(0,1).

W kolejnym kroku

porównujemy wartość krytyczną i wartość sprawdzianu. Jeśli zachodzi
nierówność

|u|

u

α

,

wówczas na poziomie istotności

α

hipotezę H0

należy odrzucić na korzyść hipotezy alternatywnej, co oznacza, że

m1

m2

. Jeżeli |u|<u

α

, stwierdzamy, że brak jest podstaw do

odrzucenia hipotezy H0. Uwaga: dla hipotezy alternatywnej H1:m1>m2

stosujemy test z prawostronnym obszarem krytycznym, tzn hipotezę H0
odrzucamy gdy zachodzi nierówność U

u

α

, a dla U<u

α

stwierdzamy, że

brak jest podstaw do jej odrzucenia. Inaczej wyznaczamy też wartość u

α

: odczytujemy ją na podstawie zależności

P(U

u

α

)=

α

.

Model II. Badamy dwie populacje generalne mające rozkłady

normalne N(m1,

σ

1) i N(m2,

σ

2),przy czym wartości

σ

1 i

σ

2 są nieznane

ale wiadomo, że

σ

1=

σ

2. na podstawie wyników dwu małych prób

odpowiednio o liczebnościach n1 i n2, wylosowanych niezależnie z tych
populacji, należy zweryfikować hipotezę H0: m1=m2, wobec hipotezy
alternatywnej H1: m1

m2, gdzie m1 i m2 to odpowiednio wartość

średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0
jest wtedy statystyka

Wartość sprawdzianu porównujemy z wartością krytyczną

t

α

,

którą

odczytujemy z tablic rozkładu t Studenta dla założonego z góry poziomu
istotności

α

i dla (n1+n2-2) stopni swobody, tak aby spełniona była

zależność

P(|t|

t

α

)=

α

.

Nierówność

|t|

t

α

określa dwustronny

obszar krytyczny testu, tzn. jeśli zachodzi nierówność |t|

t

α

to hipotezę

H0 odrzucamy, zaś dla |t|<t

α

stwierdzamy, że brak jest podstaw do

odrzucenia tej hipotezy. Podobnie jak w modelu I, gdy hipoteza

alternatywna ma postać H1:m1>m2 stosujemy prawostronny obszar
krytyczny, tzn hipotezę H0 odrzucamy, gdy zachodzi

t

t

α

,

a wartość t

α

odczytujemy na podstawie zależności

P(t

t

α

)=

α

P(|t|

t

α

)=2

α

Uwaga. Jeśli sprawdzimy, że dla badanych populacji

σ

1

≠σ

2, wówczas

stosujemy modyfikację Cohrana-Koxa. Sprawdzian hipotezy H0 ma

postać:

A wartość krytyczną t

α

odczytujemy w oparciu o relację P(|t|

t

α

)=

α

,

gdzie t~ Studenta o

stopniach swobody

Model III. Badamy dwie populacje generalne mające rozkłady
normalne lub inne byle o skończonych wariancjach

σ

1

2

i

σ

2

2

,

które są

nieznane. Na podstawie wyników dwu dużych prób (n1 i n2 co najmniej

kilkadziesiąt) sprawdzamy hipotezę H0: m1=m2, wobec hipotezy
alternatywnej H1: m1

m2, gdzie m1 i m2 to odpowiednio wartość

średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0

jest wtedy statystyka

Obszar krytyczny budujemy w analogiczny sposób jak w modelu I,
analogicznie odczytujemy też wartość krytyczną u

α

.

17. Testy normalności przy dużej i małej

próbie.

Wyróżnia się dwie podstawowe grupy hipotez statystycznych
1)

Hipotezy głoszące, że rozpatrywana zmienna losowa ma

określony typ rozkładu oraz

2)

Hipotezy formułujące przypuszczenie, że dwie badane

zbiorowości mają ten sam rozkład

Spośród hipotez należących do pierwszej grupy wyróżnić można

hipotezę o normalności rozkładu danej zmiennej losowej. Jednym z
testów statystycznych, który może być stosowany do weryfikacji takiej
hipotezy, jest test zgodności

χ

2

. Test ten może być skonstruowany tylko,

gdy wyniki próby liczącej co najmniej kilkadziesiąt elementów są
pogrupowane w szereg rozdzielczy. Należy pamiętać, że klasy na jakie
dzieli się wyniki próby w teście zgodności

χ

2

, nie powinny być zbyt mało

liczne (co najmniej 8 elementów w każdym z przedziałów). Załóżmy, że
populacja generalna ma dowolny rozkład o dystrybuancie F(x). Z

populacji tej wylosowano niezależnie dużą próbę (n co najmniej
kilkadziesiąt elementów), której wyniki podzielono na r przedziałów
klasowych o liczebnościach

n

i

w każdym przedziale, przy czym

=

i

n

n

. Otrzymaliśmy w ten sposób rozkład empiryczny. Na

podstawie wyników tej próby należy sprawdzić hipotezę H

0

, którą

zapisujemy symbolicznie

H

0

: F(x)

gdzie F(x) jest

dystrybuantą badanej zmiennej, a

jest klasą dystrybuant normalnych

Hipoteza alternatywna ma postać:

H

1

: F(x)

lub

H

1

: ~H

0

Sprawdzianem tej hipotezy jest statystyka

χ

2

wyrażona wzorem:

(

)

=

=

r

i

i

i

i

np

np

n

1

2

2

χ

gdzie:

n

– liczebność próby

n

i

– liczba elementów próby należących do i-tego przedziału klasowego

p

i

– prawdopodobieństwo, że badana zmienna losowa przyjmie wartość

należącą do i-tego przedziału klasowego

np

i

– liczebność teoretyczna, czyli taka liczebność, jaka powinna

znajdować się w i-tym przedziale, gdyby hipote H

0

była prawdziwa

W kolejnym kroku określamy wartość poziomu istotności, czyli
prawdopodobieństwa popełnienia błędu pierwszego rodzaju, następnie
z tablic rozkładu

χ

2

odczytujemy wartość krytyczną

χ

α

2

w oparciu o

następującą zależność: P(

χ

2

χ

α

2

)=

α

gdzie

χ

2

~

χ

2

o r-k-1

stopniach swobody

r – liczba przedziałów klasowych

k – liczba szacowanych parametrów
Jeżeli między wartością krytyczną a wartością sprawdzianu zachodzi

nierówność:

χ

2

χ

α

2

wówczas na poziomie istotności

α

stwierdzamy, że hipotezę sprawdzaną należy odrzucić na korzyść

hipotezy alternatywnej. W przypadku, gdy

χ

2

χ

α

2

stwierdzamy, że na poziomie istotności

α

brak jest podstaw do

odrzucenia hipotezy sprawdzanej

H

0.

Testem stosowanym do sprawdzania normalności rozkładu populacji
generalnej na podstawie małej próby jest test Shapiro-Wilka.

Sposób przeprowadzania tego testu jest następujący: z badanej
zbiorowości losujemy próbę i na jej podstawie weryfikujemy hipotezę

H

0

: F(x) = F

0

(x)

gdzie

F(x)

jest dystrybuantą rozkładu badanej zmiennej

F

0

(x)

jest dystrybuantą rozkładu normalnego

Hipoteza alternatywna ma postać:

H

1

: F(x)

F

0

(x)

lub postać równoważną:

H

1

:~ H

0

Sprawdzianem tej hipotezy jest statystyka

(

)

( )

(

)

(

)

=





=

+

+

=

n

i

i

n

i

i

i

n

i

n

x

x

x

x

a

W

1

2

2

2

1

1

1

gdzie

a

n-i+1

– wielkość stablicowana

x

(i)

– i-ta wartość cechy dla wartości cech uporządkowa niemalejąca..

Następnie, przy określonym poziomie istotności

α

oraz przy danej

wielkości próby n, odczytujemy z odpowiedniej tablicy wartości
krytycznych dla testu Shapiro-Wilka wartość

W

α

.

Jeśli obliczona wartość

statystyki i wartość krytyczna spełniają nierówność

W

W

α

to na

poziomie istotności

α

stwierdzamy, że brak jest podstaw do odrzucenia

hipotezy H

0

o normalności rozkładu zbiorowości generalnej. Jeżeli zaś

zachodzi nierówność:

W <W

α

to hipotezę należy odrzucić na korzyść

hipotezy alternatywnej.

18. Charakterystyka i zastosowanie

poznanych testów serii.

testy serii uzywa sie dla sprawdzenia hipotezy, że dwie populacje mają
ten sam rozkład. Testy nieparametryczne mają mniejsza moc od testów

parametrycznych, ale górują nad nimi prostotą budowy i rachunków.
Serią nazywamy każdy podciąg złożony z kolejnych elementów

jednego rodzaju utworzony w ciągu uporządkowanych w dowolny
sposób elementów dwu rodzajów. Gdy elementy danego ciągu są

losowe, to długość i ilość serii są zmiennymi losowymi.
Model I.

Dana jest populacja generalna o dowolnym rozkładzie. Z populacji tej
pobrano w pewien określony sposób próbę n elementów. Należy

sprawdzić hipotezę, że jest to próba losowa. Test istotności dla tej
hipotezy jest następujący. Z uporządkowanego wg kolejności pobierania

elementów do próby ciągu wyników próby obliczamy medianę z próby.
Każdemu wynikowi próby

x

i

w tym uporządkowanym chronologicznie

ciągu przypisujemy symbol a jeśli

x

i

<Me,

bądź symbol b, jeśli

xi>Me.

Wynik xi=Me można odrzucić. Otrzymujemy w ten sposób ciąg złożony

z symboli a i b. W ciągu tym otrzymujemy określoną liczbę serii. Przy
założeniu prawdziwości hipotezy o losowości próby liczba serii k ma
znany i stablicowany rozkład zależny od

n

1

i n

2

liczebności elementów

a i b. Tablice rozkładu liczby serii podają taką wartość

k

α

że

P(k

k

α

)=

α

.

W oparciu o ten rozkład budujemy dwustronny obszar

krytyczny dla testu losowości w taki sposób, że dla przyjętego poziomu
istotności

α

odczytujemy z tablic takie dwie wartości krytyczne

k

1

i k

2

,

aby zachodziły relacje:

P(k

k

1

)=1/2

α

i P(k

k

2

)=1-1/2

α

Jeżeli zajdzie jedna z nierówności

k

k

1

lub k

k

2

,

to hipotezę o

losowości próby należy odrzucić(otrzymaliśmy zbyt małą lub zbyt dużą
liczbę serii). Natomiast gdy zajdzie nierówność

k

1

< k <k

2

, nie ma

podstaw do odrzucenia hipotezy o losowości próby.

Model II.
Dane są dwie populacje generalne o dowolnych rozkładach badanej

cechy. Z populacji tych wylosowano dwie próby o liczebnościach
odpowiednio

n

1

i n

2

.

Na podstawie wyników tych prób należy

zweryfikować hipotezę, że rozkłady obu populacji nie różnią się, czyli
hipotezę H

0

: dwie próby pochodzą z jednej populacji.

Test istotności dla tej hipotezy, oparty na rozkładzie liczby serii, jest
następujący. Wyniki obu prób ustawiamy w jeden ciąg wg rosnących

wartości. Oznaczamy elementy próby z jednej populacji za pomocą
symbolu a, a z drugiej za pomocą symbolu b. Odczytujemy z

niemalejącego ciągu liczbę serii k. Obszar krytyczny budujemy
lewostronnie w taki sposób, ze z rozkładu liczby serii otrzymujemy dla
odpowiednich

n

1

i n

2

oraz dla ustalonego z góry poziomu istotności

α

taką wartość krytyczną

k

α

by

P(k

k

α

)=

α

.

Jeżeli otrzymamy liczbę

serii k z danego ciągu, która spełnia nierówność

k

k

α

,

to hipotezę

H

0

odrzucamy, tzn. dwie próby różnią się istotnie. W przeciwnym wypadku

nie ma podstaw do odrzucenia hipotezy, że rozkłady obu populacji są
takie same.

2

2

2

1

2

1

2

1

n

n

x

x

U

σ

σ +

=





+

+

+

=

21

1

2

1

2

2

2

2

1

1

2

1

1

1

2

n

n

n

n

s

n

s

n

x

x

t





+

=

21

2

2

1

2

1

2

1

n

s

n

s

x

x

t

(

)





+

+

+

+

4

2

4

1

2

2

2

1

2

1

2

1

2

s

s

s

s

n

n

d

σ

u

n

2

2

2

α

=

2

2

2

1

2

1

2

1

n

s

n

s

x

x

U

+

=

background image

19.Testy istotności dla współczynnika

korelacji liniowej i dla współczynnika

regresji.

Model I Test istotności dla współczynnika korelacji

Dwuwymiarowy rozkład badanych cech X i Y w populacji generalnej jest
normalny lub zbliżony do normalnego. Z populacji tej wylosowano

niekoniecznie dużą próbę n-elementową. Na podstawie wyników tej
próby należy sprawdzić hipotezę, ze zmienne X i Y nie są skorelowane,

tzn. hipotezę

0

H

: ρ = 0 wobec hipot alternatywnej

1

H

:

0

ρ

Obliczamy z próby r zgodnie z wzorem :

(

)(

)



=

=

=

=

=

=

=

n

i

r

i

j

i

i

i

r

i

ij

i

i

n

i

n

i

i

i

n

i

i

i

yx

n

y

y

n

x

x

n

y

y

x

x

y

y

x

x

y

y

x

x

r

1

1

2

2

1

1

1

2

2

1

)

(

)

(

)

)(

(

)

(

)

(

j

i

y

x

 ,

- średnie poszczegól przedziałów klasowych zmiennych X i Y

ij

n

- liczebność dla poszczególnej kratki tablicy

j

i

n

n

,

- liczebności brzegowe tablicy korelacyjnej

Sprawdzianem tej hipotezy jest statystyka t postaci:

2

1

2

=

n

r

r

t

yx

yx

Statystyka ta ma przy założeniu prawdziwości hipotezy H

0

rozkład

t-Studenta z n-2 stopniami swobody. Z tablicy rozkładu t Studenta dla
ustalonego z góry poziomu istotności

α

i dla n-2 stopni swobody

odczytujemy wartość krytyczną

α

t

tak, by P(

α

t

t

)=

α

a) Jeżeli

α

t

t

, to hipotezę

0

H

o braku korelacji między

zmiennymi należy odrzucić, tzn. że między tymi zmiennymi istnieje

zależność korelacyjna.

W przypadku nierówności

α

t

t

<

stwierdzamy, że brak jest

podstaw do odrzucenia hipotezy sprawdzanej

0

H

, że zmienne X i Y są

nieskorelowane. Gdy hipoteza alternatywna precyzuje znak
współczynnika korelacji, tzn. gdy jest

1

H

:

0

<

ρ

lub

1

H

:

0

>

ρ

, wówczas w tym teście korzystamy z obszaru krytycznego

odpowiednio lewostronnego lub prawostronnego.
Test istotności dla współczynnika regresji liniowej

W analizie regresji sprawdzana jest często hipoteza dotycząca istotności
otrzymanego z próby współczynnika regresji liniowej.

Dwuwymiarowy rozkład badanych dwóch cech X, Y w populacji
generalnej jest normalny lub zbliżony do normalnego. Z populacji tej

wylosowano do próby n elementów i otrzymano wyniki

(x

i

, y

i

) (i=1,2,..., n).

Na podstawie wyników tej próby należy

sprawdzić hipotezę, że współczynnik regresji

β

0

liniowej funkcji regresji

y=

α

+

β

0

x

w populacji ma określoną wartość, tj. hipotezę:

0

0

:

β

β =

H

wobec hipotezy alternatywnej

0

1

:

β

β ≠

H

Jeżeli współczynnik regresji okaże się istotnie różny od 0, wówczas

funkcja regresji może być wykorzystywana do sporządzania prognoz.
Jeśli zaś współczynnik regresji z próby nie okaże się istotnie różny od 0,

to oznacza, że funkcja regresji w zbiorowości może być stała, co
wskazuje na brak zależności między badanymi zmiennymi.

Na podstawie wylosowanej próby, wykorzystując metodę najmniejszych
kwadratów, wyznaczamy równanie linii regresji postaci

bx

a

y

+

=

ˆ

; następnie obliczamy wartość sprawdzianu, który ma postać:

(

)

=

=

n

i

i

r

x

x

S

b

t

1

2

0

β

gdzie

(

)

=

=

n

i

i

r

y

y

n

S

1

2

ˆ

2

1

Wartości sprawdzianu porównujemy następnie z wartością krytyczną

α

t

, którą przy określonym poziomie istotności

α

i (n-2) stopniach

swobody odczytujemy z tablic wartości krytycznych rozkładu t-Studenta.

Jeżeli spełniona jest zależność

α

t

t

, wówczas hipotezę

0

H

odrzucamy na korzyść hipotezy alternatywnej, tzn.

0

β

β ≠

.

Gdy hipoteza alternatywna jest sformułowana w postaci :

0

1

:

β

β <

H

, to

0

H

odrzucam na korzyść

1

H

, gdy

α

t

t

0

1

:

β

β >

H

, to

0

H

odrzucam na korzyść

1

H

, gdy

α

t

t

20. Test niezależności chi- kwadrat.

Metoda pomiaru siły zależności

korelacyjnej w przypadku cech

niemierzalnych.

test niezależności chi- kwadrat- za pomocą tego testu możemy
zweryfikować hipotezę że dwie badane cechy są niezależne.

Hipotezę sprawdzaną H

0

formułujemy:

H

0

:P(X=x

i

, Y=y

i

) = P(X=x

i

)* P(Y=y

i

Hipotezę alternatywną H

1

formułujemy:

H

1

:~ H

0

W celu zweryfikowania prawdziwości tej hipotezy z badanej zbiorowości

losujemy dużą próbę a jej wyniki grupujemy w postaci tzw. tablicy

niezależności.

∑∑

=

=

=

r

i

s

j

ij

ij

ij

np

np

n

1

1

2

2

)

(

χ

Wartość tego sprawdzianu porównujemy z wartością krytyczną

Χ

2

α

którą przy danym poziomie istotności

α

oraz dla (w-1)(k-1) stopni

swobody odczytujemy z tablicy wartości krytycznych rozkładu

Χ

2

w

oparciu o następującą zależność:

α

χ

χ

α

=

)

(

2

2

P

.,

U

2

~

Χ

2

o (w-1)(k-1)

st. swobody

Jeżeli spełniona jest nierówność

(

Χ

2

≥Χ

2

α

)

wówczas na poziomie

istotności

α

hipotezę sprawdzaną H

0

odrzucamy na korzyść hipotezy

alternatywnej, co oznacza że badane zmienne są zależne.
Jeżel

i(

Χ

2

2

α

)

stwierdzamy, że brak jest podstaw do odrzucenia

hipotezy sprawdzanej

H

0

Istnieje wiele metod pomiaru zależności korelacyjnej w przypadku cech
niemierzalnych, np. współczynnik

ϕ

Youl’a czy V Cramera, jednak

najwygodniejszy jest współczynnik kontyngencji C Pearsona, gdyż może
być stosowany przy tablicach wielodzielnych dowolnej wielkości i

dowolnej formy. Wartości tego miernika zawarte są w przedziale <0,1>
Bliskie 1 wartości C świadczą o silnej zależności.

Współczynnik C- Pearsona obliczany jest w oparciu o następujący wzór:

C=

(

Χ

2

/

Χ

2

+N)

Gdzie

∑∑

=

=

=

r

i

s

j

ij

ij

ij

np

np

n

1

1

2

2

)

(

χ

21.Rodzaje szeregów czasowych i metody

ich analizy.

Analizę dynamiki zjawisk masowych przeprowadza się na podstawie
szeregów czasowych (dynamicznych, chronologicznych).

Szeregiem czasowym nazywamy ciąg wartości badanego zjawiska
obserwowanego w kolejnych jednostkach czasu. W szeregach

czasowych zmienną niezależną jest czas, natomiast zmienną zależną –
wartości liczbowe badanego zjawiska:

Zmienna niezależna może być ujmowana różnie, w zależności od celu
badania i właściwości zjawisk masowych. Zjawiska zmieniające się

wolno są ujmowane w pewnych ściśle określonych momentach. Szeregi
zbudowane w ten sposób noszą nazwę szeregów czasowych

momentów. Szeregi czasowe zawierające informacje o rozmiarach
zjawiska w pewnych – dłuższych lub krótszych – okresach (np.

półrocze, kwartał) nazywamy szeregami czasowymi okresów.
Przeciętny poziom zjawisk przedstawionych w postaci szeregów

czasowych okresów – przy założeniu, że przyjęte przedziały czasowe są
równe – oblicza się za pomocą średniej arytmetycznej.

Do obliczania średniego poziomu zjawisk przedstawionych w formie
szeregów czasowych momentów wykorzystuje się średnią

chronologiczną. Oblicza się ją wg wzoru:

1

2

1

...

2

1

1

1

+

+

+

=

n

y

y

y

y

n

n

ch

gdzie:

y

1

, y

2

, …, y

n

oznaczają wielkość badanego zjawiska w

kolejnych momentach. Rozwój zjawisk przedstawiony za pomocą

szeregów czasowych może być właściwie oceniony wówczas, gdy
poszczególne wyrazy szeregów czasowych są wielkościami

jednorodnymi i porównywalnymi.
Porównywalność danych statystycznych przedstawionych w formie

szeregów czasowych jest możliwa, gdy spełnione są określone
warunki:

Zjawiska przedstawione w szeregach czasowych powinny być wyrażone
w tych samych jednostkach miar; Szeregi czasowe okresów mogą być

porównywane z szeregami czasowymi okresów, a szeregi czasowe
momentów z szeregami czasowymi momentów, przy czym muszą one

dotyczyć tych samych momentów lub okresów; Badane w czasie
zjawiska powinny dotyczyć tego samego obszaru terytorialnego;

W szeregach dynamicznych okresów przedziały czasowe powinny być
jednakowe.

Proste metody badania zmian szeregu dynamicznego
1. Przyrosty absolutne
- Odejmowanie dwóch wielkości liczbowych

daje w wyniku dodatni lub ujemny przyrost absolutny. Przyrosty
absolutne mogą być obliczane w stosunku do jednego okresu

(momentu) przyrosty absolutne o podstawie stałej (jednopodstawowe)
lub też okresu stale zmieniającego się przyrosty absolutne o podstawie

zmiennej (łańcuchowe). Przyrosty absolutne informują o tym, o ile
jednostek wzrósł lub zmalał poziom badanego zjawiska w okresie

(momencie) badanym w porównaniu z okresem przyjętym za podstawę.
2. Przyrosty względne - Przyrostem względnym nazywamy iloraz

przyrostów absolutnych zjawiska do jego poziomu w okresie
(momencie) przyjętym za podstawę do porównań. Przyrosty względne

podobnie jak absolutne mogą być jednopodstawowe lub łańcuchowe.
Informują o tym, o ile wyższy lub niższy jest poziom badanego zjawiska

w danym okresie w stosunku do okresu bezpośrednio poprzedzającego
(przyrosty względne łańcuchowe) lub w porównaniu z okresem

przyjętym za podstawę (przyrosty względne jednopodstawowe).
Przyrosty względne określane są mianem wskaźników tempa wzrostu.

Wskaźniki dynamiki (indeksy) - Indeksem nazywamy każdą liczbę
względną powstałą przez podzielenie wielkości danego zjawiska w

okresie badanym (sprawozdawczym) przez wielkość tego zjawiska w
okresie podstawowym (bazowym). Jeżeli poziom zjawiska w okresie
(momencie) badanym oznaczamy symbolem

y

1

,

a w okresie

(momencie) podstawowym symbolem y

0

to wzór na indeks przyjmuje

postać:

0

1

: y

y

i

=

Indeks jest wielkością niemianowaną i może

być wyrażony w ułamkach lub w procentach. Jeżeli indeks przyjmuje
wartość z przedziału 0 < i < 1, to świadczy to o spadku poziomu

zjawiska w badanym okresie w stosunku do okresu podstawowego.
Wartość większa od 1 (lub od 100%) świadczy o wzroście poziomu

zjawiska w okresie badanym w stosunku do okresu podstawowego.
Wartość indeksu równa 1 świadczy o tym, że poziom zjawiska w

okresach badanym i podstawowym są takie same.
W zależności od przyjętej podstawy wyróżniamy indeksy

jednopodstawowe lub łańcuchowe.
Ciąg indeksów o podstawie stałej zapisujemy następująco:

1

1

1

1

2

1

1

,

,....,

,

y

y

y

y

y

y

y

y

n

n

Ciąg indeksów łańcuchowym (oparty na zasadzie odnoszenia poziomu
badanego zjawiska z okresu badanego do poziomu tego zjawiska w z

okresu bezpośrednio poprzedzającego) zapisujemy następująco:

1

2

1

2

3

1

2

,

,....,

,

n

n

n

n

y

y

y

y

y

y

y

y

Do oceny tempa zmian zjawiska w pewnym okresie czasu

wykorzystywany jest miernik nazywany średnim okresowym
tempem zmian zjawiska
, definiowany jako średnia geometryczna z

indeksów łańcuchowych, które dla danego okresu mogą być obliczone.

G=

1

1

1

1

3

4

2

3

1

2

...

=

=

n

n

n

n

n

g

y

y

i

i

i

i

i

y

n - liczba okresów ;; Do interpretacji wykorzystujemy (G-1)100%

22. Charakterystyka i zastosowanie

agregatowych indeksów wartości, ilości i

cen.

Indeksy zespołowe (agregatowe) pozwalają analizować zmiany wartości

, cen oraz ilości zbioru (grupy produktów,artykułów ) które nie są
jednorodne, czyli ich poszczególne składniki nie są sumowalne.

p

o

,p

1

-

ceny jednostkowe pewnego towaru odpowiednio w okresie

podstawowym i w okresie badanym

q

0

, q

1

-

ilości towaru w okresie podstawowym i badanym

i

p

=

p

p

0

1

i

q

=

q

q

0

1

;;

I

w

-

agregatowy indeks wartości

I

w

=

=

=

n

i

i

i

n

i

i

i

q

p

q

p

1

0

0

1

1

1

*

*

lub prostszy zapis

I

w

=

=

=

n

i

o

n

i

q

p

q

p

1

0

1

1

1

*

Gdzie

I

w

– agregatowy indeks wartości badanego zespołu artykułów;

Σ

q

1

p

1

– suma wartości badanego zespołu w okresie badanym;

Σ

q

0

p

0

– suma wartości badanego zespołu w okresie podstawowym.

Operowanie jedynie indeksem wartości jest niewystarczające, gdyż nie
wiemy, który z czynników (ceny lub ilości) miał większy wpływ na

stwierdzony wzrost lub spadek wartości produkcji. Zachodzi zatem
konieczność obliczenia dodatkowych indeksów, które informowałyby, co

było przyczyną wzrostu lub spadku wartości produkcji. Indeksy te noszą
nazwę agregatowych indeksów cen i agregatowych indeksów ilości.

Jeśli założymy we wzorze indeksów wartości, że ceny porównywanych
wyrobów w porównywanych latach nie zmieniały się i były takie jak w

okresie podstawowym, wówczas otrzymamy agregatowy indeks ilości o

formule Laspeyresa:

L

I

q

=

=

=

n

i

n

i

q

p

q

p

1

0

0

1

1

0

*

*

Gdyby natomiast przyjąć założenie,że w porównywanych latach ceny

jednostkowe towarów nie zmieniały się i były takie jak w okresie
podstawowym, wówczas otrzymamy agregatowy indeks ilości

Paaschego:

p

I

q

=

q

p

q

p

n

i

n

i

0

1

1

1

1

1

*

*

=

=

Jeżeli założymy, że w formule indeksu wartości ilości towarów w
porównywanych okresach nie zmieniały się, wówczas otrzymamy

agregatowy indeks cen. Gdy założymy, że w porównywanych okresach
ilości towarów nie zmieniały się i były takie jak w okresie badanym,

wówczas otrzymamy agregatowy indeks cen o formule Laspeyresa:

L

I

p

=

q

p

q

p

n

i

n

i

0

1

0

1

0

1

*

*

=

=

Jeśli założymy, że w porównywanych okresach ilości towarów nie

zmieniały się i były takie jak w okresie badanym, wówczas otrzymamy
agregatowy indeks cen o formule Paaschego:

p

I

p

=

q

p

q

p

n

i

n

i

1

1

0

1

1

1

*

*

=

=

Agregatowe indeksy cen i ilości obliczone wg formuł standaryzacyjnych

Laspeyresa i Paaschego dla tego samego zespołu artykułów zwykle
różnią się między sobą. Przyjmuje się, że jeżeli układ wyjściowy

informacji na to pozwala, wskazane jest obliczenie indeksów wg
obydwu formuł standaryzacyjnych.

Między indeksami zachodzą tzw. równości indeksowe,
wykorzystywane do obliczania indeksów tzw. metodą pośrednią:

I

w

=

L

I

q*p

I

p

I

w

=

p

I

q*L

I

p

23. Metody wyodrębniania głównej

tendencji rozwojowej zjawisk oraz

wpływu czynnika przypadkowego.

Model zmian w czasie

y

f t

q t

z t

t

=

+

+

( )

( )

( )

f(t)

-trend (tendencja rozwojowa)

q(t)

-wahania okresowe (sezonowe)

z(t)-

wahania przypadkowe (losowe)

Identyfikacji trendu możemy dokonać dwiema metodami:
1. metoda mechaniczna- polega na zastępowaniu danych

empirycznych (z kolejnych okresów) średnimi ruchomymi z okresu
badanego i kilku okresów przyległych. Dzięki zastosowaniu średnich

ruchomych eliminuje się wartości przypadkowe i otrzymuje się wartości
będące wynikiem działania czynników głównych.

2. metoda analityczna- polega na wyznaczaniu równania linii w taki
sposób aby linia ta była w najlepszym stopniu dopasowana do danych

empirycznych. W przypadku gdy podstawę naszych badań stanowi
szereg czasowy , możemy sporządzić jego wykres na płaszczyźnie. W

niektórych przypadkach punkty na płaszczyźnie skupione są wokół
pewnej prostej. Istnieje możliwość znalezienia równania tej linii, która

nazywana jest linią trendu. W celu wyznaczenia linii trendu, czyli
równania prostej najlepiej dopasowanej do danych empirycznych,

stosuje się metodę najmniejszych kwadratów. Przyjmijmy, że
poszukiwana linia ma równanie:

y^ = a +bt

Spośród wszystkich możliwych linii, które można by poprowadzić przez
punkty będące wykresem szeregu czasowego, najlepiej do tych

punktów dopasowana będzie ta linia, której równanie spełnia warunek:

Σ

(y

i

– y^

i

)

2

= min

relacja ta oznacza, że suma kwadratów

różnic wartości empirycznych i teoretycznych zmiennej y osiągać musi

minimum.

F(a,b) =

Σ

i=1

N

(y

i

-a – bt

i

)

2

= min

Poszukujemy minimum funkcji F(a,b). Warunkiem koniecznym istnienia

ekstremum tej funkcji jest:

δ

F/

δ

a =0 i

δ

F/

δ

b=0

rozpisując układ tych 2 równań otrzymujemy 2 równania o 2
niewiadomych, które nazywamy układem równań normalnych:

Σ

i=1

N

y

i

=a N + b

Σ

i=1

N

t

i

Σ

i=1

N

y

i

t

i

= a

Σ

i=1

N

t

i

+b

Σ

i=1

N

t

i

2

rozwiązaniem tego układu jest para liczb a i b, które są parametrami
poszukiwanego równania linii trendu.

Parametr b nazywamy współczynnikiem kątowym równania linii
trendu. Informuje, jak średnio zmienia się wielkość zjawiska z okresu na

okres. Równanie linii trendu wykorzystywane jest w praktyce do
sporządzania prognoz, czyli do przewidywania wielkości zjawiska w

przyszłości. Prognoza taka będzie miała sens jeśli w przyszłości
charakter dotychczasowej tendencji rozwojowej zjawiska nie zmieni

się. Na zmiany zjawiska wpływają czynniki losowe (przypadkowe), które
można wyodrębnić porównując rzeczywistą wartość badanej cechy „y” z

jej teoretyczną wartością skorygowaną o wahania sezonowe. Wielkość
błędu prognozy możemy ocenić za pomocą odchylenia standardowego

resztowego, obliczanego wg wzoru:

S

y

=

{[

Σ

i=1

N

(y

i

– y^

i

)

2

]/N-2}

24. Metoda wyodrębniania wpływu

czynnika sezonowego. Podać przykłady

występowania sezonowości zjawisk.

Zmiany zjawisk zależą w pewnym stopniu od zmiany przyczyn o

charakterze sezonowym. Sezonowość obserwowana jest nie w skali
roku a w podokresach

roku. Wyodrębnienie tego czynnika jest ważne

przy dokonywaniu wszelkiego rodzaju prognoz.
Wyróżnić można 2 metody wyodrębnian wpływu czynnika sezonowego:

---- metoda mechaniczna - oparta jest na obliczen średnich ruchomych
-----metoda analityczna – polega na wykorzystaniu przy obliczaniu tzw.

wskaźników sezonowości równania linii trendu.
Przyjmijmy, że podstawą naszych obliczeń będą informacje dotyczące

wielkości zjawiska w pewnych podokresach określonego przedziału
czasowego. Załóżmy, że równanie wyznaczonej linii trendu ma postać:

bt

a

y

+

=

ˆ

Wówczas wskaźniki sezonowości wyznaczane są przy pomocy wzoru:

( )
( )

=

t

i

t

i

i

t

y

t

y

O

ˆ

;

i = 1, 2, ..., d

Gdzie

( )

t

i

t

y

i

( )

t

i

t

yˆ

oznaczają odpowiednio sumy

wartości empirycznych i teoretycznych dla okresów jednoimiennych.

d – liczba podokresów wyróżnionych w roku

Jeżeli

=

d

i

i

d

O

1

, to obliczamy tzw. skorygowane wskaźniki

sezonowości wg wzoru:

R

O

O

i

i

=

=

=

d

i

i

O

d

R

1

Wpływ badań sezonowych wyrażony w wielkościach absolutnych
obliczamy wg wzoru:

y

y

O

t

g

i

i

=

)

(

,

=

=

d

i

i

t

g

1

0

)

(

y

- średnia okresowa wielkość danego zjawiska

* np. gdy wskaźnik sezonowości dla I kwartału

926

,

0

1

=

O

oznacza, że w każdym pierwszym kwartale w badanym okresie wielkość
sprzedaży towaru była niższa o 7,4% od średniej kwartalnej wielkości

sprzedaży towaru w wyniku oddziaływania czynnika sezonowego.


Wyszukiwarka

Podobne podstrony:
Medycyna Katastrof pytania na egzamin (opracowane)
odpowiedzi na pytania na egzamin od 24
Przykładowe pytania i opracowania na egzamin, Opracowania
zag na egzamin (opracowac)
kzu pytania na egzamin opracowanie
Pytania na egzamin opracowane FISZER
LICENCJAT - opracowanie na egzamin, Opracowania moje
opracowanie zagadnień na egzamin, opracowanie pytań egzaminacyjnych
BAZA PYTAŃ DLA KANDYDATÓW NA EGZAMINATORÓW, Opracowanie
Pytania na egzamin opracowane FISZER
Od Magdy 080110 Pytania na egzamin opracowane FISZER
na egzamin opracowanie 50 pyt, Dokumenty - Bezpieczeństwo Narodowe, 3 semestr (AREK-DATOR)
pytania na egzamin z opracowaniem, SESJA, SESJA
OZP PYTANIA NA EGZAMIN OPRACOWAŁA EWUNIA DLA DIVY KEJCIUNI I MAJKELA
zagadnienia na egzamin opracowane technologia roślinna

więcej podobnych podstron