1. Charakterystyka i klasyfikacja cech
statystycznych. Rodzaje badań
statystycznych.
Planując badanie należy dokonać wyboru tzw. cech
statystycznych, które będą obserwowane. Cechami statystycznymi
nazywamy właściwości, którymi odznaczają się jednostki wchodzące w
skład badanej zbiorowości.
Cechy zmienne przypisywane jednostkom danej zbiorowości
możemy podzielić na mierzalne i niemierzalne. Cecha mierzalna daje
się wyrazić za pomocą jednostek miary(liczb), poszczególne warianty
cechy niemierzalnej określane są za pomocą słów. Cechy mierzalne
można podzielić na ciągłe i skokowe. Cechę nazwiemy ciągłą, jeśli
może przyjąć każdą wartość z określonego skończonego przedziału
liczbowego. Cechę nazwiemy skokową, jeżeli może ona przyjmować
tylko niektóre wartości z określonego przedziału liczbowego.
W przypadku badań zbiorowości wielowymiarowych zmienne
(cechy mierzalne) dzielimy na: stymulanty - te cechy, których wyższe
wartości pozwalają zakwalifikować daną jednostkę statystyczną jako
lepszą z punktu widzenia realizowanego badania; dominanty - cechy,
których wysokie wartości świadczą o niskiej pozycji jednostki w zbiorze.
Przedmiotem badań statystycznych są określone zbiorowości
statystyczne, które stanowią zbiór jednostek powiązanych ze sobą
logicznie. Rozróżnić możemy dwa rodzaje zbiorowości: generalną
(obejmuje wszystkie elementy będące przedmiotem badania) i próbną
(jest podzbiorem zbiorowości generalnej wybranym w określony
sposób).
Badania całej zbiorowości generalnej są przeprowadzane
stosunkowo rzadko ze względu na możliwość zniszczenia w trakcie
badania jednostek zbiorowości generalnej, wysokie koszty i
czasochłonność, często nieskończoną liczbę elementów w zbiorowości
generalnej. Badanie obejmujące wszystkie elementy zbiorowości
generalnej nazywamy badaniem pełnym. Najczęściej stosowane są:
-spis statystyczny;
-rejestracje statystyczne;
-sprawozdawczość statystyczna.
Badanie części zbiorowości generalnej wymaga pobrania próby w
sposób losowy bądź celowy. Na zbiorowość generalną można uogólniać
wyniki z próby losowej. Badanie takie nazywamy badaniem częściowym.
Wyróżniamy 3 rodzaje tych badań:
-reprezentacyjne, które możemy uogólnić na zbiorowość generalną;
-monograficzne, niekoniecznie losowe, dokładnie opisane, którego
nie można uogólniać;
-ankietowe, na dużej próbie, dość dokładne.
Trzeci rodzaj badania statystycznego to szacunki interpolacyjne i
ekstrapolacyjne. Wyróżnić można 4 etapy badania statystycznego:
1. Planowanie badania. 2. Obserwacja statystyczna.
3. Opracowanie zebranego materi. 4. Opis i wnioskowanie statystyczne.
2. Formy prezentacji zebranego materiału
statystycznego. Charakterystyka tablicy
statystycznej i symboli umownych
stosowanych w publikacjach
statystycznych.
W wyniku obserwacji statystycznej otrzymujemy tzw. surowy materiał
statystyczny. Materiał ten po dokładnej kontroli poddajemy grupowaniu.
Prezentacji zebranego materiału możemy dokonać w formie:
-Prezentacji opisowej – polega na włączaniu danych statystycznych
do tekstu (opisu) o prezentowanym zjawisku. Prezentacja ta jest
stosowana tylko wówczas, gdy liczba danych jest niewielka. Przy
większej liczbie danych tekst staje się nieczytelny;
-Prezentacji graficznej – jest mniej dokładana niż prezentacja
tabelaryczna. Jednak graficzne przedstawianie danych statystycznych
pozwala na szybkie wyobrażenie sobie zdania na temat kształtowania
się poziomu badanego zjawiska. Do najczęściej stosowanych metod
graficznej prezentacji materiału statystycznego należą: metoda liniowa,
metoda powierzchniowa, prezentacja w układzie współrzędnych,
metoda obrazkowa, metoda ilościowa, metoda wiedeńska i kartogramy;
-Prezentacji tabelarycznej – pozwala na podanie w bardzo
przejrzystej, zrozumiałej, systematycznej i zwięzłej formie wielu
informacji, które w formie opisowej byłyby bardzo obszerne. Dlatego ta
forma jest najczęściej stosowana w publikacjach przedstawiających
dane statystyczne, np. w rocznikach statystycznych. Forma tabelaryczna
jest wykorzystywana do prezentacji danych statystycznych
uporządkowanych według jednego lub kilku kryteriów. W ramach
tabelarycznej formy prezentacji materiału statystycznego wyróżnia się
szeregi statystyczne oraz tablice statystyczne.
Szeregiem statystycznym nazywamy ciąg wielkości statystycznych
wzrastających lub malejących, uporządkowanych wg określonych cech.
Rozróżniamy następujące rodzaje szeregów:
---szczegółowe---strukturalne z cechą jakościową----rozdzielcze z cechą
ilościową----kumulacyjne-----geograficzne----czasowe.
Tablica statystyczna prezentuje daną zbiorowość z perspektywy
dwóch cech jednocześnie lub kilka zbiorowości wg 1 cechy.
W ich budowie można wyróżnić trzy elementy: tytuł, część właściwą
oraz część końcową, która obejmuje wskazanie źródła danych i
dodatkowe objaśnienia. Tytuł określa zbiorowość statystyczną, której
dotyczą informacje zawarte w części właściwej, także zakres badań
zbiorowości, czyli cechy statystyczne objęte badaniem. Przy wypełnieniu
części właściwej należy przestrzegać zasady wypełniania wszystkich
pozycji zapisu. Część właściwa składa się z główki tablicy, boczku
tablicy i danych. Tablica musi być także zaopatrzona w numer (z prawej
strony u góry).
Znaki umowne stosowane w tablicach statystycznych:
„-” zjawisko nie występuje
„.” Brak informacji lub wiarygodnych informacji
„0”zjawisko występuje, ale w ilościach mniejszych od tych, które
zostały wyrażone w tablicy.
„x” w rubryce, która nie może być wypełniona ze względu na budowę
tablicy
„!” przy liczbach, które w danym wydawnictwie zmieniono w stosunku
do poprzedniego.
„w tym” oznacza, że nie podaje się wszystkich składników sumy.
3. Charakterystyka i zastosowanie
klasycznych miar przeciętnych.
Tendencja centralna w zbiorowości to wskazanie wartości badanej
cechy w zbiorowości statystycznej, wokół której skupione są wartości
cech wszystkich jednostek wchodzących w skład tej zbiorowości.
Tendencję centralną można określić wykorzystując miary tendencji
centralnej (inaczej miary przeciętne lub średnie).
Miary przeciętne charakteryzują zbiorowość statystyczną niezależnie
od różnic między poszczególnymi obserwacjami.
Miary przeciętne można podzielić na dwie zasadnicze grupy:
Klasyczne miary przeciętne.
Pozycyjne miary przeciętne.
Do klasycznych miar przeciętnych (obliczanych na podstawie cechy
wszystkich jednostek badanej zbiorowości) zaliczamy średnią
arytmetyczną, średnią harmoniczną, średnią geometryczną i średnią
kwadratową.
Średnia arytmetyczna definiowana jest jako iloraz sumy wszystkich
wartości cechy i liczby obserwacji (liczebności badanej zbiorowości).
Jeżeli średnia jest obliczana z danych zawartych w szeregu
rozdzielczym, wówczas ma ona postać:
gdzie k to liczba wyróżnionych przedziałów
klasowych, xi środek i-tego przedziału klasowego.
Własności średniej arytmetycznej:
-Suma wartości cechy X jest równa średniej arytmetycznej pomnożonej
przez ogólną liczebność. :
-Suma odchyleń poszczególnych wartości cechy od średniej
arytmetycznej jest równa 0.
lub
-Suma kwadratów odchyleń poszczególnych wartości cechy od średniej
arytmetycznej jest wartością najmniejszą, tzn. suma takich kwadratów
przyjmuje minimum.
lub
-Średnia arytmetyczna jest wielkością mianowaną
Obliczanie średniej arytmetycznej oparte jest na wszystkich
obserwacjach. Średnia arytmetyczna obliczana na podstawie szeregu
rozdzielczego o przedziałach klasowych jest wielkością przybliżoną, a
wielkość przybliżenia zależy od zastosowanej metody grupowania
danych statystycznych. Średniej arytmetycznej nie można obliczać w
przypadku szeregu rozdzielczego o otwartych przedziałach klasowych.
Niewskazane jest obliczanie średniej arytmetycznej gdy:
zbiorowość badana jest nieliczna i występują w niej nietypowe wartości
cechy.;; zbiorowość badana jest niejednorodna z punktu widzenia
analizowanej cechy.;;Im bardziej zróżnicowane są poszczególne
wartości cechy, tym mniejsza jest wartość poznawcza średniej
arytmetycznej.
Średnią harmoniczną należy stosować w przypadku, gdy wartości
cechy podane są w formie odwrotności, tzn. gdy wartości jednej cechy
są podane w przeliczeniu na stałą jednostkę innej cechy. Średnia ta
stosowana jest do obliczania przeciętnej prędkości pojazdów, ceny
towarów, szybkości obrotów pieniężnych i przeciętnego czasu
niezbędnego do wykonania pewnych czynności.
Średnia harmoniczna jest odwrotnością średniej arytmetycznej z
odwrotności cechy X, czyli:
lub
Jeżeli wartości cechy powtarzają się wielokrotnie wówczas stosowana
jest średnia harmoniczna ważona
Średnia geometryczna trafniej niż średnia arytmetyczna opisuje
cechę gdy wartości tej cechy przedstawione są w postaci liczb
względnych(ilorazy). Stosowana powinna być przede wszystkim wtedy,
gdy występują duże różnice pomiędzy obserwacjami, ponieważ jest
mniej wrażliwa na wartości nietypowe niż średnia arytmetyczna.
Średnia kwadratowa stosowana jest, gdy wyrazy w próbie
odpowiadają odchyleniom od zadanego wzorca (standardu). Wyrazy w
takiej próbie są niektóre ujemne, dodatnie, a inne zerowe. Obliczanie
średniej kwadratowej sprowadza się do podniesienia do kwadratu
wartości obserwacji w próbie lub środków przedziałów klasowych w
szeregach rozdzielczych. i ich przemnożenia przez częstości klasowe, a
następnie sumowaniu tych wielkości i wyznaczenia pierwiastka
kwadratowego
4. Charakterystyka i zastosowanie
pozycyjnych miar przeciętnych.
Przeciętne miary pozycyjne są to wartości cechy pewnych jednostek
zbiorowości statystycznej wyróżnionych ze względu na ich położenie w
tej zbiorowości. Przy ich wyznaczaniu dane liczbowe muszą być
uporządkowane niemalejąco lub nierosnąco. Do miar pozycyjnych
przeciętnych zaliczamy: kwartyle i dominantę.
Kwartylem, który ma największe znaczenie, jest kwartyl drugi, który
nazywany jest medianą lub wartością środkową.
Przez medianę należy rozumieć taką wartość cechy mierzalnej w
uporządkowanym zbiorze ich wartości, poniżej i powyżej której znajduje
się jednakowa liczba jednostek zbiorowości statystycznej.
Metody wyznaczania mediany:
1. Dane indywidualne (szereg szczegółowy) Gdy liczebność
zbiorowości jest liczbą niepar mediana ma postać
Gdy liczebność zbiorowości jest liczbą parzystą :
2. Wyznaczanie Me z szeregu rozdzielczego. Przybliżoną wartość Me
z szeregu rozdzielczego można obliczyć ze wzoru:
x
0
– dolna granica przedziału mediany, h
0
– rozpiętość przedziału, n
0
–
liczebność przedziału mediany,
N
Me
– numer mediany obliczany ze
wzoru:
N
Me
= N/2 gdy N parzyste
(N+1)/2 gdy N nieparzyste
n
sk(-1)
– skumulowana liczebność przedziału, który poprzedza przedział
mediany. Mediana jest wielkością mianowaną. Jej wielkość nie zależy od
skrajnych wartości cechy. Stosowana może być zwłaszcza wtedy, gdy
podstawą obliczeń jest szereg rozdzielczy o otwartych przedziałach
klasowych, a więc wtedy gdy obliczenie średniej arytmetycznej jest z
reguły niemożliwe. Mediana ma wtedy jednak wartość przybliżoną, tym
dokładniejszą, im mniejsze są rozpiętości przedziałów klasowych.
Kwartyl pierwszy jest to ta wartość cechy jednostki statystycznej,
która dzieli szereg w ten sposób, że ¼ jednostek ma wartość cechy od
niej nie większą, a ¾ nie mniejszą.
Q
1
=x
0
+h
0
/n
0
(N
Q1
-n
sk(-1)
)
Gdzie
N
Q1
= N/4 dla N
parzystych
(N+1)/4 dla N
nieparzystych
Kwartyl trzeci jest natomiast tą wartością cechy jednostki
statystycznej, która dzieli szereg w ten sposób, że ¾ jednostek
zbiorowości ma wartość cechy od niej nie większą, a ¼ nie mniejszą
Q
3
=x
0
+h
0
/n
0
(N
Q3
-n
sk(-1)
)
Gdzie N
Q1
= 3N/4 dla N parzystych
(3N+1)/4 dla N nieparzystych
Dominanta (moda) jest to ta wartość cechy, która w zbiorowości
występuje najliczniej i najczęściej. Przybliżoną wartość dominanty
obliczyć można z szeregu rozdzielczego pod warunkiem, że spełnione są
dwa warunki:
W szeregu rozdzielczym istnieje przedział o największej liczebności.
Rozpiętość tego przedziału oraz rozpiętości przedziałów z nim
bezpośrednio sąsiadujących są jednakowe. (Krzywa liczebności w
otoczeniu dominanty ma kształt funkcji kwadratowej).
Przy spełnieniu powyższych warunków przybliżoną wartość dominanty
możemy obliczyć przy pomocy wzoru:
5. Charakterystyka i zastosowanie
bezwzględnych i względnych miar
zróżnicowania.
Bezwzględne miary zróżnicowania czielimy na klasyczne i pozycyjne
klasyczne
Odchylenie przeciętne
(d
x
)
jest to średnia arytmetyczna z
bezwzględnych wartości różnic między poszczególnymi wartościami
cechy a średnią arytmetyczną. W przypadku danych o charakterze
szczegółowym odchylenie przeciętne obliczamy przy pomocy wzoru:
d
x
=1/N *
Σ
|x
i
-x
_
|
Natomiast gdy podstawą obliczeń są dane zawarte w szeregu
rozdzielczym
d
x
obliczamy wg wzoru:
d
x
=1/N *
Σ
|x
i
o
-x
_
|*n
i
Odchylenie przeciętne jest miarą mianowaną,. Ocena stopnia
zróżnicowania wartości cechy połączona powinna być z odniesieniem do
wielkości średniej arytmetycznej.
Wariancja
(S
x
2
)
definiowana jest jako średnia arytmetyczna
kwadratów różnic poszczególnych wartości cechy jednostek zbiorowości
statystycznej od średniej arytmetycznej. W przypadku danych
szczegółowych:
W przypadku szeregu rozdzielczego:
Odchylenie standardowe
(S
x
)
jest defin jako
S
x
jest wielkością mianowaną a interpretowane powinno być łącznie ze
średnią arytmetyczną. Gdy stanowi ono dużą część średniej
arytmetycznej świadczy to o silnym zróżnicowaniu wartości cechy.
Pozycyjne miary zróżnicowania
to rozstęp i odchylenie
ćwiartkowe.
Rozstep(Obszar zmienności) R
x
wyznaczany jest jako różnica między
największą i najmniejszą wartością cechy:
Miernik ten ma niewielką wartość poznawczą, gdyż uzależniony jest od
skrajnych wartości cechy. Pozostałe wartości nie uczestniczą w
rachunku, a tym samym nie mają żadnego wpływu na uzyskany wynik.
Miernik ten wykorzystywany jest głównie przy wstępnej analizie stopnia
zróżnicowania wartości cechy.
Odchylenie ćwiartkowe Q
x
definiowane jest jako połowa
różnicy między kwartylem trzecim i pierwszym:
Odchylenie ćwiartkowe jest wielkością mianowaną, a jej interpretacja
odbywać się powinna łącznie z medianą. Jeśli stanowi dużą część
mediany, to występuje silne zróżnicowanie cechy.
Względne miary zróżnicowania
W przypadku gdy porównujemy stopień zróżnicowania wartości cechy w
kilku zbiorowościach, w których średnie wartości cechy różnią się, a
także gdy badany stopień zróżnicowania w jednej zbiorowości dwóch
różnych cech obliczane powinny być współczynniki zmienności.
Współczynnik zmienności oparty na odchyleniu standardowym lub
na odchyleniu przeciętnym:
lub
Współczynniki te informują jaki procent średniej stanowi odchylenie
standardowe lub przeciętne. Jeżeli wartości współczynników zmienności
przekraczają 50% to oznacza to, że mamy do czynienia ze zbiorowością
względnie niejednorodną z punktu widzenia badanej cechy.
Współczynnik zmienności oparty na odchyleniu ćwiartkowym
V
Qx
=Qx/Me 100%
Informuje jaki procent mediany stanowi Qx. Jest on stosowany wtedy,
gdy przeciętny poziom cechy charakteryzowany jest za pomocą
mediany.
6. Miary asymetrii charakterystyka i
zastosowanie
W analizie struktury zbiorowości możemy określić czy rodzaj rozkładu
zbiorowości jest symetryczny bądź wykazuje deformacje w postaci
wydluzenia jednego z ramion krzywej liczebności. Oznacza to, że szeregi
mogą być zbudowane symetrycznie lub asymetrycznie.
Współczynnik skośności to miara asymetrii równa różnicy między
średnią arytmetyczna a dominantą.
D
x
W
s
−
=
_
Jeśli różnica ta jest większa od zera mamy do czynienia z asymetrią
dodatnią (prawostronną), a jeżeli różnica ta jest ujemna to mamy do
czynienia z asymetrią ujemną (lewostronną). Różnica miedzy średnią
arytmetyczną a dominantą informuje nas o kierunku zależności, lecz
jest zależna od wielkości cechy, a przy tym nie nadaje sie do
porównywania sił asymetrii w przypadku, gdy porównywane cechy
wyrażone są w różnych jednostkach. Stosuje sie wtedy unormowany
współczynnik asymetrii, który wyraża sie wzorem:
W
s
=
S
D
x
−
S – odchylenie standardowe D – dominanta
Jeśli szereg jest symetryczny to współczynnik ten jest równy zero. Im
większą asymetrią charakteryzuje sie rozkład badanej cechy, tym
większe wartości współczynnika, a znak informują nas o kierunku
asymetrii.
iloraz momentu centralnego trzeciego rzędu i sześcianu
odchylenia standardowego. Im większa wartość bezwzględna tego
miernika, tym większy stopień asymetrii.
Jeżeli z uzasadnionych powodów nie jest możliwe obliczenie
przeciętnych miar klasycznych, wówczas jako miarę asymetrii
zastosowanie znajduje wskaźnik asymetrii oparty na kwantylach.
3
1
2
_
1
3
_
1
3
1
3
}
)
(
1
{
)
(
1
)
(
)
(
)
(
)
(
∑
∑
=
=
−
−
=
−
+
−
−
−
−
=
k
i
i
i
k
i
i
i
s
s
n
x
x
N
n
x
x
N
M
Q
Me
Me
Q
Q
Me
Me
Q
A
7. Metody pomiaru siły związku
korelacyjnego dwóch cech w przypadku
korelacji prostoliniowej.
a) Współczynnik korelacji rang Spearmana R
Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech
mierzalnych. Zastosowanie znajduje również w przypadku cech
niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się
uporządkować (porangować). Miernik ten jest miarą unormowaną i
zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym
słabsza korelacja. Bliskie jedynki wartości modułu R informują
natomiast, że między cechami występuje silna zależność korelacyjna.
Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia,
R<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w
oparciu o wzór:
2
1
2
6
1
;
(
1)
n
i
i
s
d
r
n n
=
×
= −
−
ĺ
gdzie n – liczeb badanej zbiorowości
d
i
– różnica i-tych rang cechy x i y
Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się
ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy.
Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką
samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie
zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich
wartości cechy. Współczynnik korelacji rang stosowany powinien być w
przypadku zbiorowości niezbyt licznych (n<40). Współczynnik ten nie
jest miarą zbyt precyzyjną, bo obliczany jest w oparciu nie o
rzeczywiste wartości cech, ale w oparciu o ich rangi.
b) Współczynnik korelacji liniowej Pearsona stosowany jest do
pomiaru siły i kierunku zależności korelacyjnej prostoliniowej. Jest on
definiowany jako iloraz kowariancji z cech i iloczynu odchyleń
standardowych tych cech. Oznaczać będziemy go symbolem
r
yx
r
x y
s x
s y
=
cov( , )
( ) * ( )
gdzie
cov( , )
(
)(
)
x y
n
x
x y
y
i
i
n
i
=
−
−
−
=
−
∑
1
1
Współczynnik korelacji liniowej jest miarą unormowaną i zawiera się w
przedziale <-1,1>. O sile zależności korelacyjnej informuje wartość
bezwzględna
r
yx
.
Bliskie zera wartości
r
yx
świadczą o słabej korelacji
bądź o jej braku. W przypadku gdy
|r
yx
|
jest bliski 1 oznacza to, że
między cechami występuje bardzo silna korelacja prostoliniowa. W
szczególności kiedy
|r
yx
|=1
oznacza to tzw. korelację doskonałą.
Znak współczynnika korelacji liniowej informuje o kierunku zależności
(r
yx
>0
oznacza korelację dodatnią,
r
yx
<0
oznacza korelację
ujemną). Miara ta jest miarą symetryczną, tzn.
r
yx
=r
xy
.
8. Metody badania siły zależności
korelacyjnej dwóch cech w przypadku
korelacji krzywoliniowej oraz w
przypadku cech niemierzalnych.
a) Stosunek korelacji
η
yx
stosowany jest do badania siły zależności
korelacyjnej 2 cech, z których co najmniej jedna musi być cechą
mierzalną, może być stosowany bez względu na charakter zależności.
Wymaga, by badana zbiorowość była liczna, a zebrane informacje
pogrupowane w tablicy korelacyjnej. Ogólnie można powiedzieć, że
stosunek korelacji jest pierwiastkiem kwadratowym z ilorazu wariancji
objaśnionej i wariancji całkowitej, czyli Miernik ten przyjmuje zawsze
wartości z przedziału <0,1>. Im bliższa jedności jest jego wartość, tym
silniejszy jest związek korelacyjny 2 cech. W szczególności gdy
η
yx
=1
oznacza to, że między cechami występuje zależność funkcyjna. Bliskie
zera wartości
η
yx
oznaczają natomiast bardzo słabą korelację albo jej
brak. Miernik ten jest niesymetryczny, tzn.
η
yx
≠η
xy
.
Miernik ten
wykorzystywany może być również do badania charakteru zależności
korelacyjnej. Jeżeli
|r
yx
|=
η
yx
wówczas stwierdzamy, że między
badanymi cechami występuje zależność korelacyjna prostoliniowa.
Stosunek korelacji można wyrazić za pomocą wzoru:
b) Współczynnik kontyngencji C Pearsona Miara ta stosowana jest
do pomiaru siły zależności między dwiema cechami niemierzalnymi. Jest
obliczana przy pomocy wzoru:
Współczynnik ten zawiera się w przedziale <0,1). Jeżeli wartość C jest
bliska jedności wówczas stwierdzamy silną zależność między badanymi
cechami, natomiast bliskie zera wartości cech oznaczają bardzo słabą
zależność bądź jej brak.
c) Współczynnik korelacji rang Spearmana R
Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech
mierzalnych. Zastosowanie znajduje również w przypadku cech
niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się
uporządkować (porangować). Miernik ten jest miarą unormowaną i
zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym
słabsza korelacja. Bliskie jedynki wartości modułu R informują
natomiast, że między cechami występuje silna zależność korelacyjna.
Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia,
R<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w
oparciu o wzór:
)
1
(
6
1
2
1
2
−
×
−
=
∑
=
n
n
d
r
n
i
i
s
gdzie n – liczebność badanej zbiorowości
d
i
– różnica i-tych rang cechy x i y
Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się
ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy.
Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką
samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie
zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich
wartości cechy.
Współczynnik korelacji rang stosowany powinien być w przypadku
zbiorowości niezbyt licznych (n<40). Współczynnik ten nie jest miarą
zbyt precyzyjną, bo obliczany jest w oparciu nie o rzeczywiste wartości
cech, ale w oparciu o ich rangi.
9. Metoda szacowania parametrów
liniowej funkcji regresji i jej
zastosowanie. Interpretacja
współczynnika regresji „b”.
Przy badaniu populacji generalnej równocześnie ze względu na dwie lub
więcej cech mierzalnych posługujemy się pojęciami regresji i korelacji.
Oba te pojęcia dotyczą zależnośći między zmiennymi, przy czym
korelacja zajmuje się siłą tej zależności, a regresja – jej kształtem.
Wyrażenie zależności między cechami badanymi za pomocą określonej
funkcji matematycznej nazywać będziemy regresją. Po wyborze klasy
funkcji na podstawie danych empirycznych musimy naszą funkcję jak
najlepiej dopasować do danych liczbowych ujętych na wykresie
punktowym.
Metodą szacowania parametrów funkcji regresji jest tzw. klasyczna
metoda najmniejszych kwadratów pozwalająca tak dobrać funkcję do
danych empirycznych aby suma kwadratów odchyleń poszczególnych
wartości empirycznych od wartości funkcji regresji równała się mini...
Dla takiej postaci funkcji regresji warunek najmniejszych kwadratów to:
Jest to funkcja dwóch zmiennych a i b. Osiąga ekstremum dla warunku
koniecznego:
Przekształcamy ten układ do postaci 2 równań o 2
niewiadomych a i b:
Układ ten nazywamy układem równań normalnych. W wyniku jego
rozwiązania otrzymujemy współczynniki a i b, a tym samym równanie
linii regresji:
Parametr b nazywany współczynnikiem regresji, wyraża o ile przeciętnie
zmieni się zmienna zależna y gdy zmienna niezależna x wzrośnie o
jednostkę. Jeżeli miedzy dwoma cechami występuje współzależność
wówczas możemy wyznaczyć drugie równanie linii regresji
^
x = A + By
Jeżeli znamy dwa ramiona linii regresji wówczas istnieje możliwość
obliczenia współczynnika korelacji liniowej:
r = sgn b √bB
^ _ _
y = ryx Sy/Sx (x – x ) + y
Równanie linii regresji wykorzystać można do sporządzania prognoz, tj.
określenia wielkości cechy y przy danym x. każda prognoza obarczona
jest błędem, którego wielkość można oszacować obliczając odchylenie
standardowe resztowe:
Yi
oznacza empiryczne wartości cechy y
Yi
z daszkiem to teoretyczne wartości y obliczane na podstawie
równania linii regresji zapisanego powyżej.
10. Rozkład i parametry zmiennej losowej
skokowej. Charakterystyka poznanych
rozkładów teoretycznych zmiennej
losowej skokowej.
Zmienna losowa jest typu skokowego, jeżeli zbiór jej wartości jest
skończony lub przeliczalny (zbiór liczb naturalnych, całkowitych).
Rozkładem zmiennej losowej skokowej X nazywa się prawdopodobień
tego,że zmienna ta przybiera wartości
x
i
(i = 1,2,3…),
co można
zapisać:
P(X=x
i
) = p
i
i=(1,2,3…) ;;;
Σ p
i
= 1
Drugą charakterystyką zmiennej losowej jest dystrybuanta.
Funkcja F(X) = P(X<x) nazywana jest dystrybuantą zmiennej losowej X.
F(X) przyjmuje zawsze wartości z przedziału : <0,1>
Związek między rozkładem i dystrybuantą : załóżmy, że wartości
zmiennej losowej X zostały uszeregowane w porządku rosnącym.:
x1<x2<x3<…..<x
n-1
<x
n
Niech x
1
<x<x
n+1
F(X) = P(X<x) = p
1+
p
2+
p
3+…+
p
i
, gdzie p
i
=P(X=x
i
)
Parametry zmiennej losowej skokowej
Podstawowymi parametrami zmiennej losowej skokowej są:
wartość oczekiwana (wartość przeciętna, nadzieja matematyczna)
i wariancja (odchylenie standardowe).
Wartość oczekiwana
E(X)= Σx
i
p
i
Wariancja
D
2
(X) = E(X – E(X))
2
D
2
(X)=
∑
=
−
N
i
i
i
p
X
E
x
1
2
))
(
(
lub D
2
(X)=
∑
=
−
N
i
i
i
X
E
p
x
1
2
2
)]
(
[
,
Odchylenie standardowe D(X) =
)
(
2
X
D
Rozkłady zmiennej losowej skokowej:
Rozkład dwupunktowy – powiemy, że zmienna losowa X ma rozkład
dwupunktowy jeżeli z dodatnimi prawdopodobieństwami przyjmuje
tylko dwie wartości
x
1
i x
2
.
Funkcja rozkładu prawdopodobieństwa tej
zmiennej losowej określona jest więc następującoP(X=x
1
) = p,
P(X=x
2
)=1-p
niekiedy dla wygody przyjmuje się, że
x
1
=1 i x
2
=0.
Przy czym
x
1
=1
nazywamy sukcesem a
x
2
=0
porażką. Wówczas
P(X=1)=p
P(X=0)=1-p=q
Rozkład zmiennej losowej X określonej powyższymi wzorami nosi nazwę
rozkładu zero-jedynkowego.
Parametry rozkładu E(X) = p ;;; D
2
(X) = pq ;;; D(X) =
pq
X~Z-J(p,
pq
)
- Zmienna losowa X ma rozkładu zero-jedynkowy o
wartości oczekiwanej p i odchyleniu standardowym
pq
Rozkład dwumianowy(Bernoulliego)
Niech będzie dana zmienna losowa X, taka, że
X= X
1
+X
2
+ ….X
N
,
gdzie
X
1
,X
2,
….,X
N
są zmiennymi losowymi, które mają rozkład
zerojedynkowy o wartości oczekiwanej p. Wynika stąd, że zmienna
losowa X przyjmuje wartości 0,1,2…n. Tak zdefiniowana zmienna
losowa ma rozkład nazywany rozkładem dwumianowym. Funkcja
rozkładu prawdopodobieństwa tej zmiennej losowej wyraża się wzorem:
P(X=k)=
k
n
k
k
n
q
p
C
−
, k
)
,
0
( n
∈
, przy czym
∑
=
=
=
n
k
k
X
P
0
1
)
(
Dystrybuanta zmiennej losowej, która ma rozkład dwumianowy
określona jest wzorem: F(X)=P(X<x)=
∑
<
−
x
k
k
n
k
k
n
q
p
C
Parametry rozkładu dwumianowego
E(X)=np ;;; D(X)=
npq
oraz X~D(np,
npq
)
W praktyce mamy do czynienia z rozkładem dwumianowy przy
losowaniu zwrotnym elementów ze zbiorowości ograniczonej lub przy
losowaniu bezzwrotnym ze zbiorowości nieograniczonej, nieskończonej
jeżeli wynik pojedynczego losowania jest zmienną losową o rozkładzie
zero-jedynkowym.
Własności rozkładu dwumianowego:
1.Jest on rozkładem sumy n-niezależnych zmiennych losowych z
których każda ma rozkład zero-jedynkowym.
2.Jeśli p=q rozkład jest symetryczny, jeśli p różne od q to rozkład jest
asymetryczny.
Rozkład Poissona
Niech zmienna losowa X ma rozkład dwumianowy. Załóżmy że przy n
dążącym do nieskończoności p zmienia się w ten sposób, że np =m
gdzie m jest pewną stałą. Można wówczas wykazać, że
k
k
n
e
k
m
k
X
P
−
∞
→
=
=
!
)
(
lim
,
k
n
k
k
n
q
p
C
k
X
P
−
=
=
)
(
Rozkład zmiennej losowej X określony powyższym wzorem nazywany
jest rozkładem Poissona. Wzór ten zachodzi dla n dążącego do
nieskończoności(praktycznie dla dużych wart. n) ale przy ustalonym m i
dużym n, e musi być małe: p<0,1 ; n>30, q=1-p
Wart. oczekiwana:E(X)=m Odchylenie standardowe:D(X)=
m
11. Rozkład i parametry zmiennej losowej
ciągłej. Charakterystyka poznanych
rozkładów teoretycznych zmiennej
losowej ciągłej.
Zmienną losową nazywamy ciągłą, jeżeli zbiór jej wartości jest
nieprzeliczalny. Zmiennej losowej ciągłej nie można scharakteryzować
za pomocą funkcji rozkładu prawdopodob., ponieważ zbiór wartości tej
funkcji jest nieprzeliczalny. Dodatkowo dowodzi się, że jeśli X jest
zmienną losową ciągłą, to prawdopodobieństwo, że zmienna losowa
przybierze tę wartość wynosi 0. Zmienną losową ciągłą można
scharakteryzować podając jej dystrybuantę.
Dystrybuantą zmiennej losowej ciągłej X nazywać będziemy funkcję:
F(X) = P(X<x)
Można udowodnić następujące twierdzenie:
Jeżeli dystrybuanta F(X) ma pochodną w punkcie x, tzn. jeżeli istnieje
granica ilorazu różnicowego:
To pochodna ta nazywa się gęstością prawdopodobieństwa zmienn
los.X. Gęstość prawdopodobień oznaczamy f
(x) i f(x)= F’(X)
Istnieje również możliwość obliczenia dystrybuanty zmiennej losowej X
jeżeli znamy jej funkcję gęstości:
F(X) =
∫
∞
−
x
dx
x
f )
(
Funkcja gęstości zmiennej losowej X ma nast. Własności:
---jest nieujemna
---jest ciągła z wyjątkie co najwyżej skończonej liczby punktów
nieciągłości
---
∫
∞
∞
−
=
1
)
( dx
x
f
Parametry zmiennej losowej ciągłej
∫
∞
∞
−
=
dx
x
xf
X
E
)
(
)
(
;;;
∫
∞
∞
−
−
=
dx
x
f
X
E
x
X
D
)
(
))
(
(
)
(
2
2
∫
∞
∞
−
−
=
2
2
2
))
(
(
)
(
)
(
X
E
dx
x
f
x
X
D
;;;
)
(
)
(
2
x
D
x
D
=
Rozkład normalny (Gaussa) Mówimy , że zmienna losowa X ma
rozkład normalny z parametrami
µ
i
0
>
δ
, co zapisujemy
)
,
(
~
δ
µ
N
X
, jeśli jej funkcja gęstości jest określona
wzorem :
2
2
2
)
(
*
2
1
)
(
δ
µ
π
δ
−
−
=
x
e
x
f
, dla
)
;
(
+∞
−∞
∈
x
gdzie :
µ
=
)
(x
E
;;
2
2
)
(
δ
=
x
D
Reguła 3 sigm:
6826
,0
)
(
=
+
<
<
−
δ
µ
δ
µ
X
P
;
9545
,0
)
2
2
(
=
+
<
<
−
δ
µ
δ
µ
X
P
9973
,
0
)
3
3
(
=
+
<
<
−
δ
µ
δ
µ
X
P
Jest ona wykorzystywana w badaniach empirycznych w celu eliminacji
obserwacji nietypowych, nie przystających do pozostałych, co do
których istnieją przypuszczenia , że pochodzą z innej zbiorowości. Za
wątpliwe uznaje się takie obserwacje , których wartość różni się od
średniej o więcej niż 3 odchylenia standardowe.
Rozkład normalny standaryzowany to rozkład normalny z
wartością oczekiwaną
0
=
µ
i odchyleniem standardowym
1
=
δ
.
Każdy rozkład normalny
)
,
(
:
δ
µ
N
X
może być transformowany
do rozkładu normalnego
)
1
,
0
(
: N
Z
poprzez procedurę standaryzacji
zmiennej X do Z. Czasami zamiast Z stosuje się literę U ( unormowana )
Zmienna los standaryzowana wyraża się wzorem :
δ
µ
−
=
X
Z
Procedura standaryzacji ma swoje uzasadnienie w tym, że tylko rozkład
normalny standaryzowany jest stablicowany. Najczęściej korzysta się z
tablic dystrybuanty .
Rozkład chi – kwadrat
2
(
χ
)
Zakładając , że
X
1
, X
2
, ..., X
k
są niezależnymi zmiennymi losowymi
o rozkładzie normalnym o parametrach
0
=
µ
i
1
=
δ
, zmienna
losowa
2
χ
określona w sposób następujący :
∑
=
=
k
i
i
X
1
2
2
χ
zmienna ta ma rozkład
2
χ
o
k
stopniach swobody
Zmienna losowa o rozkładzie chi-kwadrat przyjmuje wartości dodatnie,
a jej rozkład zależy od liczby stopni swobody k . Dla małych wartości k
jest to rozkład silnie asymetryczny, w miarę wzrostu k asymetria jest
coraz mniejsza. Liczbę stopni swobody k wyznaczamy najczęściej w
sposób następujący
:k=n-1 lub k=n-r-1
,gdzie :
n – liczebność próby
r – liczba szacowanych parametrów z próby
Parametry rozkładu
2
χ
:
k
E
=
)
(
2
χ
;;
k
D
2
)
(
2
2
=
χ
;;
k
D
2
)
(
=
χ
Wraz ze wzrostem k ( powyżej 30 ) rozkład
2
χ
przechodzi w rozkład
asymptotycznie normalny o tych samych parametrach
k
E
=
)
(
2
χ
i
k
D
2
)
(
2
2
=
χ
.
Rozkład t – Studenta Jest to rozkład stosowany głównie do małych
prób. Rozkład t – Studenta jest rozkładem symetrycznym względem
prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu normalnego
standaryzowanego (jest nieco bardziej spłaszczony ). Jeżeli
Z :N(0;1)
i
)
2
;
(
:
2
2
k
k
χ
χ
są niezależnymi zmiennymi
losowymi , to zmienna
k
Z
T
2
χ
=
ma rozkład t- Studenta o k
stopniach swobody .
Parametry rozkładu t Studenta:
E(t)=0 dla k>=2
2
)
(
2
−
=
k
k
T
D
dla
3
≥
k
dla
3
≥
k
Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do
rozkładu normalnego standaryzowanego [ N : ( 0 , 1 ) ]
Rozkład F – Snedecora
Jeżeli zmienne
1
Y
i
2
Y
są zmiennymi niezależnymi i mają rozkłady
2
χ
o
1
k
i
2
k
stopniach swobody , to zmienna losowa
2
1
k
k
F
ma
rozkład F – Snedecora :
2
2
1
1
/
/
2
1
k
Y
k
Y
F
k
k
=
gdzie
1
k
i
2
k
są stopniami swobody .
parametry rozkładu F Snedecora
2
)
(
2
2
−
=
k
k
F
E
dla
2
2
>
k
)
4
(
)
2
(
)
2
(
2
)
(
2
2
2
1
2
1
2
2
2
−
−
−
+
=
k
k
k
k
k
k
F
D
dla
4
2
>
k
∑
−
−
∑
=
2
2
2
2
.
/
1
.
)
(
/
1
y
j
jn
y
N
y
ni
xi
y
N
yx
η
N
C
+
=
2
2
χ
χ
gdzie N- liczebność badanej zbiorowości a
∑
∑
−
=
Npij
Npij
nij
2
2
)
(
χ
( )
2
k
D t
k
=
−
∑
−
−
∑
=
2
2
2
2
.
/
1
.
)
(
/
1
y
j
jn
y
N
y
ni
xi
y
N
yx
η
12. Estymatory i ich podstawowe
własności. Estymacja przedziałowa
wskaźnika struktury.
Jednym z głównych zagadnień statystyki matematycznej jest
szacowanie wartości parametrów rozkładu populacji generalnej na
podstawie próby pobranej z tej populacji. Szacowania możemy dokonać
w dwóch postaciach:
1) nieznaną wartość parametru możemy oszacować podając jedną
liczbę odpowiadającą przypuszczalnej wartości parametru; w tym
przypadku mówimy o tzw. estymacji punktowej;
2) nieznaną wartość parametru możemy oszacować podając przedział,
w który mieści się prawdziwa wartość parametru. Mówimy wówczas o
tzw. estymacji przedziałowej.
Załóżmy, że dystrybuanta
F(x)
charakteryzuje rozkład populacji
generalnej, a
θ
niech oznacza nieznany parametr tej populacji. Niech
x
1
,
x
2
,…,x
n
będzie n-elementową próbą pobraną z tej populacji.
Statystykę
T
n
będącą funkcją zmiennych
x
1
, x
2
,…,x
n
(funkcją próby)
T
n
= T(x
1
, x
2
,…,x
n
),
służącą do oszacowania parametru
θ
,
nazywać
będziemy estymatorem. Jej wartość
t
n
= t(x
1
, x
2
,…,x
n
)
odpowiadającą realizacji próby
x
1
, x
2
,…,x
n
nazywamy oceną
parametru. Estymator jest więc zmienną losową zaś jego ocena jest
konkretną liczbą odpowiadającą danej realizacji próby. Pojęcie
estymatora można sformułować też nieco inaczej: estymatorem
parametru
θ
nazywamy funkcję
T
n
= T(x
1
, x
2
,…,x
n
)
, która ma tę
własność, że prawdopodobieństwo zdarzenia
T
n
≈
θ
jest tym bliższe 1
im większa jest liczebność próby.
Jeżeli szacujemy określony parametr, to istnieje możliwość posługiwania
się różnymi estymatorami. Jeśli np. szacowanym parametrem jest
średnia w zbiorowości generalnej, to podstawą tego szacunku mogą być
takie estymatory, jak: średnia arytmetyczna, mediana, dominanta,
średnia geometryczna itp.
Cechy dobrego estymatora:
---- Zgodność – estymator
T
n
parametru
θ
jest zgodny jeżeli ciąg różnic
{ T
n
-
θ
}
jest przy n dążącym do nieskończoności stochastycznie
zbieżny do 0, tzn. Gdy:
[
]
∀
>
=
<
−
∞
→
0
ε
1
)
(
θ
n
n
dla
P
T
lim
ε
Własność ta oznacza, że w miarę jak rośnie liczebność próby,
prawdopodobieństwo przekroczenia dowolnie małej różnicy (co do
wartości bezwzględnej) między estymatorem Tn a parametrem
θ
zmierza do 0. estymatory spełniające powyższy warunek nazywamy
estymatorami zgodnymi. Stosując taki estymator unikamy przy dużych
próbach popełnienia dużego błędu.
---- Nieobciążoność – powiemy, że estymator T
n
jest nieobciążonym
estymatorem parametru
θ
, jeżeli
E(T
n
) =
θ
Jeśli przy pomocy
nieobciążonego estymatora szacujemy parametr
θ
, to w prawdzie w
poszczególnych przypadkach uzyskane oceny mogą się różnić od
wartości parametru
θ
,
jednak w dużej serii dokonywania takich ocen
ich średnia będzie równa
θ
.
Posługiwanie się estymatorem
nieobciążonym zabezpiecza nas przed systematycznymi błędami w
ocenie. Różnicę
E(T
n
) -
θ
nazywamy obciążeniem estymatora.
---- Efektywność – powiemy, że estymator
T
n
parametru
θ
jest
estymatorem najefektywniejszym, jeżeli wśród estymatorów
nieobciążonych posiada najmniejszą wariancję.
---- Dostatecznosc (wystarczalność) – estymator
T
n
parametru
θ
jest
dostateczny, jeżeli zawiera wszystkie informacje, jakie na temat
parametru
θ
występują w próbie i żaden inny estymator nie może dać
dodatkowych informacji o szacowanym parametrze.
Przedział ufności dla wskaźnika struktury p otrzymujemy z
odpowiedniego rozkładu estymatora. Najlepszym estymatorem jest
wskaźnik struktury z próby m/n, gdzie m oznacza liczbę elementów
wyróżnionych znalezionych w losowej próbie o liczebności n.
Model: Populacja generalna ma rozkład dwupunktowy z parametrem p
Z populacji losujemy niezależnie dużą próbę o liczebności (n>100).
Wtedy przedział ufności dla parametru
θ
= p jest określony wzorem:
α
α
α
−
=
−
+
<
<
−
−
1
1
1
n
n
m
n
m
n
m
p
n
n
m
n
m
n
m
P
u
u
gdzie
u
α
wielkość, którą odczytujemy z tablic dystrybuant rozkładu
normaln w oparciu o zależność
P(
U
≤
u
α
)=1-
α
i
U~N(0,1)
13. Estymacja przedziałowa średniej –
kryteria wyboru określonego przedziału
ufności.
Szacując wartość nieznanego parametru, konstruujemy na podstawie
losowej próby przedział ufności, w którym znajduje się nieznana dla nas
wartość szacowanego parametru. Nie mamy jednak pewności, że
utworzony przez nas przedział zawiera wartość szacowanego
parametru, możemy tylko ustalić wiarygodność tego faktu z pewnym
prawdopodobieństwem, zwanym współczynnikiem ufności. Najlepszym
estymatorem średniej wartości m populacji generalnej jest średnia
arytmetyczna
x
z próby. Ma ona wszystkie cechy dobrego
estymatora (zgodność, nieobciążoność, efektywność, dostateczność).
Budując przedział ufności dla średniej w zbiorowości generalnej
możemy napotkać trzy możliwości:
Model I: Populacja generalna ma rozkład
N(m,
σ
), przy czym
σ
jest
wielkością znaną. Szacowanym parametrem jest
θ
= m, gdzie
m oznacza średnią w zbiorowości generalnej. Z populacji
generalnej wylosowano niezależnie próbę o liczebności
n
elementów. Wówczas przedział ufności dla średniej
m populacji
otrzymuje się ze wzoru:
α
σ
σ
α
α
−
=
+
<
<
−
1
}
{
n
x
m
n
x
P
u
u
, gdzie
x
oznacza obliczoną z wyników
x
i
próby średnią arytmetyczną
σ
znane odchylenie standardowe
1-
α
współczynnik ufności, który określa precyzję szacunku
u
α
wielkość, którą odczytujemy z tablic dystrybuant rozkładu
normalnego w oparciu o zależność
P(
U
≤
u
α
)=1-
α
i
U~N(0,1)
Model II: Zbiorowość generalna ma rozkład
N(m,
σ
),
gdzie
nieznana jest zarówno wartość
m, jak i odchylenie standardowe
σ
w
zbiorowości. Ze zbiorowości tej losujemy niezależnie próbę (zazwyczaj o
małej liczebności, często nawet mniejszej od 10), na podstawie
tej próby wyliczamy
x
i
s (odchylenie standardowe), korzystając ze
wzorów dla szeregu szczegółowego. Przedział ufności dla średniej
m
zbiorowości generalnej ma wówczas postać:
α
α
α
−
=
−
+
<
<
−
−
1
}
1
1
{
n
s
x
m
n
s
x
P
t
t
lub wg wzoru równoważnego:
α
α
α
−
=
+
<
<
−
∧
∧
1
}
{
n
s
x
m
n
s
x
P
t
t
gdzie
∑
=
∧
−
−
=
n
i
i
x
x
n
s
1
2
)
(
1
1
t
α
wartość zmiennej
t -Studenta odczytana z tablicy tego rozkładu dla
n-1 stopni swobody w taki sposób, by spełniona była relacja:
P(|t|<
t
α
) = 1-
α
Model III: Populacja generalna ma dowolny rozkład o średniej
m i
skończonej wariancji
σ
2
(nieznanej). Aby można było oszacować
parametr
m, pobieramy niezależnie dużą próbę, wyniki najczęściej
grupujemy w szereg rozdzielczy i na jego podstawie wyliczamy
x
oraz
odchylenie standardowe
s. Przedział ufności dla średniej m w populacji
generalnej przyjmuje wtedy postać:
α
α
α
−
=
+
<
<
−
1
}
{
n
s
x
m
n
s
x
P
u
u
Wartość
u
α
odczytujemy w analogiczny sposób, jak w modelu I.
14. Niezbędna liczba pomiarów przy
szacowaniu przedziałowym średniej i
wskaźnika struktury
Szacując metodą przedziałową parametr
θ
, budujemy dla niego
przedział ufności w oparciu o rozkład estymatora, przy założeniu
posiadanych wyników próby o ustalonej z góry liczebności
n. Otrzymany
przedział ma pewną długość
2d, a połowa długości tego przedziału
ufności (
d) jest miarą maksymalnego błędu szacunku. Aby uzyskać z
góry założoną dokładność szacunku można dobrać dostateczną
liczebność próby. Dla dwóch najczęściej szacownych parametrów
populacji, a mianowicie wartości średniej
m oraz wskaźnika struktury p,
można otrzymać wzory na minimalną liczebność próby potrzebną do
oszacowania tych parametrów z żądaną z góry dokładnością. W
zależności od posiadanych informacji, niezbędną liczebność próby w
losowaniu niezależnym można ustalić według wzorów w następujących
modelach:
Model I: populacja generalna ma rozkład normalny
N(m,
σ
) bądź
zbliżony do normalnego, wariancja
σ
2
jest znana, szacowanym
parametrem
θ
jest wartość średnia populacji m. Przy ustalonym
współczynniku ufności
1-
α
żądamy, by maksymalny błąd szacunku nie
przekroczył
d. Niezbędną do uzyskania tego celu liczebność próby n
oblicza się wtedy ze wzoru:
Gdzie
u
α
jest wartością zmiennej normalnej
N(0,1) odczytanej z tablicy dystrybuant rozkładu
normalnego w oparciu o relację P(
U
≤
u
α
)=
1-
α
Model II: populacja generalna ma rozkład
N(m,
σ
), przy czym
wariancja
σ
2
jest nieznana, ale znamy wartość statystyki
s^
2
,
uzyskanej z małej próby o liczebności
n
0
. Zakładamy, że szacunek
będzie przeprowadzany przy współczynniku ufności
1-
α
. Niezbędną
liczebność próby, jaką należy wylosować, by z maksymalnym błędem
szacunku
d zbudować przedział ufności dla średniej, obliczany jest ze
wzoru:
d
s
t
n
2
2
2
∧
=
α
, gdzie
∑
=
∧
−
−
=
n
i
n
x
x
s
i
0
1
0
2
2
_
(
1
1
)
jest wariancją z próby wstępnej,
t
α
jest wartością zmiennej
t Studenta
odczytanej z tablicy tego rozkładu w oparciu o relację
P(|t|
≤
t
α
)=
1-
α
i dla
n
0
-1
stopni swobody. Jeżeli obliczona liczebność próby właściwej
n spełnia nierówność
n
≤
n
0
to liczebność
n
0
próby wstępnej jest
wystarczająca. Jeżeli
n>n
0
,
to należy dolosować do właściwej próby
jeszcze
n-n
0
elementów.
Model III: populacja generalna ma rozkład dwupunktowy z
parametrem
p
(tzn. wskaźnik struktury w populacji generalnej wynosi
p). Przy współczynniku ufności 1-
α
chcemy tak oszacować parametr
p,
aby maksymalny błąd szacunku tego wskaźnika struktury nie
przekroczył liczby
d.
---- Jeżeli znamy spodziewany rząd wielkości
p, to niezbędną wielkość
próby ustalamy według wzoru:
d
pq
u
n
2
2
α
=
,
gdzie
p jest spodziewanym rzędem wielkości szacowanego wskaźnika
struktury (wyrażonym jako ułamek właściwy),
q=1-p, zaś
u
α
wartością
odczytaną jak w modelu I.
---- Jeżeli nie znamy rzędu wielkości szacowanego wskaźnika struktury
p, to przyjmując za iloczyn pq jego największą wartość ¼ otrzymujemy
następujący wzór na liczebność próby:
d
u
n
2
2
4
α
=
Jeżeli prawdziwa wartość
p spełnia nierówność p
≠
1/2, to obliczona
wielkość próby powyższym wzorem jest za duża (tzn. stosując tak
wielką próbę otrzymujemy maksymalny błąd szacunku mniejszy niż
założona wartość
d)
15. Estymacja przedziałowa mierników
zróżnicowania.
W badaniach statystycznych ze względu na cechę mierzalną do
najczęściej szacowanych parametrów obok średniej należą wariancja
σ
2
lub odchylenie standardowe
σ
badanej cechy. Najczęściej używanymi
estymatorami wariancji
σ
2
populacji generalnej są statystyki określone
wzorami:
∑
=
−
=
n
i
i
x
x
n
s
1
2
2
_
(
1
)
oraz
∑
=
∧
−
−
=
n
i
n
x
x
s
i
1
2
2
_
(
1
1
)
natomiast estymatorami odchylenia standardowego są najczęściej
statystyki
s i
∧
s
.
Model I: populacja generalna ma rozkład normalny N(m,
σ
) o
nieznanych parametrach m i
σ
. Z populacji tej losujemy niezależnie do
próby n elementów (liczebność nie musi być duża, n<30), na
podstawie próby obliczamy s lub
∧
s . Przedział ufności przyjmuje
wówczas postać:
α
σ
−
=
<
<
1
1
2
2
2
2
c
ns
c
ns
P
lub postać równoważną:
(
)
(
)
α
σ
−
=
−
<
<
−
∧
∧
1
1
1
1
2
2
2
2
c
s
n
c
s
n
P
gdzie
c
1
i c
2
są wartościami zmiennej
χ
2
wyznaczonym z tablicy rozkładu
χ
2
dla n-1 stopni swobody oraz współczynnika ufności 1-
α
w taki sposób,
by spełnione były relacje:
P(
χ
2
<c
1
)=1/2
α
;;;
P(
χ
2
>
c
1
)=1-1/2
α
,
P(
χ
2
>=
c
2
)=1/2
α
Przy tych samych założeniach można wyznaczyć przedział ufności dla
odchylenia standardowego pierwiastkując otrzymane krańce przedziału
ufności dla wariancji. Przedział ufności dla odchylenia standardowego
ma postać:
α
σ
−
=
<
<
1
1
2
2
2
c
ns
c
ns
P
Model II: populacja generalna ma rozkład N(m,
σ
) lub zbliżony do
normalnego o nieznanych parametrach m i
σ
. Z populacji losujemy
dużą próbę n-elementową (n co najmniej kilkadziesiąt), na podstawie
próby obliczamy s (odchylenie standardowe z próby). Przedział ufności
dla odchylenia standardowego jest określony wzorem:
α
σ
α
α
−
=
−
<
<
+
1
2
1
2
1
n
u
s
n
u
s
P
gdzie
u
α
jest wartością zmiennej normalnej
N(0,1) odczytanej z tablicy
dystrybuant rozkł. normalnego w oparciu o relacj
P(
U
≤
u
α
)=
1-
α
.
16. Weryfikacja hipotez o równości dwóch
średnich
W zależności od posiadanych o porównywanych populacjach informacji
wyróżniamy trzy modele.
Model I. Badamy dwie populacje generalne mające rozkłady normalne
N(m1,
σ
1) i N(m2,
σ
2). Odchylenia standardowe tych populacji są znane.
W oparciu o wyniki dwu niezależnych prób, odpowiednio o
liczebnościach n1 i n2, wylosowanych z tych populacji należy sprawdzić
hipotezę H0: m1=m2, wobec hipotezy alternatywnej H1: m1
≠
m2, gdzie
m1 i m2 to odpowiednio wartość średnia w pierwszej i drugiej
zbiorowości. Sprawdzianem hipotezy H0 jest następująca statystyka:
gdzie x1 i x2 to średnie obliczone
na podstawie prób z pobranych
odpowiednio z pierwszej i drugiej
zbiorowości
Następnie, przy ustalonym poziomie istotności
α
,
z tablic dystrybuant
rozkładu normalnego odczytujemy wartość krytyczną
u
α
, która spełnia
zależność:
P(|U|
≥
u
α
)=
α
i U~N(0,1).
W kolejnym kroku
porównujemy wartość krytyczną i wartość sprawdzianu. Jeśli zachodzi
nierówność
|u|
≥
u
α
,
wówczas na poziomie istotności
α
hipotezę H0
należy odrzucić na korzyść hipotezy alternatywnej, co oznacza, że
m1
≠
m2
. Jeżeli |u|<u
α
, stwierdzamy, że brak jest podstaw do
odrzucenia hipotezy H0. Uwaga: dla hipotezy alternatywnej H1:m1>m2
stosujemy test z prawostronnym obszarem krytycznym, tzn hipotezę H0
odrzucamy gdy zachodzi nierówność U
≥
u
α
, a dla U<u
α
stwierdzamy, że
brak jest podstaw do jej odrzucenia. Inaczej wyznaczamy też wartość u
α
: odczytujemy ją na podstawie zależności
P(U
≥
u
α
)=
α
.
Model II. Badamy dwie populacje generalne mające rozkłady
normalne N(m1,
σ
1) i N(m2,
σ
2),przy czym wartości
σ
1 i
σ
2 są nieznane
ale wiadomo, że
σ
1=
σ
2. na podstawie wyników dwu małych prób
odpowiednio o liczebnościach n1 i n2, wylosowanych niezależnie z tych
populacji, należy zweryfikować hipotezę H0: m1=m2, wobec hipotezy
alternatywnej H1: m1
≠
m2, gdzie m1 i m2 to odpowiednio wartość
średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0
jest wtedy statystyka
Wartość sprawdzianu porównujemy z wartością krytyczną
t
α
,
którą
odczytujemy z tablic rozkładu t Studenta dla założonego z góry poziomu
istotności
α
i dla (n1+n2-2) stopni swobody, tak aby spełniona była
zależność
P(|t|
≥
t
α
)=
α
.
Nierówność
|t|
≥
t
α
określa dwustronny
obszar krytyczny testu, tzn. jeśli zachodzi nierówność |t|
≥
t
α
to hipotezę
H0 odrzucamy, zaś dla |t|<t
α
stwierdzamy, że brak jest podstaw do
odrzucenia tej hipotezy. Podobnie jak w modelu I, gdy hipoteza
alternatywna ma postać H1:m1>m2 stosujemy prawostronny obszar
krytyczny, tzn hipotezę H0 odrzucamy, gdy zachodzi
t
≥
t
α
,
a wartość t
α
odczytujemy na podstawie zależności
P(t
≥
t
α
)=
α
⇔
P(|t|
≥
t
α
)=2
α
Uwaga. Jeśli sprawdzimy, że dla badanych populacji
σ
1
≠σ
2, wówczas
stosujemy modyfikację Cohrana-Koxa. Sprawdzian hipotezy H0 ma
postać:
A wartość krytyczną t
α
odczytujemy w oparciu o relację P(|t|
≥
t
α
)=
α
,
gdzie t~ Studenta o
stopniach swobody
Model III. Badamy dwie populacje generalne mające rozkłady
normalne lub inne byle o skończonych wariancjach
σ
1
2
i
σ
2
2
,
które są
nieznane. Na podstawie wyników dwu dużych prób (n1 i n2 co najmniej
kilkadziesiąt) sprawdzamy hipotezę H0: m1=m2, wobec hipotezy
alternatywnej H1: m1
≠
m2, gdzie m1 i m2 to odpowiednio wartość
średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0
jest wtedy statystyka
Obszar krytyczny budujemy w analogiczny sposób jak w modelu I,
analogicznie odczytujemy też wartość krytyczną u
α
.
17. Testy normalności przy dużej i małej
próbie.
Wyróżnia się dwie podstawowe grupy hipotez statystycznych
1)
Hipotezy głoszące, że rozpatrywana zmienna losowa ma
określony typ rozkładu oraz
2)
Hipotezy formułujące przypuszczenie, że dwie badane
zbiorowości mają ten sam rozkład
Spośród hipotez należących do pierwszej grupy wyróżnić można
hipotezę o normalności rozkładu danej zmiennej losowej. Jednym z
testów statystycznych, który może być stosowany do weryfikacji takiej
hipotezy, jest test zgodności
χ
2
. Test ten może być skonstruowany tylko,
gdy wyniki próby liczącej co najmniej kilkadziesiąt elementów są
pogrupowane w szereg rozdzielczy. Należy pamiętać, że klasy na jakie
dzieli się wyniki próby w teście zgodności
χ
2
, nie powinny być zbyt mało
liczne (co najmniej 8 elementów w każdym z przedziałów). Załóżmy, że
populacja generalna ma dowolny rozkład o dystrybuancie F(x). Z
populacji tej wylosowano niezależnie dużą próbę (n co najmniej
kilkadziesiąt elementów), której wyniki podzielono na r przedziałów
klasowych o liczebnościach
n
i
w każdym przedziale, przy czym
∑
=
i
n
n
. Otrzymaliśmy w ten sposób rozkład empiryczny. Na
podstawie wyników tej próby należy sprawdzić hipotezę H
0
, którą
zapisujemy symbolicznie
H
0
: F(x)
∈
Ω
gdzie F(x) jest
dystrybuantą badanej zmiennej, a
Ω
jest klasą dystrybuant normalnych
Hipoteza alternatywna ma postać:
H
1
: F(x)
∉
Ω
lub
H
1
: ~H
0
Sprawdzianem tej hipotezy jest statystyka
χ
2
wyrażona wzorem:
(
)
∑
=
−
=
r
i
i
i
i
np
np
n
1
2
2
χ
gdzie:
n
– liczebność próby
n
i
– liczba elementów próby należących do i-tego przedziału klasowego
p
i
– prawdopodobieństwo, że badana zmienna losowa przyjmie wartość
należącą do i-tego przedziału klasowego
np
i
– liczebność teoretyczna, czyli taka liczebność, jaka powinna
znajdować się w i-tym przedziale, gdyby hipote H
0
była prawdziwa
W kolejnym kroku określamy wartość poziomu istotności, czyli
prawdopodobieństwa popełnienia błędu pierwszego rodzaju, następnie
z tablic rozkładu
χ
2
odczytujemy wartość krytyczną
χ
α
2
w oparciu o
następującą zależność: P(
χ
2
≥
χ
α
2
)=
α
gdzie
χ
2
~
χ
2
o r-k-1
stopniach swobody
r – liczba przedziałów klasowych
k – liczba szacowanych parametrów
Jeżeli między wartością krytyczną a wartością sprawdzianu zachodzi
nierówność:
χ
2
≥
χ
α
2
wówczas na poziomie istotności
α
stwierdzamy, że hipotezę sprawdzaną należy odrzucić na korzyść
hipotezy alternatywnej. W przypadku, gdy
χ
2
≤
χ
α
2
stwierdzamy, że na poziomie istotności
α
brak jest podstaw do
odrzucenia hipotezy sprawdzanej
H
0.
Testem stosowanym do sprawdzania normalności rozkładu populacji
generalnej na podstawie małej próby jest test Shapiro-Wilka.
Sposób przeprowadzania tego testu jest następujący: z badanej
zbiorowości losujemy próbę i na jej podstawie weryfikujemy hipotezę
H
0
: F(x) = F
0
(x)
gdzie
F(x)
jest dystrybuantą rozkładu badanej zmiennej
F
0
(x)
jest dystrybuantą rozkładu normalnego
Hipoteza alternatywna ma postać:
H
1
: F(x)
≠
F
0
(x)
lub postać równoważną:
H
1
:~ H
0
Sprawdzianem tej hipotezy jest statystyka
(
)
( )
(
)
(
)
∑
∑
=
=
+
−
+
−
−
−
=
n
i
i
n
i
i
i
n
i
n
x
x
x
x
a
W
1
2
2
2
1
1
1
gdzie
a
n-i+1
– wielkość stablicowana
x
(i)
– i-ta wartość cechy dla wartości cech uporządkowa niemalejąca..
Następnie, przy określonym poziomie istotności
α
oraz przy danej
wielkości próby n, odczytujemy z odpowiedniej tablicy wartości
krytycznych dla testu Shapiro-Wilka wartość
W
α
.
Jeśli obliczona wartość
statystyki i wartość krytyczna spełniają nierówność
W
≥
W
α
to na
poziomie istotności
α
stwierdzamy, że brak jest podstaw do odrzucenia
hipotezy H
0
o normalności rozkładu zbiorowości generalnej. Jeżeli zaś
zachodzi nierówność:
W <W
α
to hipotezę należy odrzucić na korzyść
hipotezy alternatywnej.
18. Charakterystyka i zastosowanie
poznanych testów serii.
testy serii uzywa sie dla sprawdzenia hipotezy, że dwie populacje mają
ten sam rozkład. Testy nieparametryczne mają mniejsza moc od testów
parametrycznych, ale górują nad nimi prostotą budowy i rachunków.
Serią nazywamy każdy podciąg złożony z kolejnych elementów
jednego rodzaju utworzony w ciągu uporządkowanych w dowolny
sposób elementów dwu rodzajów. Gdy elementy danego ciągu są
losowe, to długość i ilość serii są zmiennymi losowymi.
Model I.
Dana jest populacja generalna o dowolnym rozkładzie. Z populacji tej
pobrano w pewien określony sposób próbę n elementów. Należy
sprawdzić hipotezę, że jest to próba losowa. Test istotności dla tej
hipotezy jest następujący. Z uporządkowanego wg kolejności pobierania
elementów do próby ciągu wyników próby obliczamy medianę z próby.
Każdemu wynikowi próby
x
i
w tym uporządkowanym chronologicznie
ciągu przypisujemy symbol a jeśli
x
i
<Me,
bądź symbol b, jeśli
xi>Me.
Wynik xi=Me można odrzucić. Otrzymujemy w ten sposób ciąg złożony
z symboli a i b. W ciągu tym otrzymujemy określoną liczbę serii. Przy
założeniu prawdziwości hipotezy o losowości próby liczba serii k ma
znany i stablicowany rozkład zależny od
n
1
i n
2
liczebności elementów
a i b. Tablice rozkładu liczby serii podają taką wartość
k
α
że
P(k
≤
k
α
)=
α
.
W oparciu o ten rozkład budujemy dwustronny obszar
krytyczny dla testu losowości w taki sposób, że dla przyjętego poziomu
istotności
α
odczytujemy z tablic takie dwie wartości krytyczne
k
1
i k
2
,
aby zachodziły relacje:
P(k
≤
k
1
)=1/2
α
i P(k
≤
k
2
)=1-1/2
α
Jeżeli zajdzie jedna z nierówności
k
≤
k
1
lub k
≥
k
2
,
to hipotezę o
losowości próby należy odrzucić(otrzymaliśmy zbyt małą lub zbyt dużą
liczbę serii). Natomiast gdy zajdzie nierówność
k
1
< k <k
2
, nie ma
podstaw do odrzucenia hipotezy o losowości próby.
Model II.
Dane są dwie populacje generalne o dowolnych rozkładach badanej
cechy. Z populacji tych wylosowano dwie próby o liczebnościach
odpowiednio
n
1
i n
2
.
Na podstawie wyników tych prób należy
zweryfikować hipotezę, że rozkłady obu populacji nie różnią się, czyli
hipotezę H
0
: dwie próby pochodzą z jednej populacji.
Test istotności dla tej hipotezy, oparty na rozkładzie liczby serii, jest
następujący. Wyniki obu prób ustawiamy w jeden ciąg wg rosnących
wartości. Oznaczamy elementy próby z jednej populacji za pomocą
symbolu a, a z drugiej za pomocą symbolu b. Odczytujemy z
niemalejącego ciągu liczbę serii k. Obszar krytyczny budujemy
lewostronnie w taki sposób, ze z rozkładu liczby serii otrzymujemy dla
odpowiednich
n
1
i n
2
oraz dla ustalonego z góry poziomu istotności
α
taką wartość krytyczną
k
α
by
P(k
≤
k
α
)=
α
.
Jeżeli otrzymamy liczbę
serii k z danego ciągu, która spełnia nierówność
k
≤
k
α
,
to hipotezę
H
0
odrzucamy, tzn. dwie próby różnią się istotnie. W przeciwnym wypadku
nie ma podstaw do odrzucenia hipotezy, że rozkłady obu populacji są
takie same.
2
2
2
1
2
1
2
1
n
n
x
x
U
σ
σ +
−
=
+
−
+
+
−
=
21
1
2
1
2
2
2
2
1
1
2
1
1
1
2
n
n
n
n
s
n
s
n
x
x
t
+
−
=
21
2
2
1
2
1
2
1
n
s
n
s
x
x
t
(
)
+
+
+
−
+
4
2
4
1
2
2
2
1
2
1
2
1
2
s
s
s
s
n
n
d
σ
u
n
2
2
2
α
=
2
2
2
1
2
1
2
1
n
s
n
s
x
x
U
+
−
=
19.Testy istotności dla współczynnika
korelacji liniowej i dla współczynnika
regresji.
Model I Test istotności dla współczynnika korelacji
Dwuwymiarowy rozkład badanych cech X i Y w populacji generalnej jest
normalny lub zbliżony do normalnego. Z populacji tej wylosowano
niekoniecznie dużą próbę n-elementową. Na podstawie wyników tej
próby należy sprawdzić hipotezę, ze zmienne X i Y nie są skorelowane,
tzn. hipotezę
0
H
: ρ = 0 wobec hipot alternatywnej
1
H
:
0
≠
ρ
Obliczamy z próby r zgodnie z wzorem :
(
)(
)
−
−
−
−
−
−
−
−
=
∑
∑
∑
∑
∑
∑
=
=
⋅
⋅
=
=
=
=
n
i
r
i
j
i
i
i
r
i
ij
i
i
n
i
n
i
i
i
n
i
i
i
yx
n
y
y
n
x
x
n
y
y
x
x
y
y
x
x
y
y
x
x
r
1
1
2
2
1
1
1
2
2
1
)
(
)
(
)
)(
(
)
(
)
(
j
i
y
x
,
- średnie poszczegól przedziałów klasowych zmiennych X i Y
ij
n
- liczebność dla poszczególnej kratki tablicy
j
i
n
n
⋅
⋅
,
- liczebności brzegowe tablicy korelacyjnej
Sprawdzianem tej hipotezy jest statystyka t postaci:
2
1
2
−
−
=
n
r
r
t
yx
yx
Statystyka ta ma przy założeniu prawdziwości hipotezy H
0
rozkład
t-Studenta z n-2 stopniami swobody. Z tablicy rozkładu t Studenta dla
ustalonego z góry poziomu istotności
α
i dla n-2 stopni swobody
odczytujemy wartość krytyczną
α
t
tak, by P(
α
t
t
≥
)=
α
a) Jeżeli
α
t
t
≥
, to hipotezę
0
H
o braku korelacji między
zmiennymi należy odrzucić, tzn. że między tymi zmiennymi istnieje
zależność korelacyjna.
W przypadku nierówności
α
t
t
<
stwierdzamy, że brak jest
podstaw do odrzucenia hipotezy sprawdzanej
0
H
, że zmienne X i Y są
nieskorelowane. Gdy hipoteza alternatywna precyzuje znak
współczynnika korelacji, tzn. gdy jest
1
H
:
0
<
ρ
lub
1
H
:
0
>
ρ
, wówczas w tym teście korzystamy z obszaru krytycznego
odpowiednio lewostronnego lub prawostronnego.
Test istotności dla współczynnika regresji liniowej
W analizie regresji sprawdzana jest często hipoteza dotycząca istotności
otrzymanego z próby współczynnika regresji liniowej.
Dwuwymiarowy rozkład badanych dwóch cech X, Y w populacji
generalnej jest normalny lub zbliżony do normalnego. Z populacji tej
wylosowano do próby n elementów i otrzymano wyniki
(x
i
, y
i
) (i=1,2,..., n).
Na podstawie wyników tej próby należy
sprawdzić hipotezę, że współczynnik regresji
β
0
liniowej funkcji regresji
y=
α
+
β
0
x
w populacji ma określoną wartość, tj. hipotezę:
0
0
:
β
β =
H
wobec hipotezy alternatywnej
0
1
:
β
β ≠
H
Jeżeli współczynnik regresji okaże się istotnie różny od 0, wówczas
funkcja regresji może być wykorzystywana do sporządzania prognoz.
Jeśli zaś współczynnik regresji z próby nie okaże się istotnie różny od 0,
to oznacza, że funkcja regresji w zbiorowości może być stała, co
wskazuje na brak zależności między badanymi zmiennymi.
Na podstawie wylosowanej próby, wykorzystując metodę najmniejszych
kwadratów, wyznaczamy równanie linii regresji postaci
bx
a
y
+
=
ˆ
; następnie obliczamy wartość sprawdzianu, który ma postać:
(
)
∑
=
−
−
=
n
i
i
r
x
x
S
b
t
1
2
0
β
gdzie
(
)
∑
=
−
−
=
n
i
i
r
y
y
n
S
1
2
ˆ
2
1
Wartości sprawdzianu porównujemy następnie z wartością krytyczną
α
t
, którą przy określonym poziomie istotności
α
i (n-2) stopniach
swobody odczytujemy z tablic wartości krytycznych rozkładu t-Studenta.
Jeżeli spełniona jest zależność
α
t
t
≥
, wówczas hipotezę
0
H
odrzucamy na korzyść hipotezy alternatywnej, tzn.
0
β
β ≠
.
Gdy hipoteza alternatywna jest sformułowana w postaci :
0
1
:
β
β <
H
, to
0
H
odrzucam na korzyść
1
H
, gdy
α
t
t
≤
0
1
:
β
β >
H
, to
0
H
odrzucam na korzyść
1
H
, gdy
α
t
t
≥
20. Test niezależności chi- kwadrat.
Metoda pomiaru siły zależności
korelacyjnej w przypadku cech
niemierzalnych.
test niezależności chi- kwadrat- za pomocą tego testu możemy
zweryfikować hipotezę że dwie badane cechy są niezależne.
Hipotezę sprawdzaną H
0
formułujemy:
H
0
:P(X=x
i
, Y=y
i
) = P(X=x
i
)* P(Y=y
i
Hipotezę alternatywną H
1
formułujemy:
H
1
:~ H
0
W celu zweryfikowania prawdziwości tej hipotezy z badanej zbiorowości
losujemy dużą próbę a jej wyniki grupujemy w postaci tzw. tablicy
niezależności.
∑∑
=
=
−
=
r
i
s
j
ij
ij
ij
np
np
n
1
1
2
2
)
(
χ
Wartość tego sprawdzianu porównujemy z wartością krytyczną
Χ
2
α
którą przy danym poziomie istotności
α
oraz dla (w-1)(k-1) stopni
swobody odczytujemy z tablicy wartości krytycznych rozkładu
Χ
2
w
oparciu o następującą zależność:
α
χ
χ
α
=
≥
)
(
2
2
P
.,
U
2
~
Χ
2
o (w-1)(k-1)
st. swobody
Jeżeli spełniona jest nierówność
(
Χ
2
≥Χ
2
α
)
wówczas na poziomie
istotności
α
hipotezę sprawdzaną H
0
odrzucamy na korzyść hipotezy
alternatywnej, co oznacza że badane zmienne są zależne.
Jeżel
i(
Χ
2
<Χ
2
α
)
stwierdzamy, że brak jest podstaw do odrzucenia
hipotezy sprawdzanej
H
0
Istnieje wiele metod pomiaru zależności korelacyjnej w przypadku cech
niemierzalnych, np. współczynnik
ϕ
Youl’a czy V Cramera, jednak
najwygodniejszy jest współczynnik kontyngencji C Pearsona, gdyż może
być stosowany przy tablicach wielodzielnych dowolnej wielkości i
dowolnej formy. Wartości tego miernika zawarte są w przedziale <0,1>
Bliskie 1 wartości C świadczą o silnej zależności.
Współczynnik C- Pearsona obliczany jest w oparciu o następujący wzór:
C=
√
(
Χ
2
/
Χ
2
+N)
Gdzie
∑∑
=
=
−
=
r
i
s
j
ij
ij
ij
np
np
n
1
1
2
2
)
(
χ
21.Rodzaje szeregów czasowych i metody
ich analizy.
Analizę dynamiki zjawisk masowych przeprowadza się na podstawie
szeregów czasowych (dynamicznych, chronologicznych).
Szeregiem czasowym nazywamy ciąg wartości badanego zjawiska
obserwowanego w kolejnych jednostkach czasu. W szeregach
czasowych zmienną niezależną jest czas, natomiast zmienną zależną –
wartości liczbowe badanego zjawiska:
Zmienna niezależna może być ujmowana różnie, w zależności od celu
badania i właściwości zjawisk masowych. Zjawiska zmieniające się
wolno są ujmowane w pewnych ściśle określonych momentach. Szeregi
zbudowane w ten sposób noszą nazwę szeregów czasowych
momentów. Szeregi czasowe zawierające informacje o rozmiarach
zjawiska w pewnych – dłuższych lub krótszych – okresach (np.
półrocze, kwartał) nazywamy szeregami czasowymi okresów.
Przeciętny poziom zjawisk przedstawionych w postaci szeregów
czasowych okresów – przy założeniu, że przyjęte przedziały czasowe są
równe – oblicza się za pomocą średniej arytmetycznej.
Do obliczania średniego poziomu zjawisk przedstawionych w formie
szeregów czasowych momentów wykorzystuje się średnią
chronologiczną. Oblicza się ją wg wzoru:
1
2
1
...
2
1
1
1
−
+
+
+
=
−
n
y
y
y
y
n
n
ch
gdzie:
y
1
, y
2
, …, y
n
oznaczają wielkość badanego zjawiska w
kolejnych momentach. Rozwój zjawisk przedstawiony za pomocą
szeregów czasowych może być właściwie oceniony wówczas, gdy
poszczególne wyrazy szeregów czasowych są wielkościami
jednorodnymi i porównywalnymi.
Porównywalność danych statystycznych przedstawionych w formie
szeregów czasowych jest możliwa, gdy spełnione są określone
warunki:
Zjawiska przedstawione w szeregach czasowych powinny być wyrażone
w tych samych jednostkach miar; Szeregi czasowe okresów mogą być
porównywane z szeregami czasowymi okresów, a szeregi czasowe
momentów z szeregami czasowymi momentów, przy czym muszą one
dotyczyć tych samych momentów lub okresów; Badane w czasie
zjawiska powinny dotyczyć tego samego obszaru terytorialnego;
W szeregach dynamicznych okresów przedziały czasowe powinny być
jednakowe.
Proste metody badania zmian szeregu dynamicznego
1. Przyrosty absolutne - Odejmowanie dwóch wielkości liczbowych
daje w wyniku dodatni lub ujemny przyrost absolutny. Przyrosty
absolutne mogą być obliczane w stosunku do jednego okresu
(momentu) przyrosty absolutne o podstawie stałej (jednopodstawowe)
lub też okresu stale zmieniającego się przyrosty absolutne o podstawie
zmiennej (łańcuchowe). Przyrosty absolutne informują o tym, o ile
jednostek wzrósł lub zmalał poziom badanego zjawiska w okresie
(momencie) badanym w porównaniu z okresem przyjętym za podstawę.
2. Przyrosty względne - Przyrostem względnym nazywamy iloraz
przyrostów absolutnych zjawiska do jego poziomu w okresie
(momencie) przyjętym za podstawę do porównań. Przyrosty względne
podobnie jak absolutne mogą być jednopodstawowe lub łańcuchowe.
Informują o tym, o ile wyższy lub niższy jest poziom badanego zjawiska
w danym okresie w stosunku do okresu bezpośrednio poprzedzającego
(przyrosty względne łańcuchowe) lub w porównaniu z okresem
przyjętym za podstawę (przyrosty względne jednopodstawowe).
Przyrosty względne określane są mianem wskaźników tempa wzrostu.
Wskaźniki dynamiki (indeksy) - Indeksem nazywamy każdą liczbę
względną powstałą przez podzielenie wielkości danego zjawiska w
okresie badanym (sprawozdawczym) przez wielkość tego zjawiska w
okresie podstawowym (bazowym). Jeżeli poziom zjawiska w okresie
(momencie) badanym oznaczamy symbolem
y
1
,
a w okresie
(momencie) podstawowym symbolem y
0
to wzór na indeks przyjmuje
postać:
0
1
: y
y
i
=
Indeks jest wielkością niemianowaną i może
być wyrażony w ułamkach lub w procentach. Jeżeli indeks przyjmuje
wartość z przedziału 0 < i < 1, to świadczy to o spadku poziomu
zjawiska w badanym okresie w stosunku do okresu podstawowego.
Wartość większa od 1 (lub od 100%) świadczy o wzroście poziomu
zjawiska w okresie badanym w stosunku do okresu podstawowego.
Wartość indeksu równa 1 świadczy o tym, że poziom zjawiska w
okresach badanym i podstawowym są takie same.
W zależności od przyjętej podstawy wyróżniamy indeksy
jednopodstawowe lub łańcuchowe.
Ciąg indeksów o podstawie stałej zapisujemy następująco:
1
1
1
1
2
1
1
,
,....,
,
y
y
y
y
y
y
y
y
n
n
−
Ciąg indeksów łańcuchowym (oparty na zasadzie odnoszenia poziomu
badanego zjawiska z okresu badanego do poziomu tego zjawiska w z
okresu bezpośrednio poprzedzającego) zapisujemy następująco:
1
2
1
2
3
1
2
,
,....,
,
−
−
−
n
n
n
n
y
y
y
y
y
y
y
y
Do oceny tempa zmian zjawiska w pewnym okresie czasu
wykorzystywany jest miernik nazywany średnim okresowym
tempem zmian zjawiska, definiowany jako średnia geometryczna z
indeksów łańcuchowych, które dla danego okresu mogą być obliczone.
G=
1
1
1
1
3
4
2
3
1
2
...
−
−
−
=
=
n
n
n
n
n
g
y
y
i
i
i
i
i
y
n - liczba okresów ;; Do interpretacji wykorzystujemy (G-1)100%
22. Charakterystyka i zastosowanie
agregatowych indeksów wartości, ilości i
cen.
Indeksy zespołowe (agregatowe) pozwalają analizować zmiany wartości
, cen oraz ilości zbioru (grupy produktów,artykułów ) które nie są
jednorodne, czyli ich poszczególne składniki nie są sumowalne.
p
o
,p
1
-
ceny jednostkowe pewnego towaru odpowiednio w okresie
podstawowym i w okresie badanym
q
0
, q
1
-
ilości towaru w okresie podstawowym i badanym
i
p
=
p
p
0
1
i
q
=
q
q
0
1
;;
I
w
-
agregatowy indeks wartości
I
w
=
∑
∑
=
=
n
i
i
i
n
i
i
i
q
p
q
p
1
0
0
1
1
1
*
*
lub prostszy zapis
I
w
=
∑
∑
=
=
∗
n
i
o
n
i
q
p
q
p
1
0
1
1
1
*
Gdzie
I
w
– agregatowy indeks wartości badanego zespołu artykułów;
Σ
q
1
p
1
– suma wartości badanego zespołu w okresie badanym;
Σ
q
0
p
0
– suma wartości badanego zespołu w okresie podstawowym.
Operowanie jedynie indeksem wartości jest niewystarczające, gdyż nie
wiemy, który z czynników (ceny lub ilości) miał większy wpływ na
stwierdzony wzrost lub spadek wartości produkcji. Zachodzi zatem
konieczność obliczenia dodatkowych indeksów, które informowałyby, co
było przyczyną wzrostu lub spadku wartości produkcji. Indeksy te noszą
nazwę agregatowych indeksów cen i agregatowych indeksów ilości.
Jeśli założymy we wzorze indeksów wartości, że ceny porównywanych
wyrobów w porównywanych latach nie zmieniały się i były takie jak w
okresie podstawowym, wówczas otrzymamy agregatowy indeks ilości o
formule Laspeyresa:
L
I
q
=
∑
∑
=
=
n
i
n
i
q
p
q
p
1
0
0
1
1
0
*
*
Gdyby natomiast przyjąć założenie,że w porównywanych latach ceny
jednostkowe towarów nie zmieniały się i były takie jak w okresie
podstawowym, wówczas otrzymamy agregatowy indeks ilości
Paaschego:
p
I
q
=
q
p
q
p
n
i
n
i
0
1
1
1
1
1
*
*
∑
∑
=
=
Jeżeli założymy, że w formule indeksu wartości ilości towarów w
porównywanych okresach nie zmieniały się, wówczas otrzymamy
agregatowy indeks cen. Gdy założymy, że w porównywanych okresach
ilości towarów nie zmieniały się i były takie jak w okresie badanym,
wówczas otrzymamy agregatowy indeks cen o formule Laspeyresa:
L
I
p
=
q
p
q
p
n
i
n
i
0
1
0
1
0
1
*
*
∑
∑
=
=
Jeśli założymy, że w porównywanych okresach ilości towarów nie
zmieniały się i były takie jak w okresie badanym, wówczas otrzymamy
agregatowy indeks cen o formule Paaschego:
p
I
p
=
q
p
q
p
n
i
n
i
1
1
0
1
1
1
*
*
∑
∑
=
=
Agregatowe indeksy cen i ilości obliczone wg formuł standaryzacyjnych
Laspeyresa i Paaschego dla tego samego zespołu artykułów zwykle
różnią się między sobą. Przyjmuje się, że jeżeli układ wyjściowy
informacji na to pozwala, wskazane jest obliczenie indeksów wg
obydwu formuł standaryzacyjnych.
Między indeksami zachodzą tzw. równości indeksowe,
wykorzystywane do obliczania indeksów tzw. metodą pośrednią:
I
w
=
L
I
q*p
I
p
I
w
=
p
I
q*L
I
p
23. Metody wyodrębniania głównej
tendencji rozwojowej zjawisk oraz
wpływu czynnika przypadkowego.
Model zmian w czasie
y
f t
q t
z t
t
=
+
+
( )
( )
( )
f(t)
-trend (tendencja rozwojowa)
q(t)
-wahania okresowe (sezonowe)
z(t)-
wahania przypadkowe (losowe)
Identyfikacji trendu możemy dokonać dwiema metodami:
1. metoda mechaniczna- polega na zastępowaniu danych
empirycznych (z kolejnych okresów) średnimi ruchomymi z okresu
badanego i kilku okresów przyległych. Dzięki zastosowaniu średnich
ruchomych eliminuje się wartości przypadkowe i otrzymuje się wartości
będące wynikiem działania czynników głównych.
2. metoda analityczna- polega na wyznaczaniu równania linii w taki
sposób aby linia ta była w najlepszym stopniu dopasowana do danych
empirycznych. W przypadku gdy podstawę naszych badań stanowi
szereg czasowy , możemy sporządzić jego wykres na płaszczyźnie. W
niektórych przypadkach punkty na płaszczyźnie skupione są wokół
pewnej prostej. Istnieje możliwość znalezienia równania tej linii, która
nazywana jest linią trendu. W celu wyznaczenia linii trendu, czyli
równania prostej najlepiej dopasowanej do danych empirycznych,
stosuje się metodę najmniejszych kwadratów. Przyjmijmy, że
poszukiwana linia ma równanie:
y^ = a +bt
Spośród wszystkich możliwych linii, które można by poprowadzić przez
punkty będące wykresem szeregu czasowego, najlepiej do tych
punktów dopasowana będzie ta linia, której równanie spełnia warunek:
Σ
(y
i
– y^
i
)
2
= min
relacja ta oznacza, że suma kwadratów
różnic wartości empirycznych i teoretycznych zmiennej y osiągać musi
minimum.
F(a,b) =
Σ
i=1
N
(y
i
-a – bt
i
)
2
= min
Poszukujemy minimum funkcji F(a,b). Warunkiem koniecznym istnienia
ekstremum tej funkcji jest:
δ
F/
δ
a =0 i
δ
F/
δ
b=0
rozpisując układ tych 2 równań otrzymujemy 2 równania o 2
niewiadomych, które nazywamy układem równań normalnych:
Σ
i=1
N
y
i
=a N + b
Σ
i=1
N
t
i
Σ
i=1
N
y
i
t
i
= a
Σ
i=1
N
t
i
+b
Σ
i=1
N
t
i
2
rozwiązaniem tego układu jest para liczb a i b, które są parametrami
poszukiwanego równania linii trendu.
Parametr b nazywamy współczynnikiem kątowym równania linii
trendu. Informuje, jak średnio zmienia się wielkość zjawiska z okresu na
okres. Równanie linii trendu wykorzystywane jest w praktyce do
sporządzania prognoz, czyli do przewidywania wielkości zjawiska w
przyszłości. Prognoza taka będzie miała sens jeśli w przyszłości
charakter dotychczasowej tendencji rozwojowej zjawiska nie zmieni
się. Na zmiany zjawiska wpływają czynniki losowe (przypadkowe), które
można wyodrębnić porównując rzeczywistą wartość badanej cechy „y” z
jej teoretyczną wartością skorygowaną o wahania sezonowe. Wielkość
błędu prognozy możemy ocenić za pomocą odchylenia standardowego
resztowego, obliczanego wg wzoru:
S
y
=
√
{[
Σ
i=1
N
(y
i
– y^
i
)
2
]/N-2}
24. Metoda wyodrębniania wpływu
czynnika sezonowego. Podać przykłady
występowania sezonowości zjawisk.
Zmiany zjawisk zależą w pewnym stopniu od zmiany przyczyn o
charakterze sezonowym. Sezonowość obserwowana jest nie w skali
roku a w podokresach
roku. Wyodrębnienie tego czynnika jest ważne
przy dokonywaniu wszelkiego rodzaju prognoz.
Wyróżnić można 2 metody wyodrębnian wpływu czynnika sezonowego:
---- metoda mechaniczna - oparta jest na obliczen średnich ruchomych
-----metoda analityczna – polega na wykorzystaniu przy obliczaniu tzw.
wskaźników sezonowości równania linii trendu.
Przyjmijmy, że podstawą naszych obliczeń będą informacje dotyczące
wielkości zjawiska w pewnych podokresach określonego przedziału
czasowego. Załóżmy, że równanie wyznaczonej linii trendu ma postać:
bt
a
y
+
=
ˆ
Wówczas wskaźniki sezonowości wyznaczane są przy pomocy wzoru:
( )
( )
∑
∑
=
′
t
i
t
i
i
t
y
t
y
O
ˆ
;
i = 1, 2, ..., d
Gdzie
( )
∑
t
i
t
y
i
( )
∑
t
i
t
yˆ
oznaczają odpowiednio sumy
wartości empirycznych i teoretycznych dla okresów jednoimiennych.
d – liczba podokresów wyróżnionych w roku
Jeżeli
∑
=
≠
′
d
i
i
d
O
1
, to obliczamy tzw. skorygowane wskaźniki
sezonowości wg wzoru:
R
O
O
i
i
⋅
′
=
∑
=
′
=
d
i
i
O
d
R
1
Wpływ badań sezonowych wyrażony w wielkościach absolutnych
obliczamy wg wzoru:
y
y
O
t
g
i
i
−
=
)
(
,
=
∑
=
d
i
i
t
g
1
0
)
(
y
- średnia okresowa wielkość danego zjawiska
* np. gdy wskaźnik sezonowości dla I kwartału
926
,
0
1
=
O
oznacza, że w każdym pierwszym kwartale w badanym okresie wielkość
sprzedaży towaru była niższa o 7,4% od średniej kwartalnej wielkości
sprzedaży towaru w wyniku oddziaływania czynnika sezonowego.