WSTĘP
Statystyka - zestawienia danych, opisy danych liczbowych, „status” - państwo - nauka o metodach ilościowych badania prawidłowości zachodzących w procesach i zjawiskach masowych.
Działy statystyki -
Opisowa - zajmuje się przetwarzaniem danych informacji, które polega na opisie istotnych cech badanej zbiorowości;
Matematyczna - zajmuje się wnioskowaniem statystycznym czyli metodami uogólnienia wniosków uzyskanych z odpowiednio wybranej części zbiorowości na całą zbiorowość.
Źródła danych statystycznych -
Informacje zbierane w ramach statystyki publicznej (roczniki)
Specjalne badania zbierane dla wyjaśnienia, osiągnięcia założonego celu (opinia publiczna).
Dane różnych instytucji gromadzone dla potrzeb ich bieżącej działalności.
Zbiorowość statystyczna - zbiorowość dowolnych elementów (rzeczy, osób, zjawisk) z pewnego lub pewnych punktów widzenia jednakowych lub do siebie podobnych, ale jednocześnie nie różniących się od siebie pod różnymi względami.
Jednostka statystyczna - element zbiorowości.
Liczebność statystyczna - N - l8iczebność całej zbiorowości generalnej,
n - liczebność badanej części zbiorowości.
Skale pomiaru cech statystycznych:
Skala nominalna - kwalifikacja podziału zbiorowości na grupy wewnątrz jednostkowe, pomiędzy jednostkami możemy postawić znak „=” lub „≠”;
Skala porządkowa - jednostki można uporządkować wg jakiejś cechy, pomiędzy jednostkami „=”, „≠”, <, >. Możliwe jest ustalenie wartości środkowych, kwantyli a także możemy badać zależność między cechami.
Skala interwałowa (podziałowa) - porządkuje jednostki i ustala dystans, odległość między jednostkami, nie występuje obiektywny, naturalny poziom zerowy (np. pomiar temperatury) =, ≠, <, >, +, -. Ilorazy wartości cechy nie są interpretowane.
Skala ilorazowa - =, ≠, <, >, +, -, :, *.
Rodzaje szeregów statystycznych:
Szeregi terytorialne, geometryczne - przedstawiają wielkość zjawisk w kategoriach (wg jednostek) terytorialnych.
Jednostka terytorialna | wielkość zjawiska
Szeregi czasowe, dynamiczne - prezentują wielkość zjawiska w jednostkach czasu.
Jednostka czasu wielkość zjawiska
Szeregi strukturalne - przedstawiają strukturę badanej zbiorowości wg określonej cechy statystycznej. Dzielą się na:
Wg cechy jakościowej (rozdzielcze)
Warianty cechy ai |
Liczba jednostek ni |
a1 a2 .. .. ak |
n1 n2 .. .. nk |
razem |
N |
Wg cechy ilościowej
Szeregi proste, indywidualne, szczegółowe, wyliczające
Wartość cechy |
X1 X2 .. Xn |
Szeregi rozdzielcze
Bez przedziałów klasowych
Wartość cechy |
Liczba jednostek |
X1 X2 .. Xk |
n1 n2 .. nk |
razem |
N |
Z przedziałami klasowymi
Klasy wartości cechy x1d - xig |
Liczba jednostek mi |
x1d - xig ..... xkd - xkg |
m1 ... mk |
razem |
M |
Szereg rozdzielczy bez przedziałów klasowych
Średnia arytmetyczna ważona:
Szereg rozdzielczy z przedziałami klasowymi
Własności średniej arytmetycznej:
Jest wielkością mianowaną
Wypadkowa wartości cechy wszystkich badanych jednostek
Suma odchyleń wartości cechy poszczególnych jednostek od wartości średniej arytmetyczne jest zawsze równa 0
Dla szeregu rozdzielczego
Wartość średniej arytmetycznej zależy od wzajemnych proporcji klas wartości cechy, a nie od ich liczebności. Oznacza to, iż taką samą wartość średniej arytmetycznej otrzymamy jeżeli w szeregu rozdzielczym będziemy mieli liczebności bezwzględne (ni) jak i wtedy kiedy będą to wskaźniki struktury (w i ).
Suma kwadratów odchyleń wartości cechy poszczególnych jednostek od wartości średniej arytmetycznej jest najmniejsza
Średnia arytmetyczna sumy lub różnicy dwóch lub więcej zmiennych równa się sumie lub różnicy ich średnich
Średnia jest wielkością abstrakcyjną tzn., że może przyjąć taką wartość jaka nie występuje u żadnej badanej jednostki
Średnia arytmetyczna przyjmuje wartości pomiędzy minimalną, a maksymalną cechą w tej zbiorowości
Warunki wyznaczania średniej arytmetycznej:
Średniej arytmetycznej nie możemy wyznaczać w szeregach rozdzielczych z przedziałami klasowymi, w których krańcowe przedziały są niedomknięte
Średniej arytmetycznej nie należy wyznaczać w zbiorowościach wyraźnie niejednorodnych, o skrajnej asymetrii, w których występują wielkości nietypowe lub skrajne
Pozycyjne miary przeciętne:
Dominanta:
W szeregu rozdzielczym bez przedziałów klasowych wartością dominanty jest ta wartość cechy, której odpowiada największa liczebność
W szeregu rozdzielczym z przedziałami klasowymi najpierw znajdujemy przedział, w którym znajduje się dominująca wartość, jest to ten przedział, któremu odpowiada największa liczebność, sprawdzamy czy rozpiętość tego przedziału i przynajmniej dwóch sąsiednich jest jednakowa
Przybliżoną wartość dominanty liczy się wg następującego wzoru interpolacyjnego:
XOD - początek przedziału dominanty
nD - liczebność przedziału dominanty
nD-1 - liczebność przedziału poprzedniego
nD+1 - liczebność przedziału następnego
hD - rozpiętość przedziału dominanty
Jest wielkością mianowaną
Można ją wyznaczać jeśli szereg posiada wyraźnie dominującą jedną wartość cechy
Nie wyznaczamy jej w szeregach skrajnie asymetrycznych
Mediana - wartość środkowa
W szeregu rozdzielczym bez przedziałów klasowych wyznaczając medianę najpierw znajdujemy jej numer Nr = n/2, aby łatwiej znaleźć o danym numerze budujemy szereg liczebności skumulowanych, w podobny sposób znajdujemy przedział, w którym znajduje się mediana w szeregu rozdzielczym z przedziałami klasowymi. Przybliżoną wartość mediany obliczamy wg następującego wzoru interpolacyjnego:
niskMe-1 - liczebność szeregu skumulowanego dla przedziału poprzedzającego przedział mediany
Jest wielkością mianowaną
Wartość mediany nie zależy od wartości krańcowych
Wartość mediany można wyznaczyć także wówczas, gdy wartości nie wszystkich jednostek są dokładnie znane, wystarczy znać liczbę tych jednostek i wartość cechy jednostek środkowych
Zasadne jest wyznaczanie mediany, kiedy w zbiorowości występują jednostki nietypowe
Medianę możemy wyznaczać w szeregach rozdzielczych z przedziałami klasowymi jeżeli krańcowe przedziały są niedomknięte (gdy nie możemy policzyć średniej arytmetycznej)
MIARY ZRÓŻNICOWANIA (DYSPERSJI, ROZRZUTU)
Bezwzględne
Względne
Rozstęp R - różnica między maksymalną i minimalną wartością cechy w zbiorowości, jest miarą mianowaną, bezwzględną i pozycyjną
Odchylenie przeciętne (d) - średnie odchylenie od średniej arytmetycznej, miara
Mianowana
Bezwzględna
Klasyczna
W szeregu prostym:
W szeregu rozdzielczym
Odchylenie standardowe - oparte na wariancji, pierwiastek z wariancji, miara mianowana, klasyczna, bezwzględna
Wariancja - średnia z kwadratów odchyleń wartości cechy poszczególnych jednostek od wartości średniej arytmetycznej (S2,Ђ2 )
W szeregach prostych:
Wariancja:
Odchylenie standardowe:
W szeregach rozdzielczych bez przedziałów klasowych:
W szeregach rozdzielczych z przedziałami klasowymi:
Interpretacja wartości odchylenia standardowego - mówi nam o ile przeciętnie wartości cechy poszczególnych jednostek odchylają się od wartości średniej arytmetycznej.
Odchylenie ćwiartkowe - bezwzględna miara zróżnicowania, pozycyjna.
Przy porównaniach stopnia zróżnicowania tej samej zbiorowości pod względem różnych cech lub kilku zbiorowości pod względem tej samej cechy, ale o różnym poziomie średniej arytmetycznej należy zastosować względne miary zróżnicowania, które nazywamy współczynnikami zmienności
Współczynnik odchylenia przeciętnego
Współczynnik zmienności informuje nas o tym jaki jest udział odchylenia przeciętnego standardowego w wartości średniej arytmetycznej. Jest miarą klasyczną.
Współczynnik zmienności oparty na odchyleniu ćwiartkowym - względna miara zróżnicowania pozycyjna
MIARY ASYMETRII, SKOŚNOŚCI
Wskaźnik asymetrii, skośności
Wskaźniki przyjmują na ogół wartości od -1 do 1.
Pozycyjny wskaźnik skośności
Wyznaczanie pozycji jednostki na tle zbiorowości.
Jednostki standaryzowane (Z,U)
Wartości jednostek standaryzowanych odczytywane są w jednostkach odchylenia standardowego.
ANALIZA ZALEŻNOŚCI KORELACJI ZMIENNYCH
Analiza zależności między dwoma zmiennymi ilościowymi
Dane mogą występować w dwóch szeregach prostych
W postaci danych pogrupowanych, czyli w postaci tzw. tablicy korelacyjnej
Metody wykrycia związku między cechami:
Porządkujemy zbiorowość wg jednej cechy, i obserwujemy jak zachowuje się druga
Naniesienie empirycznych wyników na układ współrzędnych, otrzymujemy smugę punktów
Zależność może mieć charakter:
Funkcyjny - jeżeli danej wartości jednej cechy odpowiada jedna i tylko jedna wartość drugiej cechy
Stochastyczna - polega na tym, iż ze zmianą wartości jednej cechy zmienia się rozkład drugiej, częstość występowania drugiej
Statystyczna - ze zmianą wartości jednej cechy, zmienia się średnia wartość drugiej y = f(x) + E
Funkcje służące do opisu kształtu zależności między zmiennymi nazywamy funkcjami regresji.
Kryterium wg którego szacujemy parametry funkcji regresji (a,b) jest minimalizacja sumy kwadratów odchyleń wartości empirycznych yi od wartości teoretycznych wynikających z funkcji regresji. Metoda ta nazywa się metodą najmniejszych kwadratów MNK.
-układ równań normalnych
Po rozwiązaniu powyższego układu równań otrzymujemy wzory na a i b.
a - współczynnik regresji - wartość a informuje o ile jednostek zmieni się wartość zmiennej zależnej przy wzroście zmiennej niezależnej
b - wyraz wolny - wartość parametru b jest to teoretyczna wartość zmiennej zależnej przy zerowej wartości zmiennej niezależnej.
Funkcje regresji są wykorzystywane do przewidywania wartości zmiennej zależnej w zależności od wartości zmiennej niezależnej. Błąd jaki popełniamy przy przewidywaniu na podstawie funkcji regresji szacujemy obliczając tzw. średni błąd w szacunku. Jest on pierwiastkiem wariancji resztowej.
k - liczba szacowanych parametrów funkcji regresji
Dla każdej pary zmiennych ilościowych możemy wyznaczyć dwie linie regresji:
Opisującą zależność y od x
zależność odwrotna
Średni błąd szacunku:
Wzajemne położenie obu funkcji na układzie współrzędnych:
y
y^
x^ x
zależność funkcyjna pełna
y
x
y
ў
X (z kreską) x
Wariancja liczona względem średniej mierzy zmienność całkowitą
Wariancja resztowa, różnice względem prostej
zmienność
y nieobjaśniona
ŷ zmienność całkowita
x (z kreską) x
Udział zmienności nieobjaśnionej w całkowitej to współczynnik zbieżności, im wartość jego jest większa tym gorzej
Współczynnik determinacji - udział zmienności objaśnionej w całkowitej, im wartość jest większa tym lepiej, wartość R2 jest wyrażana w % i mówi o stopniu objaśnienia jednej zmiennej przez drugą, mówi również o stopniu dopasowania funkcji regresji do punktów empirycznych.
Ogólna postać współczynnika korelacji 0 =< R =< 1
Jeżeli ў = ax + b - funkcja prostoliniowa to R przyjmuje postać współczynnika korelacji liniowej Pearsona rxy.
-1< rxy <1 (rxy) - mówi o sile zależności, natomiast znak o kierunku zależności. Znak „+” oznacza kierunek dodatni tzn. iż ze wzrostem wartości jednej cechy wartości drugiej również na ogół rosną. Znak „-„ oznacza zależność ujemną, tzn., że ze wzrostem wartości jednej cechy wartości drugiej maleją. r2xy - jest współczynnikiem determinacji i ma taką samą interpretację jak R2.
Współczynnik korelacji rang Spearmana - służy do oceny siły zależności między dwiema zmiennymi mierzonymi w skali przynajmniej porządkowej. Porządkując badane jednostki wg każdej z cech statystycznych nadajemy im kolejne numery zwane rangami. Jeżeli kilka jednostek ma takie samo natężenie tej samej cechy nadajemy im takie same rangi = średniej arytmetycznej z numerów jakie otrzymałyby gdyby miały jednakowe natężenie cechy - są to rangi wiązane.
di - różnice między rangami na daną jednostkę wg każdej z cech.
Stosunek korelacyjny η=e
Wartość stosunku korelacyjnego możemy obliczać jedynie dla danych pogrupowanych wg dwóch cech jednocześnie. W wyniku takiego pogrupowania powstaje tzw. tablica korelacyjna. Jego wartość można wyznaczyć dla oceny zależności między dwiema zmiennymi, z których przynajmniej jedna cecha zależna jest cechą ilościową. Mierzy zarówno zależność prostą jak i krzywoliniową.
Wartość cechy x |
Wartość cechy y |
Razem |
||
|
y1 |
......... |
yk |
ui |
x1 .. xk |
n11 ... nw1 |
nij |
nik .... nwk |
n1 ... nw |
Razem Σ˚xinij ¯x(yi) |
n*1 |
|
n*k |
u |
Boczek tablicy - pierwsza kolumna,
Główka tablicy - pierwszy wiersz tablicy,
Rozkład brzegowy - rozkład zbiorowości wg jednej cechy (boczek i ostatnia kolumna, główka i ostatni wiersz).
W każdej kolumnie tablicy mamy podane rozkłady warunkowe, czyli rozkład części zbiorowości wg cechy znajdującej się w boczku tablicy pod warunkiem, że cecha znajdująca się w główce tablicy przyjmuje określoną wartość. Analogicznie każdy wiersz tablicy jest rozkładem warunkowym wg cechy znajdującej się w główce tablicy pod warunkiem, że cecha znajdująca się w boczku tablicy przyjmuje określoną wartość. Z układu liczebności w tablicy możemy zorientować się o istnieniu zależności między zmiennymi. Łatwiej stwierdzić istnienie zależności po obliczeniu tzw. średnich grupowych lub średnich warunkowych. Średnie warunkowe to średnie wartości pierwszej cechy pod warunkiem, że druga przyjmuje określona wartość.
Średnie grupowe:
Po wyznaczeniu średniej grupowej sprawdzamy, czy przyjmuje ona różne wartości w poszczególnych grupach. Jeżeli tak to zależność między badanymi cechami istnieje. Aby ocenić jej siłę mierzymy stopień zróżnicowania tych średnich grupowych przy pomocy odchylenia standardowego. Zmienność całkowitą cechy x mierzymy przy pomocy ogólnego odchylenia standardowego:
Jeżeli obie cechy są cechami ilościowymi możemy obliczyć stosunek korelacji w dwie strony tzn. jeden badając wpływ x na y i odwrotnie
Mówi nam w jakim stopniu, w ilu procentach zmienność jednej cechy jest objaśniona przez zmienność drugiej. Stosunek korelacji jest miarą niesymetryczną tzn. ηxy≠ηyx. Wartości obu stosunków korelacyjnych są sobie równe jeżeli zależność między cechami ma charakter prostolinijny (da się opisać przy pomocy równania prostej). Wtedy zachodzi również relacja ηxy=|rxy|. Jeżeli zależność nie ma charakteru prostolinijnego to większe wartości otrzymujemy dla stosunku korelacyjnego ηxy=|rxy|.
Analiza zależności między dwiema cechami jakościowymi:
Aby ocenić siłę zależności między dwiema cechami należy zestawić uzyskane wyniki w postaci tablicy korelacyjnej. Wartości tych mierników będą oparte na liczebnościach w poszczególnych polach tablicy.
Współczynnik współzależności Q, Yule'a służy do oceny siły związku między dwoma cechami dychtomicznymi (dwudzielnymi). W wyniku grupowania zbiorowości wg takich dwóch cech otrzymujemy tablicę czteropolową.
Płeć |
Warianty cechy x |
Warianty cechy y |
Razem |
|
|
|
y1 |
y2 |
|
M |
x1 |
a |
b |
a+b |
K |
x 2 |
c |
d |
c+d |
|
razem |
a+b |
b+d |
n |
Wartość bezwzględna mówi o sile zależności. Znak „+” oznacza częstsze współwystępowanie wariantów x1 z y1 i x2 z y2 , znak „-„ oznacza częstsze współwystępowanie wariantów x1 z y2 i x2 z y1 .
Mierniki współzależności oparte na statystyce chi-kwadrat χ2.
nij - są liczebności empiryczne w poszczególnych polach tablicy
nij (z daszkiem) - liczebności teoretyczne w poszczególnych polach tablicy. Inaczej hipotetyczne. Są one obliczane przy założeniu niezależności badanych zmiennych.
Współczynnik współzależności „T” C2
„V” Cramer
„C” Pirsona
Maksymalne wartości współczynnika C przy określonych rozmiarach danych sym. Możemy obliczyć wg wzoru:
X |
2 |
3 |
4 |
5 |
6 |
CMAX |
0,707 |
0,816 |
0,866 |
0,894 |
0,913 |
Te współczynniki nie przyjmują wysokich wartości.
Pomiar siły zależności pomiędzy trzema zmiennymi.
Współczynnik korelacji wielorakiej, który mierzy zależność jednej cechy od dwóch pozostałych.
Współczynnik korelacji ogniskowy - pozwalający mierzyć siłę zależności pomiędzy dwoma zmiennymi z wyłączeniem wpływu trzeciej zmiennej.
Cecha zależna |
Cecha niezależna |
|||
|
Ilościowa |
Rangowa |
Nominalna |
|
Ilościowa |
Liniowa rxy RS ηxy |
Nieliniowa ---- ---- ηyx |
RS |
ηyx |
Rangowa |
RS |
RS |
|
|
Jakościowa (nominalna) |
C, T, Y |
---- |
Q(tab 2x2) C, T, Y |
ANALIZA ZMIAN WIELKOŚCI ZJAWISKA W CZASIE.
Ocena
Badanie zmian wielkości zjawiska w dwóch porównywanych okresach. Analiza zmian wielkości zjawiska w dłuższym okresie czasu - dekompozycja szeregu czasowego.
Średnią wielkość zjawiska dla szeregu okresów obliczamy przy pomocy zwykłej średniej arytmetycznej; dla szeregu momentów posługujemy się tzw. średnią chronologiczną.
Szereg okresów powstaje dla takich zjawisk, których wielkość tworzy się w ciągu pewnego odcinka czasu. Szereg momentów powstaje dla takich zjawisk, których wielkość w czasie ulega ciągłym zmianom i podajemy stan wielkości zjawiska na dany moment.
Rodzaje miar do badania zmian wielkości zjawisk z dwóch okresów czasu:
Przyrosty bezwzględne (absolutne)
Przyrosty łańcuchowe
Przyrosty jednopodstawowe (o stałej podstawie)
Rodzaje miar niemianowanych:
Przyrosty względne - wyrażone najczęściej w %
Przyrosty łańcuchowe
Przyrosty jednopodstawowe
Wskaźniki dynamiki - indeksy, miary niemianowane wyrażane są najczęściej w %.
yt - badana wielkość zjawiska w jakimś momencie czasu (t)
yt- yt-1 - przyrosty bezwzględne łańcuchowe Δt/t-1
yt -yt0 - (yt0 - okres podstawowy) przyrosty bezwzględne jednopodstawowe Δt/t0
Przyrosty względne - są to ilorazy przyrostów bezwzględnych przez wielkość zjawiska w okresie podstawowym.
Przyrost względny łańcuchowy (lewa strona równania)
Wielkości niemianowane wyrażone w procentach
Przyrost względny o stałej strukturze (lewa strona równania)
Indeksy - wskaźniki dynamiki - iloraz wielkości zjawiska w dwóch okresach lub momentach czasu.
Indeks łańcuchowy:
Indeks jednopodstawowy:
i = 1 lub 100% - brak zmian w poziomie obserwacji zjawiska
i > 1 lub > 100% - wielkość zjawiska wzrosła o (i - 100)%
i < 1 lub < 100% - wielkość zjawiska zmniejszyła się o (i - 100)%
Indeksy indywidualne służą do badania zmian w poziomie zjawisk jednorodnych. Do badania zmian grupy zjawisk niejednorodnych służą tzw. indeksy agregatowe inaczej zespołowe.
Zasady zamiany indeksów:
Przeliczanie indeksów jednopodstawowych o podstawie t* na indeksy o innej podstawie t** polega na podzieleniu odpowiednich dwóch indeksów jednopodstawowych
Przeliczanie indeksów jednopodstawowych o podstawie t* na indeksy łańcuchowe (czyli o podstawie t-1) polega na podzieleniu dwóch sąsiednich indeksów jednopodstawowych
Przeliczanie ciągów indeksów na indeksy jednopodstawowe o podstawie t* polega na mnożeniu odpowiedniego podciągu indeksów łańcuchowych
Jeżeli t' w indeksie jednopodstawowym it'/t* jest większe od t*
Jeżeli t' jest mniejsze od t*, czyli przelicza na stałą podstawę
Tablice obrazujące sposób zamiany
Numer okresu |
yt |
Indeksy łańcuchowe |
jednopodstawowe |
1 2 3 4 5 6 |
y1 y2 y3 y4 y5 y6 |
i2/1=y2/y1 i2/3=y3/y2 i4/3=y4/y3 i5/4=y5/y4 i6/5=y6/y5 |
1 i2/3=y2/y3 i3/1 i4/1 i5/1 i6/1=y6/y1 |
Zamiana indeksów jednopodstawowych
Numer okresu |
Jednopodstawowy 1=1, y1=1 |
okres 3=1 |
Indeksy łańcuchowe |
1 2 3
4 |
1 i2/1=y2/y1 i3/1=y3/y1
i4/1=y4/y1 |
i1/3=1:i3/1 i2/3=i2/3:i3/1=y2/y1:y3/y1
i3/4=i4/1:i3/1 |
---- ----- i3/2=i3/1:i2/= =y3/y1:y2/y1 i4/3=i4/1:i3/1 |
Do badania zmian w grupie zjawisk niejednorodnych stosujemy tzw. indeksy agregatowe lub zespołowe.
Indeks agregatowy dla wielkości absolutnych (ilości, wartości i ceny).
Indeks agregatowy dla wielkości szacunkowych np. wydajności pracy, płac przeciętnych
Ad. 1. q - ilość i-tego produktu.
Pi - cena produktu
Piqi = Wi (wartość i-tego produktu)
k - liczba produktów
Wio - okres zerowy
Aby zbadać wpływ każdego z tych czynników oddzielnie przeprowadzamy tzw. standaryzację indeksów, która polega na ustaleniu jednego z czynników na stałym poziomie i obserwacji wpływu drugiego z nich. Jeżeli jako stały przyjmiemy poziom cen, ilość z okresu „o” powstaje tzw. formuła Laspayresa indeksu natomiast jeżeli jako stały przyjmiemy poziom z okresu „n” powstaje formuła Paschego indeksu.
Zmiany w cenach.
Wartość tych indeksów informuje nas o tym, jak zmieniły się wartości grupy towarów jedynie w wyniku zmian cen przy założeniu ilości na poziomie roku „0” jeśli jest to formuła Laspayesa lub na poziomie okresu „n” jeśli jest to formuła Paschego
Równość indeksowa.
Wartość tych indeksów informuje nas jak zmieniałyby się wartości grupy towarów jedynie w wyniku zmian w rozmiarach sprzedaży lub zakupu przy założeniu stałych cen z okresu „0” jeśli jest to formuła Laspayesa lub na poziomie okresu „n” jeśli jest to formuła Paschego.
Indeksy cen informują nas o przeciętnych zmianach cen, natomiast indeksy ilości informują nas o przeciętnych zmianach ilości.
Indeks cen według Laspayera jest średnią arytmetyczną z indywidualnych indeksów cen, których wagami są wartości z okresu „0”.
Agregatowy indeks cen wg formuły Paschego jest średnią harmoniczną indywidualnych indeksów cen ip.
Agregatowy indeks ilości wg formuły Laspayera jest średnią arytmetyczną ważoną z indywidualnych indeksów ilości, których wagami są wartości z okresu „0”.
Agregatowy indeks ilości wg formuły Paschego jest średnią harmoniczną ważoną z indywidualnych indeksów ilości
Agregatowe indeksy dla wielkości stosunkowej (wydajność pracy, pracochłonność, natężenie urodzeń, zgonów).
Xi - dowolna wielkość stosunkowa = ai / bi
Indeks agregatowy wszechstronny:
Średnia wielkość szacunkowa
Wartość indeksu wszechstronnego zależy zarówno od zmian w cząstkowych wielkościach stosunkowych Xi jak od zmian w strukturze agregatu (bi /Σ bi). Aby zbadać wpływ tych czynników oddzielnie przeprowadzamy tzw. standaryzację indeksów ustalając poziom jednego z czynników na stałym poziomie i obserwując wpływ drugiego.
Indeks wpływu zmian w strukturze (indeks układu zmiennych).
Wartość tych indeksów informuje nas o zmianach w przeciwnej wielkości stosunkowej jakie nastąpiłyby jedynie na skutek zmian w strukturze agregatu przy założeniu, że cząstkowe wielkości stosunkowe nie będą się zmieniały i pozostaną na poziomie okresu zerowego (Laspayresa) lub na poziomie okresu n --tego (formuła Paschego).
Indeks o stałej strukturze (indeksy składu stałego)
Wartość tych indeksów ocenia nam w jakim stopniu zmieniłyby się wartości przeciętne badanego zjawiska jedynie na skutek zmiany w cząstkowych wielkościach stosunkowych, przy założeniu, że struktura agregatu pozostanie na poziomie okresu zerowego przy formule Laspayresa lub na poziomie n - tego przy formule Paschego.
Dekompozycja szeregu czasowego - wyodrębnienie, ocena działania na poziom zjawiska w czasie przyczyn głównych, okresowych i przypadkowych. Taką analizę można prowadzić metodą mechaniczną lub analityczną. Częściej stosujemy metodę analityczną, ponieważ daje nam większe możliwości.
Wyodrębnienie działania przyczyn głównych.
Metoda mechaniczna wyrównywania szeregu polega na wyliczeniu tzw. średnich ruchomych.
Data yt
1 y1
2 y2
3 y3
4 y4
5 y5
6 y6
Metoda analityczna wyodrębniania tendencji rozwojowej, badania przyczyn głównych polega na oszacowaniu parametrów funkcji opisującej tę tendencję. Funkcje służące do opisu tendencji nazywamy funkcjami trendu.
Równanie trendu:
Parametry a i b funkcji trendu szacujemy metodą najmniejszych kwadratów.
Minimalizacja sumy kwadratów odchyleń wartości empirycznych do wartości teoretycznych tego badanego zjawiska.
Parametr a stojący przy zmiennej t - współczynnik trendu,
parametr b - wyraz wolny
t- jednostki umowne wprowadzane dla określenia czasu.
współczynnik trendu mówi nam o ile zmienia się wielkość badanego zjawiska y z okresu na okres (przy wzroście t o jednostkę). Parametr b (wyraz wolny) określa nam teoretyczną wielkość badanego zjawiska w okresie t przyjętym za zerowy.
Funkcje trendu są wykorzystywane do budowania prognoz wielkości zjawiska w okresach przyszłych. Diagnozując zakładamy, że dotychczasowa tendencja nie ulegnie zmianie. Wielkość błędu popełnionego przy prognozowaniu obliczamy przy pomocy tzw. średniego błędu szacunkowego
Do badania zmian cyklicznych, sezonowych stosujemy wskaźniki zwane wskaźnikami sezonowości (Oi)
Oij j - 1,2,...,n - liczba badanych lat
i - 1,2,....,d - liczba podokresów
- ilorazy wielkości empirycznych
wtedy obliczmy wskaźnik korygujący:
Oi - surowe wskaźniki sezonowości, po poprawieniu nazywamy czystymi wskaźnikami sezonowości.
Wskaźniki te mogą być wyrażone w procentach. Są wielkościami niemianowanymi.
Oi >1 lub Oi > 100% - oznacza to, że w każdym i-tym kwartale wielkość zjawiska jest (Oi - 100%) wyższa niż to wynika z linii trendu.
Oi <1 lub Oi < 100% - oznacza to, że wielkość badanego zjawiska jest w każdym i - tym kwartale mniejsza o (Oi - 100%).
Wskaźniki sezonowości Oi są to tzw. względna miary sezonowości. Wpływ wahań sezonowych w jednostkach absolutnych wyznaczamy obliczając wartość gi :
gi - wielkości mianowane
Zt - reszta
wzór 31
dla prostej k=2
Statystyka matematyczna
Wnioskowanie statystyczne - uogólnienie wniosków uzyskanych na podstawie próby losowej na całą zbiorowość generalną, z której ta próba została wybrana.
N - liczebność całej zbiorowości generalnej
n - liczebność próby
Przestrzeń prób - wszystkie możliwe do wylosowania próby z całej zbiorowości generalnej.
Chcąc przeprowadzić losowy dobór próby należy dysponować tzw. operatorem losowania - wykaz wszystkich jednostek zbiorowości generalnej i tylko jednostek zbiorowości generalnej
Schemat losowania próby:
Losowania nieograniczone i warstwowe:
Nieograniczone - polega na wyborze jednostek losowania bezpośrednio z całej zbiorowości generalnej;
Warstwowe - całą zbiorowość dzielimy na części zwane warstwami i przeprowadzamy losowanie z poszczególnych warstw.
Losowanie indywidualne i zespołowe:
Indywidualne - jednostka losowania jest jednocześnie jednostką badania;
Zespołowe - jednostką losowania jest zespół (np.: grupy studenckie: badania wszystkich uczestników grupy).
Losowanie zależne i niezależne:
Niezależne - (ze zwrotem);
Zależne - (bez zwrotu);
Losowanie jednostopniowe i wielostopniowe:
Jednostopniowe - w jednym akcie losowania wybieramy jednostki badania;
Wielostopniowe - jednostka badania jest wybierana w drugim, trzecim akcie losowania.
Jeżeli losowanie jest losowaniem nieograniczonym, niezależnym, jednostopniowym i indywidualnym to takie losowanie nazywamy losowaniem prostym, a otrzymaną próbę - próbą prostą. Statystyka matematyczna zajmuje się wnioskowaniem na podstawie prób prostych. Każdy element próby (wynik próby) jest zmienną losową i funkcje wyników z próby są zmiennymi losowymi.
P(X = xi)= pi - rozkład zmiennej losowej.
Jeżeli znamy wartości jakie przyjmuje zmienna losowa i prawdopodobieństwo przyjmowania tych wartości to mówimy o rozkładzie zmiennej losowej
Rozkład zmiennej losowej może być przedstawiony.
1. Metodą tabelaryczną.
2.Przy pomocy wzoru - funkcja prawdopodobieństwa P(X = xi)= pi.
3.Metodą graficzną.
Pi
Xi
Rodzaje zmiennych losowych:
- typu skokowego (dyskretne).
- typu ciągłego.
Rozkład zmiennej losowej jest określany przy pomocy funkcji prawdopodobieństwa.
Rozkład zmiennej losowej skokowej.
0≤ Pi ≤ 1
k - liczba wartości zmiennej losowej
Dystrybuanta F(x) - prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość mniejszą od x.
F(x)=P(X<x)
Dystrybuanta dla zmiennej losowej typu skokowego jest to suma kolejnych prawdopodobieństw.
Osiąga wartości (0;1), jest funkcją niemalejącą i przynajmniej lewostronnie ciągłą.
Charakterystyki liczbowe rozkładu zmiennej losowej (parametry zmiennej losowej) - tzw. wartość oczekiwana (nadzieja matematyczna) - oecnia średnią wartość zmiennej losowej.
rozkład zmiennej losowej - używamy tzw. funkcji losowej prawdopodobieństwa
Rodzaje wnioskowania statystycznego
Wnioskowanie statystyczne - to uogólnienie wyników z próby losowej na całą zbiorowość generalną, z której ta próba została pobrana.
Istnieją dwa rodzaje wnioskowania:
1. Estymacja - szacowanie parametrów zbiorowości generalnej na podstawie próby .
2. Weryfikacja (testowanie) hipotez statystycznych.
Estymacja może być prowadzona metodą punktową lub przedziałową.
Estymacja przedziałowa polega na wyznaczaniu przedziału liczbowego, który z dużym prawdopodobieństwem będzie zawierał nieznaczną wartość parametru w całej zbiorowości generalnej.
To prawdopodobieństwo nazywamy współczynnikiem ufności lub poziomem wiarygodności a otrzymany przedział liczbowy - przedziałem ufności. Połową szerokości przedziału ufności nazywamy max błędem szacunku.
1-α - współczynnik ufności
Dla współczynnika ufności 1-α przyjmujemy najczęściej wartości:
1-α
0,90
0,95
0,99
0,9545
Budowa przedziału ufności dla frakcji w zbiorowości generalnej.
Frakcja - to udział, częstość, wskaźnik struktury odsetek.
Nazwa parametru |
Zbiorowość generalna Szacowany parametr Θ |
Zbiorowość próbna Estymator Tn |
Średnia arytmetyczna Odchyl standardowe Frakcja Liczebność Współczynnik korelacji liniowej Pearsona |
m, u δ P N
ξxy |
x (z kreską) S k/n n
rxy |
Losujemy próbę n - elementową liczną (u powinno być większe od stu elementów ). Frakcja w próbie ma rozkład w przybliżeniu normalny (asymptotycznie normalny) o średniej p i odchyleniu standardowym
Uα - wartość standardowa zmiennej losowej o rozkładzie normalnym.
Wzór na przedział ufności dłuższy od szacowania frakcji w zbiorowości generalnej.
- odchylenie standardowe frakcji (błąd standardowy)
d -
- maksymalny błąd szacunku odchylenia.
Rozkład Χ2
Niech będzie dany ciąg niezależnych zm. Losowych U o rozkładach normalnych standaryzowanych. Ui: N(0,1) tworzymy nową zmienną
ta nowa zmienna U2 ma właśnie rozkład Χ2 o k stopniach swobody gdzie k - liczba stopni swobody jest parametrem tego rozkładu.
E(U2)=K D2(U2)
f(x)
U2
Istnieją tablice tzw. Wartości krytycznej tego rozkładu. Jeśli liczba swobody k dąży do rozkładu Χ2 dąży do dystrybuanty rozkładu normalnego o nadziei matematycznej (E) i odchyleniu standardowym
Rozkład t - Studenta
Niech będzie dana zmienna losowa U o rozkładzie normalnym standaryzowanym i zmienna losowa U2 o rozkładzie Χ2 i U stopniach swobody.
U:N(0,1) U2:χ2(k,
)
Tworzymy sobie nową zmienną losową
jako iloraz tych dwóch zmiennych. Zmienna U i U2 są zmiennymi niezależnymi. Nowo powstała zmienna T ma rozkład Studenta o K stopniach swobody, gdzie K jest parametrem tego rozkładu.
E(T)=0
k>2
odchylenie standardowe
rozkład ten jest rozkładem symetrycznym określanym na osi.
F(x)
t
Jeżeli liczba stopni swobody K→∞ to dystrybuanta rozkładu Studenta dąży do dystrybuanty rozkładu normalnego standaryzowanego.
To zbieżność następuje przy k>30
Szacowanie średniej w zbiorowości generalnej m - szacowany parametr. Θ = m Tn = x średnia z próby
Losujemy próbę n < 30 ze zbiorowości, w której cecha ma rozkład normalny.
Χ:N(m,δ)
O średniej m
E(x)=m D(x)=δ
Średnia z próby ma wówczas rozkład normalny, ale o parametrach
Tak przekształcona średnia z próby ma rozkład normalny, ale o parametrach
zależy od przyjętego współczynnika, ufności i liczebności próby.
Wzór na niezbędną liczebność próby na podstawie, której będzie szacowana średnia.
b) Θ=m
n>30
d2n=U2αδ2
Za wartość odchylenia standardowego.б przyjmujemy wartość odchylenia standardowego z próby wstępnej.
Weryfikacja hipotez statystycznych - przypuszczenie dotyczące rozkładu zbiorowości generalnej lub parametrów tego rozkładu i dająca się sprawdzić metodami statystyki matematycznej. Hipotezy mogą być proste (zbiorem dopuszczalnych hipotez 1- elementowy) i złożonej (zbiorowości wieloelementowej). Błędy możliwe do popełnienia przy weryfikacji hipotez.
Decyzja |
Weryfikacja hipotez |
|
|
Prawda |
Fałsz |
Odrzucamy |
- |
+ |
Przyjmujemy |
+ |
- |
odrzucenie prawdy - błąd pierwszego rodzaju
przyjęcie prawdy - błąd drugiego rodzaju.
Prawdopodobieństwo popełnienia błędu pierwszego rodzaju nazywamy poziomem istotności i oznaczamy α - częstość popełniania błędu.
Określamy jego wartość α = 0,10, 0,05, 0,01, 0,001. Przebieg weryfikacji hipotezy statystycznej nazywamy testem statystycznym.
Etapy testu statystycznego:
1.Formułujemy hipotezę weryfikacyjną Ho - musi być hipotezą prostą.
2.Formułujemy hipotezę alternatywną (konkurencyjną do Ho), którą przyjmujemy jeżeli uda się nam odrzucić Ho.
3. Losujemy próbę n - elementową.
4. Wybieramy postać sprawdzianu (funkcja wyników z próby służąca do podjęcia decyzji Ho, jako funkcja wykładnicza. Próba losowa jest zmienną losową (posiada rozkład) ustalony rozkład tego sprawdzianu kierując się informacją o zbiorowości generalnej i liczebnością próby.
5. Obliczamy wartość sprawdzianu na podstawie wyniku z próby.
6. Ustalamy poziom istotności α.
7. wyznaczamy wartość krytyczną sprawdzianu, która daje początek obszarowi odrzucenia, tę wartość krytyczną ustalamy na podstawie rozkładu sprawdzianu, α z postaci H1.
8. Porównujemy wartość sprawdzianu obliczoną z próby z wartością krytyczną sprawdzianu.
9. Podejmujemy decyzje Ho
jeżeli wartość sprawdzianu znajduje się w obszarze odrzucenia ho odrzucamy na korzyść H1.
jeżeli wartość sprawdzianu znajduje się poza obszarem odrzucenia mówimy, że nie mamy podstaw do odrzucenia Ho.
TESTY NIEPARAMETRYCZNE
Próbą testów nieparametrycznych są testy zgodności przy pomocy tych testów chcemy sprawdzić czy populacja, z której została pobrana próba ma rozkład o odpowiedniej postaci funkcyjnej Fo(x)
Hipotezę Ho: F(x) = Fo(x) - gdy sprawdzamy zarówno postać dystrybuanty jak i jej parametry.
H0:F(x)€Ω
rodzina dystrybuant o określonej postaci funkcyjnej, np. rodzina dystrybuant o rozkładzie normalnym.
Testem zgodności, który sprawdza tego typu hipotezy jest test zgodności Χ2. Statystyka użyta w tym teście jako miara zgodności rozkładu w próbie z rozmiarem hipotetycznym ma rozkład Χ2 a ściślej mówiąc nawet asymptyczny rozkład Χ2 . Ten test można stosować zarówno dla zmiennych skokowych jak i dla zmiennych ciągłych. Statystyka Χ2 ma następujący wzór:
as χ2(r-k-1) - struktura swobody
r >5
ni ≥ 8
n≥50
r- ilość przedziałów w próbie
k- ilość szacowanych parametrów rozkładu.
ni- - liczebności empiryczne tzn. takie jakie pojawiły się w próbie w r-tej klasie.
n- wielkość próby
pi - prawdopodobieństwo otrzymania obserwacji w i-tej klasie gdy jest prawdziwa hipoteza Ho.
n- pi -teoretyczne liczebności czyli liczebności spodziewane gdy jest prawdziwa hipoteza Ho.
Gdy w rozkładzie empirycznym z próby występuje liczebność mniejsza niż 8 to należy połączyć ją z sąsiednią uzyskując przedział o liczebności większej niż 8. Obszar odrzucenia w tym teście jest prawo stronny; ponieważ im bardziej ni różni się od npi tym bardziej błśędne było przypuszczenie Ho.
Χ2α χ2
Testy niezależności χ2 chi-kwadrat.
Służy do sprawdzenia zależności między dwiema cechami. Najczęściej jakościowymi.
H0: brak zależności P(X=xi ^Y=yj) = P(X=xi)*P(Y=yj)
H1: P(X=xi ^Y=yj) ≠P(X=xi)*P(Y=yj)
Wyniki badania zestawiamy w tablicy korelacyjnej tak aby liczebność w poszczególnych polach tablicy nie były mniejsze niż 5 jednostek.
Sprawdzianem dla tej hipotezy jest statystyka χ2
Statystyka tej postaci (sprawdzian ten) przy założeniu prawdziwościH0ma rozkład χ2 o (k-1) (w-1) * r - stopniach swobody
Obszar odrzucenia budujemy prawostronnie
F(χ2)
Obszar odrzucenia
α
χ2
P(χ2≥χ2α)= α
Wartość χ2α odczytujemy z tablic wartości krytycznych rozkładu χ2.
Jeżeli wartość sprawdzianu znajduje się w obszarze odrzucenia hipotezy H0 o braku zależności odrzucamy na korzyść hipotezy H1, co oznacza że zależność jest znamienna statystycznie. Jeżeli wartość sprawdzianu nie znajduje się w obszarze odrzucenia wówczas nie mamy podstaw do odrzucenia hipotezy o braku zależności, co oznacza iż związek nie jest znamienny statystycznie.
zmienną losową (posiada rozkład) ustalony rozkład tego sprawdzianu kierując się informacją o zbiorowości generalnej i liczebnością próby.
5. Obliczamy wartość sprawdzianu na podstawie wyniku z próby.
6. Ustalamy poziom istotności α.
7. wyznaczamy wartość krytyczną sprawdzianu, która daje początek obszarowi odrzucenia, tę wartość krytyczną ustalamy na podstawie rozkładu sprawdzianu, α z postaci H1.
8. Porównujemy wartość sprawdzianu obliczoną z próby z wartością krytyczną sprawdzianu.
9. Podejmujemy decyzje Ho
jeżeli wartość sprawdzianu znajduje się w obszarze odrzucenia ho odrzucamy na korzyść H1.
jeżeli wartość sprawdzianu znajduje się poza obszarem odrzucenia mówimy, że nie mamy podstaw do odrzucenia Ho.
TESTY NIEPARAMETRYCZNE
Próbą testów nieparametrycznych są testy zgodności przy pomocy tych testów chcemy sprawdzić czy populacja, z której została pobrana próba ma rozkład o odpowiedniej postaci funkcyjnej Fo(x)
Hipotezę Ho: F(x) = Fo(x) - gdy sprawdzamy zarówno postać dystrybuanty jak i jej parametry.
H0:F(x)€Ω
rodzina dystrybuant o określonej postaci funkcyjnej, np. rodzina dystrybuant o rozkładzie normalnym.
Testem zgodności, który sprawdza tego typu hipotezy jest test zgodności Χ2. Statystyka użyta w tym teście jako miara zgodności rozkładu w próbie z rozmiarem hipotetycznym ma rozkład Χ2 a ściślej mówiąc nawet asymptyczny rozkład Χ2 . Ten test można stosować zarówno dla zmiennych skokowych jak i dla zmiennych ciągłych. Statystyka Χ2 ma następujący wzór:
as χ2(r-k-1) - struktura swobody
r >5
ni ≥ 8
n≥50
r- ilość przedziałów w próbie
k- ilość szacowanych parametrów rozkładu.
ni- - liczebności empiryczne tzn. takie jakie pojawiły się w próbie w r-tej klasie.
n- wielkość próby
pi - prawdopodobieństwo otrzymania obserwacji w i-tej klasie gdy jest prawdziwa hipoteza Ho.
n- pi -teoretyczne liczebności czyli liczebności spodziewane gdy jest prawdziwa hipoteza Ho.
Gdy w rozkładzie empirycznym z próby występuje liczebność mniejsza niż 8 to należy połączyć ją z sąsiednią uzyskując przedział o liczebności większej niż 8. Obszar odrzucenia w tym teście jest prawo stronny; ponieważ im bardziej ni różni się od npi tym bardziej błśędne było przypuszczenie Ho.
Χ2α χ2
Testy niezależności χ2 chi-kwadrat.
Służy do sprawdzenia zależności między dwiema cechami. Najczęściej jakościowymi.
H0: brak zależności P(X=xi ^Y=yj) = P(X=xi)*P(Y=yj)
H1: P(X=xi ^Y=yj) ≠P(X=xi)*P(Y=yj)
Wyniki badania zestawiamy w tablicy korelacyjnej tak aby liczebność w poszczególnych polach tablicy nie były mniejsze niż 5 jednostek.
Sprawdzianem dla tej hipotezy jest statystyka χ2
Statystyka tej postaci (sprawdzian ten) przy założeniu prawdziwościH0ma rozkład χ2 o (k-1) (w-1) * r - stopniach swobody
Obszar odrzucenia budujemy prawostronnie
F(χ2)
Obszar odrzucenia
α
χ2
P(χ2≥χ2α)= α
Wartość χ2α odczytujemy z tablic wartości krytycznych rozkładu χ2.
Jeżeli wartość sprawdzianu znajduje się w obszarze odrzucenia hipotezy H0 o braku zależności odrzucamy na korzyść hipotezy H1, co oznacza że zależność jest znamienna statystycznie. Jeżeli wartość sprawdzianu nie znajduje się w obszarze odrzucenia wówczas nie mamy podstaw do odrzucenia hipotezy o braku zależności, co oznacza iż związek nie jest znamienny statystycznie.
zmienną losową (posiada rozkład) ustalony rozkład tego sprawdzianu kierując się informacją o zbiorowości generalnej i liczebnością próby.
5. Obliczamy wartość sprawdzianu na podstawie wyniku z próby.
6. Ustalamy poziom istotności α.
7. wyznaczamy wartość krytyczną sprawdzianu, która daje początek obszarowi odrzucenia, tę wartość krytyczną ustalamy na podstawie rozkładu sprawdzianu, α z postaci H1.
8. Porównujemy wartość sprawdzianu obliczoną z próby z wartością krytyczną sprawdzianu.
9. Podejmujemy decyzje Ho
jeżeli wartość sprawdzianu znajduje się w obszarze odrzucenia ho odrzucamy na korzyść H1.
jeżeli wartość sprawdzianu znajduje się poza obszarem odrzucenia mówimy, że nie mamy podstaw do odrzucenia Ho.
TESTY NIEPARAMETRYCZNE
Próbą testów nieparametrycznych są testy zgodności przy pomocy tych testów chcemy sprawdzić czy populacja, z której została pobrana próba ma rozkład o odpowiedniej postaci funkcyjnej Fo(x)
Hipotezę Ho: F(x) = Fo(x) - gdy sprawdzamy zarówno postać dystrybuanty jak i jej parametry.
H0:F(x)€Ω
rodzina dystrybuant o określonej postaci funkcyjnej, np. rodzina dystrybuant o rozkładzie normalnym.
Testem zgodności, który sprawdza tego typu hipotezy jest test zgodności Χ2. Statystyka użyta w tym teście jako miara zgodności rozkładu w próbie z rozmiarem hipotetycznym ma rozkład Χ2 a ściślej mówiąc nawet asymptyczny rozkład Χ2 . Ten test można stosować zarówno dla zmiennych skokowych jak i dla zmiennych ciągłych. Statystyka Χ2 ma następujący wzór:
as χ2(r-k-1) - struktura swobody
r >5
ni ≥ 8
n≥50
r- ilość przedziałów w próbie
k- ilość szacowanych parametrów rozkładu.
ni- - liczebności empiryczne tzn. takie jakie pojawiły się w próbie w r-tej klasie.
n- wielkość próby
pi - prawdopodobieństwo otrzymania obserwacji w i-tej klasie gdy jest prawdziwa hipoteza Ho.
n- pi -teoretyczne liczebności czyli liczebności spodziewane gdy jest prawdziwa hipoteza Ho.
Gdy w rozkładzie empirycznym z próby występuje liczebność mniejsza niż 8 to należy połączyć ją z sąsiednią uzyskując przedział o liczebności większej niż 8. Obszar odrzucenia w tym teście jest prawo stronny; ponieważ im bardziej ni różni się od npi tym bardziej błśędne było przypuszczenie Ho.
Χ2α χ2
Testy niezależności χ2 chi-kwadrat.
Służy do sprawdzenia zależności między dwiema cechami. Najczęściej jakościowymi.
H0: brak zależności P(X=xi ^Y=yj) = P(X=xi)*P(Y=yj)
H1: P(X=xi ^Y=yj) ≠P(X=xi)*P(Y=yj)
Wyniki badania zestawiamy w tablicy korelacyjnej tak aby liczebność w poszczególnych polach tablicy nie były mniejsze niż 5 jednostek.
Sprawdzianem dla tej hipotezy jest statystyka χ2
Statystyka tej postaci (sprawdzian ten) przy założeniu prawdziwościH0ma rozkład χ2 o (k-1) (w-1) * r - stopniach swobody
Obszar odrzucenia budujemy prawostronnie
F(χ2)
Obszar odrzucenia
α
χ2
P(χ2≥χ2α)= α
Wartość χ2α odczytujemy z tablic wartości krytycznych rozkładu χ2.
Jeżeli wartość sprawdzianu znajduje się w obszarze odrzucenia hipotezy H0 o braku zależności odrzucamy na korzyść hipotezy H1, co oznacza że zależność jest znamienna statystycznie. Jeżeli wartość sprawdzianu nie znajduje się w obszarze odrzucenia wówczas nie mamy podstaw do odrzucenia hipotezy o braku zależności, co oznacza iż związek nie jest znamienny statystycznie.
1
1
E1 E2 EK
X1 X2 XK
P1 P2
PK