VIII. Ekonometria
1. Zdefiniować model ekonometryczny. Przedstawić klasyfikację modeli ekonometrycznych.
Model ekonometryczny jest to konstrukcja formalna, która za pomocą pewnego równania lub układu równań przedstawia zasadnicze powiązania występujące pomiędzy rozpatrywanymi zjawiskami ekonomicznymi. Co najmniej jedno z równań modelu ekonometrycznego jest równaniem stochastycznym, tj. zawierającym składnik losowy. Strukturę każdego równania określają: zmienna objaśniana, zmienne objaśniające (nielosowe albo losowe) mające ustaloną treść ekonomiczną, zmienna losowa (tradycyjnie nazywana składnikiem losowym) o nieznanej treści oraz określony typ związku funkcyjnego między zmienną objaśnianą, zmiennymi objaśniającymi i składnikiem losowym. Zazwyczaj zjawiska ekonomiczne są bardzo złożone. Konsekwencją tego jest to, że zaobserwowane wartości zmiennej objaśnianej nie są dokładnie równe wartościom wyznaczonym z modelu, lecz oscylują wokół nich. Odchylenia rzeczywistych wartości zmiennej objaśnianej od jej wartości wyznaczonych z modelu są odzwierciedlone przez składniki losowe.
Modele ekonometryczne klasyfikowane są według sześciu kryteriów:
liczby równań w modelu,
postaci analitycznej zależności funkcyjnych modelu,
stopnia uwzględnienia czasu,
umorzenia informacji;
charakteru powiązań między zmiennymi
zjawisk opisywanych zmiennymi objaśnianymi
Kryterium 1. Modele według liczby równań w modelu :
- modele jednorównaniowe - występuję tylko jedna zmienna objaśniana,
- modele wielorównaniowe – jest układem równań, w którym każde równanie objaśnia jedną zmienną;
Kryterium 2. Modele według postaci analitycznej:
- modele liniowe - w modelach tych wszystkie zależności są liniowe,
- modele nieliniowe - przynajmniej jedna zależność modelu jest nieliniowa;
Kryterium 3. Modele według stopnia uwzględnienia czasu:
- modele statyczne – nie uwzględniają czynnika czasu, wśród zmiennych objaśniających nie występują zmienne opóźnione ani zmienna czasowa,
- modele dynamiczne – uwzględniają czynnik czasu, przykładem modelu dynamicznego jest model trendu, model autoregresyjny;
Kryterium 4. Modele według umorzenia informacji:
- modele przyczynowo – opisowe – wyrażają związki przyczynowo – skutkowe między zmiennymi objaśniającymi i objaśnianymi,
- modele tendencji rozwojowej – w charakterze zmiennej objaśniającej występuje zmienna czasowa. Modele te badają zachowanie się zmiennej objaśnianej w czasie, jej trend oraz ewentualne wahania cykliczne i sezonowe,
-modele symptomatyczne – spełniają marginalną rolę wśród modeli ekonometrycznych ze względu na rzadkość ich stosowania. Mogą być wykorzystywane do celów predykcji;
Kryterium 5. Modele według charakteru powiązań między zmiennymi:
- modele proste,
- modele rekurencyjne,
- modele o równaniach współzależnych;
Kryterium 6. Modele według zjawisk opisywanych zmiennymi objaśnianymi, na przykład :
- modele makroekonomiczne,
- modele mikroekonomiczne,
- modele branżowe,
- modele regionalne.
2. Wymienić i scharakteryzować etapy budowy modelu ekonometrycznego.
Sformułowanie modelu
W pierwszym etapie należy dokonać wyboru zmiennej objaśnianej Y oraz ustalić zbiór zmiennych objaśniających X={X1,X2…X3}, które będą charakteryzować zmienną objaśnianą. Wybrane zmienne muszą mieć wysoką zmienność (V>30%). Źródłem wybranych zmiennych objaśniających może być teoria danej dziedziny wiedzy, doświadczenie zleceniodawcy i statystyka lub metoda prób i błędów (intuicyjnie). Na tym etapie należy wybrać postać matematyczną modelu oraz zaproponować możliwie obszerną listę „potencjalnych zmiennych objaśniających” w oparciu o merytoryczną wiedzę o badanych zjawiskach.
Listę należy wstępnie zweryfikować, eliminując z niej zmienne:
- które mają charakter jakościowy – niemierzalny,
- dla których brak jest kompletnych danych;
- które w niewielkim stopniu różnicują badane jednostki.
Zebranie danych statystycznych
Dane statystyczne wykorzystane w modelu ekonometrycznym stanowią podstawę szacowania nieznanych parametrów modelu. Typy danych:
Przekrojowe- wiele obiektów w danej jednostce czasu.
Szeregi czasowe - jeden obiekt w różnych jednostkach czasu z danego przedziału.
Dane przekrojowo-czasowe - wiele obiektów w różnych jednostkach czasu.
Zebrane informacje powinny być rzetelne, kompletne, możliwie liczne. Liczebność obserwacji wpływa dodatnio na precyzję szacowania parametrów modelu. Dane statystyczne mogą pochodzić z roczników statystycznych, dokumentacji przedsiębiorstwa, innych instytucji, ankiet, wywiadów lub od prywatnych agencji trudniących się zbieraniem informacji. Na tym etapie należy sprawdzić czy zmienne mają odpowiedni współczynnik zmienności:
Vx =$\ \frac{s(x)}{\overset{\overline{}}{x}}*100\%$
Selekcja zmiennych objaśniających
W trzecim etapie należy zredukować zbiór wstępnie wytypowanych zmiennych objaśniających. Każda zmienna wytypowana w 1 etapie traktowana jest jako potencjalna zmienna objaśniająca. Wyselekcjonowane zmienne powinny być silnie skorelowane ze zmienną objaśnianą i jednocześnie stosunkowo słabo skorelowane między sobą. Wybrane zmienne objaśniające nie mogą być powiązane ze sobą, ponieważ dwie podobne zmienne mogą sobie nawzajem przeszkadzać oraz może to doprowadzić do powielania informacji.
Metody selekcji zmiennych objaśniających:
• badanie istotności korelacji
• metoda grafowa
• metoda Hellwiga (pojemności informacji)
• metody taksonomiczne
Estymacja parametrów modelu
Estymacja, czyli szacowanie modelu obejmuje szacowanie parametrów populacji na podstawie próbki w celu wyznaczenia parametrów strukturalnych i stochastycznych.
Metody estymacji:
analiza regresji i korelacji (KMNK)
Weryfikacja modelu
W piątym etapie należy sprawdzić czy parametry strukturalne przyjmują rozsądne wartości. Należy również przeprowadzić kontrolę dokładności oszacowania, czyli przeanalizować kilka parametrów struktury stochastycznej. Celem tego etapu jest opis rzeczywistości (populacji generalnej), dokładna (ostateczna) selekcja zmiennych objaśniających oraz poznanie składnika losowego.
Interpretacja modelu
Celem etapu jest formułowanie wniosków na podstawie analizy relacji zachodzących w przeszłości, prognozowanie wielkości opisanego przez model zjawiska lub symulacja różnych sytuacji.
3. Opisać na czym polega selekcja zmiennych objaśniających.
Selekcja zmiennych objaśniających polega na redukcji zbioru wstępnie wytypowanych zmiennych objaśniających. Wstępnym warunkiem uznania danej zmiennej za potencjalną zmienną objaśniającą jest jej dostatecznie duże zróżnicowanie. Zmienną objaśniającą nie może być zmienna, której poszczególne obserwacje nie różnią się między sobą lub różnią się niewiele. Miarą poziomu zróżnicowania jest klasyczny współczynnik zmienności:
Vj =$\ \frac{S(j)}{{\overset{\overline{}}{x}}_{j}}*100\%$
Sj- odchylenie standardowe danej zmiennej xj;
$\overset{\overline{}}{x}$j- średnia arytmetyczna zmiennej xj
Ze zbioru wstępnie rozważanych zmiennych objaśniających eliminuje się te zmienne, które dla obranej wcześniej wartości krytycznej współczynnika zmienności V* spełniają nierówność |Vj|≤V*.
Po określeniu L potencjalnych zmiennych objaśniających dokonuje się redukcji tego zbioru wybierając najlepszą (optymalną) kombinację. Wyselekcjonowane zmienne powinny być silnie skorelowane ze zmienną objaśnianą i jednocześnie stosunkowo słabo skorelowane między sobą. Wybrane zmienne objaśniające nie mogą być powiązane ze sobą, ponieważ dwie podobne zmienne mogą doprowadzić do efektu katalitycznego, czyli powielają swoje informacje, przeszkadzają sobie nawzajem, dwie zmienne dają mniej informacji niż każda z osobna. Metody selekcji zmiennych objaśniających w modelu ekonometrycznym:
• badanie istotności korelacji
• metoda grafowa
• metoda Hellwiga (pojemności informacji)
• metody taksonomiczne
4. Omówić metody doboru zmiennych objaśniających do modelu
ekonometrycznego.
Metody doboru zmiennych objaśniających :
• analiza korelacji – Współczynnik korelacji liniowej Pearsona
• metoda wskaźników pojemności informacji – metoda Hellwiga
• metoda analizy współczynników korelacji
• metoda grafowa
Analiza korelacji – Współczynnik korelacji liniowej Pearsona
Podstawą wyboru zmiennych objaśniających do modelu ekonometrycznego jest analiza korelacji. Współczynnik korelacji liniowej Pearsona rjl jest miarą liniowej zależności między zmiennymi xj oraz xl. Jest on określony następująco:
rjl = $\frac{\text{Cov}_{\text{jl}}}{s_{j}s_{l}}$
Covjl- jest to kowariancja między zmiennymi xj xl
Wartości współczynnika korelacji zawierają się w przedziale [-1;1]. Jego znak wskazuje na kierunek zależności. Wartość bezwzględna współczynnika korelacji wskazuje na siłę liniowej zależności między dwiema zmiennymi. Gdy |rjl|=1, wtedy występuje dokładna funkcyjna zależność linowa między zmiennymi xj oraz xl. Gdy rjl=0, wtedy nie występuje liniowa zależność między dwoma zmiennymi. Im większa wartość bezwzględna współczynnika korelacji, tym silniejsza jest zależność liniowa między zmiennymi. Obliczone współczynniki korelacji zestawia się zwykle w postaci macierzy korelacji R
R= $\begin{bmatrix} \text{\ \ \ \ }\begin{matrix} 1 & r_{12} & \ldots \\ r_{21} & 1 & \ldots \\ \ldots & \ldots & 1 \\ \end{matrix}\text{\ \ \ \ }\begin{matrix} r_{1L} \\ r_{2L\text{\ \ \ \ }} \\ \ldots \\ \end{matrix} \\ \text{\ \ \ }r_{L2}\text{\ \ \ \ \ \ }\begin{matrix} r_{1L} & \ldots & 1 \\ \end{matrix} \\ \end{bmatrix}\text{\ \ \ \ }$
Własności macierzy korelacji :
-1 ≤ rjl ≥1;
rjj=1;
rjl = rlj;
0≤ det R ≤ det R1 ≤ det R2 ≤ … ≤ 1
gdzie R1 jest podmacierzą macierzy R (po wykreśleniu jednego wiersza i jednej kolumny o tych samych numerach, czyli po usunięciu jednej zmiennej); analogicznie R2 jest podmacierzą macierzy R1.
Następnym krokiem jest sprawdzenie istotności współczynnika korelacji, sprawdzenie hipotezy
Ho: rxy =0-zmienne nie są istotnie skorelowane, wobec hipotezy alternatywnej H1: rxy ≠0
Dla wyznaczonego z próby współczynnika korelacji rxy sprawdzianem tej hipotezy jest wartość statystki t
t= $\frac{\left| r_{\text{xy}} \right|}{\sqrt{1 - r_{\text{xy}}^{2}}}\sqrt{n - 2}$
statystyka t-studenta dla n < 120
tα należy odczytać z tablic rozkładu Studenta dla ustalonego z góry poziomu istotności α oraz dla n-2 stopni swobody.
tα < t to H0 należy odrzucić, wartość rxy istotnie różni się od zera
tα ≥t nie ma podstaw do odrzucenia H0, wartość rxy otrzymana z próby jest dziełem przypadku.
Metoda wskaźników pojemności informacji – metoda Hellwiga
Zmienne wybrane do liniowego modelu ekonometrycznego powinny być możliwie silnie skorelowane ze zmienna objaśnianą oraz słabo skorelowane między sobą. Kryterium metody to tzw. pojemność integralna kombinacji nośników informacji. Nośnikami informacji są wszystkie potencjalne zmienne objaśniające. Gdy występuje m potencjalnych zmiennych objaśniających, istnieje 2m-1 możliwych kombinacji zmiennych objaśniających.
Indywidualna pojemność nośników informacji- definiowana dla każdej kombinacji.
Wskaźnik hkj jest miernikiem wielkości informacji wnoszonej przez zmienną xj o zmiennej objaśnianej y w k-tej kombinacji. Hkj przyjmuje wartości tym większe, im większy jest współczynnik korelacji r j oraz tym mniejsze im mocniej zmienna xj jest skorelowana z pozostałymi zmiennymi rozpatrywanej kombinacji.
hkj=$\text{\ \ \ \ }\frac{r_{j}^{2}}{\sum_{jie\alpha k}^{}\left| r_{\text{lj}} \right|}$
k- numer kombinacji (k= 1,2….,2m-1);
αk- zbiór numerów zmiennych w rozpatrywanej kombinacji;
j- numer zmiennej w rozpatrywanej kombinacji ,
rj- współczynnik korelacji potencjalnej zmiennej objaśnijącej o numerze j ze zmienną objaśnianą (element wektora korelacji R)
rlj- współczynnik korelacji między j-tą i l-tą potencjalną zmienną objaśniającą (element macierzy korelacji R)
Integralna pojemność kombinacji nośników informacji
Hk=$\sum_{jie\alpha_{k}}^{}h_{\text{kj}}$, (k=1,2,..., 2m-1)
Pojemność integralna k-tej kombinacji jest sumą indywidualnych pojemności nośników, wchodzących w skład tej kombinacji. Pojemność integralna stanowi kryterium wyboru odpowiedniej kombinacji zmiennych objaśniających . Wybiera się tę kombinację, dla której wartość Hk jest największa. Wartość wskaźnika indywidualnego i integralnego mieszczą się w przedziale [0,1].
Metoda analizy współczynników korelacji
W metodzie tej ustala się tzw. wartość krytyczną współczynnika korelacji. Określa ona poziom istotności współczynnika korelacji. Wartość ta może być zadana przez badacza lub wyznaczona ze wzoru
r*=$\sqrt{\frac{t^{2}}{t^{2} + n - 2}}$
t- wartość statystki odczytaną z tablic testu t- Studenta dla zadanego poziomu istotności α oraz dla n-2 stopni swobody. Procedura doboru zmiennych:
Ze zbioru potencjalnych zmiennych objaśniających eliminuje się wszystkie zmienne, dla których zachodzi nierówność
|rj| ≤ r*
są to zmienne nieistotnie skorelowane ze zmienną objaśnianą.
Spośród pozostałych potencjalnych zmiennych jako zmienną objaśniającą wybiera się taką zmienną xh, dla której
|rh| = |rj|
ponieważ zmienna xh jest nośnikiem największego zasobu informacji o zmiennej objaśnianej.
Ze zbioru pozostałych potencjalnych zmiennych objaśniających eliminuje się te wszystkie zmienne, dla których
|rhi| > r*
są to zmienne zbyt silnie skorelowane ze zmienną objaśniającą xh, więc powielające dostarczone przez nią informacje.
Jeśli pozostały jeszcze jakieś zmienne, to należy przejść do punktu 2.
Metoda grafowa
Idea tej metody, podobnie jak w metodzie pojemności informacji opiera się na wyborze takich zmiennych objaśniających do modelu, które są silnie skorelowane ze zmienną objaśnianą oraz słabo skorelowane między sobą. Procedura rozpoczyna się od utworzenia wektora korelacji Ro oraz macierzy korelacji R. W kolejnym etapie sprawdzamy, które elementy macierzy są tak małe, że możemy uznać je za zerowe (nieistotnie różne od zera). W tym celu porównujemy rzeczywiste współczynniki korelacji rij z macierzy R ze współczynnikiem krytycznym, który możemy wyznaczyć dwoma sposobami :
pierwszy sposób to wykorzystanie wzoru
r*=$\sqrt{\frac{t^{2}}{t^{2} + n - 2}}$
drugi sposób to wykorzystanie reguły minimaksowej, gdzie na podstawie macierzy R ustalamy:
r*= |rij|, dla j≠i
Jeśli zachodzi warunek |rij| ≤ r*, to wszystkie elementy spełniające ten warunek zastępujemy w macierzy R zerami. Macierz tę oznaczymy R’.
W kolejnym etapie na podstawie macierzy R’ budujemy graf, w którym wierzchołkami są potencjalne zmienne objaśniające, a wiązadłami niezerowe elementy macierzy R’. Możemy otrzymać graf spójny lub kilka podgrafów, a także zmienne odosobnione. Z tak powstałych grafów do modelu wybieramy zmienne odosobnione oraz te zmienne, które mają największą liczbę powiązań z innymi potencjalnymi zmiennymi objaśniającymi. Jeżeli takich zmiennych jest więcej niż jedna, to wybiera się spośród nich tę, która jest najsilniej skorelowana ze zmienną objaśnianą.
5. Opisać etap estymacji parametrów modelu i założenia metody najmniejszych
kwadratów.
Estymacja, czyli szacowanie modelu obejmuje szacowanie parametrów populacji na podstawie próbki, w celu wyznaczenia parametrów strukturalnych i stochastycznych. W jednorównaniowym modelu ekonometrycznym z jedną zmienną objaśniającą parametry strukturalne β0 i β1 na ogół nie są znane. Ich wartości mogą być oszacowane (estymowane) na podstawie n-elementowej próby (xi yi), i=1,2,…n. Estymatorami parametrów strukturalnych modelu β0 i βl są pewne funkcje obserwacji dokonanych na zmiennych objaśniającej i objaśnianej. Konkretne wartości tych funkcji nazywa się ocenami parametrów β0 i βl oznacza się odpowiednio b0 i b1. Wartości zmiennej objaśnianej otrzymane z modelu przy ocenach b0 i b1 nazywane są wartościami teoretycznymi zmiennej objaśnianej. Oznacza się je przez $\hat{y_{i}}$ i oblicza jako:
$\hat{y_{i}}$=b0+b1x1, i=1,2,…,n
Różnicę pomiędzy wartością empiryczną zmiennej objaśnianej yi a wartością teoretyczną $\hat{y_{i}}$ nazywa się i-tą resztą:
ei= yi-$\hat{y_{i}}$, i=1,2,…,n
Najczęściej stosowaną metodą estymacji nieznanych parametrów strukturalnych β0 i β1 jest metoda najmniejszych kwadratów.
Zastosowanie klasycznej metody najmniejszych kwadratów wymaga przyjęcia następujących założeń:
postać modelu jest liniowa względem parametrów (lub sprowadzalna do liniowej);
zmienne objaśniające są wielkościami nielosowymi;
zmienne są niezależne i wolne od współliniowości, czyli nie występuje między zmiennymi dokładna zależność liniowa
r(X)=m+1 ≤n (X-macierz obserwacji na zmiennych objaśniających)
E(є)=0, czyli składniki losowe dla wszystkich obserwacji mają wartości oczekiwane równe zeru,
E(єєT)=σ2I - składnik losowy dla każdej obserwacji ma skończoną wariancję równą σ2, natomiast kowariancje między różnymi składnikami losowymi są równe zeru; oznacza to, że nie występuje autokorelacja składnika losowego, czyli nie występuje zależność między składnikami losowymi z różnych okresów;
Składnik losowy є nie jest skorelowany ze zmiennymi objaśniającymi.
6. Omówić metodę wskaźników pojemności informacji.
Punktem wyjścia metod statycznych jest obliczanie współczynników korelacji, a następnie zestawienie ich zwykle w postaci wektora Ro oraz macierzy R. Zmienne wybrane do liniowego modelu ekonometrycznego powinny być możliwie silnie skorelowane ze zmienna objaśnianą oraz słabo skorelowane między sobą. Sformułowane zalecenie nie może być ścisłym kryterium doboru zmiennych, potrzebne jest kryterium liczbowe. Wspomnianym kryterium jest tzw. pojemność integralna kombinacji nośników informacji. Nośnikami informacji są wszystkie potencjalne zmienne objaśniające. Gdy występuje m potencjalnych zmiennych objaśniających, istnieje 2m-1 możliwych kombinacji zmiennych objaśniających. Kolejny krok to wyznaczenie indywidualnej pojemności nośników informacji oraz wyznaczenie integralnej pojemności kombinacji nośników informacji.
Indywidualna pojemność nośników informacji definiowana dla każdej kombinacji.
Wskaźnik hkj jest miernikiem wielkości informacji wnoszonej przez zmienną xj o zmiennej objaśnianej y w k-tej kombinacji. Hkj przyjmuje wartości tym większe, im większy jest współczynnik korelacji r j oraz tym mniejsze im mocniej zmienna xj jest skorelowana z pozostałymi zmiennymi rozpatrywanej kombinacji.
hkj=$\text{\ \ \ \ }\frac{r_{j}^{2}}{\sum_{jie\alpha k}^{}\left| r_{\text{lj}} \right|}$
k- numer kombinacji (k= 1,2….,2m-1);
αk- zbiór numerów zmiennych w rozpatrywanej kombinacji;
j- numer zmiennej w rozpatrywanej kombinacji ,
rj- współczynnik korelacji potencjalnej zmiennej objaśniającej o numerze j ze zmienną objaśnianą (element wektora korelacji R)
rlj- współczynnik korelacji między j-tą i l-tą potencjalną zmienną objaśniającą (element macierzy korelacji R)
Integralna pojemność kombinacji nośników informacji
Hk=$\sum_{jie\alpha_{k}}^{}h_{\text{kj}}$, (k=1,2,..., 2m-1)
Pojemność integralna k-tej kombinacji jest sumą indywidualnych pojemności nośników, wchodzących w skład tej kombinacji. Pojemność integralna stanowi kryterium wyboru odpowiedniej kombinacji zmiennych objaśniających . Wybiera się tę kombinację, dla której wartość Hk jest największa. Wartość wskaźnika indywidualnego i integralnego mieszczą się w przedziale [0,1].
7. Przedstawić istotę metody grafowej i omówić jej przebieg.
Idea tej metody, podobnie jak w metodzie pojemności informacji opiera się na wyborze takich zmiennych objaśniających do modelu, które są silnie skorelowane ze zmienną objaśnianą oraz słabo skorelowane między sobą.
Procedura rozpoczyna się od utworzenia wektora korelacji Ro oraz macierzy korelacji R. W kolejnym etapie sprawdzamy, które elementy macierzy są tak małe, że możemy uznać je za zerowe (nieistotnie różne od zera). W tym celu porównujemy rzeczywiste współczynniki korelacji rij z macierzy R ze współczynnikiem krytycznym, który możemy wyznaczyć dwoma sposobami :
pierwszy sposób to wykorzystanie wzoru
r*=$\sqrt{\frac{t^{2}}{t^{2} + n - 2}}$
t- wartość statystki odczytaną z tablic testu t- Studenta dla zadanego poziomu istotności α oraz dla n-2 stopni swobody.
R*- wartość krytyczna
drugi sposób to wykorzystanie reguły minimaksowej, gdzie na podstawie macierzy R ustalamy:
r*= |rij|, dla j≠i
rij- współczynniki korelacji między i-tą i j-tą potencjalną zmienną objaśniającą
Jeśli zachodzi warunek |rij| ≤ r*, to wszystkie elementy spełniające ten warunek zastępujemy w macierzy R zerami. Macierz tę oznaczymy R’.
W kolejnym etapie na podstawie macierzy R’ budujemy graf, w którym wierzchołkami są potencjalne zmienne objaśniające, a wiązadłami niezerowe elementy macierzy R’. Możemy otrzymać graf spójny lub kilka podgrafów, a także zmienne odosobnione. Z tak powstałych grafów do modelu wybieramy zmienne odosobnione oraz te zmienne, które mają największą liczbę powiązań z innymi potencjalnymi zmiennymi objaśniającymi. Jeżeli takich zmiennych jest więcej niż jedna, to wybiera się spośród nich tę, która jest najsilniej skorelowana ze zmienną objaśnianą.
8. Omówić zastosowanie metod taksonomicznych. Przedstawić miary podobieństwa obiektów.
Metody taksonomiczne są jednym z działów Wielowymiarowej analizy porównawczej. Metody te umożliwiają rozwiązanie dwóch zagadnień:
badanie podobieństw obiektów pod względem poziomu zjawiska złożonego z wykorzystaniem metod grupowania
Metody grupowania można podzielić na dwa rodzaje:
-metody dyskryminacyjne- polegają na przydziale obiektów do znanych wcześniej klas. Klasy te mogą być określone za pomocą charakterystyk, takich jak np. miary położenia lub określone przez reprezentantów (tzw. próba ucząca).
-metody klasyfikacyjne – polega na podziale obiektów na nieznane wcześniej klasy tak aby obiekty należące do tych samych klas były najbardziej podobne, natomiast obiekty należące do różnych klas były najmniej podobne.
uszeregowanie obiektów pod względem poziomu zjawiska złożonego z wykorzystaniem metod porządkowania liniowego zbioru obiektów.
Podobieństwo obiektów w wielowymiarowej analizie porównawczej najczęściej jest mierzone za pomocą odległości. Umożliwia wzajemne porównywanie obiektów. Odległość między obiektami jest to funkcja przyporządkowująca parze obiektów jedną wartość. Jedna z najbardziej ogólnych formuł odległości dana jest wzorem Minkowskiego:
dil=$\sqrt[p]{\sum_{j = 1}^{m}\left| z_{\text{ij}} - z_{\text{lj}} \right|}$p , (i,l=1,2,…,n)
dil- odleglość między obiektem i-tym a l-tym
zij- wartość znormalizowana i-tego obiektu zmiennej xj
p- stała
Jeśli współczynnik p we wzorze Minkowskiego przyjmie wartość 1 (norma L1) to otrzymuje się odległość miejską zwaną odległością Hammingtona, nowojorską. Określona jest wzorem :
dil= $\sum_{j = 1}^{m}\left| z_{\text{ij}} - z_{\text{lj}} \right|$, (i,l=1,2,…,n)
Jeśli współczynnik p we wzorze przyjmie wartość 2 (norma L2), otrzymuje się najczęściej stosowaną odległość zwaną euklidesową:
dil=$\sqrt{\sum_{j = 1}^{m}\left( z_{\text{ij}} - z_{\text{lj}} \right)}$2 , (i,l=1,2,…,n)
W badaniach praktycznych stosuje się czasem uogólnioną odległość euklidesową:
dil=$\sqrt{\sum_{j = 1}^{m}{w_{j}^{2}\left( z_{\text{ij}} - z_{\text{lj}} \right)}}$2 , (i,l=1,2,…,n)
Innym szczególnym przypadkiem odległości Minkowskiego dla (p →∞) jest odległość Czybyszewa:
dil=|zij−zlj| , (i,l=1,2,…,n)
9. Omówić przebieg procedury weryfikacyjnej w aspekcie wnioskowania
statystycznego.
Sformułowanie hipotezy zerowej H0 i alternatywnej H.
Hipoteza zerowa jest to hipoteza poddana procedurze weryfikacyjnej, w której zakłada się, że różnica między analizowanymi parametrami lub rozkładami wynosi zero, natomiast hipoteza alternatywna to hipoteza, którą jesteśmy skłonni przyjąć, jeżeli odrzucimy hipotezę H0.
Ho:αi=0
H1:αi≠0
Określenie poziomu istotności α
Określenie poziomu istotności polega na wyznaczeniu wielkości błędu z jakim może wystąpić hipoteza. Jest to błąd pierwszego rzędu, który polega na odrzuceniu hipotezy zerowej, mimo że jest ona prawdziwa. Błąd ten zwany jest poziomem istotności.
Wybór odpowiedniego testu statystycznego dla oceny hipotezy zerowej;
Do weryfikacji hipotez najczęściej wykorzystywanymi testami są: dla dużej próby
statystyka u, dla małej próby statystyka t-Studenta. Statystyka u wykorzystuje rozkład normalny, z kolei statystyka t rozkład t-Studenta.
Obliczenie statystyki na podstawie danych uzyskanych z próby;
Wyniki próby należy opracować w odpowiedni sposób, zgodnie z procedurą wybranego testu. Większość statystyk testowych posiada dokładny rozkład normalny, t-Studenta lub graniczny rozkład normalny.
Znalezienie w tablicach statystycznych wartości krytycznej na danym poziomie istotności
Wartość krytyczna testu jest to wartość zmiennej losowej o określonym rozkładzie, która przy danym poziomie istotności stanowi koniec przedziału odrzucenia. Jeżeli obliczona przez nas wartość statystyki testowej znajdzie się w tym obszarze, to weryfikowaną przez nas hipotezę H0 odrzucamy. Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności α, natomiast jego położenie określane jest przez hipotezę alternatywną.
Podjęcie decyzji.
Wyznaczoną na podstawie próby wartość statystyki porównujemy z wartością krytyczną testu.
Jeżeli wartość ta znajdzie się w obszarze krytycznym, to hipotezę zerową należy odrzucić jako nieprawdziwą. Stąd wniosek, że prawdziwa jest hipoteza alternatywna.
Jeżeli natomiast wartość ta znajdzie się poza obszarem krytycznym, oznacza to, że brak jest podstaw do odrzucenia hipotezy zerowej. Stąd wniosek, że hipoteza zerowa może, ale nie musi, być prawdziwa, a postępowanie nie dało żadnych dodatkowych informacji uprawniających do podjęcia decyzji o przyjęciu lub odrzuceniu hipotezy zerowej.
10. Wymienić sposoby ujednolicania jednostek miar i rzędów wielkości zmiennych.
Normalizacja ma na celu ujednolicenie jednostek miar zmiennych oraz ujednolicenie rzędów wielkości zmiennych. Sposoby normalizacji:
Standaryzacja zmiennych
Jest to najczęściej stosowany sposób normalizacji. Standaryzację przeprowadza się w następujący sposób:
zij=$\frac{x_{\text{ij}} - {\overset{\overline{}}{x}}_{j}}{s_{j}}$, (i=1,2,…,n; j=1,2,...,m)
zij-standaryzowana wartość zmiennej xj dla i-tego obiektu,
$\overset{\overline{}}{x}$j- średnia arytmetyczna zmiennej xj
sj- odchylenie standardowe zmiennej xj
Zatem przy standaryzacji za stałe ze wzoru przyjmowane są następujące wartości :
aj=$\overset{\overline{}}{x}$j
bj=sj
cj=1
Po standaryzacji wartość wszystkich zmiennych stają się niemianowane. Powoduje również ujednolicenie wszystkich zmiennych ze względu na ich zmienność i położenie. Jest tak ponieważ dla zmiennych standaryzowanych średnia arytmetyczna wynosi zero, wariancja oraz odchylenie standardowe są równe 1
Unitaryzacja
Innym sposobem normalizacji zmiennych jest unitaryzacja przeprowadzona w następujący sposób
zij=$\frac{x_{\text{ij}} - \operatorname{}x_{\text{ij}}}{O_{j}}$
zij- wartość i-tego obiektu zmiennej x j po unitaryzacji
xij (gdzie i=1,2,…,n) – najmniejsza wartość zmiennej xj
Oj- rozstęp zmiennej xj
Przy unitaryzacji za stałe ze wzoru przyjmowane są następujące wartości :
aj=xij
bj=Oj
cj=1
Podobnie jak przy standaryzacji, po unitaryzacji wartości wszystkich zmiennych są niemianowane. Oprócz tego wartości zmiennych są zawarte w przedziale [0;1] i średnia arytmetyczna każdej zmiennej Zj wynosi:
$\overset{\overline{}}{z}$j=$\frac{{\overset{\overline{}}{x}}_{j} - \operatorname{}x_{\text{ij}}}{O_{j}}$