Regresja prosta, REGRESJA PROSTA I WIELOKROTNA


Regresja prosta liniowa i regresja liniowa wielokrotna

Pierwsze spojrzenie

Ekonomistę zajmującego się gospodarką na szczeblu makroekonomicznym może zainteresować jaki wpływ na wysokość stopy procentowej wywierają zmiany w poziomie produktu krajowego brutto per capita. Demograf, którego przedmiotem zainteresowania jest badanie ruchu naturalnego ludności podejmie analizę zależności ilości dzieci od wieku kobiety. Każdy z nas idąc w góry może postawić pytanie, jak zmienia się temperatura powietrza wraz ze wzrostem wysokości nad poziomem morza.

Czytając uważnie powyższe pytania i zawarte w nich problemy badawcze powstaje dylemat, jak uzyskać odpowiedź na te zagadnienia, która będzie wiarygodna? Jakie dane zebrać, jak je uporządkować i jakim narzędziem się posłużyć, aby analiza problemu okazała się skuteczna?

Przywołajmy raz jeszcze pierwsze pytanie i niech to będzie nasz problem badawczy.

Problem badawczy

Jaki wpływ na wysokość stopy procentowej wywierają zmiany w poziomie produktu krajowego brutto per capita?

Analiza problemu ujawnia dwie wielkości czyli zmienne: stopę procentową oraz produkt krajowy brutto. Obie z analizowanych zmiennych są wyrażone są pomocą liczb. Jeśli zmienne są wyrażone liczbami to mamy do czynienia ze zmiennymi ilościowymi.

Wstępna analiza problemu ujawnia dodatkowy fakt, iż mianowicie jedna ze zmiennych wpływa na drugą. To ważny fakt, który prowadzi do rozróżnienia zmiennej zależnej oraz zmiennej niezależnej. W przypadku omawianego problemu zmienną zależną jest stopa procentowa a zmienną niezależną jest produkt krajowy brutto per capita.

Dane

Chcąc przeprowadzić badanie modelem regresji linowej prostej należy zebrać odpowiednie dane. W przypadku naszego problemu badawczego należy zebrać dane dotyczące stopy procentowej oraz wysokości produktu krajowego brutto per capita. Takie dane prezentuje poniższa tablica.

Tablica 1. Dane empiryczne.

Państwo

PKB per capita w USD

Stopa procentowa banków centralnych

Państwo

PKB per capita w USD

Stopa procentowa banków centralnych

Argentyna

7696

24,9

Meksyk

6190

12,9

Australia

21080

5,1

Niderlandy

26135

2,8

Austria

25291

2,2

Niemcy

24199

4,4

Belgia

23871

2,8

Norwegia

42239

8,5

Białoruś

3000

38,0

Nowa Zelandia

15443

5,8

Brazylia

3551

25,5

Polska

4944

7,5

Bułgaria

1509

3,3

Portugalia

12109

2,7

Chiny

847

2,7

Republika Czeska

6780

2,8

Cypr

11715

5,0

Republika Korei

10059

2,5

Dania

32228

2,9

Rep. Pd. Afryki

2882

13,5

Estonia

36506

4,9

Rosja

1726

21,0

Finlandia

25386

4,3

Rumunia

1635

35,0

Francja

23987

4,3

Słowacja

4381

6,5

Grecja

12493

4,1

Słowenia

9095

11,9

Hiszpania

16360

4,4

Stany Zjednoczone

35986

0,0

Indie

456

6,3

Szwajcaria

37294

0,8

Irlandia

30902

3,3

Szwecja

27245

2,0

Japonia

31311

0,1

Turcja

2670

55,0

Kanada

22920

3,0

Ukraina

640

7,0

Litwa

3054

3,4

Węgry

6667

8,5

Łotwa

2963

3,0

W. Brytania

26209

5,1

Malta

9349

3,8

Włochy

20614

4,3

Źródło: Rocznik statystyczne 2002.

Kilka istotnych faktów

Analiza problemu badawczego metodą regresji liniowej prostej wymaga spełnienia pewnych wymagań formalnych. Ich pominięcie czy niespełnienie może prowadzić do błędnych wniosków wynikających z modelu, a w konsekwencji do podjęcia błędnych decyzji. Ponadto, poznanie istoty modelu znacznie ułatwia pracę badawczą i zwiększa efektywność naszej pracy, a co za tym idzie oszczędzamy czas. Prześledźmy istotne fakty związane z modelem regresji liniowej prostej.

  1. Model regresji liniowej prostej jest wyrażony ogólnym równaniem o następującej formule:

0x01 graphic

Przedstawiona formuła jest matematycznym zapisem równania prostej, gdzie z punktu widzenia ekonometrii wyróżniamy:

0x01 graphic
- zmienna zależna

0x01 graphic
- zmienna niezależna

0x01 graphic
- parametry

0x01 graphic
- zmienna losowa

Trzecim parametrem modelu - chociaż nie uwzględnionym wprost w równaniu - jest 0x01 graphic
, czyli wariancja błędu losowego.

W przypadku naszego problemu badawczego zmienna zależną 0x01 graphic
jest wysokość stopy procentowej natomiast zmienna niezależną 0x01 graphic
jest wysokość produktu krajowego brutto per capita.

Interpretacji podlega jedynie parametr 0x01 graphic
, o nazwie współczynnik kierunkowy. Parametr 0x01 graphic
nazywamy wyrazem wolnym i nie interpretujemy go.

  1. Zastosowanie metody najmniejszych kwadratów pozwala na oszacowanie parametrów ogólnego równania modelu. W wyniku takiego zabiegu otrzymujemy równanie prognozy o formule:

0x01 graphic

gdzie, 0x01 graphic
to estymatory parametrów: 0x01 graphic
.

Metoda najmniejszych kwadratów polega na minimalizacji kwadratu błędu losowego określonego poprzez formułę:

0x01 graphic

gdzie:

0x01 graphic

to błąd losowy.

W tym miejscu warto zwrócić uwagę na rozróżnienie pomiędzy parametrem i estymatorem parametru.

Estymator jest to wartość oszacowana na podstawie próby składającej się z obserwacji. Determinuje to jego zmienność wraz ze zmianą ilości elementów w próbie, bądź ze zmianą wartości liczbowych obserwacji w próbie.

Parametr jest to stała i ustalona wartość, która nie podlega wahaniom związanym z wielkością próby lub zmianami wartości jej elementów, ponieważ oblicza się go na podstawie całej populacji.

Powstają jednak pytania zasadnicznej treści: czy jest celowe obliczanie poszukiwanej wartości na podstawie całej populacji? jak wysokie koszty należy ponieść, aby ów parametr został wyznaczony? oraz czy jest to w ogóle możliwe?

Rozważmy następujący problem badawczy: wyznaczyć średnie zarobki nauczycieli w Polsce, a odpowiedzi na powyższe pytania w konfrontacji w podstawionym zagadnieniem niech sobie udzieli czytelnik sam.

  1. Miara dopasowania modelu do danych empirycznych wskazuje w jakim procencie zmienność zmiennej zależnej 0x01 graphic
    została wyjaśniona przez model regresji liniowej prostej. Miara ta jest również nazywana współczynnikiem determinacji, co określa w jakim procencie zmiany w poziomie zmiennej zależnej 0x01 graphic
    są determinowane przez model. Miara dopasowania modelu przyjmuje zawsze wartości, które mieszczą się w przedziale 0x01 graphic
    i jest oznaczana przez 0x01 graphic
    .

Wyznaczenia współczynnika dopasowania modelu do danych empirycznych można dokonać z wykorzystaniem poniższych wzorów:

0x01 graphic
0x01 graphic

gdzie:

0x01 graphic

to suma kwadratów regresji tj. różnicy pomiędzy prognozowaną wartością zmiennej zależnej 0x01 graphic
a średnią wartością zmiennej zależnej 0x01 graphic

0x01 graphic

to suma kwadratów błędów (reszt) tj. różnicy pomiędzy wartością empiryczną zmiennej zależnej 0x01 graphic
a prognozowaną wartością zmiennej zależnej 0x01 graphic

0x01 graphic

lub

0x01 graphic

to suma kwadratów ogółem tj. różnicy pomiędzy wartością empiryczną zmiennej zależnej 0x01 graphic
a średnią wartością zmiennej zależnej 0x01 graphic

Interpretacja współczynnika determinacji 0x01 graphic
jest następująca:

  1. W modelu regresji liniowej prostej testujemy istotność modelu oraz istotność parametrów modelu. Testowaniu podlega zatem odpowiednio miara dopasowania 0x01 graphic
    oraz parametry 0x01 graphic
    .

Test istotności 0x01 graphic

Test istotności 0x01 graphic
to badanie istotności całego modelu, tj. sprawdzenie czy model jest wiarygodny z punktu widzenia analizy jaką przeprowadzamy.

Testowanie oznacza postawienie hipotez statystycznych oraz przyjęcie poziomu istotności testu 0x01 graphic
. Do weryfikacji hipotez statystycznych dotyczących istotności modelu wykorzystujemy test F.

Hipoteza zerowa:

0x01 graphic

oznacza, iż model nie wyjaśnia zmienności zmiennej zależnej 0x01 graphic
. W praktyce, brak podstaw do odrzucenia hipotezy zerowej oznacza odrzucenie modelu.

Hipoteza alternatywna:

0x01 graphic

oznacza, iż współczynnik determinacji jest istotnie większy od zera. Odrzucenie hipotezy zerowej na korzyść hipotezy alternatywnej warunkuje przyjęcie modelu.

Weryfikacja hipotezy zerowej odbywa się za pomocą następującej formuły zwanej sprawdzianem hipotezy:

0x01 graphic

gdzie: MSR oraz MSE to średnie kwadraty odchyleń odpowiednio dla sumy kwadratów regresji oraz sumy kwadratów błędów (reszt) wyrażone:

0x01 graphic
0x01 graphic

gdzie: 0x01 graphic
- łączna liczba zmiennych zależnych oraz niezależnych

0x01 graphic
- liczba obserwacji

Obliczenie wartości testu F z próby oraz wyznaczenie wartości krytycznej testu Fα dla przyjętego poziomu istotności 0x01 graphic
oraz stopni swobody r-1 i n-2 pozwala na podjęcie jednej z dwóch następujących decyzji, co do hipotezy zerowej:

Testy istotności parametrów 0x01 graphic

Test istotności parametrów 0x01 graphic
to badanie istotności poszczególnych elementów modelu, tj. sprawdzenie wiarygodności parametrów. Testowaniu podlegają dwa z trzech parametrów jakie występują w modelu regresji liniowej prostej.

Testowanie oznacza postawienie hipotez statystycznych oraz przyjęcie poziomu istotności testu 0x01 graphic
. Do weryfikacji hipotez statystycznych dotyczących parametrów modelu wykorzystujemy test t.

Parametr 0x01 graphic

Hipoteza zerowa:

0x01 graphic

wskazuje, iż parametr nie różni się istotnie od zera. W praktyce brak podstaw do odrzucenia hipotezy zerowej oznacza, iż parametr nie jest istotny.

Hipoteza alternatywna:

0x01 graphic
0x01 graphic

wskazuje, iż parametr różni się istotnie od zera. W praktyce odrzucenie hipotezy zerowej na korzyść hipotezy alternatywnej oznacza, iż parametr jest istotny. Jest to sytuacja pożądana dla modelu.

Parametr 0x01 graphic

Hipoteza zerowa:

0x01 graphic

wskazuje, iż parametr nie różni się istotnie od zera. W praktyce brak podstaw do odrzucenia hipotezy zerowej oznacza, iż parametr nie jest istotny.

Hipoteza alternatywna:

0x01 graphic
0x01 graphic

wskazuje, iż parametr różni się istotnie od zera. W praktyce odrzucenie hipotezy zerowej na korzyść hipotezy alternatywnej oznacza, iż parametr jest istotny. Jest to sytuacja pożądana dla modelu.

  1. Miarą, która określa siłę oraz kierunek zależności pomiędzy zmiennymi w modelu regresji liniowej prostej jest współczynnik korelacji

Miara ta zawsze zawiera się w przedziale (-1,1) i zwykle oznaczana jest przez 0x01 graphic
.

Siłę zależności pomiędzy zmienną zależną 0x01 graphic
i 0x01 graphic
niezależną określa wartość 0x01 graphic
:

Kierunek zależności pomiędzy zmienną zależną 0x01 graphic
i 0x01 graphic
niezależną określa wartość 0x01 graphic
:

Tylko w modelu regresji liniowej prostej istnieje pewna zależność, a mianowicie:

0x01 graphic

ponadto:

0x01 graphic

tj. znak współczynnika korelacji oraz znak stojący przy współczynniku 0x01 graphic
są zawsze takie same.

  1. Prognozowanie w modelu regresji liniowej prostej

Prognozowanie ma miejsce z wykorzystaniem równania prognozy o formule:

0x01 graphic

Wyznaczenie wartości prognozy może mieć miejsce wyłącznie dla

dla wartości typowych, tj. wartości bliskich średniej. Obliczenie przedziału dla zmiennej niezależnej 0x01 graphic
odbywa się z wykorzystaniem formuły:

0x01 graphic

Prognozowanie z wykorzystaniem wartości z poza wyznaczonego przedziału może być przyczyną otrzymania wartości prognozy niezgodnych z zasadami ekonomii lub zdrowego rozsądku. Taka sytuacja jest nazywana `nożycami regresji'.

  1. Przyrost krańcowy (marginalny) oraz elastyczność

Dwie charakterystyki, które są wyznaczane w regresji to:

Przyrost krańcowy odzwierciedla zmiany bezwzględne (jednostkowe) w poziomie zmiennych, przedstawione za pomocą równania:

0x01 graphic

które, interpretujemy następująco: Zmiana zmiennej zależnej 0x01 graphic
spowodowana zmianą zmiennej niezależnej 0x01 graphic
o 1 jednostkę.

Elastyczność odzwierciedla zmiany względne (procentowe) w poziomie zmiennych, przedstawione za pomocą równania:

0x01 graphic

które, interpretujemy następująco: Zmiana zmiennej zależnej Y spowodowana zmianą zmiennej niezależnej X o 1%.

Do wyznaczenia elastyczności z regresji liniowej prostej niezbędne jest posiadania następujących danych, które podstawiamy w miejsce zmiennych 0x01 graphic
oraz 0x01 graphic
do powyższego wzoru:

  1. W modelu regresji liniowej prostej należy rozważyć kilka założeń, które są niezbędne do uzyskania wiarygodności modelu.

Wartość oczekiwana błędu losowego

0x01 graphic

rozumiana jako „zerowanie się” błędów losowych modelu. Obliczenie wartości oczekiwanej jest możliwe z wykorzystaniem estymatora wartości oczekiwanej, tj. średniej błędów losowych:

0x01 graphic

gdzie: 0x01 graphic
- to błąd losowy

0x01 graphic
- liczebność próby w modelu

Wariancja błędu losowego

0x01 graphic

Estymatorem wariacji błędu losowego jest formuła:

0x01 graphic

gdzie: 0x01 graphic
- to błąd losowy

0x01 graphic
- liczebność próby w modelu

Należy dążyć w modelu do minimalizacji wariancji błędu losowego.

Normalność obserwacji

Spełnienie tego założenia jest związane z wielkością próby:

9. Analiza reszt modelu

Homoskedastyczność reszt

Analiza homoskedastyczności modelu opiera się na badaniu rozkładu reszt modelu. W przypadku, gdy nie obserwujemy fluktuacji reszt modelu wraz ze wzrostem wartości zmiennej niezależnej można mówić o stałości reszt, czyli o spełnieniu założenia homoskedastyczności.

Rys. 1 Rozkład reszt

0x01 graphic

Na rysunku 1 rozkład reszt wskazuje na istnieje homoskedastyczności modelu regresji.

Rysunek 2

0x01 graphic

Rysunek 2 przedstawia rozkład reszt, który wskazuje na brak stałości wariancji modelu regresji. Reszty modelu odznaczają się zmienną wariancją. Występuje znaczna fluktuacja reszt wraz z narastaniem wartości zmiennej.

Obserwacje odstające

Jeśli reszty standaryzowane modelu znajdują się w przedziale 0x01 graphic
to oznacza, iż nie ma obserwacji odstających.

Standaryzacja reszt to operacja, polegająca na podzielniu reszty modelu przez pierwiastek z MSE. Otrzymujemy dzięki temu wartości, które są możemy porównywać z sobą. Standaryzaję przedstawia formuła:

0x01 graphic

Normalność reszt

Sprawdzianem normalności reszt są statystyki opisowe reszt standaryzowanych modelu. Jeśli wartość bezwzględna miary kurtozy i skośności nie przekroczy jedności reszty modelu spełniają założenie normalności.

Autokorelacja składnika losowego

Test Durbina-Watsona

Do wykrywania autokorelacji składnika resztowego służy statystyka dana formułą:

0x01 graphic

Współczynnik autokorelacji 0x01 graphic
podobnie, jak współczynnik korelacji 0x01 graphic
przyjmuje wartości z przedziału (-1;1).

W celu wykrycia zależności pomiędzy resztami modelu formułujemy hipotezy, zerową i alternatywną

0x01 graphic

oraz przyjmujemy poziom istotności testu 0x01 graphic
.

Między statystyką d a współczynnikiem autokorelacji z próby 0x01 graphic

istnieje zależność:

0x01 graphic

Zatem statystyka d może przyjmować wartości z przedziału 0x01 graphic
, gdzie jeśli 0x01 graphic
to 0x01 graphic
.

Rozkład statystyki d zależy od liczby obserwacji n oraz liczby zmiennych niezależnych w modelu regresji k. Wartości statystyki odczytujemy z tablic Durbina-Watsona dla ustalonego poziomu istotności testu 0x01 graphic
oraz parametrów n oraz k. Otrzymujemy dwie wartości statystyki d oznaczone jako d1 oraz d2 w oparciu, o które podejmujemy decyzje, co do hipotezy zerowej H0:

Odrzucenie H0: 0x01 graphic
lub 0x01 graphic

Przyjęcie H0: 0x01 graphic
lub 0x01 graphic

Nie podejmujemy żadnej decyzji: 0x01 graphic
lub 0x01 graphic



Wyszukiwarka

Podobne podstrony:
wyklad 9 Regresja liniowa wielokrotna
Prosta analiza regresji i wprowadzenie do regresji wielokrotnej ppt
REGRESJA PROSTA, EKONOMETRIA
Prosta regresji Remp, Rtab
Regresja prosta, Przykłady Regresja prosta, Regresja liniowa prosta na przykładzie danych zawartych
Prosta regresja liniowa
Prosta regresji 2a
Prosta regresja liniowa
Prosta regresji 2a
REGRESJA PROSTA, EKONOMETRIA
Prosta regresji Remp, Rtab
Prosta regresji
Wycena nieruchomości ćwiczenie 2 Budowa modelu wartości nieruchomości przy zastosowaniu regresji wie
ANALIZA REGRESJI WIELOKROTN, Zarządzanie projektami, Zarządzanie(1)
olej REGRESJA WIELOKROTNA TABELA?NYCH
08.regresja wielokrotna, STATYSTYKA
Analiza regresji wielokrotnej Różne metody ppt

więcej podobnych podstron