regresje i zaleĹĽnosci statystyczne, Twierdzenia statystyczne dotycz˙ce zale˙no˙ci mi˙dzy zmienymi statystycznymi wygodnie jest formu˙owa˙ u˙ywaj˙c j˙zyka przewidywania warto˙ci zmiennej z wykorzystaniem informacji o jednej lub wielu dodatkowych zmiennych. Ucz˙c si˙ dobrae jest korzysta˙z ko


REGRESJA.DOC, wersja 1

Wstęp

Twierdzenia statystyczne dotyczące zależności między zmiennymi statystycznymi wygodnie jest formułować używając języka przewidywania wartości zmiennej z wykorzystaniem informacji o jednej lub wielu dodatkowych zmiennych. Pozwala to nadać im ścisły matematyczny charakter pomijając jednocześnie trudny do zdefiniowania i rozważania problem "wpływu jednych zmiennych na inne". Ucząc się dobrze jest korzystać z konkretnego przykładu, dlatego wszystkie pojęcia ilustrowane będą rachunkami opartymi na następujących danych:

zmienna X - liczba miesięcy pozostawania bez pracy; zmienna Y - miejsce zamieszkania ( 1 - wieś, 2 - małe miasto do 20 tys. mieszkańców, 3 - średnie miasto od 20 tys. do 100 tys. mieszkańców, 4 - duże miasto powyżej 100 tys. mieszkańców)

Nr

X

Y

1.

7

1

2.

7

2

3.

8

1

4.

8

1

5.

8

2

6.

8

2

7.

8

3

8.

9

1

9.

9

1

10.

9

1

11.

9

1

12.

9

2

13.

9

2

14.

9

2

15.

9

3

16.

9

3

17.

9

4

18.

9

4

19.

10

1

20.

10

3

Y \X

7

8

9

10

N(Y=yi)

1

1

2

4

1

8

2

1

2

3

0

6

3

0

1

2

1

4

4

0

0

2

0

2

N(X=xi)

2

5

11

2

20

Przewidywanie wartości zmiennej X bez wykorzystania informacji o innych zmiennych

Dla każdego obiektu populacji będziemy przewidywać wartość zmiennej X dysponując jako jedyną informacją rozkładem brzegowym zmiennej X. Ponieważ z naszego punktu widzenia obiekty nie różnią się między sobą ( nie bierzemy pod uwagę innych zmiennych) będziemy przewidywać tę samą wartość dla każdego obiektu populacji. Wartość tę nazwiemy przewidywaniem zmiennej X i oznaczymy chwilowo literą r.

Wiemy jednak, że zmienna X przyjmuje w populacji różne wartości. Oznacza to, że nasze przewidywanie jest błędne dla niektórych obiektów. Jeśli na przykład przyjmiemy r = 8, przewidywanie wartości zmiennej dla obiektu nr 1 będzie obarczone błędem X(w1) - r = 7 - 8 = -1. W podobny sposób możemy wyliczyć błąd przewidywania dla każdego obiektu - możemy zatem zdefiniować nową zmienną statystyczną. Oznaczmy ją, zgodnie z definiującym ją wzorem, X - r.

Nr

X

Y

X-r dla r = 8

1.

7

1

7 - 8 = -1

2.

7

2

-1

3.

8

1

8 - 8 = 0

4.

8

1

0

5.

8

2

0

6.

8

2

0

7.

8

3

0

8.

9

1

9 - 8 = 1

9.

9

1

1

10.

9

1

1

11.

9

1

1

12.

9

2

1

13.

9

2

1

14.

9

2

1

15.

9

3

1

16.

9

3

1

17.

9

4

1

18.

9

4

1

19.

10

1

10 - 8 = 2

20.

10

3

2

Przewidując wartość zmiennej X rozsądnie jest szukać takiego przewidywania aby bład przewidywania był możliwie mały. Co to jednak znaczy "mały błąd przewidywania"? Błąd przewidywania jest zmienną statystyczną, musimy więc sprecyzować co to znaczy, że ma on być mały.

Po pierwsze "mały" może oznaczać, że chcielibyśmy w jak najwiekszej liczbie przpadków nie popełniać błędu w ogóle. Stosując inne kryterium możemy żądać aby wartości bezwzględne błedów były możliwie małe. Widać więc, że nie interesuje nas tak na prawdę sam błąd, ale inna zmienna, która od niego zależy - jest jego funkcją. Pierwszemu kryterium odpowiada tak zwana dwuwartościowa funkcja błędu, tzn taka, która przyjmuje wartość 0 dla tych obiektów dla których przewidywanie jest bezbłędne i 1 w pozostałych przypadkach. Funkcję tę będziemy oznaczać symbolem l1. Wartości zmiennej określonej tą funkcją zawarte są w poniższej macierzy. Kolorem szarym wyróżniono przypadki, dla których przewidywanie było bezbłędne i w konsekwencji funkcja błędu przyjmowała wartość 0.

Nr

X

Y

X-r dla r = 8

l1(X-r)

1.

7

1

-1

1

2.

7

2

-1

1

3.

8

1

0

0

4.

8

1

0

0

5.

8

2

0

0

6.

8

2

0

0

7.

8

3

0

0

8.

9

1

1

1

9.

9

1

1

1

10.

9

1

1

1

11.

9

1

1

1

12.

9

2

1

1

13.

9

2

1

1

14.

9

2

1

1

15.

9

3

1

1

16.

9

3

1

1

17.

9

4

1

1

18.

9

4

1

1

19.

10

1

2

1

20.

10

3

2

1

Drugiemu wymienionemu przez nas kryterium odpowiada modułowa funkcja błędu to znaczy taka, która przyjmuje wartość równą wartości bezwzględnej błędu. Oznaczamy ją symbolem l2. W dalszych rozważaniach potrzebna będzie jeszcze trzecia funkcja będu: kwadratowa. Przyjmuje ona wartość równą kwadratowi błędu i będzie przez nas oznaczana symbolem l3. W poniższej tabelce prezentujemy wartości wszystkich trzech funkcji błędu dla przewidywania r=3.

Nr

X

Y

X-r dla r = 8

l1(X-r)

l2(X-r)

l3(X-r)

1.

7

1

-1

1

1

1

2.

7

2

-1

1

1

1

3.

8

1

0

0

0

0

4.

8

1

0

0

0

0

5.

8

2

0

0

0

0

6.

8

2

0

0

0

0

7.

8

3

0

0

0

0

8.

9

1

1

1

1

1

9.

9

1

1

1

1

1

10.

9

1

1

1

1

1

11.

9

1

1

1

1

1

12.

9

2

1

1

1

1

13.

9

2

1

1

1

1

14.

9

2

1

1

1

1

15.

9

3

1

1

1

1

16.

9

3

1

1

1

1

17.

9

4

1

1

1

1

18.

9

4

1

1

1

1

19.

10

1

2

1

2

4

20.

10

3

2

1

2

4

średnia

0,75

0,85

1,05

Zwróćmy uwagę na dwie ważne własności funkcji błędu: wszystkie funkcje błędu przyjmują wyłącznie wartości dodatnie; wszystkie funkcje błędu przyjmują wartość zero dla tych obiektów, dla których przewidywanie jest bezbłędne.

Funkcje błędu służyć nam będą do oceniania jakości przewidywania. Powiemy, że przwidywanie jest optymalne przy danej funkcji błędu jeśli średnia wartość tej funkcji jest możliwie mała. Ostatnia linia tabelki zawiera średnie wartości wszystkich trzech funkcji błędu dla przwidywania r = 8.

Będziemy teraz poszukiwać takiej liczby r dla której średnia wartość dwuwartościowej funkcji błędu jest najmniejsza. Zastanówmy się najpierw wśród jakich liczb powinniśmy szukać takiego przewidywania. Widać od razu że nie ma sensu przewidywać wybierać r spoza zbioru wartości zmiennej X, gdyż wówczas popełnimy błąd za każdym razem i średnia wartość funkcji błędu będzie równa 1. Poniższa tabelka zawiera wartości funkcji błędu dla przewidywań będących kolejnymi wartościami zmiennej X:

Nr

X

Y

l1(X-7)

l1(X-8)

l1(X-9)

l1(X-10)

1.

7

1

0

1

1

1

2.

7

2

0

1

1

1

3.

8

1

1

0

1

1

4.

8

1

1

0

1

1

5.

8

2

1

0

1

1

6.

8

2

1

0

1

1

7.

8

3

1

0

1

1

8.

9

1

1

1

0

1

9.

9

1

1

1

0

1

10.

9

1

1

1

0

1

11.

9

1

1

1

0

1

12.

9

2

1

1

0

1

13.

9

2

1

1

0

1

14.

9

2

1

1

0

1

15.

9

3

1

1

0

1

16.

9

3

1

1

0

1

17.

9

4

1

1

0

1

18.

9

4

1

1

0

1

19.

10

1

1

1

1

0

20.

10

3

1

1

1

0

średnia

0,9

0,75

0,45

0,9

Najmniejszą średnią wartość dwuwartościowej funkcji funkcji błędu uzyskaliśmy dla przewidywania r = 9. Jest to zatem optymalne przewidywanie zmiennej X dla tej funkcji błędu. Zwróćmy uwagę na fakt, że wartość 9 jest modalną zmiennej X. Nie przypadkowo optymalne przewidywanie przy dwuwartościowej funkcji błędu okazało się równe modalnej zmiennej przewidywanej - tak będzie zawsze dla każdej zmiennej. Dlaczego? Spróbujmy prześledzić następujące rozumowanie: Wielkość którą minimalizujemy szukając optymalnego przewidywania to średnia wrtość dwuwartościowej funkcji błędu. Funkcja błędu jest zmienną zerojedynkową, a zatem jej średnia to częstość występowania jedynki czyli częstość z jaką przewidując popełniamy błąd. Częstość ta będzie najmniejsza wtedy, gdy wartość przewidywana pojawi się jak najwięcej razy w całej populacji: taką własność ma modalna zmiennej X. Średnia wartość funkcji błędu jest równa częstości jedynki

P(l1(X-r)=1)=1-P(l1(X-r)=0)

ale częstość zera P(l1(X-r)=0) jest równa częstości wartości X=r: P(X=r) a zatem dla przewidywania optymalnego: P(X=Mo(X)). Dla przewidywania optymalnego średnia wartość funkcji błędu jest zatem równa

P(l1(X-Mo(X))=1-P(X=Mo(X)) czyli b(X).

Dla pozostałych dwóch funkcji błędu optymalne przewidywania również okazują się być dobrze znanymi nam parametrami rozkładu, a odpowiadające im średnie wartości funkcji błędu - parametrami rozproszenia. Informacje te zgromadzone są w poniższej tabelce:

Twierdzenie:

funkcja błędu

optymalne przewidywanie

średnia wartość funkcji błędu dla optymalnego przewidywania

dwuwartościowa

Mo(X)

E(ll(X-Mo(X))=b(X)

modułowa

Me(X)

E(l2(X-Me(X))=d(X)

kwadratowa

E(X)

E(l3(X-E(X))=D2(X)

W tytule drugiej i trzeciej kolumny tabelki użyliśmy oznaczeń "X z daszkiem" i eX. "X z daszkiem" oznaczać będzie optymalne przewidywanie przy danej funkcji błędu zaś eX będzie symbolem oznaczającym zmienną "błąd optymalnego przewidywania zmiennej X"

Formalne uzasadnienie drugiej i trzeciej linijki tabelki pominiemy. Proponujemy czytelnikom "eksperymentalne" sprawdzenie poprawności przestawionych faktów przy pomocy np. programu CSS. Sprawdźcie także co dzieje się, gdy mediana nie jest dobrze określona to znaczy kiedy definicję mediany spełnia więcej niż jedna liczba.

Przewidywanie wartości zmiennej X z wykorzystaniem informacji o innych zmiennych

Będziemy teraz przewidywać wartość zmiennej X dysponując rozkładem łącznym dwóch zmiennych X i Y oraz informacją o wartości zmiennej Y dla każdego elementu populacji. Teraz obiekty różnią się między sobą wartościami zmiennej Y, możemy zatem przypuszczać, że przewidywanie wartości zmiennej X może być inne dla każdej podzbiorowości wyróżnionej ze względu na zmienną Y. Nie będzie to więc jedna liczba, ale wiele, dokładnie tyle ile jest wartości zmiennej Y. Przewidywanie będzie więc funkcją zmiennej Y. Naszym zadaniem będzie teraz po pierwsze znalezienie optymalnego przewidywania dla trzech wprowadzonych poprzednio funkcji błędu i po drugie oszacowanie jakości tego przewidywania (inaczej mówiąc chcemy stwierdzić, czy wykorzystanie informacji o zmiennej Y "zmniejszyło błąd przewidywania").

Powiedzieliśmy, że przewidywanie powinno być teraz funkcją zmiennej Y. Rozważmy jako przykład następującą funkcję:

Poniższa macierz zawiera wartości zmiennych: X, Y, f(Y), X-f(Y), l2(X-f(Y)). Trzecia zmienna to omawiane przez nas przewidywanie, czwarta to błąd jaki popełniamy przewidując przy pomocy funkcji f, piąta to wartość modułowej funkcji błędu dla tego przewidywania. Szarym kolorem wyróżniono przypadki, dla których przewidywanie było bezbłędne.

Nr

X

Y

f(Y)

X-f(Y)

l2(X-f(Y))

1.

7

1

7

0

0

2.

7

2

8

-1

1

3.

8

1

7

1

1

4.

8

1

7

1

1

5.

8

2

8

0

0

6.

8

2

8

0

0

7.

8

3

9

-1

1

8.

9

1

7

2

2

9.

9

1

7

2

2

10.

9

1

7

2

2

11.

9

1

7

2

2

12.

9

2

8

1

1

13.

9

2

8

1

1

14.

9

2

8

1

1

15.

9

3

9

0

0

16.

9

3

9

0

0

17.

9

4

10

-1

1

18.

9

4

10

-1

1

19.

10

1

7

3

3

20.

10

3

9

1

1

średnia

1,05

Powyżej przedstawiliśmy jedną z możliwych funkcji przewidywania. Teraz będziemy poszukiwać optymalnych funkcji przewidywania dla każdej z trzech funkcji błędu. Optymalnych to znaczy takich dla których średnia wartość funkcji błędu jest możliwie mała. Nie będzie to trudne jeśli wykorzystamy informacje z poprzedniej części naszych rozważań. Wiemy już, że każdej funkcji błędu odpowiada jeden parametr poziomu wartości, który jest optymalnym przewidywaniem i jeden parametr rozproszenia, który jest średnią wartością funkcji błędu przy optymalnym przewidywaniu. Jeśli więc zastąpimy parametry brzegowe parametrami warunkowymi ze względu na naszą dodatkową zmienną Y możemy spodziewać się, że otrzymamy najlepsze przewidywania zmiennej X w każdej podzbiorowości wyróżnionej ze względu na zmienną Y. Zauważmy, że w ten sposób zdefiniowaliśmy funkcję przewidywania: danej wartości yi przypisujemy przewidywanie równe warunkowemu parametrowi poziomu wartości zmiennej X w podzbiorowości {Y=yi}. Powyższe rozważanie stanowi uzasadnienie następującego twierdzenia (nie jest ono jednak formalnym dowodem tego twierdzenia):

Twierdzenie:

funkcja błędu

optymalne przewidywanie

średnia wartość funkcji błędu przewidywania

dwuwartościowa

E(l1(X-f(Y))=E(b(X|Y))

modułowa

E(l2(X-f(Y))=E(d(X|Y))

kwadratowa

E(l3(X-f(Y))=E(D2(X|Y))

W tytule tabelki użyliśmy oznaczeń "X z daszkiem z indeksem Y" i eX|Y. Pierwszy z nich oznacza optymalną funkcję przewidywania a drugi zmienną statystyczną "błąd optymalnej funkcji przewidywania"

Trzy funkcje przewidywania zmiennej X z wykorzystaniem informacji o zmiennej Y odpowiadające trzem funkcjom błędu mają swoje nazwy:

Dodatek "pierwszego rodzaju" informuje nas o tym, że poszukując optymalnej funkcji przewidywania dla danej funkcji błędu dopuszczaliśmy do konkurencji wszystkie możliwe funkcje zmiennej Y i spośród nich wybieraliśmy najlepszą. Można ograniczać się tylko do wybranej klasy funkcji, na przykład do funkcji liniowych. Mamy wówczas do czynienia z funkcjami regresji drugiego rodzaju.

Jak do tej pory udało nam się rozwiązać pierwszy z postawionych na początku tego rozdziału problemów: znaleźliśmy sposób najlepszego wykorzystania informacji o zmiennej Y do przewidywania zmiennej X.

Spróbujmy teraz ocenić czy wykorzystanie zmiennej Y ma w ogóle sens, to znaczy czy jakość przewidywania z wykorzystaniem zmiennej Y jest wyższa niż jakość przewidywania bez wykorzystania tej informacji. Do oceny jakości przewidywania używaliśmy dotychczas średniej wartości funkcji błędu przewidywania. Porównajmy zatem odpowiednie średnie bez wykorzystania informacji o zmiennej Y i z wykorzystaniem tej informacji. Zdefiniujmy trzy mierniki wartości informacji pochodzącej od zmiennej Y odpowiednio do każdej funkcji błędu:

Każdy z tych mierników mówi o ile zmniejszyła się średnia wartość funkcji błędu przewidywania kiedy do przewidywania wartości zmiennej X użyliśmy informacji o zmiennej Y. Użycie zmiennej Y jest sensowne kiedy odpowiedni miernik wartości informacji jest dodatni - oznacza to że średnia wartość funkcji błędu przewidywania zmniejsza się. Jeśli dany miernik jest równy zero to oznacza, że użycie zmiennej Y nie poprawiło jakości przewidywania. Ze znanych nam twierdzeń dotyczących agregacji parametrów rozproszenia wiadomo, że "delty" nigdy nie przyjmują wartości ujemnych.

Zwróćmy uwagę na to że wartości liczbowe "delt" silnie zależą od wartości liczbowych X. Jeśli np. pomnożymy X przez dwa to wartość drugiej delty pomnoży się przez 2, a wartość trzeciej przez 4. Z drugiej strony pomnożenie X przez dwa nie powinno mieć wpływu na ocenę jakości przewidywania X za pomocą Y. Tego problemu nie ma gdy do oceny jakości przewidywania użyjemy następujących parametrów:

Powyższe parametry są "deltami normowanymi do odpowiednich średnich wartości błędu przewidywania bez wykorzystania informacji o zmiennej Y":

Zależności statystyczne

Rozważanie problemu przewidywania zmiennej X z wykorzystaniem informacji o zmiennej Y prowadzi do pojęcia zależności statystycznej:

Parametry JX|Y, zX|Y i h2X|Y nazywane są miernikami zależności statystycznej.

Jeżeli zmienna X nie jest niezależna statystycznie przy danej funkcji błędu od zmiennej Y to mówimy, że jest ona od niej zależna. Istnieją więc trzy typy zależności statystycznych związane z trzema typami funkcji błędu. Przykład: W "naszym rozkładzie funkcja regresji średnich przyjmuje następujące wartości:

E(X|Y=1)=8,6 (wartość przybliżona)

E(X|Y=2)=8,3 (wartość przybliżona)

E(X|Y=3)=9

E(X|Y=4)=9

h2X|Y =0,1 (wartość przybliżona)

Zmienna X jest więc zależna statystycznie od zmiennej Y przy kwadratowej funkcji błędu.

Mówimy, że zmienna X jest maksymalnie zależna od zmiennej Y przy danej funkcji błędu gdy odpowiedni miernik zależności statystycznej jest równy 1. Dla wszstkich trzech mierników oznacza to, że zmienna X jest funkcją zmiennej Y.

Mówimy, że X jest pozytywnie/negatywnie zależna od Y przy danej funkcji błędu jeśli odpowiednia regresja jest rosnąca/malejąca.

UWAGA