REGRESJA.DOC, wersja 1
Wstęp
Twierdzenia statystyczne dotyczące zależności między zmiennymi statystycznymi wygodnie jest formułować używając języka przewidywania wartości zmiennej z wykorzystaniem informacji o jednej lub wielu dodatkowych zmiennych. Pozwala to nadać im ścisły matematyczny charakter pomijając jednocześnie trudny do zdefiniowania i rozważania problem "wpływu jednych zmiennych na inne". Ucząc się dobrze jest korzystać z konkretnego przykładu, dlatego wszystkie pojęcia ilustrowane będą rachunkami opartymi na następujących danych:
zmienna X - liczba miesięcy pozostawania bez pracy; zmienna Y - miejsce zamieszkania ( 1 - wieś, 2 - małe miasto do 20 tys. mieszkańców, 3 - średnie miasto od 20 tys. do 100 tys. mieszkańców, 4 - duże miasto powyżej 100 tys. mieszkańców)
Nr |
X |
Y |
1. |
7 |
1 |
2. |
7 |
2 |
3. |
8 |
1 |
4. |
8 |
1 |
5. |
8 |
2 |
6. |
8 |
2 |
7. |
8 |
3 |
8. |
9 |
1 |
9. |
9 |
1 |
10. |
9 |
1 |
11. |
9 |
1 |
12. |
9 |
2 |
13. |
9 |
2 |
14. |
9 |
2 |
15. |
9 |
3 |
16. |
9 |
3 |
17. |
9 |
4 |
18. |
9 |
4 |
19. |
10 |
1 |
20. |
10 |
3 |
Y \X |
7 |
8 |
9 |
10 |
N(Y=yi) |
1 |
1 |
2 |
4 |
1 |
8 |
2 |
1 |
2 |
3 |
0 |
6 |
3 |
0 |
1 |
2 |
1 |
4 |
4 |
0 |
0 |
2 |
0 |
2 |
N(X=xi) |
2 |
5 |
11 |
2 |
20 |
Przewidywanie wartości zmiennej X bez wykorzystania informacji o innych zmiennych
Dla każdego obiektu populacji będziemy przewidywać wartość zmiennej X dysponując jako jedyną informacją rozkładem brzegowym zmiennej X. Ponieważ z naszego punktu widzenia obiekty nie różnią się między sobą ( nie bierzemy pod uwagę innych zmiennych) będziemy przewidywać tę samą wartość dla każdego obiektu populacji. Wartość tę nazwiemy przewidywaniem zmiennej X i oznaczymy chwilowo literą r.
Wiemy jednak, że zmienna X przyjmuje w populacji różne wartości. Oznacza to, że nasze przewidywanie jest błędne dla niektórych obiektów. Jeśli na przykład przyjmiemy r = 8, przewidywanie wartości zmiennej dla obiektu nr 1 będzie obarczone błędem X(w1) - r = 7 - 8 = -1. W podobny sposób możemy wyliczyć błąd przewidywania dla każdego obiektu - możemy zatem zdefiniować nową zmienną statystyczną. Oznaczmy ją, zgodnie z definiującym ją wzorem, X - r.
Nr |
X |
Y |
X-r dla r = 8 |
1. |
7 |
1 |
7 - 8 = -1 |
2. |
7 |
2 |
-1 |
3. |
8 |
1 |
8 - 8 = 0 |
4. |
8 |
1 |
0 |
5. |
8 |
2 |
0 |
6. |
8 |
2 |
0 |
7. |
8 |
3 |
0 |
8. |
9 |
1 |
9 - 8 = 1 |
9. |
9 |
1 |
1 |
10. |
9 |
1 |
1 |
11. |
9 |
1 |
1 |
12. |
9 |
2 |
1 |
13. |
9 |
2 |
1 |
14. |
9 |
2 |
1 |
15. |
9 |
3 |
1 |
16. |
9 |
3 |
1 |
17. |
9 |
4 |
1 |
18. |
9 |
4 |
1 |
19. |
10 |
1 |
10 - 8 = 2 |
20. |
10 |
3 |
2 |
Przewidując wartość zmiennej X rozsądnie jest szukać takiego przewidywania aby bład przewidywania był możliwie mały. Co to jednak znaczy "mały błąd przewidywania"? Błąd przewidywania jest zmienną statystyczną, musimy więc sprecyzować co to znaczy, że ma on być mały.
Po pierwsze "mały" może oznaczać, że chcielibyśmy w jak najwiekszej liczbie przpadków nie popełniać błędu w ogóle. Stosując inne kryterium możemy żądać aby wartości bezwzględne błedów były możliwie małe. Widać więc, że nie interesuje nas tak na prawdę sam błąd, ale inna zmienna, która od niego zależy - jest jego funkcją. Pierwszemu kryterium odpowiada tak zwana dwuwartościowa funkcja błędu, tzn taka, która przyjmuje wartość 0 dla tych obiektów dla których przewidywanie jest bezbłędne i 1 w pozostałych przypadkach. Funkcję tę będziemy oznaczać symbolem l1. Wartości zmiennej określonej tą funkcją zawarte są w poniższej macierzy. Kolorem szarym wyróżniono przypadki, dla których przewidywanie było bezbłędne i w konsekwencji funkcja błędu przyjmowała wartość 0.
Nr |
X |
Y |
X-r dla r = 8 |
l1(X-r) |
1. |
7 |
1 |
-1 |
1 |
2. |
7 |
2 |
-1 |
1 |
3. |
8 |
1 |
0 |
0 |
4. |
8 |
1 |
0 |
0 |
5. |
8 |
2 |
0 |
0 |
6. |
8 |
2 |
0 |
0 |
7. |
8 |
3 |
0 |
0 |
8. |
9 |
1 |
1 |
1 |
9. |
9 |
1 |
1 |
1 |
10. |
9 |
1 |
1 |
1 |
11. |
9 |
1 |
1 |
1 |
12. |
9 |
2 |
1 |
1 |
13. |
9 |
2 |
1 |
1 |
14. |
9 |
2 |
1 |
1 |
15. |
9 |
3 |
1 |
1 |
16. |
9 |
3 |
1 |
1 |
17. |
9 |
4 |
1 |
1 |
18. |
9 |
4 |
1 |
1 |
19. |
10 |
1 |
2 |
1 |
20. |
10 |
3 |
2 |
1 |
Drugiemu wymienionemu przez nas kryterium odpowiada modułowa funkcja błędu to znaczy taka, która przyjmuje wartość równą wartości bezwzględnej błędu. Oznaczamy ją symbolem l2. W dalszych rozważaniach potrzebna będzie jeszcze trzecia funkcja będu: kwadratowa. Przyjmuje ona wartość równą kwadratowi błędu i będzie przez nas oznaczana symbolem l3. W poniższej tabelce prezentujemy wartości wszystkich trzech funkcji błędu dla przewidywania r=3.
Nr |
X |
Y |
X-r dla r = 8 |
l1(X-r) |
l2(X-r) |
l3(X-r) |
1. |
7 |
1 |
-1 |
1 |
1 |
1 |
2. |
7 |
2 |
-1 |
1 |
1 |
1 |
3. |
8 |
1 |
0 |
0 |
0 |
0 |
4. |
8 |
1 |
0 |
0 |
0 |
0 |
5. |
8 |
2 |
0 |
0 |
0 |
0 |
6. |
8 |
2 |
0 |
0 |
0 |
0 |
7. |
8 |
3 |
0 |
0 |
0 |
0 |
8. |
9 |
1 |
1 |
1 |
1 |
1 |
9. |
9 |
1 |
1 |
1 |
1 |
1 |
10. |
9 |
1 |
1 |
1 |
1 |
1 |
11. |
9 |
1 |
1 |
1 |
1 |
1 |
12. |
9 |
2 |
1 |
1 |
1 |
1 |
13. |
9 |
2 |
1 |
1 |
1 |
1 |
14. |
9 |
2 |
1 |
1 |
1 |
1 |
15. |
9 |
3 |
1 |
1 |
1 |
1 |
16. |
9 |
3 |
1 |
1 |
1 |
1 |
17. |
9 |
4 |
1 |
1 |
1 |
1 |
18. |
9 |
4 |
1 |
1 |
1 |
1 |
19. |
10 |
1 |
2 |
1 |
2 |
4 |
20. |
10 |
3 |
2 |
1 |
2 |
4 |
średnia |
|
|
|
0,75 |
0,85 |
1,05 |
Zwróćmy uwagę na dwie ważne własności funkcji błędu: wszystkie funkcje błędu przyjmują wyłącznie wartości dodatnie; wszystkie funkcje błędu przyjmują wartość zero dla tych obiektów, dla których przewidywanie jest bezbłędne.
Funkcje błędu służyć nam będą do oceniania jakości przewidywania. Powiemy, że przwidywanie jest optymalne przy danej funkcji błędu jeśli średnia wartość tej funkcji jest możliwie mała. Ostatnia linia tabelki zawiera średnie wartości wszystkich trzech funkcji błędu dla przwidywania r = 8.
Będziemy teraz poszukiwać takiej liczby r dla której średnia wartość dwuwartościowej funkcji błędu jest najmniejsza. Zastanówmy się najpierw wśród jakich liczb powinniśmy szukać takiego przewidywania. Widać od razu że nie ma sensu przewidywać wybierać r spoza zbioru wartości zmiennej X, gdyż wówczas popełnimy błąd za każdym razem i średnia wartość funkcji błędu będzie równa 1. Poniższa tabelka zawiera wartości funkcji błędu dla przewidywań będących kolejnymi wartościami zmiennej X:
Nr |
X |
Y |
l1(X-7) |
l1(X-8) |
l1(X-9) |
l1(X-10) |
1. |
7 |
1 |
0 |
1 |
1 |
1 |
2. |
7 |
2 |
0 |
1 |
1 |
1 |
3. |
8 |
1 |
1 |
0 |
1 |
1 |
4. |
8 |
1 |
1 |
0 |
1 |
1 |
5. |
8 |
2 |
1 |
0 |
1 |
1 |
6. |
8 |
2 |
1 |
0 |
1 |
1 |
7. |
8 |
3 |
1 |
0 |
1 |
1 |
8. |
9 |
1 |
1 |
1 |
0 |
1 |
9. |
9 |
1 |
1 |
1 |
0 |
1 |
10. |
9 |
1 |
1 |
1 |
0 |
1 |
11. |
9 |
1 |
1 |
1 |
0 |
1 |
12. |
9 |
2 |
1 |
1 |
0 |
1 |
13. |
9 |
2 |
1 |
1 |
0 |
1 |
14. |
9 |
2 |
1 |
1 |
0 |
1 |
15. |
9 |
3 |
1 |
1 |
0 |
1 |
16. |
9 |
3 |
1 |
1 |
0 |
1 |
17. |
9 |
4 |
1 |
1 |
0 |
1 |
18. |
9 |
4 |
1 |
1 |
0 |
1 |
19. |
10 |
1 |
1 |
1 |
1 |
0 |
20. |
10 |
3 |
1 |
1 |
1 |
0 |
średnia |
|
|
0,9 |
0,75 |
0,45 |
0,9 |
Najmniejszą średnią wartość dwuwartościowej funkcji funkcji błędu uzyskaliśmy dla przewidywania r = 9. Jest to zatem optymalne przewidywanie zmiennej X dla tej funkcji błędu. Zwróćmy uwagę na fakt, że wartość 9 jest modalną zmiennej X. Nie przypadkowo optymalne przewidywanie przy dwuwartościowej funkcji błędu okazało się równe modalnej zmiennej przewidywanej - tak będzie zawsze dla każdej zmiennej. Dlaczego? Spróbujmy prześledzić następujące rozumowanie: Wielkość którą minimalizujemy szukając optymalnego przewidywania to średnia wrtość dwuwartościowej funkcji błędu. Funkcja błędu jest zmienną zerojedynkową, a zatem jej średnia to częstość występowania jedynki czyli częstość z jaką przewidując popełniamy błąd. Częstość ta będzie najmniejsza wtedy, gdy wartość przewidywana pojawi się jak najwięcej razy w całej populacji: taką własność ma modalna zmiennej X. Średnia wartość funkcji błędu jest równa częstości jedynki
P(l1(X-r)=1)=1-P(l1(X-r)=0)
ale częstość zera P(l1(X-r)=0) jest równa częstości wartości X=r: P(X=r) a zatem dla przewidywania optymalnego: P(X=Mo(X)). Dla przewidywania optymalnego średnia wartość funkcji błędu jest zatem równa
P(l1(X-Mo(X))=1-P(X=Mo(X)) czyli b(X).
Dla pozostałych dwóch funkcji błędu optymalne przewidywania również okazują się być dobrze znanymi nam parametrami rozkładu, a odpowiadające im średnie wartości funkcji błędu - parametrami rozproszenia. Informacje te zgromadzone są w poniższej tabelce:
Twierdzenie:
funkcja błędu |
optymalne przewidywanie
|
średnia wartość funkcji błędu dla optymalnego przewidywania
|
dwuwartościowa
|
Mo(X) |
E(ll(X-Mo(X))=b(X) |
modułowa
|
Me(X) |
E(l2(X-Me(X))=d(X) |
kwadratowa
|
E(X) |
E(l3(X-E(X))=D2(X) |
W tytule drugiej i trzeciej kolumny tabelki użyliśmy oznaczeń "X z daszkiem" i eX. "X z daszkiem" oznaczać będzie optymalne przewidywanie przy danej funkcji błędu zaś eX będzie symbolem oznaczającym zmienną "błąd optymalnego przewidywania zmiennej X"
Formalne uzasadnienie drugiej i trzeciej linijki tabelki pominiemy. Proponujemy czytelnikom "eksperymentalne" sprawdzenie poprawności przestawionych faktów przy pomocy np. programu CSS. Sprawdźcie także co dzieje się, gdy mediana nie jest dobrze określona to znaczy kiedy definicję mediany spełnia więcej niż jedna liczba.
Przewidywanie wartości zmiennej X z wykorzystaniem informacji o innych zmiennych
Będziemy teraz przewidywać wartość zmiennej X dysponując rozkładem łącznym dwóch zmiennych X i Y oraz informacją o wartości zmiennej Y dla każdego elementu populacji. Teraz obiekty różnią się między sobą wartościami zmiennej Y, możemy zatem przypuszczać, że przewidywanie wartości zmiennej X może być inne dla każdej podzbiorowości wyróżnionej ze względu na zmienną Y. Nie będzie to więc jedna liczba, ale wiele, dokładnie tyle ile jest wartości zmiennej Y. Przewidywanie będzie więc funkcją zmiennej Y. Naszym zadaniem będzie teraz po pierwsze znalezienie optymalnego przewidywania dla trzech wprowadzonych poprzednio funkcji błędu i po drugie oszacowanie jakości tego przewidywania (inaczej mówiąc chcemy stwierdzić, czy wykorzystanie informacji o zmiennej Y "zmniejszyło błąd przewidywania").
Powiedzieliśmy, że przewidywanie powinno być teraz funkcją zmiennej Y. Rozważmy jako przykład następującą funkcję:
Poniższa macierz zawiera wartości zmiennych: X, Y, f(Y), X-f(Y), l2(X-f(Y)). Trzecia zmienna to omawiane przez nas przewidywanie, czwarta to błąd jaki popełniamy przewidując przy pomocy funkcji f, piąta to wartość modułowej funkcji błędu dla tego przewidywania. Szarym kolorem wyróżniono przypadki, dla których przewidywanie było bezbłędne.
Nr |
X |
Y |
f(Y) |
X-f(Y) |
l2(X-f(Y)) |
1. |
7 |
1 |
7 |
0 |
0 |
2. |
7 |
2 |
8 |
-1 |
1 |
3. |
8 |
1 |
7 |
1 |
1 |
4. |
8 |
1 |
7 |
1 |
1 |
5. |
8 |
2 |
8 |
0 |
0 |
6. |
8 |
2 |
8 |
0 |
0 |
7. |
8 |
3 |
9 |
-1 |
1 |
8. |
9 |
1 |
7 |
2 |
2 |
9. |
9 |
1 |
7 |
2 |
2 |
10. |
9 |
1 |
7 |
2 |
2 |
11. |
9 |
1 |
7 |
2 |
2 |
12. |
9 |
2 |
8 |
1 |
1 |
13. |
9 |
2 |
8 |
1 |
1 |
14. |
9 |
2 |
8 |
1 |
1 |
15. |
9 |
3 |
9 |
0 |
0 |
16. |
9 |
3 |
9 |
0 |
0 |
17. |
9 |
4 |
10 |
-1 |
1 |
18. |
9 |
4 |
10 |
-1 |
1 |
19. |
10 |
1 |
7 |
3 |
3 |
20. |
10 |
3 |
9 |
1 |
1 |
średnia |
|
|
|
|
1,05 |
Powyżej przedstawiliśmy jedną z możliwych funkcji przewidywania. Teraz będziemy poszukiwać optymalnych funkcji przewidywania dla każdej z trzech funkcji błędu. Optymalnych to znaczy takich dla których średnia wartość funkcji błędu jest możliwie mała. Nie będzie to trudne jeśli wykorzystamy informacje z poprzedniej części naszych rozważań. Wiemy już, że każdej funkcji błędu odpowiada jeden parametr poziomu wartości, który jest optymalnym przewidywaniem i jeden parametr rozproszenia, który jest średnią wartością funkcji błędu przy optymalnym przewidywaniu. Jeśli więc zastąpimy parametry brzegowe parametrami warunkowymi ze względu na naszą dodatkową zmienną Y możemy spodziewać się, że otrzymamy najlepsze przewidywania zmiennej X w każdej podzbiorowości wyróżnionej ze względu na zmienną Y. Zauważmy, że w ten sposób zdefiniowaliśmy funkcję przewidywania: danej wartości yi przypisujemy przewidywanie równe warunkowemu parametrowi poziomu wartości zmiennej X w podzbiorowości {Y=yi}. Powyższe rozważanie stanowi uzasadnienie następującego twierdzenia (nie jest ono jednak formalnym dowodem tego twierdzenia):
Twierdzenie:
funkcja błędu |
optymalne przewidywanie
|
średnia wartość funkcji błędu przewidywania
|
dwuwartościowa |
|
E(l1(X-f(Y))=E(b(X|Y)) |
modułowa |
|
E(l2(X-f(Y))=E(d(X|Y)) |
kwadratowa |
|
E(l3(X-f(Y))=E(D2(X|Y)) |
W tytule tabelki użyliśmy oznaczeń "X z daszkiem z indeksem Y" i eX|Y. Pierwszy z nich oznacza optymalną funkcję przewidywania a drugi zmienną statystyczną "błąd optymalnej funkcji przewidywania"
Trzy funkcje przewidywania zmiennej X z wykorzystaniem informacji o zmiennej Y odpowiadające trzem funkcjom błędu mają swoje nazwy:
funkcja przewidywania optymalna ze względu na dwuwartościową funkcję błędu nazywa się regresją pierwszego rodzaju modalnych
funkcja przewidywania optymalna ze względu na modułową funkcję błędu nazywa się regresją pierwszego rodzaju median
funkcja przewidywania optymalna ze względu na kwadratową funkcję błędu nazywa się regresją pierwszego rodzaju średnich
Dodatek "pierwszego rodzaju" informuje nas o tym, że poszukując optymalnej funkcji przewidywania dla danej funkcji błędu dopuszczaliśmy do konkurencji wszystkie możliwe funkcje zmiennej Y i spośród nich wybieraliśmy najlepszą. Można ograniczać się tylko do wybranej klasy funkcji, na przykład do funkcji liniowych. Mamy wówczas do czynienia z funkcjami regresji drugiego rodzaju.
Jak do tej pory udało nam się rozwiązać pierwszy z postawionych na początku tego rozdziału problemów: znaleźliśmy sposób najlepszego wykorzystania informacji o zmiennej Y do przewidywania zmiennej X.
Spróbujmy teraz ocenić czy wykorzystanie zmiennej Y ma w ogóle sens, to znaczy czy jakość przewidywania z wykorzystaniem zmiennej Y jest wyższa niż jakość przewidywania bez wykorzystania tej informacji. Do oceny jakości przewidywania używaliśmy dotychczas średniej wartości funkcji błędu przewidywania. Porównajmy zatem odpowiednie średnie bez wykorzystania informacji o zmiennej Y i z wykorzystaniem tej informacji. Zdefiniujmy trzy mierniki wartości informacji pochodzącej od zmiennej Y odpowiednio do każdej funkcji błędu:
Każdy z tych mierników mówi o ile zmniejszyła się średnia wartość funkcji błędu przewidywania kiedy do przewidywania wartości zmiennej X użyliśmy informacji o zmiennej Y. Użycie zmiennej Y jest sensowne kiedy odpowiedni miernik wartości informacji jest dodatni - oznacza to że średnia wartość funkcji błędu przewidywania zmniejsza się. Jeśli dany miernik jest równy zero to oznacza, że użycie zmiennej Y nie poprawiło jakości przewidywania. Ze znanych nam twierdzeń dotyczących agregacji parametrów rozproszenia wiadomo, że "delty" nigdy nie przyjmują wartości ujemnych.
Zwróćmy uwagę na to że wartości liczbowe "delt" silnie zależą od wartości liczbowych X. Jeśli np. pomnożymy X przez dwa to wartość drugiej delty pomnoży się przez 2, a wartość trzeciej przez 4. Z drugiej strony pomnożenie X przez dwa nie powinno mieć wpływu na ocenę jakości przewidywania X za pomocą Y. Tego problemu nie ma gdy do oceny jakości przewidywania użyjemy następujących parametrów:
Powyższe parametry są "deltami normowanymi do odpowiednich średnich wartości błędu przewidywania bez wykorzystania informacji o zmiennej Y":
JX|Y mówi o jaką część zmniejszyła się średnia wartość dwuwartościowej funkcji błędu gdy do przewidywania zmiennej X użyto regresji modalnych zmiennej X względem zmiennej Y
zX|Y mówi o jaką część zmalała średnia wartość modułu błędu przewidywania, gdy do przewidywania zmiennej Y użyto regresji median
h2X|Y mówi o jaką część zmniejszył się średni kwadrat błędu przewidywania, gdy do przewidywania zmiennej X użyto regresji średnich.
Zależności statystyczne
Rozważanie problemu przewidywania zmiennej X z wykorzystaniem informacji o zmiennej Y prowadzi do pojęcia zależności statystycznej:
Mówimy, że zmienna X jest niezależna statystycznie od zmiennej Y przy dwuwartościowej funkcji błędu jeśli JX|Y jest równy 0 tzn, jeśli użycie regresji modalnych zmiennej X względem zmiennej Y do przewidywania wartości zmiennej X nie poprawia jakości przewidywania. Dzieje się tak wtedy, gdy regresja modalnych jest funkcją stałą, czyli wszystkie modalne warunkowe są jednakowe.
Przykład: W "naszym" rozkładzie wszystkie modalne warunkowe są jednakowe i równe modalnej w rozkładzie brzegowym: Mo(X|Y=1)=Mo(X|Y=2)= Mo(X|Y=3)= Mo(X|Y=4)= Mo(X)=9. Warunkowe błędy modalnej są odpowiednio równe 0,5 w pozbiorowościach Y=1, Y=2 i Y=3 i 0 w podzbiorowości Y=4. Średnia warunkowych błędów modalnej E(b(X|Y))=0,45 a brzegowa wartość b(X)=0,45. Widać więc, że JX|Y =0 gdyż licznik w ułamku definiującym JX|Y jest równy 0.
Mówimy, że zmienna X jest niezależna statystycznie od zmiennej Y przy modułowej funkcji błędu jeśli zX|Y jest równy 0 tzn., jeśli użycie regresji median zmiennej X względem zmiennej Y do przewidywania wartości zmiennej X nie poprawia jakości przewidywania. Dzieje się tak wtedy, gdy regresja median jest funkcją stałą, czyli wszystkie mediany warunkowe są jednakowe.
Mówimy, że zmienna X jest niezależna statystycznie od zmiennej Y przy kwadratowej funkcji błędu jeśli h2X|Y jest równy 0 tzn., jeśli użycie regresji średnich zmiennej X względem zmiennej Y do przewidywania wartości zmiennej X nie poprawia jakości przewidywania. Dzieje się tak wtedy, gdy regresja średnich jest funkcją stałą, czyli wszystkie średnie warunkowe są jednakowe. Niezależność przy kwadratowej funkcji błędu nazywa się także niezależnością korelacyjną a h2X|Y - kwadratem stosunku korelacji.
Parametry JX|Y, zX|Y i h2X|Y nazywane są miernikami zależności statystycznej.
Jeżeli zmienna X nie jest niezależna statystycznie przy danej funkcji błędu od zmiennej Y to mówimy, że jest ona od niej zależna. Istnieją więc trzy typy zależności statystycznych związane z trzema typami funkcji błędu. Przykład: W "naszym rozkładzie funkcja regresji średnich przyjmuje następujące wartości:
E(X|Y=1)=8,6 (wartość przybliżona)
E(X|Y=2)=8,3 (wartość przybliżona)
E(X|Y=3)=9
E(X|Y=4)=9
h2X|Y =0,1 (wartość przybliżona)
Zmienna X jest więc zależna statystycznie od zmiennej Y przy kwadratowej funkcji błędu.
Mówimy, że zmienna X jest maksymalnie zależna od zmiennej Y przy danej funkcji błędu gdy odpowiedni miernik zależności statystycznej jest równy 1. Dla wszstkich trzech mierników oznacza to, że zmienna X jest funkcją zmiennej Y.
Mówimy, że X jest pozytywnie/negatywnie zależna od Y przy danej funkcji błędu jeśli odpowiednia regresja jest rosnąca/malejąca.
UWAGA
Jeśli mówimy "zmienne X jest zależna statystycznie od zmiennej Y" musimy sprecyzować przy jakiej funkcji błędu. Istnieją przykłady par zmiennych, które są zależne przy jednej funkcji błędu a niezależne przy innej. Tylko zależność maksymalna jest "wspólna" dla wszystkich trzech funkcji błędu.
Istotne jest czy mówimy, że zmienna X jest zależna od zmiennej Y przy danej funkcji błędu, czy też zmienna Y jest zależna od zmiennej X. Innymi słowy ważna jest kolejność. Istnieją przykłady par zmiennych, takich, że X jest zależne od Y (nawet maksymalnie) a Y niezależne od X. Przykład:
T\U |
0 |
1 |
1 |
5 |
0 |
2 |
0 |
10 |
3 |
5 |
0 |
Zmienna U jest maksymalnie zależna od zmiennej T, zaś zmienna T jest niezależna korelacyjnie od zmiennej U.
Wykonując rachunki zmierzające do obliczania h2X|Y trzeba bardzo ostrożnie zaokrąglać. Może się zdarzyć, że wynik otrzymany ze wzoru z użyciem D2(E(X|Y) będzie się różnił od wyniku otrzymanego ze wzoru z E(D2(X|Y)) nawet o rząd wielkości właśnie z powodu innego sposobu zaokrąglania.
Opis zależności statystycznych między zmiennymi ilustruje się często wykresami regresji. W "naszym" przykładzie regresja średnich nie jest funkcją stałą, zmienna X jest więc zależna korelacyjnie od zmiennej Y, natomiast regresja modalnych jest stała, co prowadzi do wniosku, że zmienne X jest niezależna od Y przy dwuwartościowej funkcji błędu.
regresja średnich regresja modalnych