Rozdział 5
5. WNIOSKOWANIE STATYSTYCZNE DOTYCZĄCE WSKAźNIKA KORELACYJNEGO A ANALIZA WARIANCJI Z KLASYFIKACJĄ POJEDYNCZĄ: PORÓWNANIE OBU METOD
5.1. Teoretyczne podstawy zapisu w obu metodach hipotez sprawdzanych
Dla łącznej zmiennej losowej (X, Y) typu skokowego przyjmującej wartości (xi, yj), gdzie i = 1,..., k, j = 1,..., l, wyznaczamy warunkowe wartości oczekiwane zmiennej losowej Y. Obok w nawiasach podajemy warunkowe wartości oczekiwane zmiennej losowej Y typu ciągłego.
(5.1) E(Y/X = xi) = Ei(Y) =
(lub E(Y/X = x)=
yf(y/x)dy)
i = 1,..., k, j = 1,..., l,
gdzie: pij = P(X = xi, Y = yj) (lub f(x, y) =
)
= P(X = xi) =
pij (lub f1(x) =
f(x, y) dy)
= P(Y = yj) =
pij (lub f2(y) =
f(x, y) dx
Wartości oczekiwane warunkowe zmiennej losowej Y są funkcją zmiennej losowej X, która dla zmiennej losowej typu skokowego przyjmuje wartości xi, i = = 1,..., k, a dla zmiennej losowej typu ciągłego wartość x,
. Wartości oczekiwane warunkowe oznaczamy, dla zmiennej losowej Y typu skokowego przez m2(xi), dla zmiennej losowej Y typu ciągłego przez m2(x):
(5.2) E(Y/X = xi) = m2(xi) (lub E(Y/X = x) = m2(x)).
Wariancja zmiennej losowej Y w warunkowych rozkładach tej zmiennej jest stała, nie zależy od wartości xi przyjmowanych przez zmienną losową X typu skokowego lub od wartości x przyjmowanych przez zmienną X typu ciągłego:
D2(Y/X = xi) = σ2 (lub D2(Y/X = x) = σ2).
W modelu związanym z wnioskowaniem statystycznym dotyczącym wskaźnika korelacyjnego mamy k rozkładów warunkowych zmiennej losowej Y, o których zakładamy, że są normalne, o wariancjach jednakowych, chociaż niekoniecznie znanych.
Jeżeli zmienne losowe X i Y typu skokowego (lub typu ciągłego) są niezależnymi zmiennymi losowymi, czyli jeżeli spełnione są warunki:
pij =
(lub f(x, y) = f1(x) f2(y)
oraz
P(Y = yj/X = xi) =
=
(lub f(y/x) = f(x, y)/f1(x) = f2(y))
to
E(Y/X = xi) = E(Y) (lub E(Y/X = x) = E(Y)).
A zatem jeżeli zmienna losowa Y typu skokowego jest (stochastycznie) niezależna od zmiennej losowej X, to warunkowe wartości oczekiwane zmiennej losowej Y nie zależą od wartości xi (i = 1,..., k) przyjmowanych przez zmienną losową X:
(5.3) E(Y/X = x1) = E(Y/X = x2) = ... = E(Y/X = xk) = E(Y),
lub, krócej,
(5.4) E1(Y) = E2(Y) = ... = Ek(Y) = E(Y)
Krzywa regresji I rodzaju zmiennej losowej Y względem zmiennej X jest wówczas prostą równoległą do osi 0x.
Jak wiadomo, spełnienie warunku (5.3) nie wystarcza, aby zmienne losowe X i Y były niezależnymi zmiennymi losowymi.
W modelu matematycznym analizy wariancji mamy n niezależnych zmiennych losowych (Y1, Y2... Yn) o rozkładzie normalnym, przy czym odchylenie standardowe σ jest jednakowe w rozkładach normalnych wszystkich zmiennych losowych Yi (i = = 1,..., k), ale nie jest znane. Te n zmiennych losowych poklasyfikowano na k grup w taki sposób, że zmienne losowe należące do i-tej grupy mają jednakową wartość oczekiwaną μi (i = 1,..., k) oraz jednakową wariancję σ2. Zmienne losowe w i-tej grupie mają rozkład normalny N[μi, σ]. Kryterium podziału zmiennych losowych na k grup są poziomy zmiennej niezależnej, nielosowej, nazywanej w analizie wariancji czynnikiem, który ma k poziomów. Liczbę zmiennych losowych w i-tej grupie oznaczamy przez ni, (i = 1,..., k), a
ni = n.
Jeżeli podział na k grup nie ma wpływu na wartości oczekiwane μi zmiennych losowych Yi, (i = 1,..., k), to wartości oczekiwane μi spełniają warunek
(5.5) μ1 = μ2 = ... = μk, = μ,
Rozkład zmiennej losowej Y w podpopulacji o numerze i (i = 1,..., k) oraz rozkład warunkowy o numerze i (i = 1,..., k) zmiennej losowej Y nie mogą znaczyć tego samego. Między wzorem (5.4) oraz wzorem (5.5) istnieje podobieństwo polegające na relacji równości wartości oczekiwanych, natura tych wartości oczekiwanych jest inna. Wzór (5.4) dotyczy wartości oczekiwanych w rozkładach warunkowych (jednowymiarowych) zmiennej losowej dwuwymiarowej (X, Y), a wzór (5.5) dotyczy wartości oczekiwanych rozkładów jednowymiarowych w k niezależnych podpopulacjach.
5.2. Porównanie zapisów hipotez sprawdzanych i alternatywnych
Sformułowanie hipotezy sprawdzanej i alternatywnej dotyczącej
wskaźnika korelacyjnego
Podstawową miarą siły wpływu zmiennej losowej X na średnie warunkowe wartości zmiennej losowej Y jest wskaźnik korelacyjny ηYX. Wzory kwadratu wskaźnika korelacyjnego ηYX oraz wskaźnika korelacyjnego ηYX są następujące:
(5.6) =
(5.7)
.
Elementami wzoru (5.6) są składniki równości wariancyjnej zmiennej losowej Y zapisane niżej.
(5.8) E[Y - E(Y)]2 = E[m2 (xi) - E(Y)]2 + E[Y - m2 (xi)]2.
gdzie: m2 (xi) = E(Y/X = xi), dla i = 1,..., k,
E[Y - E(Y)]2 = D2(Y),
Brak wpływu zmiennej losowej X na wartości średnie warunkowe zmiennej losowej Y oznacza, iż wskaźnik korelacyjny ηYX przyjmuje wartość zero. Wskaźnik korelacyjny ηYX tylko wtedy przyjmuje wartość zero, jeżeli licznik wzoru (5.6) wynosi zero, czyli jeżeli m2 (xi) = E(Y/X = xi) = E(Y) dla i = 1,..., k. Inaczej można zapisać, iż E(Y/X = x1) = E(Y/X = x2) = ... = E(Y/X = xk) = E(Y) lub, krócej, iż E1(Y) = E2(Y) = ... = Ek(Y) = E(Y).
Hipotezę sprawdzaną mówiącą o braku wpływu zmiennej losowej X na wartości średnie warunkowe zmiennej losowej Y i hipotezę alternatywną mówiącą o istnieniu tego wpływu możemy zatem zapisać w trzech równoważnych postaciach:
x0 : ηYX = 0, lub x0 : E(Y/X = x1) = E(Y/X = x2)= ... = E(Y/X = xk) = E(Y)
x0 : ηYX > 0, lub x1 : E(Y/X = xi) … E(Y/X = xj), dla i … j, i,j = 1,..., k
oraz E(Y/X = xi) … E(Y), i = 1,..., k
lub też x0 : E1(Y) = E2(Y) = ... = Ek(Y) = E(Y)
x0 : Ei(Y) … Ej(Y) dla i … j, i,j = 1,..., k.
oraz Ei(Y) … E(Y), i = 1,..., k.
Sformułowanie hipotezy sprawdzanej i alternatywnej w analizie wariancji
Jeżeli zmienna losowa Y ma rozkład normalny dla wszystkich poziomów xi (i = 1,..., k) czynnika X, to warunek braku wpływu czynnika X (zmiennej nielosowej X, mierzalnej lub niemierzalnej) na wartości średnie zmiennej losowej Y zapisujemy następująco: μ1 = μ2 = ... = μk = μ, gdzie μ jest symbolem wartości oczekiwanej rozkładu normalnego zmiennej Y. Stąd widzimy wyraźnie, że hipotezy (sprawdzana i alternatywna) formułowane w analizie wariancji:
x0 : μ1 = μ2 = ... = μk = μ
x1 : μi … μj dla i … j, i,j = 1,..., k
są równoważne hipotezom (sprawdzanej i alternatywnej) formułowanym we wnioskowaniu statystycznym dotyczącym wskaźnika korelacyjnego w sensie relacji równości (hipotezy sprawdzane) i relacji nierówności (hipotezy alternatywne) spełnianej przez wartości oczekiwane. Natura tych wartości oczekiwanych jest jednak różna, co szczegółowo omówiono wyżej w rozważaniach na temat teoretycznych podstaw zapisu hipotez sprawdzanych.
5.3. Porównanie statystyk F n narzędzi weryfikacji hipotezy sprawdzanej dotyczącej wskaźnika korelacyjnego oraz hipotezy sprawdzanej charakterystycznej dla analizy wariancji z klasyfikacją pojedynczą
Statystyka F, która, przy założeniu prawdziwości hipotezy badanej, ma rozkład F-Snedecora, jest narzędziem sprawdzania zarówno hipotezy mówiącej, że wskaźnik korelacyjny wynosi zero, jak i hipotezy mówiącej, że średnie w rozkładach zmiennej losowej Y w k grupach są jednakowe.
Obie statystyki F są następujące:
(5.9)
,
(5.10)
.
W celu wykazania, że wzory (5.9) i (5.10) są równoważne, przekształcamy wzór (5.9). Wykorzystujemy do tego wzór (4.3) mający uzasadnienie we wzorach tablicy wzorów 4.2, który zapisujemy obecnie pod postacją wzoru (5.11):
(5.11) e2yx =
.
Z tablicy wzorów 4.2, na podstawie wzoru (4.2.4), mamy:
(5.12) SSE = SST - SSB.
A zatem podstawiając wzór (5.11) do wzoru (5.9) oraz wykorzystując relację (5.12) otrzymujemy
=
.
Widzimy, iż w wyniku powyższych przekształceń otrzymaliśmy na końcu wzór (5.10).
W podsumowaniu możemy stwierdzić, że statystyka F jako narzędzie sprawdzania hipotezy mówiącej, że wskaźnik korelacyjny wynosi zero, jest taka sama jak statystyka F służąca sprawdzeniu hipotezy mówiącej, że średnie w rozkładach zmiennej losowej Y w k podpopulacjach są jednakowe.
5.4. Zbiory wartości krytycznych testu F
Zbiorem wartości krytycznych w teście F jest zbiór K dany jako: K = {F : F 0 należy do zbioru <
, + 4)}, gdzie
jest wartością odczytaną z tablic rozkładu F-Snedecora przy przyjętym poziomie istotności α oraz ustalonej liczbie stopni swobody, która wynosi v1 = k - 1 oraz v2 = n - k.
Jeżeli obliczona na podstawie wyników n-elementowej losowej próby statystyka F przyjmuje wartość należącą do zbioru K, to przy poziomie istotności α oraz przy ustalonej liczbie stopni swobody odrzucamy hipotezę badaną mówiącą, że średnie warunkowe są jednakowe, czyli że zmienna losowa X nie ma wpływu na zmienną losową Y lub że czynnik X nie różnicuje wartości zmiennej losowej Y na rzecz hipotezy alternatywnej mówiącej, że średnie warunkowe są różne, czyli że zmienna losowa X ma wpływ na zmienną losową Y lub też że czynnik X różnicuje wartości zmiennej losowej Y.
Jeżeli obliczona na podstawie wyników losowej próby statystyka F przyjmie wartość nie należącą do zbioru K, to przy przyjętym poziomie istotności α oraz przy ustalonej liczbie stopni swobody nie ma podstaw do odrzucenia hipotezy badanej mówiącej, że średnie warunkowe są jednakowe, czyli że zmienna losowa X nie ma wpływu na zmienną losową Y lub też iż czynnik X nie różnicuje wartości zmiennej losowej Y.
5.5. Zadanie dotyczące wnioskowania statystycznego
o wskaźniku korelacyjnym
W zadaniu 4.2 obliczono wskaźnik korelacyjny z próby, nieważony i ważony, w celu oceny siły wpływu makrosektorowej klasyfikacji spółek rynku równoległego w IV kwartale 1996 roku na wartości rynkowe spółek. W klasyfikacji uwzględniono trzy makrosektory: finanse, handel i przemysł. Nieważony wskaźnik korelacyjny przyjął wartość eyx = 0,3564393, czyli wartość bliską 0,356, która wskazuje, że wprawdzie w IV kwartale 1996 roku makrosektorowa klasyfikacja spółek miała wpływ na wartości rynkowe spółek, ale wpływ ten nie był zbyt silny. Wskaźnik ważony przyjął wartość eyx = 0,3072663. Wartość wskaźnika korelacyjnego bliska 0,307 tylko pozornie jest niższa od poprzedniej i tylko pozornie wskazuje na mniejszą siłę wpływu. Wynik jest bowiem obarczony błędem grupowania.
Zadanie 5.1
[Słowa kluczowe: wnioskowanie statystyczne n hipoteza dotycząca wskaźnika korelacyjnego.]
Weryfikując hipotezę dotyczącą wskaźnika korelacyjnego proszę odpowiedzieć na pytanie, czy na średnie wartości rynkowe spółek rynku równoległego miała w czwartym kwartale 1996 roku statystycznie znaczący wpływ przynależność tych spółek do makrosektorów?
Rozwiązanie
Hipotezę sprawdzaną i alternatywną do sprawdzanej zapisujemy:
Ho : ηYX = 0, lub xo : E1(Y) = E2(Y) = E3(Y)
H1 : ηYX > 0, lub x1 : Ei(Y) … Ej(Y), i … j, i,j = 1,2,3.
Statystyka F dana wzorem (5.9) jest narzędziem weryfikacji hipotezy sprawdznej, jej wartość Fobl wyznaczamy dla:
a) nieważonego wskaźnika korelacyjnego eyx = 0,3564393,
b) ważonego wskaźnika korelacyjnego eyx = 0,3072663.
ad a) Fobl =
=
,
ad b) Fobl =
=
.
Odczytana z tablic rozkładu F-Snedecora, przy poziomie istotności 0,05 oraz (k - 1) = 2 i (n - k) = 14 stopniach swobody, wartość statystyki F wynosi 3,74. Nie ma zatem podstaw, w obu przypadkach, do odrzucenia hipotezy sprawdzanej. Czynnik o trzech poziomach n przynależność do makrosektora n nie różnicował w IV kwartale 1996 roku w statystycznie znaczący sposób wartości rynkowych spółek rynku równoległego, czyli brak było w tym kwartale tego roku znaczącego wpływu makrosektorowej klasyfikacji spółek na średnie wartości rynkowe spółek.