R 5, Statystyka, Kasperowicz-Ruka

Rozdział 5

5. WNIOSKOWANIE STATYSTYCZNE DOTYCZĄCE WSKAźNIKA KORELACYJNEGO A ANALIZA WARIANCJI Z KLASYFIKACJĄ POJEDYNCZĄ: PORÓWNANIE OBU METOD

5.1. Teoretyczne podstawy zapisu w obu metodach hipotez sprawdzanych

Dla łącznej zmiennej losowej (X, Y) typu skokowego przyjmującej wartości (x_i, y_j), gdzie i = 1,..., k, j = 1,..., l, wyznaczamy warunkowe wartości oczekiwane zmiennej losowej Y. Obok w nawiasach podajemy warunkowe wartości oczekiwane zmiennej losowej Y typu ciągłego.

(5.1) E(Y/X = x_i) = E_i(Y) = (lub E(Y/X = x)= yf(y/x)dy)

i = 1,..., k, j = 1,..., l,

gdzie: p_ij = P(X = x_i, Y = y_j) (lub f(x, y) =

)

= P(X = x_i) = p_ij (lub f₁(x) = f(x, y) dy)

= P(Y = y_j) = p_ij (lub f₂(y) = f(x, y) dx

Wartości oczekiwane warunkowe zmiennej losowej Y są funkcją zmiennej losowej X, która dla zmiennej losowej typu skokowego przyjmuje wartości x_i, i = = 1,..., k, a dla zmiennej losowej typu ciągłego wartość x, . Wartości oczekiwane warunkowe oznaczamy, dla zmiennej losowej Y typu skokowego przez m₂(x_i), dla zmiennej losowej Y typu ciągłego przez m₂(x):

(5.2) E(Y/X = x_i) = m₂(x_i) (lub E(Y/X = x) = m₂(x)).

Wariancja zmiennej losowej Y w warunkowych rozkładach tej zmiennej jest stała, nie zależy od wartości x_i przyjmowanych przez zmienną losową X typu skokowego lub od wartości x przyjmowanych przez zmienną X typu ciągłego:

D²(Y/X = x_i) = σ² (lub D²(Y/X = x) = σ²).

W modelu związanym z wnioskowaniem statystycznym dotyczącym wskaźnika korelacyjnego mamy k rozkładów warunkowych zmiennej losowej Y, o których zakładamy, że są normalne, o wariancjach jednakowych, chociaż niekoniecznie znanych.

Jeżeli zmienne losowe X i Y typu skokowego (lub typu ciągłego) są niezależnymi zmiennymi losowymi, czyli jeżeli spełnione są warunki:

p_ij = (lub f(x, y) = f₁(x) f₂(y)

oraz

P(Y = y_j/X = x_i) = = (lub f(y/x) = f(x, y)/f₁(x) = f₂(y))

E(Y/X = x_i) = E(Y) (lub E(Y/X = x) = E(Y)).

A zatem jeżeli zmienna losowa Y typu skokowego jest (stochastycznie) niezależna od zmiennej losowej X, to warunkowe wartości oczekiwane zmiennej losowej Y nie zależą od wartości x_i (i = 1,..., k) przyjmowanych przez zmienną losową X:

(5.3) E(Y/X = x₁) = E(Y/X = x₂) = ... = E(Y/X = x_k) = E(Y),

lub, krócej,

(5.4) E₁(Y) = E₂(Y) = ... = E_k(Y) = E(Y)

Krzywa regresji I rodzaju zmiennej losowej Y względem zmiennej X jest wówczas prostą równoległą do osi 0x.

Jak wiadomo, spełnienie warunku (5.3) nie wystarcza, aby zmienne losowe X i Y były niezależnymi zmiennymi losowymi.

W modelu matematycznym analizy wariancji mamy n niezależnych zmiennych losowych (Y₁, Y₂... Y_n) o rozkładzie normalnym, przy czym odchylenie standardowe σ jest jednakowe w rozkładach normalnych wszystkich zmiennych losowych Y_i (i = = 1,..., k), ale nie jest znane. Te n zmiennych losowych poklasyfikowano na k grup w taki sposób, że zmienne losowe należące do i-tej grupy mają jednakową wartość oczekiwaną μ_i (i = 1,..., k) oraz jednakową wariancję σ². Zmienne losowe w i-tej grupie mają rozkład normalny N[μ_i, σ]. Kryterium podziału zmiennych losowych na k grup są poziomy zmiennej niezależnej, nielosowej, nazywanej w analizie wariancji czynnikiem, który ma k poziomów. Liczbę zmiennych losowych w i-tej grupie oznaczamy przez n_i, (i = 1,..., k), a n_i = n.

Jeżeli podział na k grup nie ma wpływu na wartości oczekiwane μ_i zmiennych losowych Y_i, (i = 1,..., k), to wartości oczekiwane μ_i spełniają warunek

(5.5) μ₁ = μ₂ = ... = μ_k, = μ,

Rozkład zmiennej losowej Y w podpopulacji o numerze i (i = 1,..., k) oraz rozkład warunkowy o numerze i (i = 1,..., k) zmiennej losowej Y nie mogą znaczyć tego samego. Między wzorem (5.4) oraz wzorem (5.5) istnieje podobieństwo polegające na relacji równości wartości oczekiwanych, natura tych wartości oczekiwanych jest inna. Wzór (5.4) dotyczy wartości oczekiwanych w rozkładach warunkowych (jednowymiarowych) zmiennej losowej dwuwymiarowej (X, Y), a wzór (5.5) dotyczy wartości oczekiwanych rozkładów jednowymiarowych w k niezależnych podpopulacjach.

5.2. Porównanie zapisów hipotez sprawdzanych i alternatywnych

Sformułowanie hipotezy sprawdzanej i alternatywnej dotyczącej

wskaźnika korelacyjnego

Podstawową miarą siły wpływu zmiennej losowej X na średnie warunkowe wartości zmiennej losowej Y jest wskaźnik korelacyjny η_YX. Wzory kwadratu wskaźnika korelacyjnego η_YX oraz wskaźnika korelacyjnego η_YX są następujące:

(5.6) =

(5.7) .

Elementami wzoru (5.6) są składniki równości wariancyjnej zmiennej losowej Y zapisane niżej.

(5.8) E[Y - E(Y)]² = E[m₂ (x_i) - E(Y)]² + E[Y - m₂ (x_i)]².

gdzie: m₂ (x_i) = E(Y/X = x_i), dla i = 1,..., k,

E[Y - E(Y)]² = D²(Y),

Brak wpływu zmiennej losowej X na wartości średnie warunkowe zmiennej losowej Y oznacza, iż wskaźnik korelacyjny η_YX przyjmuje wartość zero. Wskaźnik korelacyjny η_YX tylko wtedy przyjmuje wartość zero, jeżeli licznik wzoru (5.6) wynosi zero, czyli jeżeli m₂ (x_i) = E(Y/X = x_i) = E(Y) dla i = 1,..., k. Inaczej można zapisać, iż E(Y/X = x₁) = E(Y/X = x₂) = ... = E(Y/X = x_k) = E(Y) lub, krócej, iż E₁(Y) = E₂(Y) = ... = E_k(Y) = E(Y).

Hipotezę sprawdzaną mówiącą o braku wpływu zmiennej losowej X na wartości średnie warunkowe zmiennej losowej Y i hipotezę alternatywną mówiącą o istnieniu tego wpływu możemy zatem zapisać w trzech równoważnych postaciach:

x₀ : η_YX = 0, lub x₀ : E(Y/X = x₁) = E(Y/X = x₂)= ... = E(Y/X = x_k) = E(Y)

x₀ : η_YX > 0, lub x₁ : E(Y/X = x_i) … E(Y/X = x_j), dla i … j, i,j = 1,..., k

oraz E(Y/X = x_i) … E(Y), i = 1,..., k

lub też x₀ : E₁(Y) = E₂(Y) = ... = E_k(Y) = E(Y)

x₀ : E_i(Y) … E_j(Y) dla i … j, i,j = 1,..., k.

oraz E_i(Y) … E(Y), i = 1,..., k.

Sformułowanie hipotezy sprawdzanej i alternatywnej w analizie wariancji

Jeżeli zmienna losowa Y ma rozkład normalny dla wszystkich poziomów x_i (i = 1,..., k) czynnika X, to warunek braku wpływu czynnika X (zmiennej nielosowej X, mierzalnej lub niemierzalnej) na wartości średnie zmiennej losowej Y zapisujemy następująco: μ₁ = μ₂ = ... = μ_k = μ, gdzie μ jest symbolem wartości oczekiwanej rozkładu normalnego zmiennej Y. Stąd widzimy wyraźnie, że hipotezy (sprawdzana i alternatywna) formułowane w analizie wariancji:

x₀ : μ₁ = μ₂ = ... = μ_k = μ

x₁ : μ_i … μ_j dla i … j, i,j = 1,..., k

są równoważne hipotezom (sprawdzanej i alternatywnej) formułowanym we wnioskowaniu statystycznym dotyczącym wskaźnika korelacyjnego w sensie relacji równości (hipotezy sprawdzane) i relacji nierówności (hipotezy alternatywne) spełnianej przez wartości oczekiwane. Natura tych wartości oczekiwanych jest jednak różna, co szczegółowo omówiono wyżej w rozważaniach na temat teoretycznych podstaw zapisu hipotez sprawdzanych.

5.3. Porównanie statystyk F n narzędzi weryfikacji hipotezy sprawdzanej dotyczącej wskaźnika korelacyjnego oraz hipotezy sprawdzanej charakterystycznej dla analizy wariancji z klasyfikacją pojedynczą

Statystyka F, która, przy założeniu prawdziwości hipotezy badanej, ma rozkład F-Snedecora, jest narzędziem sprawdzania zarówno hipotezy mówiącej, że wskaźnik korelacyjny wynosi zero, jak i hipotezy mówiącej, że średnie w rozkładach zmiennej losowej Y w k grupach są jednakowe.

Obie statystyki F są następujące:

(5.9) ,

(5.10) .

W celu wykazania, że wzory (5.9) i (5.10) są równoważne, przekształcamy wzór (5.9). Wykorzystujemy do tego wzór (4.3) mający uzasadnienie we wzorach tablicy wzorów 4.2, który zapisujemy obecnie pod postacją wzoru (5.11):

(5.11) e²_yx = .

Z tablicy wzorów 4.2, na podstawie wzoru (4.2.4), mamy:

(5.12) SSE = SST - SSB.

A zatem podstawiając wzór (5.11) do wzoru (5.9) oraz wykorzystując relację (5.12) otrzymujemy

= .

Widzimy, iż w wyniku powyższych przekształceń otrzymaliśmy na końcu wzór (5.10).

W podsumowaniu możemy stwierdzić, że statystyka F jako narzędzie sprawdzania hipotezy mówiącej, że wskaźnik korelacyjny wynosi zero, jest taka sama jak statystyka F służąca sprawdzeniu hipotezy mówiącej, że średnie w rozkładach zmiennej losowej Y w k podpopulacjach są jednakowe.

5.4. Zbiory wartości krytycznych testu F

Zbiorem wartości krytycznych w teście F jest zbiór K dany jako: K = {F : F 0 należy do zbioru <, + 4)}, gdzie jest wartością odczytaną z tablic rozkładu F-Snedecora przy przyjętym poziomie istotności α oraz ustalonej liczbie stopni swobody, która wynosi v₁ = k - 1 oraz v₂ = n - k.

Jeżeli obliczona na podstawie wyników n-elementowej losowej próby statystyka F przyjmuje wartość należącą do zbioru K, to przy poziomie istotności α oraz przy ustalonej liczbie stopni swobody odrzucamy hipotezę badaną mówiącą, że średnie warunkowe są jednakowe, czyli że zmienna losowa X nie ma wpływu na zmienną losową Y lub że czynnik X nie różnicuje wartości zmiennej losowej Y na rzecz hipotezy alternatywnej mówiącej, że średnie warunkowe są różne, czyli że zmienna losowa X ma wpływ na zmienną losową Y lub też że czynnik X różnicuje wartości zmiennej losowej Y.

Jeżeli obliczona na podstawie wyników losowej próby statystyka F przyjmie wartość nie należącą do zbioru K, to przy przyjętym poziomie istotności α oraz przy ustalonej liczbie stopni swobody nie ma podstaw do odrzucenia hipotezy badanej mówiącej, że średnie warunkowe są jednakowe, czyli że zmienna losowa X nie ma wpływu na zmienną losową Y lub też iż czynnik X nie różnicuje wartości zmiennej losowej Y.

5.5. Zadanie dotyczące wnioskowania statystycznego

o wskaźniku korelacyjnym

W zadaniu 4.2 obliczono wskaźnik korelacyjny z próby, nieważony i ważony, w celu oceny siły wpływu makrosektorowej klasyfikacji spółek rynku równoległego w IV kwartale 1996 roku na wartości rynkowe spółek. W klasyfikacji uwzględniono trzy makrosektory: finanse, handel i przemysł. Nieważony wskaźnik korelacyjny przyjął wartość e_yx = 0,3564393, czyli wartość bliską 0,356, która wskazuje, że wprawdzie w IV kwartale 1996 roku makrosektorowa klasyfikacja spółek miała wpływ na wartości rynkowe spółek, ale wpływ ten nie był zbyt silny. Wskaźnik ważony przyjął wartość e_yx = 0,3072663. Wartość wskaźnika korelacyjnego bliska 0,307 tylko pozornie jest niższa od poprzedniej i tylko pozornie wskazuje na mniejszą siłę wpływu. Wynik jest bowiem obarczony błędem grupowania.

Zadanie 5.1

[Słowa kluczowe: wnioskowanie statystyczne n hipoteza dotycząca wskaźnika korelacyjnego.]

Weryfikując hipotezę dotyczącą wskaźnika korelacyjnego proszę odpowiedzieć na pytanie, czy na średnie wartości rynkowe spółek rynku równoległego miała w czwartym kwartale 1996 roku statystycznie znaczący wpływ przynależność tych spółek do makrosektorów?

Rozwiązanie

Hipotezę sprawdzaną i alternatywną do sprawdzanej zapisujemy:

H_o : η_YX = 0, lub x_o : E₁(Y) = E₂(Y) = E₃(Y)

H₁ : η_YX > 0, lub x₁ : E_i(Y) … E_j(Y), i … j, i,j = 1,2,3.

Statystyka F dana wzorem (5.9) jest narzędziem weryfikacji hipotezy sprawdznej, jej wartość F_obl wyznaczamy dla:

a) nieważonego wskaźnika korelacyjnego e_yx = 0,3564393,

b) ważonego wskaźnika korelacyjnego e_yx = 0,3072663.

ad a) F_obl = = ,

ad b) F_obl = = .

Odczytana z tablic rozkładu F-Snedecora, przy poziomie istotności 0,05 oraz (k - 1) = 2 i (n - k) = 14 stopniach swobody, wartość statystyki F wynosi 3,74. Nie ma zatem podstaw, w obu przypadkach, do odrzucenia hipotezy sprawdzanej. Czynnik o trzech poziomach n przynależność do makrosektora n nie różnicował w IV kwartale 1996 roku w statystycznie znaczący sposób wartości rynkowych spółek rynku równoległego, czyli brak było w tym kwartale tego roku znaczącego wpływu makrosektorowej klasyfikacji spółek na średnie wartości rynkowe spółek.