Badanie zależności między cechami statystycznymi
Zmienna wielowymiarowa jest to funkcja wielowymiarowa opisana na zbiorze
zdarzeń elementarnych.
Wektor wartości tej funkcji ma tyle składowych ile wynosi wymiar zmiennej.
Pojęcie zależności: jak wartości (częstości wystąpienia wartości) reagują na
zmiany wartości innej zmiennej (zmiennych)
Zależność funkcyjna (deterministyczna) np. droga i czas
Zależność niedeterministyczna (wartości determinowane są jedynie w
pewnym zakresie) wyjaśnianie zakresu zmienności jednej zmiennej za
pomocą drugiej zmiennej. Czyli odpowiedz na pytanie jakie procesy
ekonomiczne/społeczne kształtują wartości interesującej nas zmiennej.
Przykładowe dane
Zmienna ilościowa skokowa
Zmienna jakościowa
Zmienna ilościowa ciągła
Zbiór danych surowych: każdej
. .
jednostce obserwacji (respondentowi)
. .
. . przyporządkowano wartości 4 cech
. .
statystycznych
Liczba produktów zakupiona przy
okazji ostatnich zakupów
Wartość ostatnich zakupów (w PLN)
Rodzaj sklepu gdzie respondent zrobił
zakupy
Liczba osób w gospodarstwie
domowym respondenta
Rozkład dwuwymiarowy
Częstości / liczebności łączne i brzegowe
ni.
Rozkład liczebności łącznych (nij) dla
zmiennych: liczba produktów zakupionych i
liczba osób w gospodarstwie domowym .
Liczebności łączne (nij) wyrażają ile razy
wystąpiła dana kombinacja wartości dwóch
nij
zmiennych.
Rozkład liczebności brzegowych dla
zmiennych liczba produktów zakupionych ni.
liczba osób w gospodarstwie domowym n.j
n.j
znajduje się na zewnątrz tabeli.
Liczebności brzegowe wyrażają ile razy
wystąpiły wartości każdej ze zmiennych osobno.
6/100=0,06
Są to standardowe rozkłady dla jednej zmiennej.
pi.
Analogicznie do liczebności łącznych
interpretujemy częstości łączne (pij) jako
częstość wystąpienia kombinacji wartości obu
zmiennych.
pij
Częstości łączne wyrażają jak często wystąpiła
dana kombinacja wartości dwóch zmiennych.
Częstości brzegowe wyrażają jak często
p.j
wystąpiły wartości każdej ze zmiennych osobno.
Są to standardowe rozkłady częstości dla jednej
zmiennej.
Parametry rozkładów brzegowych
Ponieważ rozkłady brzegowe są po prostu
rozkładami poszczególnych zmiennych
możemy wyznaczyć ich parametry
Dla zmiennej liczba produktów (x):
x =1"0,24+ 2"0,25+...+7"0,09= 3,05
S(x) = (1-3,05)2 "0,24+(2-3,05)2 "0,25+...+(7 -3,05)2 "0,09 =1,88
Dla zmiennej liczba osób w gospodarstwie domowym (y):
y =1"0,19+ 2"0,28+...+4"0,24= 2,58
S(y) = (1-2,58)2 "0,19+(2-2,58)2 "0,28+...+(4-2,58)2 "0,24 =1,06
Parametr rozkładu łącznego: kowariancja
Charakterystyką rozkładów brzegowych są
odpowiadające im średnie i odchylenia
standardowe. Charakterystyką (parametrem)
rozkładu łącznego jest kowariancja, czyli miara
wyrażająca współzmienność dwóch cech
statystycznych.
Kowariancję wyznaczamy wg. wzoru (gdzie: k
wiersze, l kolumny)
k l
Cxy = xi y pij - x " y
"" j
1 2 3 4
i=1 j=1
1 =1*1*0,09 =1*2*0,09 & =1*4*0
2 =2*1*0,05 & & =2*4*0,06
Cxy =
3 & =3*2*0,06 & &
4 & & & &
1"1"0,09 + 2"1"0,05 +
5 & & & &
+ ...+ 2" 2"0,09 +...+
6 & . & & &
7 =7*1*0 & & 7*4*0,03
+ 7"4"0,03-
- 3,05" 2,58 = 0,78
Cxy " - S(x)S(X ); S(x)S(X )
O czym mówi kowariancja?
Kowariancja informuje o kierunku zależności między dwiema cechami statystycznymi.
Czyli: jak zmieniają się wartości jednej cechy (x) wraz ze zmieniającymi się
wartościami drugiej cechy (y).
Zależności liniowa Zależności liniowa Zależności
Brak zależności: Cxy=0
rosnąca Cxy>0 malejąca Cxy<0 krzywoliniowa Cxy=0
Y
Y Y Y
.... .
....
.
. ......
. .......
. ...
X
X X X
Przykład dla zależności pomiędzy liczbą
zakupionych produktów a wartością
całkowitą zakupów.
Możemy spodziewać się dodatniej
kowariancji i rosnącej zależności liniowej
między liczbą zakupionych produktów a
wartością całkowitą zakupów.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Pojęcie zależności statystycznej i współczynnik
korelacji liniowej (rxy)
Kowariancję wykorzystujemy do wyliczenia współczynnika korelacji liniowej rxy
(xy ro). Współczynnik ten zdaje sprawę z siły zależności liniowej pomiędzy
zmiennymi
Cxy
0,78
rxy =
gdzie rxy " -1;1
rxy = = 0,39
S(x)S(y)
1,88"1,06
Wartość ta oznacza słabą zależność dodatnią między analizowanymi zmiennymi.
Współczynnik korelacji liniowej zdaje sprawę jedynie z zależności liniowej.
rxy>0 lub rxy bliskie 1 rxy<0 lub rxy bliskie -1
rxy=0 rxy=0
Y
Y Y Y
.... .
....
.
. ......
. .......
. ...
X
X X X
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Rozkłady warunkowe
Dodatkową informacją jaką możemy pozyskać z
rozkładu dwóch zmiennych są tzw. rozkłady
warunkowe. Pokazują one rozkłady częstości
jednej zmiennej ze względu na wartości drugiej
zmiennej.
Rozkłady warunkowe pokazują w jaki sposób
jedna zmienna wpływa na częstości
(prawdopodobieństwa wystąpienia wartości
drugiej zmiennej)
Rozkład warunkowy zmiennej x (liczba produktów
ze względu na wartości zmiennej y (liczba osób w
gosp. domowym)
1 2 3 4
1 2 3 4
1 0,47 0,32 0,21 0
1 0,09/0,19= 0,09/0,28= 0,06/0,29= 0
2 0,26 0,32 0,17 0,25
2 0,05/0,19= 0,09/0,28= 0,05/0,29= 0,06/0,24=
3 0,11 0,21 0,14 0,21
3 0,02/0,19= 0,06/0,28= 0,04/0,29= 0,05/0,24=
4 0,05 0,04 0,17 0,21
4 0,01/0,19= 0,01/0,28= 0,05/0,29= 0,05/0,24=
5 0,11 0,04 0,10 0,13
5 0,02/0,19= 0,01/0,28= 0,03/0,29= 0,03/0,24=
6 0 0,04 0,03 0,08
6 0 0,01/0,28= 0,01/0,29= 0,02/0,24=
7 0 0,04 0,17 0,13
7 0 0,01/0,28= 0,05/0,29= 0,03/0,24=
Ł 1 1 1 1
Ł 1 1 1 1
Parametry rozkładów warunkowych
P(X=xi|Y=1) P(X=xi|Y=2) P(X=xi|Y=3) P(X=xi|Y=4)
Na podstawie rozkładów
1 0,47 0,32 0,21 0
warunkowych możemy
2 0,26 0,32 0,17 0,25
wyznaczyć ich parametry, tzn.
3 0,11 0,21 0,14 0,21
średnie warunkowe oraz
4 0,05 0,04 0,17 0,21
wariancje warunkowe
5 0,11 0,04 0,10 0,13
6 0 0,04 0,03 0,08
7 0 0,04 0,17 0,13
Ł 1 1 1 1
E(X|Y) 2,05 2,39 3,59 3,96
S2(X|Y) 1,73 2,31 4,31 2,79
S(X|Y) 1,32 1,52 2,08 1,67
E(X|Y=1)=1*0,47+2*0,26+3*0,11+4*0,05+5*0,11=2,05
S2(X|Y=1)=(1-2,05)2*0,47+(2-2,05)2 *0,26+(3-2,05)2 *0,11 + (4-2,05)2*0,05+(5-2,05)2*0,11=2,05
Regresja pierwszego rodzaju (regresja średnich
warunkowych)
Opierając się na porównaniu średnich warunkowych (regresja empiryczna)
możemy stwierdzić jak zmiana wartości jednej zmiennej (liczba osób w
gospodarstwie domowym) wpływa na zmianę wartości średnich warunkowych
drugiej zmiennej (liczba zakupionych produktów)
5
E(X|Y=3)=3,96
E(X|Y=3)=3,59
4
3
x = 3,05
2 E(X|Y=2)=2,39
E(X|Y=1)=2,05
1
0
012345
Regresja (reguła matematyczna) pozwala modelować zależności między
zmiennymi. Syntetyczna prezentacja postaci zależności.
Równość wariancyjna
Wykorzystując parametry rozkładów warunkowych możemy wyprowadzić tzw. równość
wariancyjną. Równość ta pokazuje jakie są składowe wpływające na ogólne
zróżnicowanie danej zmiennej (wariancję). Jest to dekompozycja wariancji zmiennej na:
zróżnicowanie wewnątrz grupowe
5
(średnią wariancji warunkowych)
E(X|Y=3)=3,96
E(X|Y=3)=3,59
4
zróżnicowanie między grupowe
(wariancjęśrednich warunkowych)
3
x =3,05
2 E(X|Y=2)=2,39
E(X|Y=1)=2,05 2 2 2
S (X ) = E(S (X )) + S (Ej (X ))
j
1
0
Jak obliczamy składnik równości
012345
wariancyjnej?
Wykorzystujemy parametry warunkowe oraz częstości brzegowe zmiennej Y które
określają udział poszczególnych rozkładów warunkowych.
Pojęcie zależności stochastycznej
Zależność stochastyczna (czyli to jak wartości jednej zmiennej wpływają na
prawdopodobieństwa wystąpienia wartości drugiej zmiennej) wykorzystywana jest w
analizie gdy występują zmienne o charakterze jakościowym (kiedy nie można policzyć
średnich)
W tym przypadku możemy jedynie policzyć jak
wielkość sklepu wpływa na prawdopodobieństwo
zakupienia określonej liczby produktów.
Warunkiem niezależności stochastycznej jest
spełnienie relacji:
pij = pi." p.j
Oznacza to sytuację w której częstości łączne są
iloczynami częstości brzegowych. Dla naszego
przykładu:
Miary zależności stochastycznej: chi2 i V-Cramera
Siłę zależności stochastycznej mierzymy za pomocą współczynnika zbieżności V-
Cramera
2
k liczba wierszy tabeli
V =
gdzie : g = min{k,l} V " 0,1
l liczba kolumn tabeli
n "(g -1)
Współczynnik ten informuje nas w jakim stopniu rozkład empiryczny zbiega do
hipotetycznego (czyli wyznaczonego przez warunek niezależności stochastycznej).
Miarą zbieżności jest statystyka:
k l
Ć
(nij - nij )2
nij - liczebności łączne
2
ni." n .
empiryczne
j
=
""
Ć
nij =
Hipotetyczne:
Ć
nij
i=1 i=1 Ć liczebności łączne
nij -
n
hipotetyczne
Mały Średni Duży Ł
Empiryczne
1 33*24/100 34*24/100 33*24/100 24
2 33*25/100 34*25/100 33*25/100 25
3 33*17/100 34*17/100 33*17/100 17
4 33*12/100 34*12/100 33*12/100 12
5 33*9/100 34*9/100 33*9/100 9
6 33*4/100 34*4/100 33*4/100 4
7 33*9/100 34*9/100 33*9/100 9
Ł 33 34 33 100
Miary zależności stochastycznej: chi2 i V-Cramera
Rozkład empiryczny
Rozkład hipotetyczny
k l
Ć
(nij - nij )2
Wyliczenie statystyki ż2
2
=
""
Mały Średni Duży
Ć
nij
i=1 i=1
1 (24-7,9)2/7,9 & (0-7,9)2/7,9
2 (9-8,3)2/8,3 & &
160,1
3 & (17-5,8)2/5,8 &
V =
= 0,89
4 & & (11-4)2/4 100 " (3 -1)
5 & & &
6 & & & Silna zależność między wielkością
7 & (0-3,1)2/3,1 & sklepu a liczbą zakupionych
160,1 produktów
Badanie istotności miar zależności
Test t dla współczynnika Test chi-2 dla zależności
korelacji liniowej rxy stochastycznej
Ho: xy=0 Ho: pij=pi.*p.j
H1: xy`"0 H1: pij`"pi.*p.j
k l
Ć
r(x, y) (nij - nij )2
2
t = " n - 2
=
""
1- r2(x, y) Ć
nij
i=1 i=1
0,39
2
=160,1
t = " 100 - 2 = 0,41
1- 0,392
dla ą = 0,05
dla ą = 0,05 v = 98 tą ,v = 1,98
v = (k -1)(l -1) v = (7 -1)"(3 -1) = 12
2 2 2
tobl < tą ,v
ą ,v = 21,02 obl > ą ,v
Nie ma podstaw do odrzucenia hipotezy
Odrzucamy hipotezę zerową na rzecz
zerowej. Brak liniowej zależności
hipotezy alternatywnej. Istnieje zależność
korelacyjnej pomiędzy liczbą zakupionych
stochastyczna między liczbą zakupionych
produktów a liczbą osób w gospodarstwie
produktów wielkością sklepu.
domowym
Korelacja rang
Ten sposób analizy stosujemy w przypadkach kiedy mamy do czynienia z
cechami niemierzalnymi.
Ocena zależności między cechami niemierzalnymi może mieć miejsce jedynie
wtedy gdy nada się im umowne wartości liczbowe.
Te umowne wartości nazywamy rangami.
Analiza polega na doszukaniu się prawidłowości w kształtowaniu się rang. Badamy
czy występuje zbieżność bądz rozbieżność wartości rang dla dwóch cech
statystycznych. Miernikiem tego typu prawidłowości jest współczynnik korelacji rang:
n
2
6 " d
" i
Gdzie di oznacza różnicę między rangami nadanymi
obu cechom statystycznym dla i-tej jednostki
i = 1
rd = 1 -
obserwacji
2
n ( n - 1 )
rd " -1,1
Przykład
Uczestników programu Marketing i administracja poproszono o ocenę przebiegu
studiów ze względu na atrakcyjność wykładów oraz poziom trudności.
Poszczególnym specjalnościom nadano rangi ze względu na atrakcyjność oraz
trudność. Otrzymano następujące rezultaty:
Specjalność Atrakcyjność Trudność
Marketing 5 2
Bankowość 44
Księgowość 15
Zarządzanie 3 3
Inne 2 1
Proszę ocenić, za pomocą odpowiedniej miary, zależność między atrakcyjnością
oraz trudnością proponowanych wykładów
2
di
d
i 6 " 26
rd = 1 - = - 0,3
2
5(5 - 1)
Słaba rozbieżność opinii na temat
atrakcyjności i stopnia trudności
przedmiotów
Wyszukiwarka
Podobne podstrony:
30 Badanie zależności prędkości dźwięku od temperatury6i8 Badanie podstawowych przemian termodynamicznych Wyznaczanie wielkości kappa Wyznaczanie ciepła[W] Badania Operacyjne Zagadnienia transportowe (2009 04 19)07 Badanie „Polacy o ADHD”4M Badanie prostownik w jednofazowych i uk éad w filtruj¦ůcychbadania dyskusjabadania operacyjne 9Analiza zależności dwóch cech statystycznych ilościowychBadanie czystości metodą klasycznąChemia żywnosciCwiczenie laboratoryjne nr 1 wyodrebnianie i badanie własciwosci fizykochemicznych bwięcej podobnych podstron