Wykład 13
Metody probabilistyczne i statystyka
Korelacja krzywoliniowa
i współzależność cech
niemierzalnych
Dr Joanna BanaÅ›
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wydział Informatyki Politechniki Szczecińskiej
Metody probabilistyczne i statystyka Wykład 13
29. Współczynnik korelacji krzywoliniowej,
stosunek korelacyjny
Á nie jest wÅ‚aÅ›ciwym miernikiem współzależnoÅ›ci, gdy zależność miÄ™dzy
X i Y nie jest liniowa
y = g(x) dowolna regresja 2-go rodzaju, wyznaczona na podstawie
próbki (xi, yi), i=1,& ,n
Współczynnik zgodności
n 2 n 2
yi - g(xi ) yi - wi
( ) ( )
" "
i=1 i=1
Õ2 = =
yx
n 2 n 2
yi - y yi - y
( ) ( )
" "
i=1 i=1
jest miernikiem zgodności wyznaczonej linii regresji z danymi w próbce
(29.1) Własności (współczynnika zgodności)
a) Zgodność jest tym wiÄ™ksza im Õ2 jest mniejsze
yx
b) Õ2 `" Õ2
yx xy
c) 0 d" Õ2 d" 1
yx
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Współczynnik korelacji krzywoliniowej
Współczynnik korelacji krzywoliniowej to wielkość
ryx = 1- Õ2
yx
zaś r2 nazywamy współczynnikiem determinacji (im r2
yx yx
bliższe 1, tym linia regresji lepiej dopasowana)-
(29.2) Własności (współczynnika korelacji krzywoliniowej)
a) Współczynnik korelacji krzywoliniowej jest uogólnieniem
współczynnika korelacji liniowej, gdyż r2 = r2 , jeśli g(x) = ax + b
yx
b) Można go obliczyć dopiero po wyznaczeniu linii regresji, również dla
tablic korelacyjnych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Stosunek korelacyjny Pearsona
Niezależnym od regresji miernikiem współzależności cech jest stosunek
korelacyjny Pearsona, wyznaczany dla tablic korelacyjnych ze wzorów
w 2 w
2
2
1
yi - y ni. yi2ni. - y
sy / x
( )
" "
n
2
i=1 i=1
eyx = = =
2 k 2 k
0 0
2
1
sy
y - y n y2 n - y
( )
j . j j . j
" "
n
j=1 j=1
gdzie
Tablica 29.1. Tablica korelacyjna
2
0
0
sy / x jest wariancją średnich
ni.
X Y y1 & yk
warunkowych
0
x1 n11 & n1k n1.
(mierzy zróżnicowanie między
grupami, będące wynikiem
& & & & &
zmienności cechy X )
0
xw nw1 & nwk nw.
k
0
1
yi = y nij
"
ni. j=1 j
n
n & n n
. j
.1 .k
2
exy
Stosunek korelacyjny określamy analogicznie
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Stosunek korelacyjny Pearsona
(29.3) Własności (stosunków korelacyjnych)
2
a) eyx ")#0,1*#
2 2
r d" eyx
b)
c) eyx = 0 Ò! r = 0 (cechy sÄ… nieskorelowane)
d) r =1 Ò! eyx = exy =1 (zależność liniowa)
e) eyx "(0,1) Ò! eyx `" exy
2 2
M = eyx - r
Różnica określa miarę krzywoliniowości
yx
zwiÄ…zku
Jeśli przyjmuje wartości bliskie zera, wnioskujemy o liniowości
regresji
W przeciwnym przypadku wykorzystanie r do analizy jest
niepoprawne
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Testy liniowości regresji
(29.4) Weryfikacja hipotezy o liniowości regresji
Model (2-wymiarowy rozkład normalny, parametry nieznane)
(X, Y ) wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji Á i nieznany stosunek korelacyjny E2
YX
Jeśli z populacji pobrano n-elementową próbkę, którą przedstawiono w
tablicy korelacyjnej z w > 2 klasami dla cechy X i k klasami dla cechy Y,
to statystyka
MYX n - w
F = Å" , | EYX |<1
2
1- EYX w - 2
ma rozkład Fishera-Snedecora z w-2 i n-w stopniami swobody przy
założeniu, że prawdziwa jest hipoteza zerowa H0: MYX = 0
Obszar krytyczny dla hipotezy alternatywnej H1: MYX `" 0 ma dla ustalonego
poziomu ufności ą postać
K = )# F(1-Ä…, w-2, n-w), ")
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Weryfikacja hipotezy o liniowości regresji
Przykład
Cel badania analiza jakości produkcji w przedsiębiorstwie A
Jedna z hipotez: dzienna liczba braków, produkowana przez pracownika zależy od jego
stażu pracy
Zbadano 100 pracowników (poziom istotności 0.01)
Tablica przedstawia uzyskane wyniki o stażu pracy (cecha X w latach)
i dziennej liczbie braków (cecha Y w sztukach)
a) Określić siłę korelacji liczby braków
X Y 0-2 2-4 4-6 6-8
i stażu pracy
0-4 - 5 5 10
b) Obliczyć współczynnik korelacji
4-8
liniowej - - 10 -
c) Ocenić przydatność obu miar
8-12 10 10 - -
współzależności testem liniowości
12-16 20 10 - -
regresji (poziom istotności 0.05)
16-20 - 15 5 -
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
30. Badanie współzależności cech
niemierzalnych
Model 1 (cechy wyrażone w skali porządkowej)
Jeśli wartości cech niemierzalnych wyrażone są w skali porządkowej, można nadać
im rangi, tzn. ponumerować wartości od najniższej do najwyższej (lub odwrotnie)
Miernikiem współzależności cech X i Y jest wówczas współczynnik korelacji
rang Spearmana:
n 2
6 xi
( - yi
)
"
i=1
rS =1-
n(n2 -1)
gdzie xi i yi to rangi nadane i-tej parze wartości cech X i Y odpowiednio w próbce
(30.1) Własności (współczynnika Spearmana)
a) rs ")#-1,1*#
r = 0 brak zwiÄ…zku korelacyjnego
s
|r | = 1 zwiÄ…zek funkcyjny
s
b) Jest miarą siły i kierunku związku korelacyjnego
c) Jest symetryczny
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Współczynnik korelacji rang Spearmana
(30.2) Przykład
Tablica przedstawia informacje dotyczące zangażowania w pracę
organizacji studenckich oraz ocen w nauce badanej grupy studentów IV
roku WIPS
Student Stopień zaangażowania Średnia ocen z III roku studiów
A mniej niż przeciętny 4,5
B niski 4,0
C wysoki 2,7
D przeciętny 3,0
E bardzo wysoki 2,7
F bardzo niski 3,3
G przeciętny 3,1
Określić siłę związku pomiędzy cechami
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Badanie współzależności cech
niemierzalnych
Model 2 (cechy wyrażone w skali nominalnej)
Jeśli wartości cech niemierzalnych wyrażone są w skali nominalnej, to po
utworzeniu tablicy korelacyjnej, w której w jest liczbą kategorii cechy X, zaś k jest
liczbą kategorii cechy Y, można zbadać istnienie zależności testem statystycznym
Jeśli liczności nij e" 5 , i=1,& ,w , j=1,& ,k , to statystyka
2
nij - npij
w k ( )
Ç2 =
" "
i=1 j=1
npij
ma rozkÅ‚ad Ç2 z (w-1)(k-1) stopniami swobody przy zaÅ‚ożeniu, że prawdziwa
jest hipoteza zerowa H0: X i Y są niezależne, gdzie npij są licznościami
hipotetycznymi, wyznaczonymi z rozkÅ‚adów brzegowych, a pij = pi.Å"p
.j
Obszar krytyczny dla hipotezy alternatywnej H1: X i Y są zależne ma dla
ustalonego poziomu ufności ą postać
K = )# Ç2 (1-Ä…, (w-1)(k-1) ), ")
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Badanie współzależności cech
niemierzalnych
Miarę siły związku między cechami wyznaczają m.in. współczynniki
oparte na statystyce Ç2
współczynnik zbieżności V Cramera
Ç2
V = , gdzie g = min{w,k}
n(g -1)
współczynnik T Czuprowa
Ç2
T =
n (w -1)(k -1)
(30.3) Własności
a) {T, V } ‚" )#0,1*#
‚"
‚"
‚"
b) Cechy X, Y sÄ… niezależne Ò! T = V = 0
c) T = V = 1 Ô! zależność miÄ™dzy X i Y jest funkcyjna
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Badanie współzależności cech
niemierzalnych
(30.4) Przykład
W mieście A poddano ankiecie 200 osób z wyższym wykształceniem
Wyniki badania przedstawia tablica korelacyjna
Czy jest zadowolony z aktualnej pracy?
Wykształcenie
Tak Nie
Techniczne 45 25
Ekonomiczne 35 25
Humanistyczne 30 40
Czy istnieje związek między kierunkiem ukończonych studiów a
zadowoleniem z aktualnej pracy ?
Opracowała Joanna Banaś
Wykład 13
Metody probabilistyczne i statystyka
Dziękuję za uwagę
Opracowała Joanna Banaś
Wyszukiwarka
Podobne podstrony:
W13w13 2MPiS wyklad2MPiS cw zmienne losoweW13sciąga mpisW13Elektronika W13W13 Reak orgW13 Układy transmisji ruchuW02 MPiSMPiS cw dwie zmienne losoweW13 IL RRZ cz4w13 bwięcej podobnych podstron