W13 MPiS


Wykład 13
Metody probabilistyczne i statystyka
Korelacja krzywoliniowa
i współzależność cech
niemierzalnych
Dr Joanna BanaÅ›
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wydział Informatyki Politechniki Szczecińskiej
Metody probabilistyczne i statystyka Wykład 13
29. Współczynnik korelacji krzywoliniowej,
stosunek korelacyjny
Á nie jest wÅ‚aÅ›ciwym miernikiem współzależnoÅ›ci, gdy zależność miÄ™dzy
X i Y nie jest liniowa
y = g(x)  dowolna regresja 2-go rodzaju, wyznaczona na podstawie
próbki (xi, yi), i=1,& ,n
Współczynnik zgodności
n 2 n 2
yi - g(xi ) yi - wi
( ) ( )
" "
i=1 i=1
Õ2 = =
yx
n 2 n 2
yi - y yi - y
( ) ( )
" "
i=1 i=1
jest miernikiem zgodności wyznaczonej linii regresji z danymi w próbce
(29.1) Własności (współczynnika zgodności)
a) Zgodność jest tym wiÄ™ksza im Õ2 jest mniejsze
yx
b) Õ2 `" Õ2
yx xy
c) 0 d" Õ2 d" 1
yx
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Współczynnik korelacji krzywoliniowej
Współczynnik korelacji krzywoliniowej to wielkość
ryx = 1- Õ2
yx
zaś r2 nazywamy współczynnikiem determinacji (im r2
yx yx
bliższe 1, tym linia regresji lepiej dopasowana)-
(29.2) Własności (współczynnika korelacji krzywoliniowej)
a) Współczynnik korelacji krzywoliniowej jest uogólnieniem
współczynnika korelacji liniowej, gdyż r2 = r2 , jeśli g(x) = ax + b
yx
b) Można go obliczyć dopiero po wyznaczeniu linii regresji, również dla
tablic korelacyjnych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Stosunek korelacyjny Pearsona
Niezależnym od regresji miernikiem współzależności cech jest stosunek
korelacyjny Pearsona, wyznaczany dla tablic korelacyjnych ze wzorów
w 2 w
2
2
1
yi - y ni. yi2ni. - y
sy / x
( )
" "
n
2
i=1 i=1
eyx = = =
2 k 2 k
0 0
2
1
sy
y - y n y2 n - y
( )
j . j j . j
" "
n
j=1 j=1
gdzie
Tablica 29.1. Tablica korelacyjna
2
0
0
sy / x jest wariancją średnich
ni.
X Y y1 & yk
warunkowych
0
x1 n11 & n1k n1.
(mierzy zróżnicowanie między
grupami, będące wynikiem
& & & & &
zmienności cechy X )
0
xw nw1 & nwk nw.
k
0
1
yi = y nij
"
ni. j=1 j
n
n & n n
. j
.1 .k
2
exy
Stosunek korelacyjny określamy analogicznie
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Stosunek korelacyjny Pearsona
(29.3) Własności (stosunków korelacyjnych)
2
a) eyx ")#0,1*#
2 2
r d" eyx
b)
c) eyx = 0 Ò! r = 0 (cechy sÄ… nieskorelowane)
d) r =1 Ò! eyx = exy =1 (zależność liniowa)
e) eyx "(0,1) Ò! eyx `" exy
2 2
M = eyx - r
Różnica określa miarę krzywoliniowości
yx
zwiÄ…zku
Jeśli przyjmuje wartości bliskie zera, wnioskujemy o liniowości
regresji
W przeciwnym przypadku wykorzystanie r do analizy jest
niepoprawne
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Testy liniowości regresji
(29.4) Weryfikacja hipotezy o liniowości regresji
Model (2-wymiarowy rozkład normalny, parametry nieznane)
(X, Y )  wektor losowy o dwuwymiarowym rozkładzie normalnym,
nieznany współczynnik korelacji Á i nieznany stosunek korelacyjny E2
YX
Jeśli z populacji pobrano n-elementową próbkę, którą przedstawiono w
tablicy korelacyjnej z w > 2 klasami dla cechy X i k klasami dla cechy Y,
to statystyka
MYX n - w
F = Å" , | EYX |<1
2
1- EYX w - 2
ma rozkład Fishera-Snedecora z w-2 i n-w stopniami swobody przy
założeniu, że prawdziwa jest hipoteza zerowa H0: MYX = 0
Obszar krytyczny dla hipotezy alternatywnej H1: MYX `" 0 ma dla ustalonego
poziomu ufności ą postać
K = )# F(1-Ä…, w-2, n-w), ")
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Weryfikacja hipotezy o liniowości regresji
Przykład
Cel badania  analiza jakości produkcji w przedsiębiorstwie A
Jedna z hipotez: dzienna liczba braków, produkowana przez pracownika zależy od jego
stażu pracy
Zbadano 100 pracowników (poziom istotności 0.01)
Tablica przedstawia uzyskane wyniki o stażu pracy (cecha X w latach)
i dziennej liczbie braków (cecha Y w sztukach)
a) Określić siłę korelacji liczby braków
X Y 0-2 2-4 4-6 6-8
i stażu pracy
0-4 - 5 5 10
b) Obliczyć współczynnik korelacji
4-8
liniowej - - 10 -
c) Ocenić przydatność obu miar
8-12 10 10 - -
współzależności testem liniowości
12-16 20 10 - -
regresji (poziom istotności 0.05)
16-20 - 15 5 -
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
30. Badanie współzależności cech
niemierzalnych
Model 1 (cechy wyrażone w skali porządkowej)
Jeśli wartości cech niemierzalnych wyrażone są w skali porządkowej, można nadać
im rangi, tzn. ponumerować wartości od najniższej do najwyższej (lub odwrotnie)
Miernikiem współzależności cech X i Y jest wówczas współczynnik korelacji
rang Spearmana:
n 2
6 xi
( - yi
)
"
i=1
rS =1-
n(n2 -1)
gdzie xi i yi to rangi nadane i-tej parze wartości cech X i Y odpowiednio w próbce
(30.1) Własności (współczynnika Spearmana)
a) rs ")#-1,1*#
r = 0  brak zwiÄ…zku korelacyjnego
s
|r | = 1  zwiÄ…zek funkcyjny
s
b) Jest miarą siły i kierunku związku korelacyjnego
c) Jest symetryczny
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Współczynnik korelacji rang Spearmana
(30.2) Przykład
Tablica przedstawia informacje dotyczące zangażowania w pracę
organizacji studenckich oraz ocen w nauce badanej grupy studentów IV
roku WIPS
Student Stopień zaangażowania Średnia ocen z III roku studiów
A mniej niż przeciętny 4,5
B niski 4,0
C wysoki 2,7
D przeciętny 3,0
E bardzo wysoki 2,7
F bardzo niski 3,3
G przeciętny 3,1
Określić siłę związku pomiędzy cechami
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Badanie współzależności cech
niemierzalnych
Model 2 (cechy wyrażone w skali nominalnej)
Jeśli wartości cech niemierzalnych wyrażone są w skali nominalnej, to po
utworzeniu tablicy korelacyjnej, w której w jest liczbą kategorii cechy X, zaś k jest
liczbą kategorii cechy Y, można zbadać istnienie zależności testem statystycznym
Jeśli liczności nij e" 5 , i=1,& ,w , j=1,& ,k , to statystyka
2
nij - npij
w k ( )
Ç2 =
" "
i=1 j=1
npij
ma rozkÅ‚ad Ç2 z (w-1)(k-1) stopniami swobody przy zaÅ‚ożeniu, że prawdziwa
jest hipoteza zerowa H0: X i Y są niezależne, gdzie npij są licznościami
hipotetycznymi, wyznaczonymi z rozkÅ‚adów brzegowych, a pij = pi.Å"p
.j
Obszar krytyczny dla hipotezy alternatywnej H1: X i Y są zależne ma dla
ustalonego poziomu ufności ą postać
K = )# Ç2 (1-Ä…, (w-1)(k-1) ), ")
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Badanie współzależności cech
niemierzalnych
Miarę siły związku między cechami wyznaczają m.in. współczynniki
oparte na statystyce Ç2
współczynnik zbieżności V Cramera
Ç2
V = , gdzie g = min{w,k}
n(g -1)
współczynnik T Czuprowa
Ç2
T =
n (w -1)(k -1)
(30.3) Własności
a) {T, V } ‚" )#0,1*#
‚"
‚"
‚"
b) Cechy X, Y sÄ… niezależne Ò! T = V = 0
c) T = V = 1 Ô! zależność miÄ™dzy X i Y jest funkcyjna
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 13
Badanie współzależności cech
niemierzalnych
(30.4) Przykład
W mieście A poddano ankiecie 200 osób z wyższym wykształceniem
Wyniki badania przedstawia tablica korelacyjna
Czy jest zadowolony z aktualnej pracy?
Wykształcenie
Tak Nie
Techniczne 45 25
Ekonomiczne 35 25
Humanistyczne 30 40
Czy istnieje związek między kierunkiem ukończonych studiów a
zadowoleniem z aktualnej pracy ?
Opracowała Joanna Banaś
Wykład 13
Metody probabilistyczne i statystyka
Dziękuję za uwagę
Opracowała Joanna Banaś


Wyszukiwarka

Podobne podstrony:
W13
w13 2
MPiS wyklad2
MPiS cw zmienne losowe
W13
sciÄ…ga mpis
W13
Elektronika W13
W13 Reak org
W13 Układy transmisji ruchu
W02 MPiS
MPiS cw dwie zmienne losowe
W13 IL RRZ cz4
w13 b

więcej podobnych podstron