Anna Malarska Katedra Statystyki Ekonomicznej i Społecznej UA
Anna Malarska Katedra Statystyki Ekonomicznej i Społecznej UA
N k do WYKAADU
Notatki d WYKAADU ze
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
część III
część III
część III
część III
III. METODY ANALIZY POWIZAC MIDZY DWOMA CECHAMI
3.1 Wprowadzenie
p
3.2 Korelacja cech ilościowych
3.2.1 Wykrywanie związku w szeregu korelacyjnym
3,2.2 Tablica korelacyjna i jej charakterystyki
33 Powiązania cech jakościowych
3.3 Powiązania cech jakościowych
3.4 Opis postaci zależności między cechami ilościowymi
Wszelkie prawa zastrzeżone. Opracowanie przeznaczone jest dla studentów Informatyki
Wszelkie prawa zastrzeżone. Opracowanie przeznaczone jest dla studentów Informatyki
i Ek t ii ł h t ki kł d A M l ki j Rh i i
i Ek t ii ł h t ki kł d A M l ki j Rh i i
i Ekonometrii, słuchaczy autorskiego programu wykładu A Malarskiej Rozpowszechnianie
i Ekonometrii, słuchaczy autorskiego programu wykładu A.. Malarskiej.. Rozpowszechnianie
w jakiejkolwiek formie części lub całości opracowania wymaga zgody Autorki.
w jakiejkolwiek formie części lub całości opracowania wymaga zgody Autorki.
III. METODY ANALIZY POWIZAC MIDZY DWOMA CECHAMI
III. METODY ANALIZY POWIZAC MIDZY DWOMA CECHAMI
3.1 Wp
3.1 Wprowadzenie
prowadzenie
p
Często nadrzędnym celem badań jest wiedza o sposobie oddziaływania jednej zmiennej
na drugą, czyli poznanie mechanizmu powiązań między nimi. Analiza powiązań jest tym
ciekawsza i tym pożyteczniejsza im większej liczby cech dotyczy. Tego typu ujęcie wydaje się
znacznie lepiej odpowiadać modelowaniu otaczającej nas rzeczywistości.
W opisie relacji pomiędzy pomiarami dwóch logicznie powiązanych zmiennych (zjawisk)
kluczową j py y g ązku. Dwie cechy wykazują p ą , jeżeli
ą jest problematyka oceny tego zwią y y ją powiązania, j
wielkości jednej z nich determinowane są (pozostają pod wpływem) zmianami wartości
drugiej w sposób systematyczny i trwały.
Analiza zależności między cechami bada siłę i kierunek powiązań zachodzących
Analiza zależności między cechami bada siłę i kierunek powiązań zachodzących
między nimi. Ocenia współzależność lub więzi przyczynowo-skutkowe i ułatwia eliminację tzw.
związków pozornych (iluzorycznych).
Wykrycie związku korelacyjnego między cechami jest przyczynkiem do opisu kształtu
(postaci) badanej zależności. Oznacza to, że w analizie ilościowej zbiorowości
wielowymiarowej wyróżnia się: analizę korelacji oraz analizę regresji. Zagadnienia te
ujmowane są integralnie przez dział statystyki zwany teorią korelacji i regresji
ujmowane są integralnie przez dział statystyki zwany teorią korelacji i regresji.
W teorii korelacji i regresji cech ilościowych wyróżnia się dwa typy zależności tj.
funkcyjna i statystyczna
funkcyjna i statystyczna.
2
zależność funkcyjna
7
zależność funkcyjna postaci:
6
yi = - 2+ 0,2xi ; R2 = 1,00
5
5
polega na tym, że zmiana wartości jednej cechy
4
(zmiennej X) powoduje jedno-znacznie, ściśle
3
określoną zmianę wartości drugiej cechy (zmiennej Y).
2
2
Jest to matematyczne pojęcie związku, w którym Y
1
= f (X) oraz X = f (Y).
czas (min)
0
15 20 25 30 35 40
ma miejsce wówczas, gdy zmianom wartości jednej cechy
zależność statystyczna
(zmiennej X) towarzyszą zmiany średnich wartości cechy
drugiej (zmiennej Y) . Możliwe są następujące sytuacje:
yi yi
korelacja ujemna
korelacja dodatnia
y9
y8
y8
y9
y7
y8
y7
x13= x14 = x15
x7 = x8 = x9 xi x17 = x18 = x19 xi
x7 = x8 = x9
cechy wykazują zmiany jednokierunkowe cechy wykazują zmiany różnokierunkowe
(wartości obu na ogół rosną albo na ogół (wzrost jednej cechy powoduje na ogół
maleją) związek dodatni spadek drugiej) związek ujemny
3
b
liczba błędów
brak korelacji
yi
Jeśli zmianom cechy X nie towarzyszą żadne
y3
regularne zmiany średnich wartości cechy drugiej Y
orzeka się brak związku między nimi.
y1
Diagnostyka graficzna winna poprzedzać
każde modelowe rozwiązanie analityczne. Jej
y2
2
wskazania, choć nieprecyzyjne, są dobrym,
logicznym uzasadnieniem dalszej ścieżki
postępowania w analizie korelacji i regresji.
x1 x2 = x3
xi
Podstawą wizualizacji obserwowanych powiązań wszystkich odpowiadających sobie par
realizacji ilościowych zmiennych X i Y są tzw. szeregi korelacyjne. Oparte na danych
indywidualnych specjalne konstrukcje tabelaryczne zwane szeregami korelacyjnymi
zawierają kompletną informację o wartościach pomiarów odpowiadających sobie par
zawierają kompletną informację o wartościach pomiarów odpowiadających sobie par
zmiennych X i Y.
Szereg korelacyjny oparty na cechach mierzalnych:
12
yi
yi = - 6,5 + 0,15 xi
i
R2 = 0,9265
10
8
6
6
4
2
0
55 65 75 85 95 105 115 125
4
czas pisania (min)
ó
liczba błędów
Szereg korelacyjny jest
jedną ycznej
j ą z form tabelary j
prezentacji danych ilościowych
w analizie korelacji i regresji.
Z indywidualnych danych o
dwóch cechach jakościowych w
szeregu korelacyjnym nic nie
wynika, nie można go przedstawić
graficznie i nie nadaje się do
graficznie i nie nadaje się do
żadnej analizy.
Naturalną jest potrzeba agregacji obu przykładowych par informacji. Logiczno-
merytoryczne grupowanie danych indywidualnych wymaga jednak innej niż szereg
korelacyjny formy prezentacji danych. Jest nią tablica statystyczna zwana:
korelacyjną, jeśli dotyczy zmiennych ilościowych,
kontyngencji, jeśli dotyczy zmiennych jakościowych.
Oba typy tablic, a w ślad za nimi i miary opisujące powiązania między dwoma zmiennymi,
b d d ń h k ó d ł l d ó
będą przedmiotem rozważań następnych punktów tego rozdziału. Ze względu na różny
stopień trudności w pierwszej kolejności, jako łatwiejsze w percepcji istoty powiązań,
omawiane są zagadnienia korelacji oparte na ilościowych danych indywidualnych
prezentowanych w szeregu korelacyjnym
prezentowanych w szeregu korelacyjnym.
5
3.2 Korelacja cech ilościowych
3.2 Korelacja cech ilościowych
3.2.1 Wykrywanie związku w szeregu korelacyjnym
3.2.1 Wykrywanie związku w szeregu korelacyjnym
Ważnym krokiem w wykrywaniu oddziaływania jednej zmiennej na drugą w sposób
Ważnym krokiem w wykrywaniu oddziaływania jednej zmiennej na drugą w sposób
systematyczny i trwały było spostrzeżenie, że powiązania między nimi są tym ściślejsze im
większa jest równoczesna zgodność odchyleń wariantów cech X i Y od ich średnich
arytmetycznych.
Zgodność tę przełożono na sumę wszystkich iloczynów odchyleń wariantów cech od ich
średnich arytmetycznych i uśredniono, dzieląc przez łączną liczbę pomiarów. Miernik
skonstruowany w myśl tej zasady nosi nazwę kowariancji i ma postać:
(3.1)
wady:
kowariancja cech : 1o nie ma interpretacji i 2o jest miarą nie unormowaną.
Wada 1o wynika z abstrakcyjnego zlepka mian obu analizowanych cech. Wadę 2o z kolei,
najłatwiej wykazać empirycznie. Okaże się wówczas, że dwukrotny wzrost poziomu wartości
cech powoduje podwojenie wartości kowariancji, dziesięciokrotny wywoła wzrost
dziesięciokrotny itd Prawidłowość ta świadczy o wpływie skali pomiaru cech na wartość
dziesięciokrotny itd. Prawidłowość ta świadczy o wpływie skali pomiaru cech na wartość
kowariancji. Brak normatywu (zarówno górnego, jak i dolnego) eliminuje kowariancję z
zastosowań w analizach porównawczych powiązań między różnymi parami cech.
zaleta:
kowariancja cech posiada zdolność wykrywania związku między cechami
Tylko zerowa wartość kowariancji świadczy o braku powiązań między cechami, a każda
inna istnienie ich potwierdza. Kowariancję więc znormalizowano (na wzór tzw. operacji
standaryzacji) dzieląc jej wartość przez iloczyn odchyleń standardowych zmiennych X i Y.
t d ji) d i l j j t ść il d h l ń t d d h ih X i Y
6
W ten sposób skonstruowana została kluczowa miara siły skorelowania pary zmiennych,
jaką jest współczynnik korelacji liniowej Pearsona ryx postaci:
Współczynnik korelacji liniowej Pearsona jest unormowany i spełnia warunek:
(3.4)
1 d" ryx d" +1
przy y
p y czym:
oznacza brak zależności,
ryx =0
świadczą o silnej zależności (odpowiednio ujemnej i
ryx H" 1 albo ryxH" +1
dodatniej ) między cechami jest ona prostoliniowa,
oznaczają zupełne (funkcyjne) skorelowanie cech X i Y
oznaczają zupełne (funkcyjne) skorelowanie cech X i Y
r 1 albo r +1
ryx = 1 albo ryx =+1
odpowiednio: różno- i jednokierunkowe.
Wartość współczynnika korelacji liniowej Pearsona ryx można też wyznaczać
według innych formuł, które są przekształceniami wyjściowego wzoru (3.3).
Bez względu na charakter zależności między cechami innym, prostym miernikiem siły i
kierunku związku jest współczynnik korelacji rang Spearmana (korelacji
kolejnościowej rang) rS postaci:
(3.5)
gdzie:
ranga (miejsce, pozycja) jednostki z punktu widzenia cechy X,
ranga (miejsce, pozycja) jednostki z punktu widzenia cechy Y,
7
di różnica między rangami.
nadawanie rang wymaga monotonicznego uporządkowania par
UWAGA:
obserwacji z punktu widzenia jednej cechy (najlepiej X).
Podobnie, jak ryx :
(3.6)
1 d" rS d" +1
Wartość bezwzględna współczynnika korelacji rang |rS| określa siłę zależności, zaś znak
g ę p y j g | | ę ,
S
informuje o kierunku zależności, jeśli tylko ciąg par uporządkowany został niema-
lejąco ze względu na cechę X. Współczynnik korelacji rang nie wymaga założenia
prostoliniowości związku pomiędzy cechami wyrażonymi co najmniej na skali porządkowej
prostoliniowości związku pomiędzy cechami wyrażonymi co najmniej na skali porządkowej.
Jest miarą lepszą od współczynnika Pearsona w sytuacji, gdy badana zależność
jest krzywoliniowa.
Współczynnik korelacji rang Spearmana jest szczególnym przypadkiem współczynnika
korelacji liniowej Pearsona. Różnica wartości między nimi jest tym większa im większa jest
krzywoliniowość badanego związku.
Formuła (3.5) znajduje zastosowanie tylko wtedy, gdy realizacje (pomiary) cech X i Y
są różne. Wówczas, nadane rangi są liczbami całkowitymi. Przypadek, w którym realizacje
cechy X (bądz Y) powtarza(ją) się określany jest mianem pomiarów powiązanych rangą
cechy X (bądz Y) powtarza(ją) się, określany jest mianem pomiarów powiązanych rangą,
czy też rang (po)wiązanych.
Miarę siły i kierunku takiego związku korelacyjnego nazywa się współczynnikiem korelacji
z rangami (po)wiązanymi. W oprogramowaniu ma on symbol rhoS równoważny rS.
z rangami (po)wiązanymi. W oprogramowaniu ma on symbol rhoS równoważny rS.
8
3.2.1 Tablica korelacyjna i jej charakterystyki
3.2.1 Tablica korelacyjna i jej charakterystyki
Szereg korelacyjny zawiera szczegółowe informacje o wszystkich pojedynczych
wystąpieniach par . Agregując (grupując) te same, powtarzające się wartości cechy
h ( ) ś h
X w w klas oraz te same wartości cechy Y w k klas z jednoczesnym zapamiętaniem częstości
powtórzeń obiektów (jednostek) w klasach uzyskuje się specjalne, dwuwymiarowe
zestawienie krzyżowe rozkładu częstości pary cech X i Y zwane tablicą korelacyjną postaci:
zestawienie krzyżowe rozkładu częstości pary cech X i Y zwane tablicą korelacyjną postaci:
w liczba wierszy tablicy ze
względu na wartości cechy X,
k liczba wierszy tablicy ze
względu na wartości cechy Y,
liczebności brzegowe
liczebności brzegowe
tablicy ze względu na wartości
cechy X,
liczebności brzegowe
tablicy ze względu na wartości
tablicy ze względu na wartości
cechy Y,
liczebności warunkowe ze
względu na obie cechy X i Y,
g ę y ,
przy czym:
przy czym:
(3.7)
Wnętrze tablicy wypełniają częstości nij wystąpień jednostek charakteryzujących się
równocześnie i-tym poziomem cechy X oraz j-tym poziomem cechy Y. Ilustrują one tzw.
ó ś i i t i h X j t i h Y Il t j t
rozkłady warunkowe.
9
Sumy częstości w wierszach po kolumnach , a także sumy w kolumnach po wierszach
ilustrują z kolei tzw. rozkłady brzegowe. Każde z nich wnoszą coś innego do analizy.
Na podstawie rozkładów warunkowych, rozkładów brzegowych w wierszach oraz wartości
cechy Y liczone są jej tzw. średnie warunkowe odpowiadające każdemu poziomowi
cechy X. I odwrotnie. Na podstawie rozkładów warunkowych, rozkładów brzegowych w
wierszach oraz wartości cechy X liczone są jej tzw. średnie warunkowe odpowiadające
każdemu poziomowi cechy Y. Tendencje zmian ich wartości są symptomem istnienia związku
korelacyjnego.
St d d i k l i b il ś i h h X i Y j t j ż ół ik
Standardową miarą skorelowania obu ilościowych cech X i Y jest znany już współczynnik
korelacji liniowej Pearsona liczony wg niezmiennej zasady ilorazu kowariancji i iloczynu
odchyleń standardowych obu cech por. (3.2). Uwzględniając w niej informacje o
warunkowych i brzegowych rozkładach liczebności uzyskuje się ryx postaci:
warunkowych i brzegowych rozkładach liczebności uzyskuje się ryx postaci:
(3.8)
Wartość współczynnika korelacji liniowej Pearsona ryx dla tablicy korelacyjnej można
też wyznaczać według innych formuł, które są przekształceniami wyjściowego wzoru (3.8).
Jego własności wraz ze szczegółową interpretacją są niezmienne i zostały już omówione.
W uzupełnieniu warto dodać, że współczynnik korelacji Pearsona jest miarą
symetryczną, tzn. ryx = rxy z czego wynika, że dla oceny siły i kierunku zależności między
cechami X i Y bez znaczenia jest ich symbolika.
Technikę wyznaczania współczynnika korelacji Pearsona ryx i rxy w tablicy korelacyjnej
ilustruje schemat:
10
Asymetryczną miarą współzależności cech wyrażonych na skalach mieszanych, z których
jedna j ilorazową a drug co naj j p ą ą y , jest
j jest ą ga jmniej porządkową i to z wartościami liczbowymi, j
stosunek korelacji eyx. Jest to miara dedykowana krzywoliniowym powiązaniom między
cechami wynikająca ze spostrzeżenia, iż przy braku związku między cechami wszystkie średnie
grupowe cechy zależnej Y są takie same i równe średniej ogólnej, tzn.:
(3.9)
11
Im większe jest rozproszenie średnich grupowych wokół średniej ogólnej mierzone
odchyleniem standardowym zwane zmiennością objaśnioną, tym silniejszy jest
związek korelacyjny cech X i Y.
i k k l j h X i Y
Stosunek korelacji eyx liczony jest jako udział zmienności objaśnionej w zmienności
całkowitej, czyli:
(3.10)
gdzie:
odchylenie standardowe średnich grupowych cechy Y, czyli zmienność
objaśniona (regresją),
S(y) odchylenie standardowe cechy Y, czyli zmienność całkowita.
Stosunek korelacji jest unormowany, ale przyjmuje wartości:
0 d" eyx d" 1
(3.11)
Wartość e 0 oznacza brak zależności między cechami podczas gdy e 1 wskazuje
Wartość eyx = 0 oznacza brak zależności między cechami, podczas gdy eyx = 1 wskazuje
na zależność funkcyjną. O kierunku zależności wnioskuje się natomiast na podstawie zmian
wartości średnich grupowych pozostających pod wpływem zmian wariantów liczbowych
niezależnej cechy X. Zgodność kierunków zmian wartości cechy X i średnich wskazuje
na k l j d d t i natomiast ich i d ść i k j
na korelację dodatnią, natomiast ich niezgodność na związek ujemny.
Stosunek korelacji jest kierunkową miarą asymetryczną współzależności cech. Zapis
eyx oznacza opis zależności cechy Y od X, co jest zaakcentowane kolejnością zmiennych w
i d k i d l Dl i ił l ż ś i h X d Y j t i ż
indeksie dolnym wzoru. Dla opisu siły zależności cechy X od Y wyznaczany jest exy, ponieważ
eyx `" exy. Tylko określony układ częstości warunkowych może sprawić, że eyx = exy. Na wzór
eyx stosunek exy liczony jest według:
(3 12)
(3.12)
12
Właściwości exy są takie same, jak eyx.
Ilustracja techniki wyznaczania składowych stosunków korelacji eyx i exy w tablicy korelacyjnej:
Stosunek korelacji stosowany
Stosunek korelacji stosowany
jest w analizie związków dowolnej
postaci. Między stosunkami eyx (exy)
i modułem współczynnika korelacji
Pearsona zachodzi relacja:
|ryx| d" eyx (exy) (3.13)
Jeżeli zależność jest prostoliniowa wówczas eyx = exy = |ryx|. Różnica |ryx| exy
wykrywa krzywoliniowość i mierzy stopień odchyleń związku od prostoliniowości.
Stosunek korelacji jest miarą wszechstronniejszą od współczynnika korelacji,
Z i j ż
Zapamiętaj, że:
ponieważ bada także powiązania cech, z których jedna jest niemierzalną, ale co
najmniej porządkową.
13
3.3 Powiązania cech jakościowych
3.3 Powiązania cech jakościowych
Związki przyczynowe dotyczą w równym stopniu cech mierzalnych, jak i niemierzalnych
(wyrażonych na skali nominalnej i porządkowej) Istnieje więc potrzeba pomiaru siły ich
(wyrażonych na skali nominalnej i porządkowej). Istnieje więc potrzeba pomiaru siły ich
powiązań. Właściwa czynność pomiaru ścisłości związku dwóch zmiennych jakościowych
wymaga uprzedniej konstrukcji zestawienia zbiorczego (powstającego z indywidualnych
danych zródłowych) zwanego tablicą kontyngencji. Jej szczególny p yp prezentuje
y y ) g ą y g j j g y przypadek pj
schemat:
Tablica ta, zwana czteropolową
tablicą kontyngencji, opisuje dwuwy-
miarowy rozkład empiryczny dwóch
miarowy rozkład empiryczny dwóch
cech jakościowych {A i B} równocześ-
nie.
Jej poszczególne pola a, b, c, d
zawierają i f j t ś i h
zawierają informacje o częstościach
wystąpień obiektów (osób, rzeczy)
charakteryzujących się jednoczesnymi
właściwościami poszczególnych warian-
tó h A i B I t k
tówcech A i B. I tak:
z pola a wynika, że a osób charakteryzuje się równocześnie właściwościami A1 i B1 (badani
są i młodzi i bogaci),
z pola b wynika że b osób charakteryzuje się równocześnie właściwościami A i B (badani
z pola b wynika, że b osób charakteryzuje się równocześnie właściwościami A1 i B2 (badani
są i młodzi i biedni),
z pola c wynika, że c osób charakteryzuje się równocześnie właściwościami A2 i B1 (badani
są i starzy i bogaci),
z pola d wynika, że d osób charakteryzuje się równocześnie właściwościami A2 i B2 (badani
są i starzyi biedni),
14
Pola a, b, c, d ilustrują więc rozkłady warunkowe cech A i B w odróżnieniu od pól
brzegowych, czyli rozkładów brzegowych, z których wynika, że:
a+b osób jest młodych (A ) i nic nie wiadomo o ich zamożności właściwości B
a+b osób jest młodych (A1) i nic nie wiadomo o ich zamożności, właściwości B,
c+d osób jest starych (A2) i nic nie wiadomo o ich zamożności, właściwości B,
a+c osób jest bogatych (B1) i nic nie wiadomo o ich wieku, właściwości A,
b+d osób jest biednych (B ) i nic nie wiadomo o ich wieku właściwości A
b+d osób jest biednych (B2) i nic nie wiadomo o ich wieku, właściwości A.
Na podstawie rozkładów można wnioskować o wystąpieniu współzależności, ale dopiero
jej pomiar daje odpowiedz o sile tej więzi.
Najp y ę y powiązań yy y ą
jprostszymi narzędziami siły p ą cech A i B dedykowanymi wyłącznie tablicom
czteropolowym są współczynniki skojarzenia (asocjacji) QY Yula (Kendalla) i vP Pear-
sona wyznacza się je według:
(3.14) (3.15)
(3 ) (3 5)
Współczynniki QY-Yula (Kendalla) i vP-Pearsona są unormowane i przyjmują wartości z
przedziału [-1, 1]. Jednakże wartości ujemne nie wykazują kierunku zależności, ponieważ
znaki współczynników zależą od sposobu konstrukcji tablicy kontyngencji (kolejności
znaki współczynników zależą od sposobu konstrukcji tablicy kontyngencji (kolejności
wariantów cech).
Innymi, uniwersalnymi miarami skojarzenia są współczynniki oparte na mierze 2 tj.:
ŚK Kendalla, CP Pearsona, TC Czuprowa i VC Cramera. Znajdują one zastosowanie dla tablic
d l h i ó i i j dł
dowolnych wymiarów i wyznacza się je według:
(3.16) (3.17) (3.18) (3.19)
15
Właściwości:
zdarza się, że dla tablic, których jeden wymiar w>2 lub k>2
Im silniejszy jest związek między analizowanymi cechami tym
bliższa 1 jest wartość każdego współczynnika.
Omówione współczynniki skojarzenia odwołują się do miary Jej wartość wyznacza
Omówione współczynniki skojarzenia odwołują się do miary 2 . Jej wartość wyznacza
się według:
(3.20)
nij empiryczne liczebności warunkowe tablicy kontyngencji o w wierszach i k kolumnach,
teoretyczne (oczekiwane) liczebności warunkowe, które wystąpiłyby w
tablicy, gdyby cechy były niezależne.
(3.21)
2
Statystyka 2 wykrywa współzależność cech. Każda jej wartość, dowolnie różna od
k k ół l ż ść h K żd j j ść d l i óż d
zera, wskazuje na istnienie zależności między badanymi cechami. 2 jest miarą
nienormowaną i nie określa siły zależności, gdyż:
(3 22)
(3.22)
możliwość zastosowań poszczególnych miar siły związku
korelacyjnego bądz kontyngencji wynika z rodzaju badanych
korelacyjnego, bądz kontyngencji, wynika z rodzaju badanych
cech i sposobu ich prezentacji
16
3.4 Opis postaci zależności między cechami ilościowymi
3.4 Opis postaci zależności między cechami ilościowymi
Najprostszym sposobem wykrywania związku między cechami jest obserwacja wartości
liczbowych w szeregu korelacyjnym, a następnie graficzna ich prezentacja w układzie
liczbowych w szeregu korelacyjnym, a następnie graficzna ich prezentacja w układzie
współrzędnych. W tym celu na układ współrzędnych nanosi się punkty odpowiadające
kolejnym wartościom par zmiennych dla wszystkich jednostek zbiorowości.
Otrzymana smuga punktów wskaże kształt funkcji, czyli postać przyczynowo-
skutkowego modelu matematycznego, jaką należy do opisywanej zależności zastosować.
k tk d l j k l ż d ij l ż ś i t ć
Teoretyczne postaci funkcji wykorzystane do takiego opisu nazywa się funkcjami regresji.
Modelując zależność, poszukuje się powiązań między zmiennymi. Kontynuuje się w ten
sposób zagadnienie korelacji wkraczając w nową dziedzinę, jaką jest szeroko rozumiana
sposób zagadnienie korelacji wkraczając w nową dziedzinę, jaką jest szeroko rozumiana
regresja poszukująca konkretnej formuły (przepisu) na matematyczny model analizy.
Najprostszą funkcją regresji, zwaną funkcją regresji II rodzaju, jest linia prosta, która
dla teoretycznego modelu zagadnienia:
ą i parametry strukturalne modelu
ą i parametry strukturalne modelu,
ą składnik losowy reprezentujący oddzia-
(3.23) yi = ą + xi + i
ływanie przyczyn losowych i innych
czynników nie objętych modelem
który, po oszacowaniu nieznanych współczynników ą i , przybiera postać:
a i b liczbowe oceny (estymatory) parametrów
(3.24)
= a + b xi + ei
odpowiednio ą i ,
p ,
ei reszty reprezentujące wielkość błędu wyni-
kającego z oddziaływania przyczyn losowych i
innych czynników nie objętych modelem
wyznaczoną zgodnie z warunkiem:
(3.25)
17
gdzie:
d
gdzie:
Metodę z kryterium (3.25) nazywa się KLASYCZN METOD NAJMNIEJSZYCH
KWADRATÓW (KMNK).
Przez dany układ par realizacji ilościowych zmiennych X i Y można poprowadzić
Przez dany układ par realizacji ilościowych zmiennych X i Y można poprowadzić
wiele prostych zob. Rys.1. Ale właściwą, najbliżej usytuowaną względem punktów
empirycznych, jest tylko jedna ta wskazana przez kryterium KMNK zob. Rys.2.
Rys.1 Rys.2
Rys.1 Rys.2
Kryterium KMNK minimalizuje sumę kwadratów wszystkich różnic zwanych resztami.
Suma kwadratów reszt, czyli wyrażenie:
(3.26)
(3.26)
nazywa się (zgodnie z logiką) wariancją niewyjaśnioną, bo resztową.
Wariancja niewyjaśniona równaniem regresji wyraża całkowite zróżnicowanie między
wartościami empirycznymi i teoretycznymi znajdującymi się na poszukiwanej prostej i mierzy
odległości między nimi. Ponieważ kryterium MNK spełnia tylko jedna para współczynników
a i b, to poszukiwana prosta jest też tylko jedna. Wartości a i b znajduje się poszukując
rozwiązania dla równania:
(3.27)
(3.27)
powstałego z (3.25) przez podstawienie a bxi w miejsce
18
Przekształcenie równania (3.27) względem niewiadomych a i b nie należy do
elementarnych, dlatego podaje są już ostateczne formuły ich obliczania.
Dla modelu liniowego y = ą + x + oceny a i b parametrów strukturalnych
Dla modelu liniowego yi = ą + xi + oceny a i b parametrów strukturalnych
ą i wyznacza się według następujących wzorów:
Nachylenie i wyraz wolny prostej
Nachylenie i wyraz wolny prostej
Znany z ujęcia geometrycznego współczynnik
Y
kierunkowy prostej nosi miano współczynnika
regresji b i informuje o tym o ile jednostek
regresji b i informuje o tym, o ile jednostek
C
CB przeciętnie zmienia się (rośnie albo maleje) poziom
b =
cechy Y (zależnej) przy wzroście cechy X
AB
(niezależnej) o jednostkę.
Na ogół nie interpretowany wyraz wolny linii
A
B
regresji a rejestruje wartość Y dla cechy X = 0.
a
X
0
19
Znak współczynnika regresji określa kierunek badanej zależności między zmiennymi.
Wartość b >0(+) oznacza zależność dodatnią, a wartość b <0( ) zależność ujemną.
korelacja ujemna: b<0
korelacja dodatnia: b>0
przyrost X o j d tk
t X jednostkę
przyrost X o j d tk
t X jednostkę
Zauważ, że:
znak współczynnika regresji b jest zawsze zgodny ze znakiem
współczynnika korelacji Pearsona ryx.
ół ik k l ji P r
Teoretyczna linia regresji = ą + xi + jest podstawą przewidywania konkretnej
wartości zmiennej zależnej yi p y określonym p j j p
j j yi przy y poziomie zmiennej niezależnej xi. Wprocedurze
i
przewidywania popełniany jest błąd, który szacowany jest według:
k liczba szacowanych parametrów (w przypadku
(3.31)
(3.31)
prostej k = 2)
prostej k = 2),
średni błąd szacunku.
20
o
d
i
ę
przeciętny wzrost
Y
o
b
przeciętny spadek
Y
o
b
Metoda najmniejszych kwadratów umożliwia znalezienie prostej najlepiej dopasowanej do
danych empirycznych. Otwarte jest jednak wciąż zagadnienie oceny jakości, czyli pomiaru
dobroci tego dopasowania.
d b i t di
W tym celu niezbędny jest pomiar składowych całkowitego zróżnicowania zmiennej
zależnej Y. Całkowitą wariancję zmiennej zależnej Y tworzą:
znana z kryterium
wariancja niewyjaśniona prostą regresji
KMNK (zob. (3.26))
wariancja
całkowita
dopełnienie warian
dopełnienie warian-
wariancja wyjaśniona prostą regresji
wariancja wyjaśniona prostą regresji
cji nie wyjaśnionej
A graficznie:
Ideę dekompozycji wariancji całkowitej
formalizuje wzór:
formalizuje wzór:
(3.32)
Dzieląc stronami przez
uzyskuje się wyrażenie:
(3.33)
równoważne następującemu: (3.34)
21
Stopień niedopasowania teoretycznej funkcji regresji do danych empirycznych
oceniany jest przez współczynnik indeterminacji (zwany też współczynnikiem
rozbieżności) postaci:
b ś )
(3.35)
spełniający warunek: 0 d" 2 d" 1
2 2
Dopasowanie do jest tym dokładniejsze im 2 jest bliższe 0. Ponieważ 2 jest
niewygodny do interpretacji, dlatego jego miejsce zajmuje miernik alternatywny zbudowany
na zmienności wyjaśnionej.
Do pomiaru stopnia di powszechnie wykorzystywany jest
Do pomiaru stopnia dopasowania do powszechnie wykorzystywany jest
do
współczynnik determinacji postaci:
(3.36)
Rachunkowo kłopotliwy w tej postaci R2 zastępuje się wzorem równoważnym
wykorzystując fakt, że R2 jest dopełnieniem do 1 współczynnika rozbieżności i wyznacza z
formuły:
y
(3.37)
a"
Pierwiastek z R2 jest współczynnikiem korelacji Pearsona tzn.
(3 38)
(3.38)
pod warunkiem, że zależność jest prostoliniowa.
Współczynnik determinacji R2 (podobnie, jak 2) spełnia relację:
0 d" R2 d" 1 (3.39)
22
Interpretacja:
Wartość R2 wyrażona w % (np. 90%) informuje o stopniu objaśnienia zmian w poziomie
cechy Y przez cechę(y) X. Wielkość bliższa 100% świadczy o lepszym dopasowaniu funkcji
regresji do danych empirycznych, a tym samym o ściślejszej współzależności cech X i Y (o ile
jest ona prostoliniowa).
Skoro współczynnik determinacji R2 przyjmuje wartości z przedziału [0, 1], to jego
wartość określa w jakim stopniu zmienna objaśniająca X wyjaśnia zmienność zmiennej
wartość określa, w jakim stopniu zmienna objaśniająca X wyjaśnia zmienność zmiennej
objaśnianej Y. Odpowiedzialnością za nie wyjaśnioną część wariancji zmiennej Y obciąża się
bądz to zmienne nie uwzględnione w regresji, bądz to czynnik przypadkowy (losowy).
Zdarza się j, , y y, gdy
ę jednak, że R2 <0, ale tylko wtedy, g y a =0.
Zapamiętaj, że:
Oznacza to, że dla ustalonych wartości ocen a i b formuła (3.24) równania regresji
najczęściej zapisywana jest jako:
(3.40)
(3.40)
Każdy model (równanie) regresji posiada swoisty składnik losowy . Istotą analizy
regresji jest poznanie podstawowych charakterystyk liczbowych rozkładu , które
nazywa się parametrami struktury stochastycznej modelu
nazywa się parametrami struktury stochastycznej modelu.
Inny rodzaj właściwości modelu (3.23) stanowią parametry występujące poza
składnikiem losowym, tj.: ą i . Wyraz wolny i współczynnik regresji określa się jednym
wspólnym mianem i nazywa parametrami strukturalnymi modelu liniowego regresji II
rodzaju jednej zmiennej.
23
Zapamiętaj, że:
ANALIZA KORELACJI wykrywa powiązania między cechami
1o
Ó!
2o
2o ANALIZA REGRESJI opisuje postać powiązań między cechami
Matematyczny model regresji
opisuje mechanizm powiązań między cechami (zmiennymi)
pozostającymi ze sobą w logicznej zależności przyczynowo-skutkowej
24
B ł t WYKAADU
B ł t WYKAADU
Były to: N t tki d WYKAADU
Były to: Notatki do WYKAADU ze
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
cz. 3:
cz. 3: METODY ANALIZY POWIZAC MIDZY
DWOMA CECHAMI
ZA UWAG DZIKUJE
ZA UWAG DZIKUJE
Anna Malarska
Anna Malarska
Katedra Statystyki Ekonomicznej i Społecznej UA
Wszelkie prawa zastrzeżone. Opracowanie przeznaczone jest dla studentów i słuchaczy
autorskiego programu wykładu A. Malarskiej. Rozpowszechnianie w jakiejkolwiek formie
części lub całości opracowania wymaga zgody Autorki.
25
Wyszukiwarka
Podobne podstrony:
WYKŁAD St Opi cz1WYKŁAD St Opi cz4WYKŁAD St Opi cz2WYKŁAD ŚT 2011adiagnoza wyklad cz3PD wyklady z ch wewnetrznych i geriatrii Elektrokardiografia stPRZ OPI wyklad 6 IIe pdfPRZ OPI wyklad 7 IIe pdfwyklady mgr stGW Wyklad13 cz33 Formy org prawne wyklad cz3Sylabus Zab rodz w module wykład 15 h ST BZ lato 2013 14wyklad krz cz3WYKLAD 4 OPIWYKLAD 3 OPIWYKLAD 3 OPIGW Wyklad Budownictwo cz3GW Wyklad06 TRANSP cz3więcej podobnych podstron