Analiza współzależności zjawisk masowych Przedmiotem badań statystycznych jest bardzo często próba odpowiedzi na pytanie, czy w interesującej nas zbiorowości istnieją związki pomiędzy dwiema zmiennymi X i Y. Związki te mogą mieć charakter przyczynowo-skutkowy lub charakter współwystępowania.
Metody i narzędzia stosowane do badania współzależności zdeterminowane są charakterem zmiennych (ich mierzalnością). Dwie podstawowe grupy metod to korelacja i regresja.
Korelacja pozwala ocenić siłę związku pomiędzy badanymi zmiennymi, podczas gdy regresja pozwala określić kształt związku (jest funkcyjnym odzwierciedleniem zależności pomiędzy zmiennymi).
Regresja dotyczy zmiennych ilościowych.
1. Współczynnik korelacji liniowej Pearsona
Współczynnik korelacji liniowej Pearsona służy do określenia kierunku i siły związku pomiędzy dwiema zmiennymi o charakterze ilościowym. Współczynnik korelacji liczy się wówczas, gdy istnieje przypuszczenie o współzależności dwóch zmiennych X i Y o charakterze ilościowym. Zbiorowość statystyczna liczy N elementów i mamy informację o poziomie zmiennej X i Y u wszystkich jednostek zbiorowości.
Współczynnik może być wyznaczony za pomocą dwóch wzorów (w zależności od posiadanych danych).
Pierwszy ma postać:
N (
∑ x − x y − y
i
)( i )
r( x ) i
y = =1 Nσ σ xy
Analiza współzależności zjawisk masowych cd.
Drugi wzór na wartość współczynnika korelacji liniowej Pearsona ma postać:
∑ N ( x y
Nxy
i
i ) −
r( xy ) =
i =1
N
N
∑ ( x 2 Nx 2
y 2
Ny 2
i
)
−
∑ ( i )
−
i=1
i=1
Współczynnik korelacji r(xy) przyjmuje wartości z przedziału <-1;1> Jeżeli r(xy) należy do przedziału <-1;0), między badanymi zmiennymi występuje związek odwrotny, czyli wraz ze wzrostem wartości zmiennej X maleją wartości zmiennej Y, a wraz ze spadkiem zmiennej X rosną wartości zmiennej Y.
Jeżeli r(xy) należy do przedziału (0;1>, między badanymi zmiennymi występuje związek wprost, tzn. wraz ze wzrostem wartości zmiennej X rosną wartości zmiennej Y, a wraz ze spadkiem wartości zmiennej X maleją wartości zmiennej Y.
Jeżeli r(xy) = 0, wówczas pomiędzy badanymi zmiennymi nie zachodzi związek.
(Rysunek na tablicy)
Charakter (kierunek) związku między badanymi zmiennymi ocenia się zatem na podstawie znaku współczynnika korelacji.
Siłę związku ocenia się na podstawie wartości współczynnika korelacji. Im wartość współczynnika korelacji jest bliższa zera (im wartość bezwzględna jest mniejsza), tym związek między badanymi zmiennymi jest mniejszy. Im wartość bezwzględna r(xy) jest więszka (im bliżej -1 lub 1), tym siła związku jest silniejsza.
1
Analiza współzależności zjawisk masowych cd.
Przykład 1.1
Pewna firma sprzedaje produkt na 13 rynkach regionalnych. Klienci, którzy zakupili ten produkt, zostali poproszeni o jego ogólną ocenę w skali 1-20. Oceń czy istnieje, a jeżeli tak, to jaka jest siła związku pomiędzy wielkością udziału produktu w rynkach regionalnych a oceną dokonaną przez klientów.
Ocena produktu w skali 1-20
2
3
10
9
4
6
5
8
7
9
10
13
Udział produktu w rynku [%]
27
39
73
66
40
35
47
55
60
68
68
75
Przykład 1.2
Oszacuj korelację liczby zarejestrowanych samochodów osobowych i liczbę myjni w 12 miastach województwa A.
Liczba zarejestrowanych
350
1250
800
25000
330
12100
1135
2400
152000
5600
32800 25600
samochodów osobowych
Liczba myjni samochodowych
0
3
1
5
2
4
2
5
45
3
3
8
Oblicz analogiczny wskaźnik dla województwa B.
Liczba zarejestrowanych
350
1250
800
25000
330
12100 1135
2400 152000 5600 32800 25600
samochodów osobowych
Liczba myjni samochodowych
1
3
2
12
2
0
2
5
33
10
24
8
Analiza współzależności zjawisk masowych cd.
Jeśli współczynnik korelacji Pearsona, obliczony na podstawie materiału empirycznego, ma wysoką wartość bezwzględną (zbliżoną do jedności), czyli wykazuje silną zależność pomiędzy zmiennymi X i Y w badanej populacji, to uzasadnione jest oszacowanie funkcji regresji yˆ = f ( x) Równanie regresji jest ilościowym odzwierciedleniem zależności między określonymi wartościami zmiennej niezależnej X i odpowiadającymi im średnimi (teoretycznymi) wartościami zmiennej zależnej Y.
Funkcja regresji może mieć postać nieliniową i liniową.
Liniowa funkcja regresji ma postać: yˆ = a b
+ x
gdzie:
yˆ - teoretyczne wartości zmiennej Y
- parametry funkcji regresji
a, b
Rysunek na tablicy do danych z przykładu 1.1
Parametry
a ,
b oblicza się stosując poniższe wzory:
N
∑ ( x y −
i
i )
N x y
b
i
=
= 1
N
∑ ( x 2 −
2
i
) N x
i = 1
a = y − b x
Parametr b nazywa się współczynnikiem regresji zmiennej Y względem zmiennej X. Odpowiada on współczynnikowi kierunkowemu funkcji liniowej, czyli informuje, o ile przeciętnie zmieni się wartość zmiennej zależnej Y, gdy zmienna niezależna X zwiększy się o jedną jednostkę.
2
Analiza współzależności zjawisk masowych cd.
Ponieważ dla tej samej wartości x wartości empiryczne y nie pokrywają się z wartościami i
i
teoretycznymi
yˆ , linową funkcję regresji często przedstawia się w postaci: i
yˆ
a bx
i =
+ i +ξ
gdzie:
yˆ - teoretyczna wartość zmiennej losowej Y
i
x
- zaobserwowana wartość zmiennej losowej X
i
- składnik losowy (przypadkowy) określający odchylenia losowe poszczególnych wartości ξ
Aby ocenić wielkość odchyleń losowych w przypadku funkcji regresji, stosuje się wzór na odchylenie standardowe składnika resztowego:
N
2
∑ ( y − yˆ
i
i )
S
i =1
=
y
N − k
gdzie
y
- wartość empiryczna zmiennej zależnej Y,
i
yˆ
- wartość teoretyczna dla i-tej wartości zmiennej niezależnej X, i
k
-Liczba szacowanych parametrów; w przypadku funkcji liniowej k=2.
Parametr S informuje, o ile, średnio rzecz biorąc, wartości empiryczne odchylają się „in plus” lub „in y
minus” od wartości teoretycznych obliczonych na podstawie funkcji regresji. Innymi słowy, pokazuje, o ile średnio możemy się pomylić szacując na podstawie funkcji regresji wartości zmiennej zależnej Y przy określonych wartościach zmiennej niezależnej X. Odchylenie to nazywa się również średnim błędem szacunku.
Analiza współzależności zjawisk masowych cd.
Jednoznacznej ocena „dobroci” oszacowanej funkcji regresji dokonuje się z wykorzystaniem współczynnika zbieżności i współczynnika determinacji.
Współczynnik zbieżności ma postać:
N
∑ ( y − yˆ 2
i
i )
2
i 1
=
Φ = N
∑ ( y − y 2
i
)
i 1
=
gdzie
yi
- i-ta wartość empiryczna zmiennej losowej (zależnej) Y, yˆ
-wartość teoretyczna zmiennej Y dla i-tej wartości zmiennej niezależnej X, i
y
-średnia arytmetyczna zmiennej Y.
Φ ∈ 0 1
,
Współczynnik zbieżności informuje, jaka część zmienności zmiennej zależnej Y ma charakter losowy.
3
Analiza współzależności zjawisk masowych cd.
Współczynnik determinacji ma postać:
2
2
R =1−Φ
Informuje on, jaką część zmienności zmiennej zależnej Y wyjaśnia oszacowana funkcja regresji.
2
Ponadto, występuje zależność, którą wyraża się następującym wzorem: R = r( xy)2
Zadanie 1
Przeprowadź kompleksową analizę współzależności zmiennych opisanych w przykładzie 1.1.
Zadanie 2
Przeprowadź kompleksową analizę współzależności zmiennych opisanych w przykładzie 1.2.
W dotychczasowych przykładach analizowaliśmy współzależność zmiennych, w przypadku których, odwołując się do zdrowego rozsądku i posiadanej wiedzy ogólnej, można było stwierdzić występowanie związku przyczynowo-skutkowego, czyli sytuacji, w której zmienność jednej wielkości wpływała na zmienność drugiej wielkości. Współzależność może mieć również charakter współwystępowania, co oznacza, że pomiędzy wartościami dwóch zmiennych występuje określone podobieństwo zmienności (związek pozytywny, czyli wprost albo związek negatywny, czyli odwrotny), ale poziom jednej zmiennej nie wpływa bezpośrednio na poziom drugiej.
Zadanie 3
Na podstawie zamieszczonych poniżej danych dotyczących emisji do atmosfery tlenków azotu [tys. ton] i tlenków węgla [tys. ton], przeprowadź wszechstronną analizę współzależności zmiennych: Analiza współzależności zjawisk masowych cd.
Emisja tlenku węgla i tlenków azotu w 12 wybranych krajach w 2003 r.
Emisja tlenków
Emisja tlenku węgla
i
Kraj
azotu [tys. ton]
[tys. ton]
xi
yi
1
Australia
2225
15961
2
Austria
183
1098
3
Belgia
327
1004
4
Finlandia
259
482
5
Francja
1716
9290
6
Hiszpania
1304
3527
7
Japonia
1731
3942
8
Niderlandy
489
901
9
Niemcy
1967
5633
10 Rosja
3119
16613
11 Stany Zjednoczone
22725
83813
12 Wielka Brytania
2094
5492
Źródło: opracowanie własne na podstawie Rocznik Statystyczny Rzeczpospolitej Polskiej 2004, GUS, Warszawa 2004, s. 753.
Pomiędzy wielkościami charakterystycznymi dla analizy współzależności zjawisk zachodzą określone relacje, które można wyrazić za pomocą następujących wzorów:
σ
σ
y
b
x
(
= r xy
b
= r ( xy )
y )
(
) σ
( x )
σ
x
y
2
σ
2
σ
y
b
x
(
= b
b
= b
y )
( x )
( x )
( y )
2
σ
2
σ
x
y
4
Analiza współzależności zjawisk masowych cd.
Zadanie 4
Wyznacz liniową funkcję regresji dysponując następującymi danymi i zinterpretuj ją: X – wartość rocznych dochodów w gospodarstwach domowych (w zł) w miejscowości „Słońce” w roku 2008; Y – wartość zakupów przetworów mlecznych w gospodarstwach domowych (w zł) w miejscowości „Słońce” w roku 2008.
x =(30 000;42 000)
typ
y =(1540;2540)
typ
r(xy)=0,883
Często problemem badawczym jest określenie związku pomiędzy zmiennymi występującymi w postaci szeregów czasowych. Wówczas, chcąc wyeliminować tendencję rozwojową, oblicza się korelacją pomiędzy zmodyfikowanymi zmiennymi.
Załóżmy, że badane zmienne X i Y przyjmują odpowiednio wartości x , y dla t = 1, 2, …, N. Gdy tendencje t
t
rozwojowe obu zmiennych mają charakter przybliżony do liniowego, stosuje się metodę tzw. pierwszych różnic.
Wprowadza się nowe zmienne ∆X i ∆Y, przyjmujące wartości: ∆ x = x - x i ∆ y = y - y dla t = 2, 3, …, N.
t
t
t-1
t
t
t-1
Liczba obserwacji (wartości nowych zmiennych) obniża się o jeden i wynosi N – 1. Wzór na współczynnik korelacji ma wówczas dwie alternatywne postaci:
N
N (
∑
∑ (∆ x y
N
1
x y
t ∆ t ) − (
− )∆ ∆
x
∆ − x
∆
y
∆ − y
∆
t
)( t
) r(∆ x∆ y)=
t =2
r( x
∆ y
∆ ) t=
= 2 (
N
N
N − )
1σ σ
∑ (∆ x 2
N
1
x 2
y 2
N
1
y 2
t
)−( − )∆ ∑(∆ t )−( − )∆
x
∆
y
∆
t=2
t=2
Liczba obserwacji w szeregu czasowym nie powinna być zbyt mała. Przyjęło się, że liczba okresów nie powinna być mniejsza od 10.
Analiza współzależności zjawisk masowych cd.
Zadanie 5
W kraju Planeta zlecono badanie mające na celu określenie współzależności pomiędzy przeciętną długością życia obywateli a zgonami niemowląt na tysiąc żywych urodzeń. Badanie objęło lata 1996-2008. Wyniki obserwacji zebrano w poniższej tabeli. Oblicz korelację pomiędzy przyrostami zmiennych.
Przeciętna długość życia i zgony niemowląt na 1000 urodzeń żywych w Planecie w latach 1996-2008
Przeciętna
Zgony niemowląt
długość życia
na 1000 urodzeń
t
Rok
(w latach) żywych
xt
yt
1
1996
71,9
11,8
2
1997
73,4
10,2
3
1998
73,8
9,5
4
1999
74,0
8,9
5
2000
74,3
8,1
6
2001
75,3
7,7
7
2002
75,0
7,5
8
2003
75,0
7,0
9
2004
76,1
6,8
10
2005
77,0
7,0
11
2006
78,2
6,7
12
2007
82,0
6,3
13
2008
82,3
5,8
Σ
988,3
103,3
Źródło: dane fikcyjne.
5