Opisowa 20112012 Prezentacja 4 id 337296

Analiza współzależności zjawisk masowych Przedmiotem badań statystycznych jest bardzo często próba odpowiedzi na pytanie, czy w interesującej nas zbiorowości istnieją związki pomiędzy dwiema zmiennymi X i Y. Związki te mogą mieć charakter przyczynowo-skutkowy lub charakter współwystępowania.

Metody i narzędzia stosowane do badania współzależności zdeterminowane są charakterem zmiennych (ich mierzalnością). Dwie podstawowe grupy metod to korelacja i regresja.

Korelacja pozwala ocenić siłę związku pomiędzy badanymi zmiennymi, podczas gdy regresja pozwala określić kształt związku (jest funkcyjnym odzwierciedleniem zależności pomiędzy zmiennymi).

Regresja dotyczy zmiennych ilościowych.

1. Współczynnik korelacji liniowej Pearsona

Współczynnik korelacji liniowej Pearsona służy do określenia kierunku i siły związku pomiędzy dwiema zmiennymi o charakterze ilościowym. Współczynnik korelacji liczy się wówczas, gdy istnieje przypuszczenie o współzależności dwóch zmiennych X i Y o charakterze ilościowym. Zbiorowość statystyczna liczy N elementów i mamy informację o poziomie zmiennej X i Y u wszystkich jednostek zbiorowości.

Współczynnik może być wyznaczony za pomocą dwóch wzorów (w zależności od posiadanych danych).

Pierwszy ma postać:

N (

∑ x − x y − y

)( i )

r( x ) i

y = =1 Nσ σ xy

Analiza współzależności zjawisk masowych cd.

Drugi wzór na wartość współczynnika korelacji liniowej Pearsona ma postać:

∑ N ( x y

Nxy

i ) −

r( xy ) =

i =1

 N

 ∑ ( x 2 Nx 2

y 2

Ny 2

)



−

 ∑ ( i )





−



 i=1

 i=1



Współczynnik korelacji r(xy) przyjmuje wartości z przedziału <-1;1> Jeżeli r(xy) należy do przedziału <-1;0), między badanymi zmiennymi występuje związek odwrotny, czyli wraz ze wzrostem wartości zmiennej X maleją wartości zmiennej Y, a wraz ze spadkiem zmiennej X rosną wartości zmiennej Y.

Jeżeli r(xy) należy do przedziału (0;1>, między badanymi zmiennymi występuje związek wprost, tzn. wraz ze wzrostem wartości zmiennej X rosną wartości zmiennej Y, a wraz ze spadkiem wartości zmiennej X maleją wartości zmiennej Y.

Jeżeli r(xy) = 0, wówczas pomiędzy badanymi zmiennymi nie zachodzi związek.

(Rysunek na tablicy)

Charakter (kierunek) związku między badanymi zmiennymi ocenia się zatem na podstawie znaku współczynnika korelacji.

Siłę związku ocenia się na podstawie wartości współczynnika korelacji. Im wartość współczynnika korelacji jest bliższa zera (im wartość bezwzględna jest mniejsza), tym związek między badanymi zmiennymi jest mniejszy. Im wartość bezwzględna r(xy) jest więszka (im bliżej -1 lub 1), tym siła związku jest silniejsza.

Analiza współzależności zjawisk masowych cd.

Przykład 1.1

Pewna firma sprzedaje produkt na 13 rynkach regionalnych. Klienci, którzy zakupili ten produkt, zostali poproszeni o jego ogólną ocenę w skali 1-20. Oceń czy istnieje, a jeżeli tak, to jaka jest siła związku pomiędzy wielkością udziału produktu w rynkach regionalnych a oceną dokonaną przez klientów.

Ocena produktu w skali 1-20

Udział produktu w rynku [%]

Przykład 1.2

Oszacuj korelację liczby zarejestrowanych samochodów osobowych i liczbę myjni w 12 miastach województwa A.

Liczba zarejestrowanych

350

1250

800

25000

330

12100

1135

2400

152000

5600

32800 25600

samochodów osobowych

Liczba myjni samochodowych

Oblicz analogiczny wskaźnik dla województwa B.

Liczba zarejestrowanych

350

1250

800

25000

330

12100 1135

2400 152000 5600 32800 25600

samochodów osobowych

Liczba myjni samochodowych

Analiza współzależności zjawisk masowych cd.

Jeśli współczynnik korelacji Pearsona, obliczony na podstawie materiału empirycznego, ma wysoką wartość bezwzględną (zbliżoną do jedności), czyli wykazuje silną zależność pomiędzy zmiennymi X i Y w badanej populacji, to uzasadnione jest oszacowanie funkcji regresji yˆ = f ( x) Równanie regresji jest ilościowym odzwierciedleniem zależności między określonymi wartościami zmiennej niezależnej X i odpowiadającymi im średnimi (teoretycznymi) wartościami zmiennej zależnej Y.

Funkcja regresji może mieć postać nieliniową i liniową.

Liniowa funkcja regresji ma postać: yˆ = a b

+ x

gdzie:

yˆ - teoretyczne wartości zmiennej Y

- parametry funkcji regresji

a, b

Rysunek na tablicy do danych z przykładu 1.1

Parametry

a ,

b oblicza się stosując poniższe wzory:

∑ ( x y −

i )

N x y

= 1

∑ ( x 2 −

) N x

i = 1

a = y − b x

Parametr b nazywa się współczynnikiem regresji zmiennej Y względem zmiennej X. Odpowiada on współczynnikowi kierunkowemu funkcji liniowej, czyli informuje, o ile przeciętnie zmieni się wartość zmiennej zależnej Y, gdy zmienna niezależna X zwiększy się o jedną jednostkę.

Analiza współzależności zjawisk masowych cd.

Ponieważ dla tej samej wartości x wartości empiryczne y nie pokrywają się z wartościami i

teoretycznymi

yˆ , linową funkcję regresji często przedstawia się w postaci: i

yˆ

a bx

i =

+ i +ξ

gdzie:

yˆ - teoretyczna wartość zmiennej losowej Y

- zaobserwowana wartość zmiennej losowej X

- składnik losowy (przypadkowy) określający odchylenia losowe poszczególnych wartości ξ

Aby ocenić wielkość odchyleń losowych w przypadku funkcji regresji, stosuje się wzór na odchylenie standardowe składnika resztowego:

∑ ( y − yˆ

i )

i =1

N − k

gdzie

- wartość empiryczna zmiennej zależnej Y,

yˆ

- wartość teoretyczna dla i-tej wartości zmiennej niezależnej X, i

-Liczba szacowanych parametrów; w przypadku funkcji liniowej k=2.

Parametr S informuje, o ile, średnio rzecz biorąc, wartości empiryczne odchylają się „in plus” lub „in y

minus” od wartości teoretycznych obliczonych na podstawie funkcji regresji. Innymi słowy, pokazuje, o ile średnio możemy się pomylić szacując na podstawie funkcji regresji wartości zmiennej zależnej Y przy określonych wartościach zmiennej niezależnej X. Odchylenie to nazywa się również średnim błędem szacunku.

Analiza współzależności zjawisk masowych cd.

Jednoznacznej ocena „dobroci” oszacowanej funkcji regresji dokonuje się z wykorzystaniem współczynnika zbieżności i współczynnika determinacji.

Współczynnik zbieżności ma postać:

∑ ( y − yˆ 2

i )

i 1

Φ = N

∑ ( y − y 2

)

i 1

gdzie

- i-ta wartość empiryczna zmiennej losowej (zależnej) Y, yˆ

-wartość teoretyczna zmiennej Y dla i-tej wartości zmiennej niezależnej X, i

-średnia arytmetyczna zmiennej Y.

Φ ∈ 0 1

Współczynnik zbieżności informuje, jaka część zmienności zmiennej zależnej Y ma charakter losowy.

Analiza współzależności zjawisk masowych cd.

Współczynnik determinacji ma postać:

R =1−Φ

Informuje on, jaką część zmienności zmiennej zależnej Y wyjaśnia oszacowana funkcja regresji.

Ponadto, występuje zależność, którą wyraża się następującym wzorem: R = r( xy)2

Zadanie 1

Przeprowadź kompleksową analizę współzależności zmiennych opisanych w przykładzie 1.1.

Zadanie 2

Przeprowadź kompleksową analizę współzależności zmiennych opisanych w przykładzie 1.2.

W dotychczasowych przykładach analizowaliśmy współzależność zmiennych, w przypadku których, odwołując się do zdrowego rozsądku i posiadanej wiedzy ogólnej, można było stwierdzić występowanie związku przyczynowo-skutkowego, czyli sytuacji, w której zmienność jednej wielkości wpływała na zmienność drugiej wielkości. Współzależność może mieć również charakter współwystępowania, co oznacza, że pomiędzy wartościami dwóch zmiennych występuje określone podobieństwo zmienności (związek pozytywny, czyli wprost albo związek negatywny, czyli odwrotny), ale poziom jednej zmiennej nie wpływa bezpośrednio na poziom drugiej.

Zadanie 3

Na podstawie zamieszczonych poniżej danych dotyczących emisji do atmosfery tlenków azotu [tys. ton] i tlenków węgla [tys. ton], przeprowadź wszechstronną analizę współzależności zmiennych: Analiza współzależności zjawisk masowych cd.

Emisja tlenku węgla i tlenków azotu w 12 wybranych krajach w 2003 r.

Emisja tlenków

Emisja tlenku węgla

Kraj

azotu [tys. ton]

[tys. ton]

Australia

2225

15961

Austria

183

1098

Belgia

327

1004

Finlandia

259

482

Francja

1716

9290

Hiszpania

1304

3527

Japonia

1731

3942

Niderlandy

489

901

Niemcy

1967

5633

10 Rosja

3119

16613

11 Stany Zjednoczone

22725

83813

12 Wielka Brytania

2094

5492

Źródło: opracowanie własne na podstawie Rocznik Statystyczny Rzeczpospolitej Polskiej 2004, GUS, Warszawa 2004, s. 753.

Pomiędzy wielkościami charakterystycznymi dla analizy współzależności zjawisk zachodzą określone relacje, które można wyrazić za pomocą następujących wzorów:

(

= r xy

= r ( xy )

y )

(

) σ

( x )

(

= b

y )

( x )

( y )

Analiza współzależności zjawisk masowych cd.

Zadanie 4

Wyznacz liniową funkcję regresji dysponując następującymi danymi i zinterpretuj ją: X – wartość rocznych dochodów w gospodarstwach domowych (w zł) w miejscowości „Słońce” w roku 2008; Y – wartość zakupów przetworów mlecznych w gospodarstwach domowych (w zł) w miejscowości „Słońce” w roku 2008.

x =(30 000;42 000)

typ

y =(1540;2540)

typ

r(xy)=0,883

Często problemem badawczym jest określenie związku pomiędzy zmiennymi występującymi w postaci szeregów czasowych. Wówczas, chcąc wyeliminować tendencję rozwojową, oblicza się korelacją pomiędzy zmodyfikowanymi zmiennymi.

Załóżmy, że badane zmienne X i Y przyjmują odpowiednio wartości x , y dla t = 1, 2, …, N. Gdy tendencje t

rozwojowe obu zmiennych mają charakter przybliżony do liniowego, stosuje się metodę tzw. pierwszych różnic.

Wprowadza się nowe zmienne ∆X i ∆Y, przyjmujące wartości: ∆ x = x - x i ∆ y = y - y dla t = 2, 3, …, N.

t-1

Liczba obserwacji (wartości nowych zmiennych) obniża się o jeden i wynosi N – 1. Wzór na współczynnik korelacji ma wówczas dwie alternatywne postaci:

N (

∑

∑ (∆ x y

x y

t ∆ t ) − (

− )∆ ∆

∆ − x

∆

∆ − y

∆

)( t

) r(∆ x∆ y)=

t =2

r( x

∆ y

∆ ) t=

= 2 (

 N

 N



N − )

1σ σ

 ∑ (∆ x 2

x 2

y 2

)−( − )∆ ∑(∆ t )−( − )∆ 

∆

 t=2

 t=2



Liczba obserwacji w szeregu czasowym nie powinna być zbyt mała. Przyjęło się, że liczba okresów nie powinna być mniejsza od 10.

Analiza współzależności zjawisk masowych cd.

Zadanie 5

W kraju Planeta zlecono badanie mające na celu określenie współzależności pomiędzy przeciętną długością życia obywateli a zgonami niemowląt na tysiąc żywych urodzeń. Badanie objęło lata 1996-2008. Wyniki obserwacji zebrano w poniższej tabeli. Oblicz korelację pomiędzy przyrostami zmiennych.

Przeciętna długość życia i zgony niemowląt na 1000 urodzeń żywych w Planecie w latach 1996-2008

Przeciętna

Zgony niemowląt

długość życia

na 1000 urodzeń

Rok

(w latach) żywych

1996

71,9

11,8

1997

73,4

10,2

1998

73,8

9,5

1999

74,0

8,9

2000

74,3

8,1

2001

75,3

7,7

2002

75,0

7,5

2003

75,0

7,0

2004

76,1

6,8

2005

77,0

7,0

2006

78,2

6,7

2007

82,0

6,3

2008

82,3

5,8

988,3

103,3

Źródło: dane fikcyjne.