4. Materiały do ćwiczeń ze statystyki z demografią, statystyka z demografią


MATERIAŁY DO ĆWICZEŃ ZE

STATYSTYKI Z DEMOGRAFIĄ

(część IV)

Analiza ZALEŻNOŚCI pomiędzy CECHAMI
(Analiza KORELACJI i REGRESJI)

Badamy jednostki statystyczne pod kątem dwóch różnych cech: cechy X oraz cechy Y.

Pytanie jakie sobie stawiamy to:

czy istnieje zależność pomiędzy cechą X i cechą Y?

Jeżeli taka zależność istnieje, to poszukujemy odpowiedzi na kolejne pytania:

Zależność korelacyjna pomiędzy cechami X i Y charakteryzuje się tym, że wartościom jednej cechy są przyporządkowane ściśle określone wartości średnie drugiej cechy.

Informacja statystyczna niezbędna do zbadania zależności pomiędzy cechami X i Y przyjmuje najczęściej formę szeregów szczegółowych: cechy X oraz cechy Y.

Korelacyjny wykres rozrzutu
KORELOGRAM

Jeżeli obie cechy X i Y są mierzalne, to analizę zależności rozpoczynamy od sporządzenia korelogramu.

Korelogram jest to wykres punktowy N par { (xi , yi) }.

W kartezjańskim układzie współrzędnych x0y pary te odpowiadają punktom o współrzędnych

0x01 graphic

PRZYKŁADY korelogramów (każdy punkt oznaczono x)

(a) (b)

0x01 graphic
0x01 graphic

(c) (d)

0x01 graphic
0x01 graphic

Jeżeli otrzymamy bezładny zbiór punktów,
który nie przypomina kształtem wykresu znanego związku funkcyjnego, to powiemy że pomiędzy cechami X i Y
nie ma zależności. Ilustruje to rysunek (a).

Na rysunku (b) widać, że smuga punktów układa się w kształt paraboli. Powiemy zatem, że istnieje zależność pomiędzy cechami X i Y i jest to związek nieliniowy; zależność nieliniowa.

Na rysunkach (c) i (d) smuga punktów układa się wzdłuż linii prostej. Powiemy zatem, że istnieje zależność pomiędzy cechami X i Y i jest to związek liniowy; zależność liniowa.

Pomiar KIERUNKU i SIŁY zależności liniowej

WSPÓŁCZYNNIK KORELACJI (Pearsona)

Współczynnik korelacji (Pearsona) Rxy obliczamy dla cech ilościowych wg następującego wzoru:

0x08 graphic

gdzie:

xi - i-ty wariant cechy X,

yi - i-ty wariant cechy Y,

0x08 graphic
0x08 graphic
- średnia arytmetyczna cechy X,

- średnia arytmetyczna cechy Y.

albo wzoru:

0x01 graphic

gdzie:

C(X,Y) - kowariancja pomiędzy cechami X i Y

sx (sy) - odchylenie standardowe cechy X (cechy Y)

Kowariancja jest kluczowym parametrem rozkładu dwóch cech

w badaniu zależności cech ilościowych X i Y. Wylicza się ją wg następującego wzoru:

0x01 graphic

Współczynnik korelacji (Pearsona) Rxy spełnia zawsze warunek:

0x01 graphic

Współczynnik korelacji (Pearsona) jest miarą symetryczną, tzn.

0x01 graphic

INTERPRETACJA współczynnika korelacji Rxy

Znak współczynnika Rxy mówi nam o kierunku zależności. I tak:

Wartość bezwzględna współczynnika korelacji, czyli |Rxy|, mówi nam o sile zależności. Jeżeli wartość bezwzględna |Rxy|:

|Rxy| = 0 - brak zależności pomiędzy badanymi cechami

0 < |Rxy| < 0,2 - zależność prawie nic nie znacząca

0,2 ≤ |Rxy| < 0,4 - zależność wyraźna, lecz słaba

0,4 ≤ |Rxy| < 0,7 - zależność umiarkowana (średnia)

0,7 ≤ |Rxy| < 0,9 - zależność silna

0,9 ≤ |Rxy| < 1,0 - zależność bardzo silna

|Rxy| = 1,0 - zależność pełna, funkcyjna

PRZYKŁAD 1

W grupie 7 studentów badano zależność pomiędzy oceną z egzaminu ze statystyki (Y), a liczbą dni poświęconych na naukę (X).

ocena
z egzaminu
(Y)

liczba dni
nauki
(X)

yi

xi

2,0

5

2,5

13

2,5

16

4,0

28

5,0

42

3,0

16

2,0

6

Sporządzamy korelogram.

0x08 graphic

Widać tutaj wyraźną zależność liniową (dodatnią).

Obliczamy współczynnik korelacji (Pearsona).

UWAGA ! Liczebność populacji jest mała (n=7). Użyjemy tak małego przykładu tylko dlatego, aby sprawnie zilustrować procedurę liczenia.

Obliczenia pomocnicze dla wyznaczenia współczynnika korelacji (Pearsona)

(1)

(2)

(3)

(4)

(5)

(6)

(7)

yi

xi

0x01 graphic

0x01 graphic

(3)*(3)

(4)*(4)

(3)*(4)

2,0

5

-1,0

-13

1,00

169

13,0

2,5

13

-0,5

-5

0,25

25

2,5

2,5

16

-0,5

-2

0,25

4

1,0

4,0

28

1,0

10

1,00

100

10,0

5,0

42

2,0

24

4,00

576

48,0

3,0

16

0,0

-2

0,00

4

0,0

2,0

6

-1,0

-12

1,00

144

12,0

221,0

12126

x

x

7,50

1022

86,5

0x01 graphic
0x01 graphic
0x01 graphic

0x08 graphic

0x08 graphic

albo:

0x01 graphic

0x01 graphic
0x01 graphic

0x01 graphic
0x01 graphic

0x01 graphic

0x01 graphic

Współczynnik korelacji (Pearsona) wynosi dla danych z przykładu 1:

0x01 graphic

INTERPRETACJA

W badanej grupie studentów wystąpiła bardzo silna dodatnia (znak plus) zależność liniowa pomiędzy czasem nauki (cecha X), a uzyskaną oceną z egzaminu (cecha Y).

Oznacza to, że wraz ze wzrostem czasu poświęconego na naukę rosła w tej grupie uzyskiwana ocena.

WSPÓŁCZYNNIK KORELACJI RANG (Spearmana)

Współczynnik korelacji rang (Spearmana) RS używamy

w przypadku gdy:

  1. choć jedna z badanych cech jest cechą jakościową (niemierzalną), ale istnieje możliwość uporządkowania (ponumerowania) wariantów każdej z cech;

  2. cechy mają charakter ilościowy (mierzalny), ale liczebność zbiorowości jest mała (n<30).

Numery jakie nadajemy wariantom cech noszą nazwę rang.

UWAGA ! W procesie nadawania rang może zdarzyć się więcej niż 1 jednostka o takiej samej wartości cechy (np. k jednostek). Wówczas należy na chwilę nadać tym jednostkom kolejne rangi. Następnie należy zsumować takie rangi i podzielić przez k (otrzymamy w ten sposób średnią rangę dla tej grupy k jednostek). W ostateczności każda jednostka z tych k jednostek otrzyma identyczną rangę (średnią dla danej grupy k jednostek).

Współczynnik korelacji rang (Spearmana) RS wyznaczamy wg następującego wzoru:

0x01 graphic

di - różnica pomiędzy rangami dla cechy X i cechy Y

Współczynnik korelacji rang (Spearmana) RS spełnia zawsze warunek:

0x01 graphic

INTERPRETACJA

Analogiczna jak dla współczynnika korelacji (Pearsona).

PRZYKŁAD 2

Dla danych z przykładu 1 obliczenia współczynnika korelacji rang (Spearmana) są następujące:

yi

xi

rangi
cechy Y

rangi
cechy X

0x01 graphic

0x01 graphic

2,0

5

6111,5115

6111115

0,5

0,0,25

2,5

13

3,5

3

0,5

0,0,25

2,5

16

4, 3,5155

4, 4,5155

1,0

1,00

4,0

28

666

666

0,0

0,00

5,0

42

77

77

0,0

0,00

3,0

16

5115

4,5115

0,5

0,25

2,0

6

11 1,5552

2

-0,5

0,25

x

x

x

x

x

2,2,000

0x01 graphic

Wartość współczynnika korelacji rang (Spearmana) potwierdza bardzo silną, dodatnią (znak plus) zależność pomiędzy czasem nauki (X), a uzyskaną oceną (Y).

REGRESJA PROSTA

Ważnym uzupełnieniem zagadnienia badania kierunku i siły zależności pomiędzy cechami X i Y jest analiza regresji.

Przez analizę regresji rozumiemy metodę badania wpływu zmiennych uznanych za niezależne (przyczyny) na zmienną uznana za zależną (skutek).

Jeżeli w analizie uwzględnimy tylko jedną zmienną niezależną, to mówimy o REGRESJI PROSTEJ.

Cecha X (zmienna niezależna) - przyczyna.

Cecha Y (zmienna zależna) - skutek.

Podstawowym narzędziem badania jest tutaj funkcja regresji.

Rozważymy tylko przypadek zależności liniowej dla regresji prostej.

Narzędziem będzie zatem funkcja regresji zmiennej Y względem zmiennej X postaci:

0x08 graphic

gdzie: x - zmienna niezależna,

0x01 graphic
- teoretyczna wartość zmiennej Y,

ay - współczynnik linii regresji (współczynnik kierunkowy),

by - wyraz wolny.

Wyznaczanie parametrów ay i by funkcji regresji

0x08 graphic
0x08 graphic
0x01 graphic
lub …….

0x01 graphic

INTERPRETACJA ay: jeżeli wartość zmiennej niezależnej X
wzrośnie o jednostkę, to wartość zmiennej zależnej Y :

INTERPRETACJA by: stały poziom wartości zmiennej zależnej Y niezależny od zmian wartości zmiennej niezależnej X.
Uwaga !
Interpretacja wyrazu wolnego w większości przypadków nie ma logicznej interpretacji.

PRZYKŁAD 3

Dla danych z przykładu 1 szacowanie parametrów funkcji regresji przebiega następująco:

0x01 graphic
0x01 graphic
0x01 graphic
0x01 graphic

0x01 graphic

albo:

0x01 graphic

0x01 graphic

Funkcja regresji w przykładzie 1 ma więc postać:

0x01 graphic

INTERPRETACJA:

współczynnik regresji (a=0,085 > 0) - jeżeli liczba dni nauki wzrośnie o jednostkę (o 1 dzień), to ocena z egzaminu wzrośnie o 0,085 (inaczej: każdy dzień nauki podnosi średnio ocenę o 0,085)

wyraz wolny (b=1,47) - stały, niezależny od liczby dni nauki (x=0) poziom uzyskanej oceny z egzaminu to 1,47 (poniżej niedostatecznej)

0x08 graphic
Otrzymaną funkcję regresji, wykreśloną na korelogramie pokazano na rysunku:

Wykorzystanie funkcji regresji do szacowania nieznanej wartości zmiennej Y

Słuchacz o numerze 8 (przypomnijmy, że badanie przeprowadzono dla n=7 studentów) poświęcił na naukę 20 dni (x8=20).

Jakiej oceny może spodziewać się (średnio) przy takim nakładzie czasu na naukę ?

0x01 graphic

Poświęcając 20 dni na naukę słuchacz może spodziewać się (średnio !!!) oceny 3,17 czyli „dst”.

Ocena dopasowania funkcji regresji
do danych empirycznych

Podstawowymi miarami „dobroci” dopasowania linii regresji do danych empirycznych są:

Współczynnik zbieżności (2):

0x01 graphic
gdzie 0x01 graphic

Im 2 jest bliższy 0, tym dopasowanie jest lepsze.

Współczynnik determinacji (R2):

0x01 graphic
gdzie 0x01 graphic

Przy zależności liniowej można go wyznaczyć również jako:

0x01 graphic
lub 0x01 graphic

Im R2 jest bliższy 1, tym dopasowanie jest lepsze.

Średni błąd szacunku (Se):

0x01 graphic

gdzie:

k - liczba szacowanych parametrów funkcji regresji

(tutaj k=2; szacujemy dwa parametry: a i b )

Jest to pierwiastek z wariancji resztowej (Se2).

Nazwa bierze się od reszty (ei), którą definiuje się jako:

różnicę pomiędzy wartością empiryczną, a wartością teoretyczną

cechy zależnej Y:

0x01 graphic

PRZYKŁAD 4

Ocena dopasowania funkcji regresji dla danych z przykładu 1.

0x01 graphic
0x01 graphic

yi

xi

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

2,0

5

1,90

-1,0

0,10

1,00

0,0100

2,5

13

2,58

-0,5

-0,08

0,25

0,0064

2,5

16

2,83

-0,5

-0,33

0,25

0,1089

4,0

28

3,85

1,0

0,15

1,00

0,0225

5,0

42

5,04

2,0

-0,04

4,00

0,0016

3,0

16

2,83

0,0

0,17

0,00

0,0289

2,0

6

1,98

-1,0

0,02

1,00

0,0004

x

x

7,50

0,1787

Współczynnik zbieżności

0x01 graphic

Współczynnik determinacji

0x01 graphic

lub wg innego wzoru

0x01 graphic

Uwaga! Różnice w wartości współczynnika determinacji wynikają z błędów zaokrągleń na etapie liczenia współczynników: zbieżności i korelacji

Średni błąd szacunku

0x01 graphic

W celu wyrobienia sobie poglądu nt. wielkości tego błędu odniesiemy go średniego poziomu cechy Y obliczając tzw. procentowy współczynnik zmienności reszt VSe% wg wzoru:

0x08 graphic

0x01 graphic

W praktyce chodzi o to, żeby wartość procentowego współczynnika zmienności resztowej (VSe%) była jak najbliższa zeru.

Jeżeli:

0% ≤ VSe% ≤ 20%

to szacowanie nieznanych wartości cechy Y na podstawie linii regresji

0x08 graphic

jest dopuszczalne.

PODSUMOWANIE (przykład 4)

Wszystkie policzone miary dopasowania potwierdzają bardzo dobre dopasowanie funkcji regresji do danych empirycznych.

Wykorzystanie funkcji regresji do szacowania nieznanej wartości zmiennej X

Aby oszacować nieznaną wartość zmiennej X musimy najpierw wyznaczyć drugą linię regresji, tzn. linię regresji zmiennej X względem zmiennej Y:

0x08 graphic

gdzie: y - zmienna zależna,

0x01 graphic
- teoretyczna wartość zmiennej X,

ax - współczynnik linii regresji (współczynnik kierunkowy),

bx - wyraz wolny.

Wyznaczanie parametrów ax i bx funkcji regresji

0x08 graphic

0x08 graphic

INTERPRETACJA ax: wzrost o jednostkę wartości zmiennej zależnej Y
jest spowodowany zmianą wartości zmiennej niezależnej X:

INTERPRETACJA by: stały poziom wartości zmiennej niezależnej X niezależny od zmian wartości zmiennej zależnej Y.
Uwaga ! Interpretacja wyrazu wolnego
w większości przypadków nie ma logicznej interpretacji.

Obliczanie współczynnika korelacji liniowej Rxy na podstawie współczynników ay i ax funkcji regresji

Jeśli dysponujemy współczynnikami linii regresji ay i ax , to na ich podstawie możemy wyznaczyć współczynnik korelacji liniowej Pearsona Rxy , obliczając ich średnią geometryczną wg wzoru:

0x01 graphic

Znak współczynnika korelacji liniowej Pearsona Rxy obliczony na podstawie tego wzoru jest taki sam jak znak współczynników linii regresji ay i ax .

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic



Wyszukiwarka

Podobne podstrony:
3. Materiały do ćwiczeń ze statystyki z demografią, statystyka z demografią
2. Materiały do ćwiczeń ze statystyki z demografią, statystyka z demografią
1. Materiały do ćwiczeń ze statystyki z demografią, statystyka z demografią
5 Materiały do ćwiczeń ze statystyki z?mografią
Materialy uzupelniajace do cwiczen ze statystyki cz1
Materialy uzupelniajace do cwiczen ze statystyki cz1
Losowanie proby, Ćwiczenia ze statystyki: Przedziały ufności
Enzymologia materiały do ćwiczeń
Materiały do ćwiczeń z geologii
Materiały do ćwiczeń nr 1
Materiały do cwiczenia nr 5
Materiały do ćwiczeń nr 2
Materiały do ćwiczeń z geologii te co umieć
Materialy do cwiczen, biochemia
materialy do cwiczen 1, Studia FIR, Podstawy zarządzania
XX materiały do ćwiczeń z historii wych 2
Materiały do cwiczenia 10
MATERIALY DO CWICZENIA BIOLOGIA CYTOMETR

więcej podobnych podstron