ANALIZA KORRELACJI I REGRESJI

STATYSTYKA WYKŁAD

~ ANALIZA KORELACJI I REGRESJI ~

  1. Zależności korelacyjne

  1. Przykłady korelacji

  2. Wstępne wnioski z przedstawionych przykładów

  3. Pomiar siły korelacji liniowej

  1. Współczynnik korelacji liniowej Pearsona

  2. Średnie arytmetyczne i odchylenie standardowe

- własności współczynnika korelacji liniowej Pearsona

- przykład

- podsumowanie

- korelacja a zależność pozorne – przykład

c) współczynnik korelacji rang Spearmana

- przykład

- własności

d) współczynnik korelacji rangowej Kendalla

- wstęp

- przykłady

- uwagi

  1. Regresja liniowa

  1. Wprowadzenie

  2. Terminologia

  3. Regresja liniowa jednej zmiennej

- założenia

- model

- przykładowe wykresy

- jak obliczyć regresję liniową jednej zmiennej

4. Metoda najmniejszych kwadratów

- jak obliczyć a i b

- Podsumowanie

5. Relacje łączące współczynnik regresji i współczynnik korelacji liniowej Pearsona

- wzory

- wnioski

- przykład

6. Ocena dobroci dopasowania prostej regresji MNK

- wstęp

- wzory

- przykłady

- przewidywanie na podstawie funkcji regresji

  1. Zależności korelacyjne

  1. Przykłady

Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodnicze itp. stwierdzamy niemal zawsze, ze każde z nich jest uwarunkowane działaniem innych zjawisk.

Istnienie związków pomiędzy zjawiskami charakteryzującymi badane zbiorowości bywa często przedmiotem dociekań i eksperymentów naukowych.

Przykład 1: David Buss w publikacji z 2001 roku pt. ”Psychologia ewolucyjna. Jak wytłumaczyć społeczne zachowania człowieka?”, opisał badanie, w którym sprawdzał, czy istnieje związek między szybkością˛ chodzenia a pozycja˛ społeczna˛. Okazało się, że związek ten jest dość wyraźny wśród mężczyzn, natomiast w mniejszym stopniu wśród kobiet.

Przykład 2: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujące charakterystyki:

Cel badania: Ustalenie, czy istnieją˛ jakiekolwiek zależności pomiędzy wymienionymi charakterystykami, a jeśli tak, to jaka jest siła tych zależności.

Wyniki badań: Bedą˛ przedstawione dalej.

Przykład 3:


$$BMI = \ \frac{\text{waga}}{{(\ wzrost\ w\ metrach)}^{2}}$$

Przykład korelacji wagi i wzrostu

Inne przykłady

  1. Wstępne wnioski z przedstawionych przykładów

  1. Pomiar siły korelacji liniowej

  1. Współczynnik korelacji liniowej Pearsona


$$r = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i}\ - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}\ \bullet \ s_{y}}$$

Gdzie $\overset{\overline{}}{x},\ \ \overset{\overline{}}{y}$ oznaczają średnią arytmetyczne, natomiast sx,  sy odchylenia standardowe zmiennych odpowiednio X i Y

Własności współczynnik korelacji liniowej Pearsona

Współczynniki korelacji liniowej Pearsona. Allison i Cicchetti – Wyniki badań ssaków

macierz współczynników korelacji liniowej Pearsona masa ciała (kg) masa mózgu (g) czas (godz./dobę) maks. długość życia (lata)

czas

ciąży (dni)

masa ciała (kg) 1 0,93 - 0,31 0,3, 0,65
masa mózgu (g) 0,93 1 - 0,36 0,51 0,75
czas (godz./dobę) - 0,31 - 0,36 1 - 0,41 -0,63
maks. długość życia (lata) 0,30 0,51 - 0,41 1 0,61

czas

ciąży (dni)

0,65 0,75 - 0,63 0,61 1

Kilka wybranych uwag podsumowania:

Pytanie: Jak opisać´ zależność´ np. czasu ciąży od wszystkich pozostałych zmiennych jednocześnie? Odpowiedzi dostarcza analiza regresji.

Korelacja a zależności pozorne – Przykład

Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci?

Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiędzy powierzchnia˛, liczba˛ mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!)

macierz współczynników korelacji liniowej Pearsona powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń
powierzchnia 1 0,579 0,812 0,923
liczba bocianów 0,579 1 0,354 0,620
liczba mieszkańców 0,812 0,354 1 0,851
liczba urodzeń 0,923 0,620 0,851 1

Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń.

Pytania:

  1. Średnie arytmetyczne i odchylenia standardowe – przypomnienie


$$\overset{\overline{}}{x} = \ \frac{1}{n}\sum_{i = 1}^{n}x_{i}\ \ \ ,\ \ \overset{\overline{}}{y} = \ \frac{1}{n}\sum_{i = 1}^{n}y_{i}$$


$$s_{x} = \sqrt{\frac{1}{n}\sum_{i = 1}^{k}{\left( \ x_{i} - \ \overset{\overline{}}{x}\ \right)^{2}\text{\ \ }}}\ \ ,\ \ s_{y} = \sqrt{\frac{1}{n}\sum_{i = 1}^{k}{\left( \ y_{i} - \ \overset{\overline{}}{y}\ \right)^{2}\text{\ \ }}}$$

  1. współczynnik korelacji rang Spearmana

Przykład 1

a2 = 2, a3 = 3, a4 = 1, co oznacza, iż w badanej grupie, ustawionej w kolejności alfabetycznej, pierwszy student (oznaczmy go umownie litera˛ A) jest najsłabszy, student B – dobry, student C – słaby, a student D – najlepszy.

Przykład 2


$$r_{s} = 1 - \ \frac{6\sum_{i = 1}^{n}d_{i}^{2}}{n\left( n^{2} - 1 \right)}$$

Gdzie di =  ai −  bi

Własności:

Przykład 3

Student rangi ai rangi bi różnice rang di
di2

A

B

C

D

4

2

3

1

2

1

3

4

2

1

0

-3

4

1

0

9

Razem x x x 14

Wartość współczynnika korelacji rang Spearmana w tym przykładzie wynosi:


$$r_{s} = 1 - \ \frac{6\ \bullet 14}{4\left( 16 - 1 \right)} = \ - 0,4$$

co świadczy o stosunkowo słabej korelacji między zdolnościami matematycznymi i muzycznymi badanych studentów.

  1. Współczynnik korelacji rangowej Kendalla

Przykład 1


$$\tau = \ \frac{P - Q}{n(n - 1)}$$

Przykład 2

Wróćmy do przykładu dotyczącego zdolności matematycznych i muzycznych grupy studentów (A,B,C,D). W tym przykładzie można utworzyć´ łącznie 4(4- 1)=12 dwuelementowych podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna tablicy).

Dalsze kolumny prezentują˛ uporządkowane w parach wartości cech, w tym przypadku rang ai oraz bi , a także wartości Uj , Vj .

Pary studentów ai dla pierwszej i drugiej osoby w parze uporządkowanie Uj bi dla pierwszej i drugiej osoby w parze uporządkowanie Vj

(A,B)

(A,C)

(A,D)

(B,A)

(B,C)

(B,D)

(C,A)

(C,B)

(C,D)

(D,A)

(D,B)

(D,C)

4; 2

4; 3

4; 1

2; 4

2; 3

2; 1

3; 4

3; 2

3; 1

1; 4

1; 2

1; 3

1

1

1

-1

-1

1

-1

1

1

-1

-1

-1

2; 1

2; 3

2; 4

1; 2

1; 3

1; 4

3; 2

3; 1

3; 4

4; 2

4; 1

4; 3

1

-1

-1

-1

-1

-1

1

1

-1

1

1

1


$$\tau = - \ \frac{4}{12}\ \approx \ - 0,33$$

co wskazuje na słaba˛ korelacje˛ między zdolnościami matematycznymi i muzycznymi w badanej grupie studentów (podobna wartość, jak współczynnika rS).

Uwagi


$$\mathbf{\tau = \ }\frac{\mathbf{2(}\mathbf{P}^{\mathbf{'}}\mathbf{- \ }\mathbf{Q}^{\mathbf{'}}\mathbf{)}}{\mathbf{n}\left( \mathbf{n - 1} \right)}\mathbf{\ \ \ ,\ gdzie\ \ \ \ \ \ }\mathbf{P}^{\mathbf{'}}\mathbf{= \ }\frac{\mathbf{1}}{\mathbf{2}}\mathbf{P,\ \ }\mathbf{Q}^{\mathbf{'}}\mathbf{= \ }\frac{\mathbf{1}}{\mathbf{2}}\mathbf{Q}$$

  1. Analiza regresji

  1. Wprowadzenie


Y  =  f (x1, x2, ….xs)  + ϵ

  1. Terminologia

Zmienna objaśniana (zmienna zależna) – zmienna będąca przedmiotem badania. Na ogół oznaczamy ja˛ symbolem Y.

Zmienne objaśniające (zmienne niezależne) – zmienne, za pomocą˛ których chcemy objaśnić´ zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X1,X2,….Xs

Funkcja regresji – funkcja odwzorowująca zależność pomiędzy zmienna˛ objaśnianą Y a zmiennymi objaśniającymi.

W przypadku wielu zmiennych objaśniających mówimy o regresji wielorakiej, natomiast w przypadku jednej zmiennej objaśniającej – o regresji jednej zmiennej.

  1. Regresja liniowa jednej zmiennej

  1. Dalej przyjmiemy następujące założenia:

  1. Model regresji liniowej:

  1. Przykłady

  1. Regresja liniowa jednej zmiennej - Przykład – jak wyznaczyć prostą regresji?


$$\sum_{i = 1}^{n}\left( y_{i} - \ \hat{\text{yi}} \right)^{2}$$


$$\sum_{i = 1}^{n}\left( y_{i} - \ \left( a + bx_{i} \right) \right)^{2}\text{\ \ \ }$$

 która˛ oznaczymy symbolem S(a, b).

  1. Metoda najmniejszych kwadratów - Trochę matematyki, czyli jak obliczyć a i b


$$\frac{\partial S\left( a,b \right)}{\partial a} = \ - 2\sum_{i = 1}^{n}\left( y_{i} - \ \left( a + bx_{i} \right) \right) = 0$$


$$\frac{\partial S(a,b)}{\partial b} = \ - 2\sum_{i = 1}^{n}{x_{i}\left( y_{i} - \left( a + bx_{i} \right) \right)} = 0$$


$$\sum_{i = 1}^{n}{y_{i} - na - b\sum_{i = 1}^{n}{x_{i} = 0}}$$


$$\sum_{i = 1}^{n}{x_{i}y_{i} - a\sum_{i = 1}^{n}{x_{i} - b\sum_{i = 1}^{n}x_{i}^{2}}} = 0$$


$$a = \ \frac{1}{n}\ \left( \sum_{i = 1}^{n}y_{i} - b\sum_{i = 1}^{n}x_{i} \right) = \ \overset{\overline{}}{y} - b\overset{\overline{}}{x}$$


$$\sum_{i = 1}^{n}{x_{i}y_{i} - \ \left( \overset{\overline{}}{y} - b\overset{\overline{}}{x} \right)}\sum_{i = 1}^{n}{x_{i} - b\sum_{i = 1}^{n}{x_{i}^{2} = 0}}$$

co po przekształceniach daje


$$b = \ \frac{\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{\sum_{i = 1}^{n}\left( x_{i} - \ \overset{\overline{}}{x} \right)^{2}}$$

Podsumowanie


$$a = \ \overset{\overline{}}{y} - b\overset{\overline{}}{x}$$


$$b = \ \frac{\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{\sum_{i = 1}^{n}\left( x_{i} - \ \overset{\overline{}}{x} \right)^{2}}$$

lub równoważnie


$$b = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}^{2}}$$

gdzie

(y1, x1), (y2, x2),……, (yn, xn) są˛ wartościami zmiennych Y i X w badanej zbiorowości.

  1. Relacja łącząca współczynnik regresji i współczynnik korelacji liniowej Pearsona

$b = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}^{2}}\text{\ \ \ \ \ \ \ \ \ \ }$ $r = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}\ \bullet \ s_{y}}$

Wniosek 1: Pomiędzy współczynnikami b i r zachodzi równość


$$b = r\ \bullet \ \frac{s_{y}}{s_{x}}$$

Wniosek 2: Współczynniki b i r maja˛ zawsze ten sam znak, przy czym współczynnik b nie musi należeć do przedziału [-1, 1], w przeciwieństwie do współczynnika r korelacji liniowej Pearsona.

Regresja liniowa jednej zmiennej - Przykład

  1. Ocena ”dobroci” dopasowania prostej regresji MNK


$$s_{y}^{\ 2} = \ \frac{1}{n}\sum_{i = 1}^{n}\left( y_{i} - \ \overset{\overline{}}{y} \right)^{2}$$

gdzie y1, y2,…….,yn jest n-elementowym zbiorem zaobserwowanych wartości tej zmiennej.


$$SST = \ \sum_{i = 1}^{n}\left( y_{i} - \ \overset{\overline{}}{y} \right)^{2}$$


$$SST = \ \sum_{i = 1}^{n}\left( y_{i} - \ \hat{y_{i}} \right)^{2} + \ \sum_{i = 1}^{n}\left( \hat{y_{i}} - \ \overset{\overline{}}{y} \right)^{2}$$

Gdzie $\hat{y_{i}} = a + bx_{i}$


$$R^{2} = \ \frac{\text{SSR}}{\text{SST}} = \ \frac{\sum_{i = 1}^{n}\left( \hat{y_{i}} - \ \overset{\overline{}}{y} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - \ \hat{y_{i}} \right)^{2}}$$

jest nazwany współczynnikiem determinacji.

Przewidywanie na podstawie funkcji regresji


$${\hat{y}}_{(x = 18)}\ = \ 5,\ 17\ + \ 1,76 \bullet 18\ = \ 36,\ 85\ \approx 37\ pkt$$


$$S_{\varepsilon} = \ \sqrt{\frac{\text{SSE}}{n - 2}} = \ \sqrt{\frac{1}{n - 2}\frac{1}{n - 2}\sum_{i = 1}^{n}\left( y_{i} - \ \hat{y_{i}} \right)^{2}}$$


$$S_{\varepsilon} = \ \sqrt{\frac{69,26}{19 - 2}\ \approx 2,02}$$

zatem przewidując wynik z egzaminu na podstawie wyznaczonej prostej regresji, mylimy się średnio o ok. 2 pkt.


Wyszukiwarka

Podobne podstrony:
analizy opisowa, regresji i wariancji
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
Elementy analizy korelacji i regresji
ANALIZA KORELACJI I REGRESJI-wzory, Statystyka, statystyka(3)
Analiza korelacji i regresji, studia, statystyka
Algorytm analizy korelacji i regresji liniowej, Statystyka opisowa
Analiza korelacji i regresji, Statystyka opisowa i matematyczna
5 Analiza korelacji i regresji (30 03)
STATYSTYKA - analiza korelacji i regresji, ŚCIĄGI Z RÓŻNYCH DZIEDZIN, Statystyka
ANALIZA KORELACJI I REGRESJI”, Statystyka, statystyka(3)
analiza korelacji i regresji
Analiza korelacji i regresji
Analiza korelacji i regresji
Analiza korelacji i regresji, „ANALIZA KORELACJI I REGRESJI”

więcej podobnych podstron