ZK PZ Spotkanie 6 (korelacje i Regresja)

background image

28.11.2015

1

Zastosowanie komputerów
w statystyce – kurs
zaawansowany

Łukasz Gradowski

lgradowski@swps.edu.pl

Spotkanie 6

O czym dzisiaj?

Czyli zajęcia n

• Kowariancja vs korelacja
• Współczynniki korelacji
• Wprowadzenie do analizy regresji

background image

28.11.2015

2

3

Miary związku

Czyli coś innego niż poszukiwanie różnic

• Do tej pory poszukiwaliśmy różnic między grupami (schematy

międzygrupowe), między pomiarami (schematy wewnątrz grupowe).

• Miary związku poszukują tzw. Współliniowości, czyli powiązania dwóch

cech/wyników

• Uwaga!

• Przy dotychczasowych analizach mogliśmy powiedzieć który wynik jest

wyższy/niższy i dlaczego (Manipulacja – zmienna niezależna).

• Dla miar związku jakimi są korelacje możemy mówić o sile związku,

kierunku, ale bez możliwości wnioskowania przyczynowo-skutkowego.

• Jeżeli chcemy mówić o wpływie – musimy skorzystać z innych miar

4

Kowariancja

Co to takiego i jak ją policzyć

Kowariancja – to miara współzmienności

• Pozwala określić czy dwie zmienne mają jakiś

charakterystyczny/specyficzny układ wartości względem siebie.

• Wskazuje kierunek

Wartości

zmiennej X

Wartości

zmiennej Y

Odległości od M

dla zmiennej X

Odległość od M

dla zmiennej Y

Iloczyn

odległości

1

5

-2

2

-4

2

4

-1

1

-1

3

3

0

0

0

4

2

1

-1

-1

5

1

2

-2

-4

Średnia = 3

SD = 1,6

Średnia = 3

SD = 1,6

Suma = -10

background image

28.11.2015

3

5

Kowariancja

Co to takiego i jak ją policzyć

Kowariancja – to miara współzmienności

• Pozwala określić czy dwie zmienne mają jakiś

charakterystyczny/specyficzny układ wartości względem siebie.

Wartości

zmiennej X

Wartości

zmiennej Y

Odległości od M

dla zmiennej X

Odległość od M

dla zmiennej Y

Iloczyn

odległości

1

5

-2

2

-4

2

4

-1

1

-1

3

3

0

0

0

4

2

1

-1

-1

5

1

2

-2

-4

Średnia = 3

SD = 1,6

Średnia = 3

SD = 1,6

Suma = -10

Kowariancja = (-10/N-1)

=-2,5

6

Korelacja r Pearsona

Co to takiego i jak ją policzyć

Korelacja – to nic innego jak wystandaryzowana kowariancja

• Podobnie jak kowariancja pozwala na określenie współzmienności
• Wskazuje kierunek i siłę

Wartości

zmiennej X

Wartości

zmiennej Y

Wystandaryzowa

ne odległości od

średniej dla X

Wystandaryzowa

ne odległości od

średniej dla Y

Iloczyn

odległości

1

5

-1,26

1,26

-1,6

2

4

-0,63

0,63

-0,4

3

3

0,00

0,00

0,0

4

2

0,63

-0,63

-0,4

5

1

1,26

-1,26

-1,6

Średnia = 3

SD = 1,6

Średnia = 3

SD = 1,6

Suma = -4

Dla

przypomnienia:

(X

i

-M)/SD

background image

28.11.2015

4

7

Korelacja r Pearsona

Co to takiego i jak ją policzyć

Korelacja – to nic innego jak wystandaryzowana kowariancja

• Podobnie jak kowariancja pozwala na określenie współzmienności

Wartości

zmiennej X

Wartości

zmiennej Y

Wystandaryzowa

ne odległości od

średniej dla X

Wystandaryzowa

ne odległości od

średniej dla Y

Iloczyn

odległości

1

5

-1,26

1,26

-1,6

2

4

-0,63

0,63

-0,4

3

3

0,00

0,00

0,0

4

2

0,63

-0,63

-0,4

5

1

1,26

-1,26

-1,6

Średnia = 3

SD = 1,6

Średnia = 3

SD = 1,6

Suma = -4

Dla

przypomnienia:

(X

i

-M)/SD

r Pearsona = (-4/N-1)

=-1

8

Korelacja vs Kowariancja

Wartości zmiennej X

Wartości zmiennej Y

Wystandaryzowane

odległości od średniej

dla X

Wystandaryzowane

odległości od średniej

dla Y

Iloczyn odległości

1

5

-1,26

1,26

-1,6

2

4

-0,63

0,63

-0,4

3

3

0,00

0,00

0,0

4

2

0,63

-0,63

-0,4

5

1

1,26

-1,26

-1,6

Średnia = 3

SD = 1,6

Średnia = 3

SD = 1,6

Suma = -4

Wartości zmiennej X

Wartości zmiennej Y

Odległości od M dla

zmiennej X

Odległość od M dla

zmiennej Y

Iloczyn odległości

1

5

-2

2

-4

2

4

-1

1

-1

3

3

0

0

0

4

2

1

-1

-1

5

1

2

-2

-4

Średnia = 3

SD = 1,6

Średnia = 3

SD = 1,6

Suma = -10

Co jest lepsze i dlaczego?

r = -1

cov = -2,5

background image

28.11.2015

5

9

Korelacja r Pearsona

Założenia

Korelacja to współwystępowanie zmiennych o charakterze liniowym.
Zmienne – mierzone na skali ilościowej
Rozkład normalny – zmiennych zależnych

ALE –
UWAGA NA KORELACJE POZORNE –

wnioskowanie powinno wywodzić się z

teorii (np. spalone domy i liczba strażaków , bociany i dzieci w Szwecji)

ZWIĄZKI KRZYWOLINIOWE i DEWIANTÓW –

zawsze należy sprawdzić wykres

rozrzutu.

10

Korelacja r Pearsona

Co należy zapamiętać

• Przy interpretacji korelacji należy podać jej siłę oraz kierunek.
• Każdą korelacje należy zwizualizować

Wartość

statystyki

Interpretacja

0 - 0.3

brak/ bardzo słaba

korelacja

0.3 - 0.5 umiarkowana korelacja

0.5 - 0.7

silna korelacja

0.7 - 1

bardzo silna korelacja

Kierunek

Korelacja

dodatnia

Brak

Korelacja

ujemna

Siła związku

background image

28.11.2015

6

11

Korelacja - Przykład

Anscombe.sav

Anscombe.sav

MENU – ANALIZA – KORELACJE - PARAMI

12

Korelacja – w SPSS

Anscombe.sav

Anscombe.sav

MENU – ANALIZA – KORELACJE - PARAMI

background image

28.11.2015

7

13

Korelacja r Pearsona

Współczynnik determinacja = r

2

• Dla wyniku korelacji możemy obliczyć współczynnik determinacjir

2

• Współczynnik determinacji to kwadrat wyniku analizy korelacji i wyznacza

procent wyjaśnianej współliniowości wyników np.:

• Jeżeli wynik korelacji wynosi r = 0,5 ; p < 0,05 to
R

2

= 0,5

2

= 0,25 ;

0,25 * 100 % = 25%

14

Ćwiczenie

Hipoteza Badawcza (kierunkowa):

• Istnieje pozytywny związek między poziomem ekstrawersji a aktywnością

Hipoteza zerowa:

• Brak związku między ekstrawersją a aktywnością.

Wynik:

• ?

Interpretacja

• ?

Zadanie 1.

- Czy istnieje związek między ekstrawersją [ekstrawersja] a aktywnością [aktywnosc]

Zadanie 1.

- Czy istnieje związek między ekstrawersją [ekstrawersja] a aktywnością [aktywnosc]

Sila_v2.sav

Sila_v2.sav

background image

28.11.2015

8

15

Korelacja

A co jeżeli nie możemy policzyć średniej – skala nie ilościowa!

Miary

współzmienności

Zmienne

ilościowe

Np. wiek

r Pearsona

<-1 ; +1>

Zmienne

porządkowe

np. Poziom Wykształcenia

rho Spearmana

<-1; +1>

Zmienne

nominalne

Np. Płeć

Phi i V Cramera

<0; +1>

16

Korelacja

A co jeżeli nie możemy policzyć średniej – skala nie ilościowa!

Rho Spearmana – nieparametryczny odpowiednik współczynnika korelacji r

Pearsona

• Stosujemy już gdy choć jedna zmienna mierzona jest na skali porządkowej
Interpratacja – analogiczna do r Pearsona

Miary

współzmienności

Zmienne ilościowe

Np. wiek

r Pearsona

<-1 ; +1>

Zmienne

porządkowe

np. Poziom Wykształcenia

rho Spearmana

<-1; +1>

Zmienne

nominalne

Np. Płeć

Phi i V Cramera

<0; +1>

background image

28.11.2015

9

17

Ćwiczenie

Hipoteza Badawcza (kierunkowa):

• Im większa liczba dzieci tym wyżej oceniany poziom zadowolenia z

rodziny

Hipoteza zerowa:

• ?

Wynik:

• ?

Interpretacja

• ?

Zadanie 1.

- Czy istnieje związek między liczbą posiadanych dzieci [dzieci] a oceną własnej rodziny
[rodzina]

Zadanie 1.

- Czy istnieje związek między liczbą posiadanych dzieci [dzieci] a oceną własnej rodziny
[rodzina]

Sila_v2.sav

Sila_v2.sav

Przewidywanie
Analiza Regresji – jednej
zmiennej

Zima 2015/2016

background image

28.11.2015

10

19

Analiza regresji

Przewidywanie wartości jednej zmiennej na podstawie innej

• Przewaga analizy Regresji nad średnią:

• Miary takie jak: średnia (M) czy mediana (Me) Mają nam pomóc w

przewidywaniu pewnych wyników np.

Jeżeli przeciętne miesięczne wynagrodzenie w województwie

Mazowieckim (wg. GUS) to 4400 PLN to możemy zakładać z pewnym
prawdopodobieństwem, że my powinniśmy zarabiać blisko tego
wyniku.

• W analizie regresji możemy wziąć pod uwagę inne zmienne które mogą

pomóc nam w dokładniejszym przewidzeniu wysokości naszych zarobków
np.

• Znamy wykształcenie osób badanych i znamy wysokość ich zarobków.

Może się okazać, że osoby z wykształceniem średnim – zarabiają
przeciętnie 4200 PLN, natomiast osoby z wykształceniem wyższy
5000 PLN.

20

Analiza regresji

Cechy charakterystyczne

• W dotychczasowych analizach mieliśmy do czynienie ze zmiennymi zależnymi

inaczej testowanymi oraz zmiennymi niezależnymi – inaczej czynnikami lub
zmiennymi grupującymi

• W analizie regresji wyróżniamy:

Zmienna zależna – czyli zmienna wyjaśniana
Predyktor – czyli zmienna wyjaśniająca

• Aby móc myśleć o wykonaniu analizy regresji musimy mieć zarówno zmienną

zależną jak i predykator na skali ILOŚCIOWEJ

• Wyjątek – zmienne dychotomiczne (kategorialne jak np. płeć) – system

0|1

• Zmienne powinny mieć rozkład normalny (testy K-S lub S-W [eksploracja])
• Przyjmuje się , że aby wykonać analizę regresji powinno się mieć przynajmniej

50 osób badanych (dla 1 predyktora – każdy kolejny to + 10-20 osób)
(Tabachnick)

background image

28.11.2015

11

21

Analiza regresji

Cechy charakterystyczne

• Musimy pamiętać o przypadkach odstających i zależnościach krzywoliniowych.

22

Analiza regresji

Linia Regresji

• Każdy wynik analizy regresji możemy przedstawić za pomocą wzoru linii

regresji

• Wzór linii prostej

𝑌 = 𝑎𝑥 + 𝑏

• Wzór linii regresji



b

1

– nachylenie

x – predyktor
b

0

- stała

𝑌 = 𝑏

1

𝑥 + 𝑏

0

background image

28.11.2015

12

23

Analiza regresji

Krok Po Kroku

• Linia Regresji która została dopasowana do zmiennych metodą najmniejszych

kwadratów – czyli linia została narysowana w taki sposób aby kwadrat
odległości wyników rzeczywistych od linii regresji był jak najmniejszy.

X

Y

0

Wynik

przewidywany

Wariancja

Wyjaśniona przez

model

Wariancja

Niewyjaśniona

Wynik

rzeczywisty

24

Analiza regresji

Krok Po Kroku

• R

2

i/lub skorygowane R

2

informuje nas o procencie wyjaśnianej warjancji

wyników zmiennej zależnej przez predykatory

• Analiza wariancji, służy do porównania która z wartości jest lepszym

predykatorem (linia regresji czy też wartość średnia)

X

Y

0

Linia

Regresji

Średnia

• Istotny wynik analizy

wariancji (p<0,05)
oznacza dobre
dopasowanie modelu
- czyli linia regresji
jest lepszym
predykatorem niż
średnia

!Uwaga

: współczynnik

R przyjmuje wartości
<0;+1>

background image

28.11.2015

13

25

Analiza regresji

Podsumowując w kilku krokach

1.

Sprawdzamy czy model linii regresji jest dobrze dopasowany do danych.

2.

Sprawdzamy czy istnieje zależność między predyktorem a zmienną zależną
– poziom istotności dla współczynnika BETA

3.

Interpretujemy współczynnik BETA (siła i kierunek zależności)

4.

Zapisujemy wzór linii dla danych surowych

26

Analiza regresji

Z jednym predyktorem

All99-bez braków.sav

All99-bez braków.sav

Ćwiczenie 2.

- Sprawdź czy na podstawie wykształcenia osoby badanej [educ] można przewidywać
wysokość zarobków [rincome]

Ćwiczenie 2.

- Sprawdź czy na podstawie wykształcenia osoby badanej [educ] można przewidywać
wysokość zarobków [rincome]

Ćwiczenie 3.

- Sprawdź czy przysłowie „pieniądze szczęścia nie dają” jest prawdziwe opierając się na
deklaracji chęci życia. Czy na podstawie wysokości zarobków [rincome] możemy
przewidywać chęć do życia [deslive]

Ćwiczenie 3.

- Sprawdź czy przysłowie „pieniądze szczęścia nie dają” jest prawdziwe opierając się na
deklaracji chęci życia. Czy na podstawie wysokości zarobków [rincome] możemy
przewidywać chęć do życia [deslive]

background image

28.11.2015

14

Analiza Regresji – regresja
wielokrotna

Zima 2013/2014

28

Analiza regresji c.d.

Ćwiczenie

zadowolenie.sav

zadowolenie.sav

Ćwiczenie 4.

- Czy zdrowie jest dobrym predyktorem zadowolenia z życia? Sprawdź czy na podstawie
liczby przebytych chorób [choroby] można przewidywać poziom zadowolenia z życia
[zadowolenie]

Ćwiczenie 4.

- Czy zdrowie jest dobrym predyktorem zadowolenia z życia? Sprawdź czy na podstawie
liczby przebytych chorób [choroby] można przewidywać poziom zadowolenia z życia
[zadowolenie]

background image

28.11.2015

15

29

Analiza regresji

Co zrobić aby zwiększyć trafność predykcji?

• Zdobyć więcej informacji które mogą tłumaczyć wyniki zmiennej zależnej

Regresja prosta uwzględnia jeden predyktor i jedną zmienną zależną

• W tej regresji modelem jest linia prosta

Regresja wielozmiennowa analizuje związek większej liczby predyktorów

i zmiennej zależnej

• Modelem jest kombinacja liniowa uwzględnianych predyktorów np.

dla 2 predykatorów będzie to jakaś płaszczyzna.

• Regresja wielozmiennowa tak jak regresja prosta ma wiele założeń które

muszą być spełnione. Unikalne w tym wypadku jest założenie o braku
związku między predyktorami.

30

Korelacja

Czastkowa i semicząstkowa

Korelacja rzędu zerowego – to

zwykłą analiza korelacji dwóch
zmiennych

Korelacja cząstkowa – to np.

korelacja predyktora P1 ze zmienną
zależną przy kontroli predyktora
drugiego P2 , czyli część A (A/(A+D)

Korelacja Semicząstkowa – to

unikalna wartość korelacji
predyktora P1 na zmienną zależną z
wyłączeniem części wspólnej z
predyktorem P2, czyli część A
(A/(A+B+C+D)

P1

P2

Zależna

A

C

B

D

background image

28.11.2015

16

Korelacja Cząstkowa

Korelacja Korelacja-Smeicząstkowa

background image

28.11.2015

17

33

Analiza regresji

W jaki sposób wprowadzić predyktory do modelu

• METODY WPROWADZANIA ZMIANNYCH DO PREDYKTORÓW DO ANALIZY

WARIANCJI:

Wprowadzania – wszystkie predyktory są wprowadzane do modelu

jednocześnie

Hierarchiczna – użytkownik sam decyduje o kolejności wprowadzania

predyktorów

Krokowa – w każdym kroku zmienne mogą być wprowadzone lub usunięte, w

zależności od siły danego predyktora w danym układzie zmiennych. (zmienne
wprowadzane na bazie statystyki R

2

)

Metoda selekcji postępującej – pierwszy predyktor (korelacja zerowa), drugi

predyktor korelacja semicząstkowa itd.

Metoda eliminacji wstecznej – po wprowadzeniu wszystkich predytkrów,

najsłabsze są w kolejnych krokach usuwane.

34

Analiza regresji – regresja wielokrotna c.d.

Ćwiczenie

zadowolenie.sav

zadowolenie.sav

Ćwiczenie 5.

- Sprawdź czy na podstawie wyników neurotyczności [neur], sytuacji mieszkaniowej
[mieszkanie] i płci [plec] możemy przewidywać poziom stresu?

Ćwiczenie 5.

- Sprawdź czy na podstawie wyników neurotyczności [neur], sytuacji mieszkaniowej
[mieszkanie] i płci [plec] możemy przewidywać poziom stresu?

background image

28.11.2015

18

35

Analiza regresji – regresja wielokrotna c.d.

Ćwiczenie

Ćwiczenie 6.

- Sprawdź czy na podstawie wieku respondenta [age], płci [plec], lat nauki respondenta
[educ], dochodów z pracy respondenta [rincome] i skali chęci życia [deslive] możemy
przewidzieć poczucie szczęścia [szczescie]?

Ćwiczenie 6.

- Sprawdź czy na podstawie wieku respondenta [age], płci [plec], lat nauki respondenta
[educ], dochodów z pracy respondenta [rincome] i skali chęci życia [deslive] możemy
przewidzieć poczucie szczęścia [szczescie]?

All99-bez braków.sav

All99-bez braków.sav

• Dziękuje za uwagę


Wyszukiwarka

Podobne podstrony:
Korelacja i regresja
11 Podstawy korelacji i regresji
korelacja regresja Word2003, Elementy matematyki wyższej
statystyka, Korelacja i regresja liniowa, Korelacja i regresja liniowa
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
Lista 2 korelacje i regresje id Nieznany
Elementy analizy korelacji i regresji
korelacja i regresja
ANALIZA KORELACJI I REGRESJI-wzory, Statystyka, statystyka(3)
Korelacja i regresja liniowa
korelacja i regresja
Analiza korelacji i regresji, studia, statystyka

więcej podobnych podstron