korelacja i regresja


Zależności korelacyjne
Regresja liniowa
ANALIZA KORELACJI I REGRESJI
Agnieszka Rossa
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Szkic wykładu
1
Zależności korelacyjne
2
Regresja liniowa
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Badając różnego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, że każde z nich jest
uwarunkowane działaniem innych zjawisk.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Badając różnego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, że każde z nich jest
uwarunkowane działaniem innych zjawisk.
Istnienie związków pomiędzy zjawiskami
charakteryzującymi badane zbiorowości bywa często
przedmiotem dociekań i eksperymentów naukowych.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Badając różnego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, że każde z nich jest
uwarunkowane działaniem innych zjawisk.
Istnienie związków pomiędzy zjawiskami
charakteryzującymi badane zbiorowości bywa często
przedmiotem dociekań i eksperymentów naukowych.
Przykład: David Buss w publikacji z 2001 roku pt.
 Psychologia ewolucyjna. Jak wytłumaczyć społeczne
zachowania człowieka? , opisał badanie, w którym
sprawdzał, czy istnieje związek między szybkością
chodzenia a pozycją społeczną. Okazało się, że związek
ten jest dość wyrazny wśród mężczyzn, natomiast w
mniejszym stopniu wśród kobiet.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz/dobę),
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz/dobę),
maksymalna długości życia (lata),
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz/dobę),
maksymalna długości życia (lata),
masa ciała (kg),
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz/dobę),
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz/dobę),
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ciąży (dni).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz/dobę),
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ciąży (dni).
Cel badania: Ustalenie, czy istnieją jakiekolwiek zależności
pomiędzy wymienionymi charakterystykami, a jeśli tak, to jaka
jest siła tych zależności.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Inny przykład: Allison i Cicchetti w pracy  Sleep in mammals
(Science, 194, 1976) opisali badania przeprowadzone wśród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz/dobę),
maksymalna długości życia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ciąży (dni).
Cel badania: Ustalenie, czy istnieją jakiekolwiek zależności
pomiędzy wymienionymi charakterystykami, a jeśli tak, to jaka
jest siła tych zależności.
Wyniki badań: Będą przedstawione dalej.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Kolejny przykład:
Związek pomiędzy wagą a wzrostem człowieka próbuje się
wyrazić za pomocą tzw. wskaznika BMI (Body Mass
Index):
waga
BMI =
(wzrost w metrach)2
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Kolejny przykład:
Związek pomiędzy wagą a wzrostem człowieka próbuje się
wyrazić za pomocą tzw. wskaznika BMI (Body Mass
Index):
waga
BMI =
(wzrost w metrach)2
Przyjmuje się, że wartość BMI dla osób z prawidłową
masą ciała zawiera się mniej więcej w przedziale
18, 5 d" BMI < 25. Jednak BMI kształtuje się na poziomie
indywidualnym dla konkretnych osób i może znacznie
przekraczać wartość 25.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależności korelacyjne
Przykłady
Kolejny przykład:
Związek pomiędzy wagą a wzrostem człowieka próbuje się
wyrazić za pomocą tzw. wskaznika BMI (Body Mass
Index):
waga
BMI =
(wzrost w metrach)2
Przyjmuje się, że wartość BMI dla osób z prawidłową
masą ciała zawiera się mniej więcej w przedziale
18, 5 d" BMI < 25. Jednak BMI kształtuje się na poziomie
indywidualnym dla konkretnych osób i może znacznie
przekraczać wartość 25.
Przykład ten wskazuje, że zależność między wagą a
wzrostem nie jest ściśle funkcyjna. Podana formuła
opisuje tylko w przybliżeniu tę zależności.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiędzy wzrostem i wagą,
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajÄ…ca wagÄ™ y konkretnej
osoby z ustalonym wzrostem x.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiędzy wzrostem i wagą,
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajÄ…ca wagÄ™ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje się, że  jakaś zależność pomiędzy
wagÄ… i wzrostem istnieje.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiędzy wzrostem i wagą,
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajÄ…ca wagÄ™ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje się, że  jakaś zależność pomiędzy
wagÄ… i wzrostem istnieje.
Obserwując obie cechy w dużej zbiorowości osób,
dojdziemy do przekonania, że średnia waga jest większa
w grupie osób wyższych i na odwrót.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiędzy wzrostem i wagą,
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajÄ…ca wagÄ™ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje się, że  jakaś zależność pomiędzy
wagÄ… i wzrostem istnieje.
Obserwując obie cechy w dużej zbiorowości osób,
dojdziemy do przekonania, że średnia waga jest większa
w grupie osób wyższych i na odwrót.
Związek między wagą i wzrostem jest przykładem tzw.
związku korelacyjnego, w skrócie  korelacji.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przy analizie współzależności pomiędzy wzrostem i wagą,
nie oczekujemy, aby zależność ta była ściśle funkcyjna,
tzn. aby istniała jednoznacznie określona funkcja
matematyczna y = f (x), podajÄ…ca wagÄ™ y konkretnej
osoby z ustalonym wzrostem x.
Mimo tego wydaje się, że  jakaś zależność pomiędzy
wagÄ… i wzrostem istnieje.
Obserwując obie cechy w dużej zbiorowości osób,
dojdziemy do przekonania, że średnia waga jest większa
w grupie osób wyższych i na odwrót.
Związek między wagą i wzrostem jest przykładem tzw.
związku korelacyjnego, w skrócie  korelacji.
Z korelacjÄ… mamy do czynienia wtedy, gdy wraz ze
zmianą wartości jednej cechy zmienia się średnia wartość
drugiej cechy.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Przykład korelacji wagi i wzrostu
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji Pearsona
Przykład korelacji wagi i wzrostu  c.d.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Inne przykłady
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstępne wnioski z przedstawionych przykładów
Związek korelacyjny można odkryć obserwując dużą liczbę
przypadków. Nie ujawnia się w pojedycznych
obserwacjach.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstępne wnioski z przedstawionych przykładów
Związek korelacyjny można odkryć obserwując dużą liczbę
przypadków. Nie ujawnia się w pojedycznych
obserwacjach.
Zależność korelacyjna może być prostoliniowa (w skrócie 
liniowa) lub krzywoliniowa, silna lub słaba.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstępne wnioski z przedstawionych przykładów
Związek korelacyjny można odkryć obserwując dużą liczbę
przypadków. Nie ujawnia się w pojedycznych
obserwacjach.
Zależność korelacyjna może być prostoliniowa (w skrócie 
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia możemy w
przybliżeniu ocenić charakter zależności i jej siłę.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Zależność korelacyjna
Wstępne wnioski z przedstawionych przykładów
Związek korelacyjny można odkryć obserwując dużą liczbę
przypadków. Nie ujawnia się w pojedycznych
obserwacjach.
Zależność korelacyjna może być prostoliniowa (w skrócie 
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia możemy w
przybliżeniu ocenić charakter zależności i jej siłę.
Potrzebujemy miary, która pomógłaby wyrazić siłę
zależności w sposób liczbowy.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Załóżmy, że między cechami X i Y występuje zależność
korelacyjna o charakterze liniowym.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Załóżmy, że między cechami X i Y występuje zależność
korelacyjna o charakterze liniowym.
Współczynnikiem służącym do pomiaru siły tego związku
jest współczynnik korelacji liniowej Pearsona określony
wzorem
n
1
Å» Å»
(xi - x)(yi - y)
n i=1
r = ,
sx · sy
Å» Å»
gdzie x, y oznaczają średnie arytmetyczne, natomiast
sx, sy  odchylenia standardowe zmiennych odpowiednio
X i Y .
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Pomiar siły korelacji liniowej
Åšrednie arytmetyczne i odchylenia standardowe  przypomnienie
Åšrednie arytmetyczne:
n n
1 1
Å» Å»
x = xi, y = yi.
n n
i=1 i=1
Odchylenia standardowe:
n n
1 1
Å» Å»
sx = (xi - x)2, sy = (yi - y)2.
n n
i=1 i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [-1, 1].
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [-1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [-1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzględna |r| informuje o sile korelacji liniowej.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [-1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzględna |r| informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy |r| = 1, wówczas mamy
do czynienia z korelacją funkcyjną (tzn. zależność Y od X
można wyrazić za pomocą funkcji Y = aX + b, gdzie a, b
są pewnymi stałymi).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [-1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzględna |r| informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy |r| = 1, wówczas mamy
do czynienia z korelacją funkcyjną (tzn. zależność Y od X
można wyrazić za pomocą funkcji Y = aX + b, gdzie a, b
są pewnymi stałymi).
Współczynnik r mierzy tylko korelację o charakterze
prostoliniowym.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynnik korelacji liniowej Pearsona
Własności
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze wartości z przedziału [-1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Wartość bezwzględna |r| informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy |r| = 1, wówczas mamy
do czynienia z korelacją funkcyjną (tzn. zależność Y od X
można wyrazić za pomocą funkcji Y = aX + b, gdzie a, b
są pewnymi stałymi).
Współczynnik r mierzy tylko korelację o charakterze
prostoliniowym.
Gdy r = 0, wówczas mówimy, że nie ma korelacji liniowej
(ale może być krzywoliniowa).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti  Wyniki badań ssaków
macierz współczynników masa masa czas snu maks. długość czas
korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciąży (dni)
masa ciała (kg) 1 0,93 -0,31 0,30 0,65
masa mózgu (g) 0,93 1 -0,36 0,51 0,75
czas snu (godz/dobÄ™) -0,31 -0,36 1 -0,41 -0,63
maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61
czas ciąży (dni) 0,65 0,75 -0,63 0,61 1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti  Wyniki badań ssaków
macierz współczynników masa masa czas snu maks. długość czas
korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciąży (dni)
masa ciała (kg) 1 0,93 -0,31 0,30 0,65
masa mózgu (g) 0,93 1 -0,36 0,51 0,75
czas snu (godz/dobÄ™) -0,31 -0,36 1 -0,41 -0,63
maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61
czas ciąży (dni) 0,65 0,75 -0,63 0,61 1
Kilka wybranych uwag podsumowania:
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti  Wyniki badań ssaków
macierz współczynników masa masa czas snu maks. długość czas
korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciąży (dni)
masa ciała (kg) 1 0,93 -0,31 0,30 0,65
masa mózgu (g) 0,93 1 -0,36 0,51 0,75
czas snu (godz/dobÄ™) -0,31 -0,36 1 -0,41 -0,63
maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61
czas ciąży (dni) 0,65 0,75 -0,63 0,61 1
Kilka wybranych uwag podsumowania:
wszystkie cechy są ze sobą wzajemnie powiązane (w mniejszym lub większym stopniu),
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti  Wyniki badań ssaków
macierz współczynników masa masa czas snu maks. długość czas
korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciąży (dni)
masa ciała (kg) 1 0,93 -0,31 0,30 0,65
masa mózgu (g) 0,93 1 -0,36 0,51 0,75
czas snu (godz/dobÄ™) -0,31 -0,36 1 -0,41 -0,63
maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61
czas ciąży (dni) 0,65 0,75 -0,63 0,61 1
Kilka wybranych uwag podsumowania:
wszystkie cechy są ze sobą wzajemnie powiązane (w mniejszym lub większym stopniu),
można zauważyć silną, dodatnią korelację liniową między masą mózgu i ciała,
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti  Wyniki badań ssaków
macierz współczynników masa masa czas snu maks. długość czas
korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciąży (dni)
masa ciała (kg) 1 0,93 -0,31 0,30 0,65
masa mózgu (g) 0,93 1 -0,36 0,51 0,75
czas snu (godz/dobÄ™) -0,31 -0,36 1 -0,41 -0,63
maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61
czas ciąży (dni) 0,65 0,75 -0,63 0,61 1
Kilka wybranych uwag podsumowania:
wszystkie cechy są ze sobą wzajemnie powiązane (w mniejszym lub większym stopniu),
można zauważyć silną, dodatnią korelację liniową między masą mózgu i ciała,
umiarkowana, ujemna korelacja liniowa między czasem snu a czasem życia,
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti  Wyniki badań ssaków
macierz współczynników masa masa czas snu maks. długość czas
korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciąży (dni)
masa ciała (kg) 1 0,93 -0,31 0,30 0,65
masa mózgu (g) 0,93 1 -0,36 0,51 0,75
czas snu (godz/dobÄ™) -0,31 -0,36 1 -0,41 -0,63
maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61
czas ciąży (dni) 0,65 0,75 -0,63 0,61 1
Kilka wybranych uwag podsumowania:
wszystkie cechy są ze sobą wzajemnie powiązane (w mniejszym lub większym stopniu),
można zauważyć silną, dodatnią korelację liniową między masą mózgu i ciała,
umiarkowana, ujemna korelacja liniowa między czasem snu a czasem życia,
dość silna korelacja (dodatnia lub ujemna) czasu ciąży z innymi zmiennymi,
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti  Wyniki badań ssaków
macierz współczynników masa masa czas snu maks. długość czas
korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciąży (dni)
masa ciała (kg) 1 0,93 -0,31 0,30 0,65
masa mózgu (g) 0,93 1 -0,36 0,51 0,75
czas snu (godz/dobÄ™) -0,31 -0,36 1 -0,41 -0,63
maks. długość życia (lata) 0,30 0,51 -0,41 1 0,61
czas ciąży (dni) 0,65 0,75 -0,63 0,61 1
Kilka wybranych uwag podsumowania:
wszystkie cechy są ze sobą wzajemnie powiązane (w mniejszym lub większym stopniu),
można zauważyć silną, dodatnią korelację liniową między masą mózgu i ciała,
umiarkowana, ujemna korelacja liniowa między czasem snu a czasem życia,
dość silna korelacja (dodatnia lub ujemna) czasu ciąży z innymi zmiennymi,
Pytanie: Jak opisać zależność np. czasu ciąży od wszystkich pozostałych zmiennych jednocześnie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne  Przykład
Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomiędzy powierzchnią, liczbą
mieszkańców, liczbą urodzeń oraz liczbą bocianów (!):
macierz współczynników powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń
korelacji liniowej Pearsona
powierzchnia 1 0,579 0,812 0,923
liczba bocianów 0,579 1 0,354 0,620
liczba mieszkańców 0,812 0,354 1 0,851
liczba urodzeń 0,923 0,620 0,851 1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne  Przykład
Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomiędzy powierzchnią, liczbą
mieszkańców, liczbą urodzeń oraz liczbą bocianów (!):
macierz współczynników powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń
korelacji liniowej Pearsona
powierzchnia 1 0,579 0,812 0,923
liczba bocianów 0,579 1 0,354 0,620
liczba mieszkańców 0,812 0,354 1 0,851
liczba urodzeń 0,923 0,620 0,851 1
Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne  Przykład
Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomiędzy powierzchnią, liczbą
mieszkańców, liczbą urodzeń oraz liczbą bocianów (!):
macierz współczynników powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń
korelacji liniowej Pearsona
powierzchnia 1 0,579 0,812 0,923
liczba bocianów 0,579 1 0,354 0,620
liczba mieszkańców 0,812 0,354 1 0,851
liczba urodzeń 0,923 0,620 0,851 1
Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń.
Pytania:
Czy w krajach, w których jest więcej bocianów rodzi się, średnio rzecz biorąc, więcej dzieci? Odpowiedz
brzmi  tak, potwierdzajÄ… to uzyskane wyniki.
Czy na tej podstawie możemy sądzić, że liczba bocianów oddziałuje na liczbę noworodków (lub odwrotnie)?
Odpowiedz brzmi  nie, ponieważ pomiędzy badanymi zmiennymi nie ma bezpośredniej zależności
przyczynowo-skutkowej. Jest to przykład zależności pozornej.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne  Przykład c.d.
Zależność przyczynowo-skutkowa pomiędzy liczbą
urodzeń i liczbą bocianów jest pozorna, gdyż ma tu
miejsce jedynie współwystępowanie obu zjawisk (większej
liczbie bocianów towarzyszy na ogół większa liczba
urodzeń i na odwrót).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne  Przykład c.d.
Zależność przyczynowo-skutkowa pomiędzy liczbą
urodzeń i liczbą bocianów jest pozorna, gdyż ma tu
miejsce jedynie współwystępowanie obu zjawisk (większej
liczbie bocianów towarzyszy na ogół większa liczba
urodzeń i na odwrót).
Pozorna zależność ma miejsce także między liczbą
urodzeń i powierzchnią kraju.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Korelacja a zależności pozorne  Przykład c.d.
Zależność przyczynowo-skutkowa pomiędzy liczbą
urodzeń i liczbą bocianów jest pozorna, gdyż ma tu
miejsce jedynie współwystępowanie obu zjawisk (większej
liczbie bocianów towarzyszy na ogół większa liczba
urodzeń i na odwrót).
Pozorna zależność ma miejsce także między liczbą
urodzeń i powierzchnią kraju.
Układ zależności przyczynowo-skutkowych w tym
przykładzie można zilustrować graficznie:
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Przypuśćmy, że porządkujemy 4 studentów w zależności
od stopnia ich zdolności matematycznych, zaczynając od
studenta najlepszego, któremu przydzielamy numer 1,
a kończąc na studencie najsłabszym, któremu
przydzielamy numer 4 (ocenę zdolności powierzamy np.
ekspertowi).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Przypuśćmy, że porządkujemy 4 studentów w zależności
od stopnia ich zdolności matematycznych, zaczynając od
studenta najlepszego, któremu przydzielamy numer 1,
a kończąc na studencie najsłabszym, któremu
przydzielamy numer 4 (ocenę zdolności powierzamy np.
ekspertowi).
Mówimy wówczas, że studenci zostali uporządkowani w
kolejności rang, a numer studenta jest jego rangą.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Przypuśćmy, że porządkujemy 4 studentów w zależności
od stopnia ich zdolności matematycznych, zaczynając od
studenta najlepszego, któremu przydzielamy numer 1,
a kończąc na studencie najsłabszym, któremu
przydzielamy numer 4 (ocenę zdolności powierzamy np.
ekspertowi).
Mówimy wówczas, że studenci zostali uporządkowani w
kolejności rang, a numer studenta jest jego rangą.
Oznaczmy rangi poszczególnych studentów przez ai.
Przykładowo, niech: a1 = 4, a2 = 2, a3 = 3, a4 = 1, co
oznacza, iż w badanej grupie, ustawionej w kolejności
alfabetycznej, pierwszy student (oznaczmy go umownie
literą A) jest najsłabszy, student B  dobry, student C 
słaby, a student D  najlepszy.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporządkowaliśmy tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi będą rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporządkowaliśmy tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi będą rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
W ten sposób każdemu studentowi przyporządkowaliśmy
po dwie rangi ai oraz bi.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporządkowaliśmy tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi będą rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
W ten sposób każdemu studentowi przyporządkowaliśmy
po dwie rangi ai oraz bi.
Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje
zależność między zdolnościami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak ocenić
stopień zgodności (lub niezgodności) rang ai, bi?
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Załóżmy, że w podobny sposób uporządkowaliśmy tych
samych studentów z punktu widzenia ich zdolności
muzycznych. Niech bi będą rangami poszczególnych
studentów:
b1 = 2, b2 = 1, b3 = 3, b4 = 4
W ten sposób każdemu studentowi przyporządkowaliśmy
po dwie rangi ai oraz bi.
Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje
zależność między zdolnościami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak ocenić
stopień zgodności (lub niezgodności) rang ai, bi?
Uwaga: W przypadku danych rangowych nie możemy
zastosować współczynnika korelacji Pearsona.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
n
6 di2
i=1
rS = 1 - ,
n(n2 - 1)
gdzie di = ai - bi.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
n
6 di2
i=1
rS = 1 - ,
n(n2 - 1)
gdzie di = ai - bi.
Własności:
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
n
6 di2
i=1
rS = 1 - ,
n(n2 - 1)
gdzie di = ai - bi.
Własności:
Współczynnik rS przymuje wartości z przedziału [-1, 1].
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
n
6 di2
i=1
rS = 1 - ,
n(n2 - 1)
gdzie di = ai - bi.
Własności:
Współczynnik rS przymuje wartości z przedziału [-1, 1].
Wartość rS = 1 oznacza, że istnieje całkowita zgodność
uporządkowań wg rang ai i bi.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
n
6 di2
i=1
rS = 1 - ,
n(n2 - 1)
gdzie di = ai - bi.
Własności:
Współczynnik rS przymuje wartości z przedziału [-1, 1].
Wartość rS = 1 oznacza, że istnieje całkowita zgodność
uporządkowań wg rang ai i bi.
Wartość rS = -1 oznacza z kolei pełną przeciwstawność
uporządkowań między rangami.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest współczynnik korelacji rang
Spearmana, określony wzorem
n
6 di2
i=1
rS = 1 - ,
n(n2 - 1)
gdzie di = ai - bi.
Własności:
Współczynnik rS przymuje wartości z przedziału [-1, 1].
Wartość rS = 1 oznacza, że istnieje całkowita zgodność
uporządkowań wg rang ai i bi.
Wartość rS = -1 oznacza z kolei pełną przeciwstawność
uporządkowań między rangami.
Wartość rS = 0 oznacza brak korelacji rang.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Student rangi ai rangi bi różnice rang di di2
A 4 2 2 4
B 2 1 1 1
C 3 3 0 0
D 1 4 -3 9
Razem × × × 14
yródło: Dane umowne.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rang Spearmana
Przykład
Student rangi ai rangi bi różnice rang di di2
A 4 2 2 4
B 2 1 1 1
C 3 3 0 0
D 1 4 -3 9
Razem × × × 14
yródło: Dane umowne.
Wartość współczynnika korelacji rang Spearmana w tym
przykładzie wynosi:
6 · 14
rS = 1 - = -0, 4
4(16 - 1)
co świadczy o stosunkowo słabej korelacji między
zdolnościami matematycznymi i muzycznymi badanych
studentów.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Jednostki zbiorowości łączymy w dwuelementowe
podzbiory.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Jednostki zbiorowości łączymy w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowości można utworzyć łącznie
N = n·(n-1) takich podzbiorów (tj. uporzÄ…dkowanych par).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest współczynnik Kendalla.
Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y
w pewnej n-elementowej zbiorowości.
Jednostki zbiorowości łączymy w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowości można utworzyć łącznie
N = n·(n-1) takich podzbiorów (tj. uporzÄ…dkowanych par).
Współczynnik korelacji Kendalla obliczamy na podstawie
zbiorowości dwuelementowych podzbiorów, utworzonych z
elementów zbioru wyjściowego.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Niech Uj dla j = 1, 2, . . . , N będą zmiennymi przyjmującymi
wartości 1 lub -1, zgodnie z następującymi zasadami:
Uj = 1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest większa niż dla drugiego elementu.
Uj = -1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest mniejsza niż dla drugiego elementu.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Niech Uj dla j = 1, 2, . . . , N będą zmiennymi przyjmującymi
wartości 1 lub -1, zgodnie z następującymi zasadami:
Uj = 1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest większa niż dla drugiego elementu.
Uj = -1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest mniejsza niż dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne Vj dla
j = 1, 2, . . . , N, odwołując się do analogicznego sposobu
uporządkowań wartości cechy Y w poszczególnych
parach.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Niech Uj dla j = 1, 2, . . . , N będą zmiennymi przyjmującymi
wartości 1 lub -1, zgodnie z następującymi zasadami:
Uj = 1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest większa niż dla drugiego elementu.
Uj = -1, gdy wartość cechy X dla pierwszego elementu
w j-tej parze jest mniejsza niż dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne Vj dla
j = 1, 2, . . . , N, odwołując się do analogicznego sposobu
uporządkowań wartości cechy Y w poszczególnych
parach.
Uwaga: Dalej zakładać będziemy, że zarówno wartości
cechy X , jak i cechy Y nie powtarzajÄ… siÄ™ w badanej
zbiorowości (w przeciwnym przypadku trzeba skorzystać z
pewnej skorygowanej formuły na współczynnik Kendalla,
która tutaj nie będzie przytoczona).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbę przypadków (par) zgodnie
uporządkowanych, tj. liczbę par, dla których wartości Uj
są równe Vj.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbę przypadków (par) zgodnie
uporządkowanych, tj. liczbę par, dla których wartości Uj
są równe Vj.
Podobnie, niech Q oznacza liczbę przypadków (par)
niezgodnie uporządkowanych, tj. liczbę par, dla których
wartości Uj oraz Vj są przeciwnego znaku.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbę przypadków (par) zgodnie
uporządkowanych, tj. liczbę par, dla których wartości Uj
są równe Vj.
Podobnie, niech Q oznacza liczbę przypadków (par)
niezgodnie uporządkowanych, tj. liczbę par, dla których
wartości Uj oraz Vj są przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyraża się wzorem:
P - Q
Ä = .
n(n - 1)
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Niech P oznacza liczbę przypadków (par) zgodnie
uporządkowanych, tj. liczbę par, dla których wartości Uj
są równe Vj.
Podobnie, niech Q oznacza liczbę przypadków (par)
niezgodnie uporządkowanych, tj. liczbę par, dla których
wartości Uj oraz Vj są przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyraża się wzorem:
P - Q
Ä = .
n(n - 1)
Podobnie, jak współczynnik korelacji Spearmanna,
współczynnik Ä (tau) przyjmuje zawsze wartoÅ›ci z
przedziału [-1, 1]. Jest również podobnie interpretowany.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Wróćmy do przykładu dotyczącego zdolności matematycznych
i muzycznych grupy studentów (A, B, C, D). W tym przykładzie
można utworzyć Å‚Ä…cznie 4·(4- 1)=12 dwuelementowych
podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna
tablicy).
Dalsze kolumny prezentują uporządkowane w parach wartości
cech, w tym przypadku rang ai oraz bi, a także wartości Uj, Vj.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Wróćmy do przykładu dotyczącego zdolności matematycznych
i muzycznych grupy studentów (A, B, C, D). W tym przykładzie
można utworzyć Å‚Ä…cznie 4·(4- 1)=12 dwuelementowych
podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna
tablicy).
Dalsze kolumny prezentują uporządkowane w parach wartości
cech, w tym przypadku rang ai oraz bi, a także wartości Uj, Vj.
Pary ai dla pierwszej uporzÄ…dkowanie Uj bi dla pierwszej uporzÄ…dkowanie Vj
studentów i drugiej osoby w parze i drugiej osoby w parze
(A,B) 4; 2 1 2; 1 1
(A,C) 4; 3 1 2; 3 -1
(A,D) 4; 1 1 2; 4 -1
(B,A) 2; 4 -1 1; 2 -1
(B,C) 2; 3 -1 1; 3 -1
(B,D) 2; 1 1 1; 4 -1
(C,A) 3; 4 -1 3; 2 1
(C,B) 3; 2 1 3; 1 1
(C,D) 3; 1 1 3; 4 -1
(D,A) 1; 4 -1 4; 2 1
(D,B) 1; 2 -1 4; 1 1
(D,C) 1; 3 -1 4; 3 1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Liczba P przypadków (par) zgodnie uporządkowanych w
naszym przykładzie wynosi P = 4 (oznaczone w tablicy
kolorem niebieskim).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Liczba P przypadków (par) zgodnie uporządkowanych w
naszym przykładzie wynosi P = 4 (oznaczone w tablicy
kolorem niebieskim).
Z kolei liczba Q przypadków (par) niezgodnie
uporzÄ…dkowanych wynosi Q = 8 (oznaczone w tablicy
kolorem czerwonym).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Przykład
Liczba P przypadków (par) zgodnie uporządkowanych w
naszym przykładzie wynosi P = 4 (oznaczone w tablicy
kolorem niebieskim).
Z kolei liczba Q przypadków (par) niezgodnie
uporzÄ…dkowanych wynosi Q = 8 (oznaczone w tablicy
kolorem czerwonym).
Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi:
4
Ä = - H" -0, 33
12
co wskazuje na słabą korelację między zdolnościami
matematycznymi i muzycznymi w badanej grupie
studentów (podobna wartość, jak współczynnika rS).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Uwagi
Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B)
wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = -1.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Uwagi
Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B)
wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = -1.
Oznacza to, że zamiast badać zbiorowość wszystkich
podzbiorów dwuelementowych, wśród których niektóre
pary składają się z tych samych elementów, a różnią się
jedynie ich kolejnością (np. (A, B) i (B, A) lub (A, C)
i (C, A) itd.), można ograniczyć rozważania do mniejszej
zbiorowości par, w której podzbiór o określonych
elementach występuje tylko raz.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Inne miary korelacji  współczynnik korelacji rangowej Kendalla
Uwagi
Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B)
wartość Uj wynosi 1, to dla pary (B, A) musi być Uj = -1.
Oznacza to, że zamiast badać zbiorowość wszystkich
podzbiorów dwuelementowych, wśród których niektóre
pary składają się z tych samych elementów, a różnią się
jedynie ich kolejnością (np. (A, B) i (B, A) lub (A, C)
i (C, A) itd.), można ograniczyć rozważania do mniejszej
zbiorowości par, w której podzbiór o określonych
elementach występuje tylko raz.
Jednak w takiej zbiorowości liczba wszystkich możliwych
n(n-1)
par byłaby równa , a wartości P i Q byłyby o połowę
2
mniejsze, a wiÄ™c wzór na współczynnik Ä przyjÄ…Å‚by postać:
2(P - Q ) 1 1
Ä = , gdzie P = P, Q = Q.
n(n - 1) 2 2
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
Jak już wcześniej wspomniano, na ogół powiązania
pomiędzy cechami (zmiennymi) nie mają charakteru
matematycznego, który dałoby się zapisać jednoznacznie
w postaci:
Y = f (X1, X2, . . . , Xs),
gdzie f oznacza pewną funkcję opisującą zależność
zmiennej Y od zmiennych X1, X2, . . . , Xs.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
Jak już wcześniej wspomniano, na ogół powiązania
pomiędzy cechami (zmiennymi) nie mają charakteru
matematycznego, który dałoby się zapisać jednoznacznie
w postaci:
Y = f (X1, X2, . . . , Xs),
gdzie f oznacza pewną funkcję opisującą zależność
zmiennej Y od zmiennych X1, X2, . . . , Xs.
Zapis taki oznaczałby, że zależność pomiędzy Y a
pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym
wartościom obserwowanych cech X1, X2, . . . , Xs
odpowiada dokładnie jedna wartość cechy Y .
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
Jak już wcześniej wspomniano, na ogół powiązania
pomiędzy cechami (zmiennymi) nie mają charakteru
matematycznego, który dałoby się zapisać jednoznacznie
w postaci:
Y = f (X1, X2, . . . , Xs),
gdzie f oznacza pewną funkcję opisującą zależność
zmiennej Y od zmiennych X1, X2, . . . , Xs.
Zapis taki oznaczałby, że zależność pomiędzy Y a
pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym
wartościom obserwowanych cech X1, X2, . . . , Xs
odpowiada dokładnie jedna wartość cechy Y .
W przypadku zjawisk społecznych, ekonomicznych,
przyrodniczych itp. zależności funkcyjne rzadko występują,
częściej natomiast występują zależności korelacyjne.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiędzy zmienną Y a pewnym zespołem zmiennych
X1, X2, . . . , Xs wyraża się często w postaci zbliżonej do
przedstawionej powyżej, ale z pewną istotną zmianą.
Mianowicie:
Y = f (x1, x2, . . . , xs) +
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiędzy zmienną Y a pewnym zespołem zmiennych
X1, X2, . . . , Xs wyraża się często w postaci zbliżonej do
przedstawionej powyżej, ale z pewną istotną zmianą.
Mianowicie:
Y = f (x1, x2, . . . , xs) +
x1, x2, . . . , xs reprezentują tu konkretne (ustalone) wartości
zmiennych X1, X2, . . . , Xs;
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiędzy zmienną Y a pewnym zespołem zmiennych
X1, X2, . . . , Xs wyraża się często w postaci zbliżonej do
przedstawionej powyżej, ale z pewną istotną zmianą.
Mianowicie:
Y = f (x1, x2, . . . , xs) +
x1, x2, . . . , xs reprezentują tu konkretne (ustalone) wartości
zmiennych X1, X2, . . . , Xs;
jest składnikiem losowym reprezentującym sumaryczny
(nieobserwowany) wpływ innych czynników;
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Wprowadzenie
W statystyce zależności o charakterze korelacyjnym
pomiędzy zmienną Y a pewnym zespołem zmiennych
X1, X2, . . . , Xs wyraża się często w postaci zbliżonej do
przedstawionej powyżej, ale z pewną istotną zmianą.
Mianowicie:
Y = f (x1, x2, . . . , xs) +
x1, x2, . . . , xs reprezentują tu konkretne (ustalone) wartości
zmiennych X1, X2, . . . , Xs;
jest składnikiem losowym reprezentującym sumaryczny
(nieobserwowany) wpływ innych czynników;
Dołączenie składnika losowego powoduje, że konkretnym
wartościom x1, x2, . . . , xs mogą odpowiadać nie takie
same, ale różne wartości zmiennej Y .
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna)  zmienna
będąca przedmiotem badania. Na ogół oznaczamy ją
symbolem Y .
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna)  zmienna
będąca przedmiotem badania. Na ogół oznaczamy ją
symbolem Y .
Zmienne objaśniające (zmienne niezależne)  zmienne,
za pomocą których chcemy objaśnić zmiany zmiennej
zależnej. Na ogół oznaczamy je symbolami X1, X2, . . ..
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna)  zmienna
będąca przedmiotem badania. Na ogół oznaczamy ją
symbolem Y .
Zmienne objaśniające (zmienne niezależne)  zmienne,
za pomocą których chcemy objaśnić zmiany zmiennej
zależnej. Na ogół oznaczamy je symbolami X1, X2, . . ..
Funkcja regresji  funkcja odwzorowująca zależność
pomiędzy zmienną objaśnianą Y a zmiennymi
objaśniającymi.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Analiza regresji
Terminologia
Zmienna objaśniana (zmienna zależna)  zmienna
będąca przedmiotem badania. Na ogół oznaczamy ją
symbolem Y .
Zmienne objaśniające (zmienne niezależne)  zmienne,
za pomocą których chcemy objaśnić zmiany zmiennej
zależnej. Na ogół oznaczamy je symbolami X1, X2, . . ..
Funkcja regresji  funkcja odwzorowująca zależność
pomiędzy zmienną objaśnianą Y a zmiennymi
objaśniającymi.
W przypadku wielu zmiennych objaśniających mówimy o
regresji wielorakiej, natomiast w przypadku jednej
zmiennej objaśniającej  o regresji jednej zmiennej.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy następujące założenia:
Składnik losowy ma wartość średnią równą 0 i pewną
dodatniÄ… wariancjÄ™ oznaczanÄ… symbolem Ã2.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy następujące założenia:
Składnik losowy ma wartość średnią równą 0 i pewną
dodatniÄ… wariancjÄ™ oznaczanÄ… symbolem Ã2.
Mamy tylko jedną zmienną objaśniającą X .
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy następujące założenia:
Składnik losowy ma wartość średnią równą 0 i pewną
dodatniÄ… wariancjÄ™ oznaczanÄ… symbolem Ã2.
Mamy tylko jedną zmienną objaśniającą X .
Funkcja f należy do klasy funkcji liniowych.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy następujące założenia:
Składnik losowy ma wartość średnią równą 0 i pewną
dodatniÄ… wariancjÄ™ oznaczanÄ… symbolem Ã2.
Mamy tylko jedną zmienną objaśniającą X .
Funkcja f należy do klasy funkcji liniowych.
Model regresji liniowej:
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy następujące założenia:
Składnik losowy ma wartość średnią równą 0 i pewną
dodatniÄ… wariancjÄ™ oznaczanÄ… symbolem Ã2.
Mamy tylko jedną zmienną objaśniającą X .
Funkcja f należy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych założeniach, zależność pomiędzy cechami
Y i X możemy zapisać w postaci
Y = a + bx + ,
gdzie a i b sÄ… pewnymi parametrami.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy następujące założenia:
Składnik losowy ma wartość średnią równą 0 i pewną
dodatniÄ… wariancjÄ™ oznaczanÄ… symbolem Ã2.
Mamy tylko jedną zmienną objaśniającą X .
Funkcja f należy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych założeniach, zależność pomiędzy cechami
Y i X możemy zapisać w postaci
Y = a + bx + ,
gdzie a i b sÄ… pewnymi parametrami.
Model ten nazywamy modelem regresji liniowej jednej
zmiennej. Parametry a i b nazywamy odpowiednio
wyrazem wolnym i współczynnikiem regresji.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
FunkcjÄ™
f (x) = a + bx
nazywamy prostÄ… regresji.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
FunkcjÄ™
f (x) = a + bx
nazywamy prostÄ… regresji.
Podstawowym problemem, jaki pojawia siÄ™ przy
wyznaczaniu równania prostej regresji, która opisywałaby
możliwie wiernie zależność pomiędzy konkretnymi
zmiennymi Y i X , jest określenie liczbowych wartości
parametrów a i b.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
FunkcjÄ™
f (x) = a + bx
nazywamy prostÄ… regresji.
Podstawowym problemem, jaki pojawia siÄ™ przy
wyznaczaniu równania prostej regresji, która opisywałaby
możliwie wiernie zależność pomiędzy konkretnymi
zmiennymi Y i X , jest określenie liczbowych wartości
parametrów a i b.
Dokonujemy tego na podstawie obserwacji wartości cech
Y i X w badanej zbiorowości, stosując tzw. metodę
najmniejszych kwadratów MNK.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład
Agnieszka
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład  jak wyznaczyć prostą regresji?
W tym przykładzie chcielibyśmy, żeby prosta najlepiej
przybliżała dana chmurę punktów, czyli by wartości różnic
yi - wi (tzw. wartości resztowe lub inaczej  wartości
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład  jak wyznaczyć prostą regresji?
W tym przykładzie chcielibyśmy, żeby prosta najlepiej
przybliżała dana chmurę punktów, czyli by wartości różnic
yi - wi (tzw. wartości resztowe lub inaczej  wartości
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
Jak łatwo zauważyć, przesunięcie prostej w kierunku
jednego z punktów może spowodować odsunięcie od
innych punktów. Tak wiec postulat, aby jednocześnie
minimalizować wszystkie wartości resztowe nie jest
możliwy do realizacji.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład  jak wyznaczyć prostą regresji?
W tym przykładzie chcielibyśmy, żeby prosta najlepiej
przybliżała dana chmurę punktów, czyli by wartości różnic
yi - wi (tzw. wartości resztowe lub inaczej  wartości
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
Jak łatwo zauważyć, przesunięcie prostej w kierunku
jednego z punktów może spowodować odsunięcie od
innych punktów. Tak wiec postulat, aby jednocześnie
minimalizować wszystkie wartości resztowe nie jest
możliwy do realizacji.
Jako kryterium dopasowania prostej regresji do danych
empirycznych przyjmuje siÄ™ minimalizacjÄ™ sumy
kwadratów wartości resztowych.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Niech (y1, x1), (y2, x2), . . . , (yn, xn),
będzie n-elementowym zbiorem wartości zmiennych Y i X .
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Niech (y1, x1), (y2, x2), . . . , (yn, xn),
będzie n-elementowym zbiorem wartości zmiennych Y i X .
Rozważmy sumę kwadratów wartości resztowych
n
(yi - wi)2 ,
i=1
lub równoważnie
n
(yi - (a + bxi))2 ,
i=1
którą oznaczymy symbolem S(a, b).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Niech (y1, x1), (y2, x2), . . . , (yn, xn),
będzie n-elementowym zbiorem wartości zmiennych Y i X .
Rozważmy sumę kwadratów wartości resztowych
n
(yi - wi)2 ,
i=1
lub równoważnie
n
(yi - (a + bxi))2 ,
i=1
którą oznaczymy symbolem S(a, b).
Funkcję regresji, dla której wartości parametrów a, b
wyznaczone zostały w drodze minimalizacji sumy S(a, b)
nazywamy prostÄ… regresji MNK i oznaczamy przez w.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Trochę matematyki, czyli jak obliczyć a i b
Po zrożniczkowaniu sumy S(a, b) względem a i b
i przyrównaniu obu pochodnych cząstkowych do 0, mamy
n
"S(a, b)
= -2 (yi - (a + bxi)) = 0,
"a
i=1
n
"S(a, b)
= -2 xi(yi - (a + bxi)) = 0.
"b
i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Trochę matematyki, czyli jak obliczyć a i b
Po zrożniczkowaniu sumy S(a, b) względem a i b
i przyrównaniu obu pochodnych cząstkowych do 0, mamy
n
"S(a, b)
= -2 (yi - (a + bxi)) = 0,
"a
i=1
n
"S(a, b)
= -2 xi(yi - (a + bxi)) = 0.
"b
i=1
Zapisując inaczej, mamy układ dwóch równań
n n
yi - na - b xi = 0,
i=1 i=1
n n n
xiyi - a xi - b xi2 = 0.
i=1 i=1 i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
TrochÄ™ matematyki
Z pierwszego równania natychmiast otrzymujemy, że
n n
1
Å» Å»
a = yi - b xi = y - bx.
n
i=1 i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
TrochÄ™ matematyki
Z pierwszego równania natychmiast otrzymujemy, że
n n
1
Å» Å»
a = yi - b xi = y - bx.
n
i=1 i=1
Po wstawieniu powyższego wyrażenia do drugiego
równania mamy także
n n n
Å» Å»
xiyi - (y - bx) xi - b xi2 = 0,
i=1 i=1 i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
TrochÄ™ matematyki
Z pierwszego równania natychmiast otrzymujemy, że
n n
1
Å» Å»
a = yi - b xi = y - bx.
n
i=1 i=1
Po wstawieniu powyższego wyrażenia do drugiego
równania mamy także
n n n
Å» Å»
xiyi - (y - bx) xi - b xi2 = 0,
i=1 i=1 i=1
co po przekształceniach daje
n
Å» Å»
(xi - x)(yi - y)
i=1
b = .
n
Å»
(xi - x)2
i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Metoda najmniejszych kwadratów
Podsumowanie
Równanie prostej regresji MNK w = a + bx znajdziemy,
obliczając wyraz wolny a oraz współczynnik regresji b,
które są określone następującymi wzorami
Å» Å»
a = y - bx,
n
Å» Å»
(xi - x)(yi - y)
i=1
b = ,
n
Å»
(xi - x)2
i=1
lub równoważnie
n
1
Å» Å»
(xi - x)(yi - y)
i=1
n
b = ,
2
sx
gdzie
(y1, x1), (y2, x2), . . . , (yn, xn),
są wartościami zmiennych Y i X w badanej zbiorowości.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Relacja łącząca współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r:
n n
1 1
Å» Å» Å» Å»
(xi - x)(yi - y) (xi - x)(yi - y)
n i=1 n i=1
b = , r = .
2
sx · sy
sx
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Relacja łącząca współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r:
n n
1 1
Å» Å» Å» Å»
(xi - x)(yi - y) (xi - x)(yi - y)
n i=1 n i=1
b = , r = .
2
sx · sy
sx
Wniosek 1: Pomiędzy współczynnikami b i r zachodzi
równość
sy
b = r ·
sx
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Relacja łącząca współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r:
n n
1 1
Å» Å» Å» Å»
(xi - x)(yi - y) (xi - x)(yi - y)
n i=1 n i=1
b = , r = .
2
sx · sy
sx
Wniosek 1: Pomiędzy współczynnikami b i r zachodzi
równość
sy
b = r ·
sx
Wniosek 2: Współczynniki b i r mają zawsze ten sam
znak, przy czym współczynnik b nie musi należeć do
przedziału [-1, 1], w przeciwieństwie do współczynnika r
korelacji liniowej Pearsona.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Regresja liniowa jednej zmiennej
Przykład c.d.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Jak wiemy, zmienność każdej cechy ilościowej, a więc
również zmiennej objaśnianej Y , możemy oceniać np. za
2
pomocÄ… wariancji sy:
n
1
2
Å»
sy = (yi - y)2,
n
i=1
gdzie y1, y2, . . . , yn jest n-elementowym zbiorem
zaobserowanych wartości tej zmiennej.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Jak wiemy, zmienność każdej cechy ilościowej, a więc
również zmiennej objaśnianej Y , możemy oceniać np. za
2
pomocÄ… wariancji sy:
n
1
2
Å»
sy = (yi - y)2,
n
i=1
gdzie y1, y2, . . . , yn jest n-elementowym zbiorem
zaobserowanych wartości tej zmiennej.
Pomijając składnik 1/n w powyższym wyrażeniu,
otrzymujemy wzór na tzw. całkowitą sumę kwadratów
n
Å»
SST = (yi - y)2.
i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Jak wiemy, zmienność każdej cechy ilościowej, a więc
również zmiennej objaśnianej Y , możemy oceniać np. za
2
pomocÄ… wariancji sy:
n
1
2
Å»
sy = (yi - y)2,
n
i=1
gdzie y1, y2, . . . , yn jest n-elementowym zbiorem
zaobserowanych wartości tej zmiennej.
Pomijając składnik 1/n w powyższym wyrażeniu,
otrzymujemy wzór na tzw. całkowitą sumę kwadratów
n
Å»
SST = (yi - y)2.
i=1
Można pokazać, że SST daje się rozbić na dwie sumy,
które także interpretujemy w kategoriach zmienności.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Mianowicie
n n
Å»
SST = (yi - wi)2 + (wi - y)2,
i=1 i=1
gdzie wi = a + bxi.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Mianowicie
n n
Å»
SST = (yi - wi)2 + (wi - y)2,
i=1 i=1
gdzie wi = a + bxi.
Pierwszy ze składników nosi nazwę sumy kwadratów
błędów, ponieważ jest sumą kwadratów wartości
resztowych. Jest oznaczany przez SSE. Drugi składnik
nosi miano regresyjnej sumy kwadratów i jest oznaczany
symbolem SSR.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Mianowicie
n n
Å»
SST = (yi - wi)2 + (wi - y)2,
i=1 i=1
gdzie wi = a + bxi.
Pierwszy ze składników nosi nazwę sumy kwadratów
błędów, ponieważ jest sumą kwadratów wartości
resztowych. Jest oznaczany przez SSE. Drugi składnik
nosi miano regresyjnej sumy kwadratów i jest oznaczany
symbolem SSR.
Suma SSR jest częścią zmienności całkowitej SST , którą
można objaśnić za pomocą regresji między zmienną
objaśnianą Y i zmienną objaśniającą X .
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Mianowicie
n n
Å»
SST = (yi - wi)2 + (wi - y)2,
i=1 i=1
gdzie wi = a + bxi.
Pierwszy ze składników nosi nazwę sumy kwadratów
błędów, ponieważ jest sumą kwadratów wartości
resztowych. Jest oznaczany przez SSE. Drugi składnik
nosi miano regresyjnej sumy kwadratów i jest oznaczany
symbolem SSR.
Suma SSR jest częścią zmienności całkowitej SST , którą
można objaśnić za pomocą regresji między zmienną
objaśnianą Y i zmienną objaśniającą X .
Z kolei sumę SSE traktujemy jako tę część zmienności
SST , która nie jest wyjaśniona przez model regresji.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Iloraz
n
Å»
SSR (wi - y)2
i=1
R2 = = ,
n
SST Å»
(yi - y)2
i=1
jest nazwany współczynnikiem determinacji.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Iloraz
n
Å»
SSR (wi - y)2
i=1
R2 = = ,
n
SST Å»
(yi - y)2
i=1
jest nazwany współczynnikiem determinacji.
R2 jest miarÄ… stopnia dopasowania funkcji regresji do
danych empirycznych.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Iloraz
n
Å»
SSR (wi - y)2
i=1
R2 = = ,
n
SST Å»
(yi - y)2
i=1
jest nazwany współczynnikiem determinacji.
R2 jest miarÄ… stopnia dopasowania funkcji regresji do
danych empirycznych.
W przypadku regresji liniowej jednej zmiennej
współczynnik determinacji R2 równy jest kwadratowi
współczynnika korelacji liniowej Pearsona.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Ocena  dobroci dopasowania prostej regresji MNK
Przykład c.d.
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcję regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniających (ekstrapolacja).
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcję regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniających (ekstrapolacja).
Tego rodzaju przewidywanie ma sens przy założeniu, że
charakter zależności i oddziaływania czynników nie
uwzględnionych w modelu są podobne do zaobserwo-
wanych w badanej zbiorowości.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcję regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniających (ekstrapolacja).
Tego rodzaju przewidywanie ma sens przy założeniu, że
charakter zależności i oddziaływania czynników nie
uwzględnionych w modelu są podobne do zaobserwo-
wanych w badanej zbiorowości.
W naszym przykładzie otrzymaliśmy prostą regresji:
w = 5, 17 + 1, 76 · x Na tej podstawie możemy ocenić np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
w(x=18) = 5, 17 + 1, 76 · 18 = 36, 85 H" 37 pkt
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Funkcję regresji można wykorzystać do przewidywania
wartości zmiennej objaśnianej Y na podstawie znanych
wartości zmiennej objaśniających (ekstrapolacja).
Tego rodzaju przewidywanie ma sens przy założeniu, że
charakter zależności i oddziaływania czynników nie
uwzględnionych w modelu są podobne do zaobserwo-
wanych w badanej zbiorowości.
W naszym przykładzie otrzymaliśmy prostą regresji:
w = 5, 17 + 1, 76 · x Na tej podstawie możemy ocenić np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
w(x=18) = 5, 17 + 1, 76 · 18 = 36, 85 H" 37 pkt
Należy jednak pamiętać, że przy tego rodzaju przewidywa-
niach możemy się mylić o pewną wartość. W celu oceny
skali błędu obliczamy tzw. średni błąd przewidywania.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Rozważmy pierwiastek kwadratowy sumy kwadratów
błędów SSE podzielony przez liczebność zbiorowości,
pomniejszoną o liczbę parametrów funkcji regresji
(w przypadku regresji liniowej jednej zmiennej liczba
parametrów równa jest 2). Mamy:
n
SSE 1
S = = (yi - wi)2
n - 2 n - 2
i=1
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI
Zależności korelacyjne
Regresja liniowa
Przewidywanie na podstawie funkcji regresji
Rozważmy pierwiastek kwadratowy sumy kwadratów
błędów SSE podzielony przez liczebność zbiorowości,
pomniejszoną o liczbę parametrów funkcji regresji
(w przypadku regresji liniowej jednej zmiennej liczba
parametrów równa jest 2). Mamy:
n
SSE 1
S = = (yi - wi)2
n - 2 n - 2
i=1
Powyższe wyrażenie nazywamy średnim błędem
przewidywania. W naszym przykładzie S jest równe:
69, 26
S = H" 2, 02
19 - 2
zatem przewidujÄ…c wynik z egzaminu na podstawie wy-
znaczonej prostej regresji, mylimy się średnio o ok. 2 pkt.
Agnieszka Rossa ANALIZA KORELACJI I REGRESJI


Wyszukiwarka

Podobne podstrony:
korelacja i regresja
Elementy analizy korelacji i regresji
Wzory korelacja i regresja
korelacja i regresja
wzory (korelacja, regresja,czasowe)
Teoria 5 Korelacja i regresja
met4zn korelacje regresja student
Korelacja i regresja liniowa
regresja&korelacja
regresja empiryczna
Tablice statystyczne wartości krytyczne współczynnika korelacji Pearsona
06 Wspolczynniki korelacji rangowej i liniowej
Wyniki2 korelacja2
regresja
Wspomnienia z sesji regresingu Wojna w Wietnamie
cele regresingu
neuronalne korelaty obecnosci
zadania korelacje
1 index ramka regresing

więcej podobnych podstron