ANALIZA KORELACJI I REGRESJI
Agnieszka Rossa
Agnieszka Rossa
Szkic wykładu
1
2
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Badaj ˛
ac ró˙znego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, ˙ze ka˙zde z nich jest
uwarunkowane działaniem innych zjawisk.
Istnienie zwi ˛
azków pomi ˛edzy zjawiskami
charakteryzuj ˛
acymi badane zbiorowo´sci bywa cz ˛esto
przedmiotem docieka ´n i eksperymentów naukowych.
Przykład:
David Buss w publikacji z 2001 roku pt.
”Psychologia ewolucyjna. Jak wytłumaczy´c społeczne
zachowania człowieka?”, opisał badanie, w którym
sprawdzał,
czy istnieje zwi ˛
azek mi ˛edzy szybko´sci ˛
a
chodzenia a pozycj ˛
a społeczn ˛
a.
Okazało si ˛e, ˙ze zwi ˛
azek
ten jest do´s´c wyra´zny w´sród m ˛e˙zczyzn, natomiast w
mniejszym stopniu w´sród kobiet.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Badaj ˛
ac ró˙znego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, ˙ze ka˙zde z nich jest
uwarunkowane działaniem innych zjawisk.
Istnienie zwi ˛
azków pomi ˛edzy zjawiskami
charakteryzuj ˛
acymi badane zbiorowo´sci bywa cz ˛esto
przedmiotem docieka ´n i eksperymentów naukowych.
Przykład:
David Buss w publikacji z 2001 roku pt.
”Psychologia ewolucyjna. Jak wytłumaczy´c społeczne
zachowania człowieka?”, opisał badanie, w którym
sprawdzał,
czy istnieje zwi ˛
azek mi ˛edzy szybko´sci ˛
a
chodzenia a pozycj ˛
a społeczn ˛
a.
Okazało si ˛e, ˙ze zwi ˛
azek
ten jest do´s´c wyra´zny w´sród m ˛e˙zczyzn, natomiast w
mniejszym stopniu w´sród kobiet.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Badaj ˛
ac ró˙znego rodzaju zjawiska, np. społeczne,
ekonomiczne, psychologiczne, przyrodniczne itp.
stwierdzamy niemal zawsze, ˙ze ka˙zde z nich jest
uwarunkowane działaniem innych zjawisk.
Istnienie zwi ˛
azków pomi ˛edzy zjawiskami
charakteryzuj ˛
acymi badane zbiorowo´sci bywa cz ˛esto
przedmiotem docieka ´n i eksperymentów naukowych.
Przykład:
David Buss w publikacji z 2001 roku pt.
”Psychologia ewolucyjna. Jak wytłumaczy´c społeczne
zachowania człowieka?”, opisał badanie, w którym
sprawdzał,
czy istnieje zwi ˛
azek mi ˛edzy szybko´sci ˛
a
chodzenia a pozycj ˛
a społeczn ˛
a.
Okazało si ˛e, ˙ze zwi ˛
azek
ten jest do´s´c wyra´zny w´sród m ˛e˙zczyzn, natomiast w
mniejszym stopniu w´sród kobiet.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Inny przykład:
Allison i Cicchetti w pracy ”Sleep in mammals”
(Science, 194, 1976) opisali badania przeprowadzone w´sród
przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji
(pomiarów) były m.in. nast ˛epuj ˛
ace charakterystyki:
długo´s´c snu w ci ˛
agu doby (godz/dob ˛e),
maksymalna długo´sci ˙zycia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ci ˛
a˙zy (dni).
Cel badania:
Ustalenie, czy istniej ˛
a jakiekolwiek zale˙zno´sci
pomi ˛edzy wymienionymi charakterystykami, a je´sli tak, to jaka
jest siła tych zale˙zno´sci.
Wyniki bada ´
n:
B ˛ed ˛
a przedstawione dalej.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Kolejny przykład:
Zwi ˛
azek pomi ˛edzy wag ˛
a a wzrostem człowieka próbuje si ˛e
wyrazi´c za pomoc ˛
a tzw. wska´znika BMI (Body Mass
Index):
BMI =
waga
(
wzrost w metrach)
2
Przyjmuje si ˛e, ˙ze warto´s´c BMI dla osób z prawidłow ˛
a
mas ˛
a ciała zawiera si ˛e mniej wi ˛ecej w przedziale
18, 5 ≤ BMI < 25. Jednak BMI kształtuje si ˛e na poziomie
indywidualnym dla konkretnych osób i mo˙ze znacznie
przekracza´c warto´s´c 25.
Przykład ten wskazuje, ˙ze zale˙zno´s´c mi ˛edzy wag ˛
a a
wzrostem
nie jest ´sci ´sle funkcyjna
. Podana formuła
opisuje tylko w przybli˙zeniu t ˛e zale˙zno´sci.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Kolejny przykład:
Zwi ˛
azek pomi ˛edzy wag ˛
a a wzrostem człowieka próbuje si ˛e
wyrazi´c za pomoc ˛
a tzw. wska´znika BMI (Body Mass
Index):
BMI =
waga
(
wzrost w metrach)
2
Przyjmuje si ˛e, ˙ze warto´s´c BMI dla osób z prawidłow ˛
a
mas ˛
a ciała zawiera si ˛e mniej wi ˛ecej w przedziale
18, 5 ≤ BMI < 25. Jednak BMI kształtuje si ˛e na poziomie
indywidualnym dla konkretnych osób i mo˙ze znacznie
przekracza´c warto´s´c 25.
Przykład ten wskazuje, ˙ze zale˙zno´s´c mi ˛edzy wag ˛
a a
wzrostem
nie jest ´sci ´sle funkcyjna
. Podana formuła
opisuje tylko w przybli˙zeniu t ˛e zale˙zno´sci.
Agnieszka Rossa
Zale˙zno ´sci korelacyjne
Przykłady
Kolejny przykład:
Zwi ˛
azek pomi ˛edzy wag ˛
a a wzrostem człowieka próbuje si ˛e
wyrazi´c za pomoc ˛
a tzw. wska´znika BMI (Body Mass
Index):
BMI =
waga
(
wzrost w metrach)
2
Przyjmuje si ˛e, ˙ze warto´s´c BMI dla osób z prawidłow ˛
a
mas ˛
a ciała zawiera si ˛e mniej wi ˛ecej w przedziale
18, 5 ≤ BMI < 25. Jednak BMI kształtuje si ˛e na poziomie
indywidualnym dla konkretnych osób i mo˙ze znacznie
przekracza´c warto´s´c 25.
Przykład ten wskazuje, ˙ze zale˙zno´s´c mi ˛edzy wag ˛
a a
wzrostem
nie jest ´sci ´sle funkcyjna
. Podana formuła
opisuje tylko w przybli˙zeniu t ˛e zale˙zno´sci.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Przy analizie współzale˙zno´sci pomi ˛edzy wzrostem i wag ˛
a,
nie oczekujemy, aby zale˙zno´s´c ta była ´sci´sle funkcyjna,
tzn. aby istniała jednoznacznie okre´slona funkcja
matematyczna y = f (x ), podaj ˛
aca wag ˛e y konkretnej
osoby z ustalonym wzrostem x .
Mimo tego wydaje si ˛e, ˙ze ”jaka´s” zale˙zno´s´c pomi ˛edzy
wag ˛
a i wzrostem istnieje.
Obserwuj ˛
ac obie cechy w du˙zej zbiorowo´sci osób,
dojdziemy do przekonania, ˙ze ´srednia waga jest wi ˛eksza
w grupie osób wy˙zszych i na odwrót.
Zwi ˛
azek mi ˛edzy wag ˛
a i wzrostem jest przykładem tzw.
zwi ˛
azku korelacyjnego
, w skrócie –
korelacji.
Z
korelacj ˛
a
mamy do czynienia wtedy, gdy wraz ze
zmian ˛
a warto´sci jednej cechy zmienia si ˛e ´srednia warto´s´c
drugiej cechy.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Przy analizie współzale˙zno´sci pomi ˛edzy wzrostem i wag ˛
a,
nie oczekujemy, aby zale˙zno´s´c ta była ´sci´sle funkcyjna,
tzn. aby istniała jednoznacznie okre´slona funkcja
matematyczna y = f (x ), podaj ˛
aca wag ˛e y konkretnej
osoby z ustalonym wzrostem x .
Mimo tego wydaje si ˛e, ˙ze ”jaka´s” zale˙zno´s´c pomi ˛edzy
wag ˛
a i wzrostem istnieje.
Obserwuj ˛
ac obie cechy w du˙zej zbiorowo´sci osób,
dojdziemy do przekonania, ˙ze ´srednia waga jest wi ˛eksza
w grupie osób wy˙zszych i na odwrót.
Zwi ˛
azek mi ˛edzy wag ˛
a i wzrostem jest przykładem tzw.
zwi ˛
azku korelacyjnego
, w skrócie –
korelacji.
Z
korelacj ˛
a
mamy do czynienia wtedy, gdy wraz ze
zmian ˛
a warto´sci jednej cechy zmienia si ˛e ´srednia warto´s´c
drugiej cechy.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Przy analizie współzale˙zno´sci pomi ˛edzy wzrostem i wag ˛
a,
nie oczekujemy, aby zale˙zno´s´c ta była ´sci´sle funkcyjna,
tzn. aby istniała jednoznacznie okre´slona funkcja
matematyczna y = f (x ), podaj ˛
aca wag ˛e y konkretnej
osoby z ustalonym wzrostem x .
Mimo tego wydaje si ˛e, ˙ze ”jaka´s” zale˙zno´s´c pomi ˛edzy
wag ˛
a i wzrostem istnieje.
Obserwuj ˛
ac obie cechy w du˙zej zbiorowo´sci osób,
dojdziemy do przekonania, ˙ze ´srednia waga jest wi ˛eksza
w grupie osób wy˙zszych i na odwrót.
Zwi ˛
azek mi ˛edzy wag ˛
a i wzrostem jest przykładem tzw.
zwi ˛
azku korelacyjnego
, w skrócie –
korelacji.
Z
korelacj ˛
a
mamy do czynienia wtedy, gdy wraz ze
zmian ˛
a warto´sci jednej cechy zmienia si ˛e ´srednia warto´s´c
drugiej cechy.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Przy analizie współzale˙zno´sci pomi ˛edzy wzrostem i wag ˛
a,
nie oczekujemy, aby zale˙zno´s´c ta była ´sci´sle funkcyjna,
tzn. aby istniała jednoznacznie okre´slona funkcja
matematyczna y = f (x ), podaj ˛
aca wag ˛e y konkretnej
osoby z ustalonym wzrostem x .
Mimo tego wydaje si ˛e, ˙ze ”jaka´s” zale˙zno´s´c pomi ˛edzy
wag ˛
a i wzrostem istnieje.
Obserwuj ˛
ac obie cechy w du˙zej zbiorowo´sci osób,
dojdziemy do przekonania, ˙ze ´srednia waga jest wi ˛eksza
w grupie osób wy˙zszych i na odwrót.
Zwi ˛
azek mi ˛edzy wag ˛
a i wzrostem jest przykładem tzw.
zwi ˛
azku korelacyjnego
, w skrócie –
korelacji.
Z
korelacj ˛
a
mamy do czynienia wtedy, gdy wraz ze
zmian ˛
a warto´sci jednej cechy zmienia si ˛e ´srednia warto´s´c
drugiej cechy.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Przy analizie współzale˙zno´sci pomi ˛edzy wzrostem i wag ˛
a,
nie oczekujemy, aby zale˙zno´s´c ta była ´sci´sle funkcyjna,
tzn. aby istniała jednoznacznie okre´slona funkcja
matematyczna y = f (x ), podaj ˛
aca wag ˛e y konkretnej
osoby z ustalonym wzrostem x .
Mimo tego wydaje si ˛e, ˙ze ”jaka´s” zale˙zno´s´c pomi ˛edzy
wag ˛
a i wzrostem istnieje.
Obserwuj ˛
ac obie cechy w du˙zej zbiorowo´sci osób,
dojdziemy do przekonania, ˙ze ´srednia waga jest wi ˛eksza
w grupie osób wy˙zszych i na odwrót.
Zwi ˛
azek mi ˛edzy wag ˛
a i wzrostem jest przykładem tzw.
zwi ˛
azku korelacyjnego
, w skrócie –
korelacji.
Z
korelacj ˛
a
mamy do czynienia wtedy, gdy wraz ze
zmian ˛
a warto´sci jednej cechy zmienia si ˛e ´srednia warto´s´c
drugiej cechy.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Przykład korelacji wagi i wzrostu
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Współczynnik korelacji Pearsona
Przykład korelacji wagi i wzrostu – c.d.
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Inne przykłady
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Wst ˛epne wnioski z przedstawionych przykładów
Zwi ˛
azek korelacyjny mo˙zna odkry´c obserwuj ˛
ac du˙z ˛
a liczb ˛e
przypadków. Nie ujawnia si ˛e w pojedycznych
obserwacjach.
Zale˙zno´s´c korelacyjna mo˙ze by´c prostoliniowa (w skrócie –
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia mo˙zemy w
przybli˙zeniu oceni´c charakter zale˙zno´sci i jej sił ˛e.
Potrzebujemy miary, która pomógłaby wyrazi´c sił ˛e
zale˙zno´sci
w sposób liczbowy
.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Wst ˛epne wnioski z przedstawionych przykładów
Zwi ˛
azek korelacyjny mo˙zna odkry´c obserwuj ˛
ac du˙z ˛
a liczb ˛e
przypadków. Nie ujawnia si ˛e w pojedycznych
obserwacjach.
Zale˙zno´s´c korelacyjna mo˙ze by´c prostoliniowa (w skrócie –
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia mo˙zemy w
przybli˙zeniu oceni´c charakter zale˙zno´sci i jej sił ˛e.
Potrzebujemy miary, która pomógłaby wyrazi´c sił ˛e
zale˙zno´sci
w sposób liczbowy
.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Wst ˛epne wnioski z przedstawionych przykładów
Zwi ˛
azek korelacyjny mo˙zna odkry´c obserwuj ˛
ac du˙z ˛
a liczb ˛e
przypadków. Nie ujawnia si ˛e w pojedycznych
obserwacjach.
Zale˙zno´s´c korelacyjna mo˙ze by´c prostoliniowa (w skrócie –
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia mo˙zemy w
przybli˙zeniu oceni´c charakter zale˙zno´sci i jej sił ˛e.
Potrzebujemy miary, która pomógłaby wyrazi´c sił ˛e
zale˙zno´sci
w sposób liczbowy
.
Agnieszka Rossa
Zale˙zno ´s ´c korelacyjna
Wst ˛epne wnioski z przedstawionych przykładów
Zwi ˛
azek korelacyjny mo˙zna odkry´c obserwuj ˛
ac du˙z ˛
a liczb ˛e
przypadków. Nie ujawnia si ˛e w pojedycznych
obserwacjach.
Zale˙zno´s´c korelacyjna mo˙ze by´c prostoliniowa (w skrócie –
liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia mo˙zemy w
przybli˙zeniu oceni´c charakter zale˙zno´sci i jej sił ˛e.
Potrzebujemy miary, która pomógłaby wyrazi´c sił ˛e
zale˙zno´sci
w sposób liczbowy
.
Agnieszka Rossa
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Załó˙zmy, ˙ze mi ˛edzy cechami X i Y wyst ˛epuje zale˙zno´s´c
korelacyjna o charakterze liniowym.
Współczynnikiem słu˙z ˛
acym do pomiaru siły tego zwi ˛
azku
jest
współczynnik korelacji liniowej Pearsona
okre´slony
wzorem
r =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
x
· s
y
,
gdzie ¯
x , ¯
y oznaczaj ˛
a ´srednie arytmetyczne, natomiast
s
x
,
s
y
– odchylenia standardowe zmiennych odpowiednio
X i Y .
Agnieszka Rossa
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Załó˙zmy, ˙ze mi ˛edzy cechami X i Y wyst ˛epuje zale˙zno´s´c
korelacyjna o charakterze liniowym.
Współczynnikiem słu˙z ˛
acym do pomiaru siły tego zwi ˛
azku
jest
współczynnik korelacji liniowej Pearsona
okre´slony
wzorem
r =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
x
· s
y
,
gdzie ¯
x , ¯
y oznaczaj ˛
a ´srednie arytmetyczne, natomiast
s
x
,
s
y
– odchylenia standardowe zmiennych odpowiednio
X i Y .
Agnieszka Rossa
Pomiar siły korelacji liniowej
´
Srednie arytmetyczne i odchylenia standardowe – przypomnienie
´
Srednie arytmetyczne:
¯
x =
1
n
n
X
i=1
x
i
,
¯
y =
1
n
n
X
i=1
y
i
.
Odchylenia standardowe:
s
x
=
v
u
u
t
1
n
n
X
i=1
(
x
i
− ¯
x )
2
,
s
y
=
v
u
u
t
1
n
n
X
i=1
(
y
i
− ¯
y )
2
.
Agnieszka Rossa
Współczynnik korelacji liniowej Pearsona
Własno ´sci
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze warto´sci z przedziału
[−
1, 1]
.
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Warto´s´c bezwzgl ˛edna
|r |
informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy
|r | = 1
, wówczas mamy
do czynienia z korelacj ˛
a funkcyjn ˛
a (tzn. zale˙zno´s´c Y od X
mo˙zna wyrazi´c za pomoc ˛
a funkcji Y = aX + b, gdzie a, b
s ˛
a pewnymi stałymi).
Współczynnik r mierzy
tylko
korelacj ˛e o charakterze
prostoliniowym.
Gdy
r = 0
, wówczas mówimy, ˙ze nie ma korelacji liniowej
(ale mo˙ze by´c krzywoliniowa).
Agnieszka Rossa
Współczynnik korelacji liniowej Pearsona
Własno ´sci
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze warto´sci z przedziału
[−
1, 1]
.
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Warto´s´c bezwzgl ˛edna
|r |
informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy
|r | = 1
, wówczas mamy
do czynienia z korelacj ˛
a funkcyjn ˛
a (tzn. zale˙zno´s´c Y od X
mo˙zna wyrazi´c za pomoc ˛
a funkcji Y = aX + b, gdzie a, b
s ˛
a pewnymi stałymi).
Współczynnik r mierzy
tylko
korelacj ˛e o charakterze
prostoliniowym.
Gdy
r = 0
, wówczas mówimy, ˙ze nie ma korelacji liniowej
(ale mo˙ze by´c krzywoliniowa).
Agnieszka Rossa
Współczynnik korelacji liniowej Pearsona
Własno ´sci
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze warto´sci z przedziału
[−
1, 1]
.
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Warto´s´c bezwzgl ˛edna
|r |
informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy
|r | = 1
, wówczas mamy
do czynienia z korelacj ˛
a funkcyjn ˛
a (tzn. zale˙zno´s´c Y od X
mo˙zna wyrazi´c za pomoc ˛
a funkcji Y = aX + b, gdzie a, b
s ˛
a pewnymi stałymi).
Współczynnik r mierzy
tylko
korelacj ˛e o charakterze
prostoliniowym.
Gdy
r = 0
, wówczas mówimy, ˙ze nie ma korelacji liniowej
(ale mo˙ze by´c krzywoliniowa).
Agnieszka Rossa
Współczynnik korelacji liniowej Pearsona
Własno ´sci
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze warto´sci z przedziału
[−
1, 1]
.
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Warto´s´c bezwzgl ˛edna
|r |
informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy
|r | = 1
, wówczas mamy
do czynienia z korelacj ˛
a funkcyjn ˛
a (tzn. zale˙zno´s´c Y od X
mo˙zna wyrazi´c za pomoc ˛
a funkcji Y = aX + b, gdzie a, b
s ˛
a pewnymi stałymi).
Współczynnik r mierzy
tylko
korelacj ˛e o charakterze
prostoliniowym.
Gdy
r = 0
, wówczas mówimy, ˙ze nie ma korelacji liniowej
(ale mo˙ze by´c krzywoliniowa).
Agnieszka Rossa
Współczynnik korelacji liniowej Pearsona
Własno ´sci
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze warto´sci z przedziału
[−
1, 1]
.
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Warto´s´c bezwzgl ˛edna
|r |
informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy
|r | = 1
, wówczas mamy
do czynienia z korelacj ˛
a funkcyjn ˛
a (tzn. zale˙zno´s´c Y od X
mo˙zna wyrazi´c za pomoc ˛
a funkcji Y = aX + b, gdzie a, b
s ˛
a pewnymi stałymi).
Współczynnik r mierzy
tylko
korelacj ˛e o charakterze
prostoliniowym.
Gdy
r = 0
, wówczas mówimy, ˙ze nie ma korelacji liniowej
(ale mo˙ze by´c krzywoliniowa).
Agnieszka Rossa
Współczynnik korelacji liniowej Pearsona
Własno ´sci
Współczynnik r korelacji liniowej Pearsona przyjmuje
zawsze warto´sci z przedziału
[−
1, 1]
.
Znak współczynnika informuje o kierunku korelacji (liniowa
ujemna lub liniowa dodatnia).
Warto´s´c bezwzgl ˛edna
|r |
informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy
|r | = 1
, wówczas mamy
do czynienia z korelacj ˛
a funkcyjn ˛
a (tzn. zale˙zno´s´c Y od X
mo˙zna wyrazi´c za pomoc ˛
a funkcji Y = aX + b, gdzie a, b
s ˛
a pewnymi stałymi).
Współczynnik r mierzy
tylko
korelacj ˛e o charakterze
prostoliniowym.
Gdy
r = 0
, wówczas mówimy, ˙ze nie ma korelacji liniowej
(ale mo˙ze by´c krzywoliniowa).
Agnieszka Rossa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki bada ´
n ssaków
macierz współczynników
masa
masa
czas snu
maks. długo ´s ´c
czas
korelacji liniowej Pearsona
ciała (kg)
mózgu (g)
(godz/dob ˛e)
˙zycia (lata)
ci ˛
a˙zy (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dob ˛e)
-0,31
-0,36
1
-0,41
-0,63
maks. długo ´s ´c ˙zycia (lata)
0,30
0,51
-0,41
1
0,61
czas ci ˛
a˙zy (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy s ˛
a ze sob ˛
a wzajemnie powi ˛
azane (w mniejszym lub wi ˛ekszym stopniu),
mo˙zna zauwa˙zy´c siln ˛
a, dodatni ˛
a korelacj ˛e liniow ˛
a mi ˛edzy mas ˛
a mózgu i ciała,
umiarkowana, ujemna korelacja liniowa mi ˛edzy czasem snu a czasem ˙zycia,
do´s´c silna korelacja (dodatnia lub ujemna) czasu ci ˛
a˙zy z innymi zmiennymi,
Pytanie:
Jak opisa ´c zale˙zno ´s ´c np. czasu ci ˛
a˙zy od wszystkich pozostałych zmiennych jednocze ´snie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki bada ´
n ssaków
macierz współczynników
masa
masa
czas snu
maks. długo ´s ´c
czas
korelacji liniowej Pearsona
ciała (kg)
mózgu (g)
(godz/dob ˛e)
˙zycia (lata)
ci ˛
a˙zy (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dob ˛e)
-0,31
-0,36
1
-0,41
-0,63
maks. długo ´s ´c ˙zycia (lata)
0,30
0,51
-0,41
1
0,61
czas ci ˛
a˙zy (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy s ˛
a ze sob ˛
a wzajemnie powi ˛
azane (w mniejszym lub wi ˛ekszym stopniu),
mo˙zna zauwa˙zy´c siln ˛
a, dodatni ˛
a korelacj ˛e liniow ˛
a mi ˛edzy mas ˛
a mózgu i ciała,
umiarkowana, ujemna korelacja liniowa mi ˛edzy czasem snu a czasem ˙zycia,
do´s´c silna korelacja (dodatnia lub ujemna) czasu ci ˛
a˙zy z innymi zmiennymi,
Pytanie:
Jak opisa ´c zale˙zno ´s ´c np. czasu ci ˛
a˙zy od wszystkich pozostałych zmiennych jednocze ´snie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki bada ´
n ssaków
macierz współczynników
masa
masa
czas snu
maks. długo ´s ´c
czas
korelacji liniowej Pearsona
ciała (kg)
mózgu (g)
(godz/dob ˛e)
˙zycia (lata)
ci ˛
a˙zy (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dob ˛e)
-0,31
-0,36
1
-0,41
-0,63
maks. długo ´s ´c ˙zycia (lata)
0,30
0,51
-0,41
1
0,61
czas ci ˛
a˙zy (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy s ˛
a ze sob ˛
a wzajemnie powi ˛
azane (w mniejszym lub wi ˛ekszym stopniu),
mo˙zna zauwa˙zy´c siln ˛
a, dodatni ˛
a korelacj ˛e liniow ˛
a mi ˛edzy mas ˛
a mózgu i ciała,
umiarkowana, ujemna korelacja liniowa mi ˛edzy czasem snu a czasem ˙zycia,
do´s´c silna korelacja (dodatnia lub ujemna) czasu ci ˛
a˙zy z innymi zmiennymi,
Pytanie:
Jak opisa ´c zale˙zno ´s ´c np. czasu ci ˛
a˙zy od wszystkich pozostałych zmiennych jednocze ´snie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki bada ´
n ssaków
macierz współczynników
masa
masa
czas snu
maks. długo ´s ´c
czas
korelacji liniowej Pearsona
ciała (kg)
mózgu (g)
(godz/dob ˛e)
˙zycia (lata)
ci ˛
a˙zy (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dob ˛e)
-0,31
-0,36
1
-0,41
-0,63
maks. długo ´s ´c ˙zycia (lata)
0,30
0,51
-0,41
1
0,61
czas ci ˛
a˙zy (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy s ˛
a ze sob ˛
a wzajemnie powi ˛
azane (w mniejszym lub wi ˛ekszym stopniu),
mo˙zna zauwa˙zy´c siln ˛
a, dodatni ˛
a korelacj ˛e liniow ˛
a mi ˛edzy mas ˛
a mózgu i ciała,
umiarkowana, ujemna korelacja liniowa mi ˛edzy czasem snu a czasem ˙zycia,
do´s´c silna korelacja (dodatnia lub ujemna) czasu ci ˛
a˙zy z innymi zmiennymi,
Pytanie:
Jak opisa ´c zale˙zno ´s ´c np. czasu ci ˛
a˙zy od wszystkich pozostałych zmiennych jednocze ´snie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki bada ´
n ssaków
macierz współczynników
masa
masa
czas snu
maks. długo ´s ´c
czas
korelacji liniowej Pearsona
ciała (kg)
mózgu (g)
(godz/dob ˛e)
˙zycia (lata)
ci ˛
a˙zy (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dob ˛e)
-0,31
-0,36
1
-0,41
-0,63
maks. długo ´s ´c ˙zycia (lata)
0,30
0,51
-0,41
1
0,61
czas ci ˛
a˙zy (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy s ˛
a ze sob ˛
a wzajemnie powi ˛
azane (w mniejszym lub wi ˛ekszym stopniu),
mo˙zna zauwa˙zy´c siln ˛
a, dodatni ˛
a korelacj ˛e liniow ˛
a mi ˛edzy mas ˛
a mózgu i ciała,
umiarkowana, ujemna korelacja liniowa mi ˛edzy czasem snu a czasem ˙zycia,
do´s´c silna korelacja (dodatnia lub ujemna) czasu ci ˛
a˙zy z innymi zmiennymi,
Pytanie:
Jak opisa ´c zale˙zno ´s ´c np. czasu ci ˛
a˙zy od wszystkich pozostałych zmiennych jednocze ´snie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki bada ´
n ssaków
macierz współczynników
masa
masa
czas snu
maks. długo ´s ´c
czas
korelacji liniowej Pearsona
ciała (kg)
mózgu (g)
(godz/dob ˛e)
˙zycia (lata)
ci ˛
a˙zy (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dob ˛e)
-0,31
-0,36
1
-0,41
-0,63
maks. długo ´s ´c ˙zycia (lata)
0,30
0,51
-0,41
1
0,61
czas ci ˛
a˙zy (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy s ˛
a ze sob ˛
a wzajemnie powi ˛
azane (w mniejszym lub wi ˛ekszym stopniu),
mo˙zna zauwa˙zy´c siln ˛
a, dodatni ˛
a korelacj ˛e liniow ˛
a mi ˛edzy mas ˛
a mózgu i ciała,
umiarkowana, ujemna korelacja liniowa mi ˛edzy czasem snu a czasem ˙zycia,
do´s´c silna korelacja (dodatnia lub ujemna) czasu ci ˛
a˙zy z innymi zmiennymi,
Pytanie:
Jak opisa ´c zale˙zno ´s ´c np. czasu ci ˛
a˙zy od wszystkich pozostałych zmiennych jednocze ´snie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
Współczynniki korelacji liniowej Pearsona
Allison i Cicchetti – Wyniki bada ´
n ssaków
macierz współczynników
masa
masa
czas snu
maks. długo ´s ´c
czas
korelacji liniowej Pearsona
ciała (kg)
mózgu (g)
(godz/dob ˛e)
˙zycia (lata)
ci ˛
a˙zy (dni)
masa ciała (kg)
1
0,93
-0,31
0,30
0,65
masa mózgu (g)
0,93
1
-0,36
0,51
0,75
czas snu (godz/dob ˛e)
-0,31
-0,36
1
-0,41
-0,63
maks. długo ´s ´c ˙zycia (lata)
0,30
0,51
-0,41
1
0,61
czas ci ˛
a˙zy (dni)
0,65
0,75
-0,63
0,61
1
Kilka wybranych uwag podsumowania:
wszystkie cechy s ˛
a ze sob ˛
a wzajemnie powi ˛
azane (w mniejszym lub wi ˛ekszym stopniu),
mo˙zna zauwa˙zy´c siln ˛
a, dodatni ˛
a korelacj ˛e liniow ˛
a mi ˛edzy mas ˛
a mózgu i ciała,
umiarkowana, ujemna korelacja liniowa mi ˛edzy czasem snu a czasem ˙zycia,
do´s´c silna korelacja (dodatnia lub ujemna) czasu ci ˛
a˙zy z innymi zmiennymi,
Pytanie:
Jak opisa ´c zale˙zno ´s ´c np. czasu ci ˛
a˙zy od wszystkich pozostałych zmiennych jednocze ´snie?
Odpowiedzi dostarcza analiza regresji.
Agnieszka Rossa
Korelacja a zale˙zno ´sci pozorne – Przykład
Czy w krajach, w których jest wi ˛ecej bocianów rodzi si ˛e wi ˛ecej dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomi ˛edzy powierzchni ˛
a, liczb ˛
a
mieszka ´nców, liczb ˛
a urodze ´n oraz liczb ˛
a bocianów (!):
macierz współczynników
powierzchnia
liczba bocianów
liczba mieszka ´
nców
liczba urodze ´
n
korelacji liniowej Pearsona
powierzchnia
1
0,579
0,812
0,923
liczba bocianów
0,579
1
0,354
0,620
liczba mieszka ´
nców
0,812
0,354
1
0,851
liczba urodze ´
n
0,923
0,620
0,851
1
Zaskoczeniem mo˙ze by´c do´s´c wysoka warto´s´c współczynnika korelacji liniowej dla liczby bocianów i liczby urodze ´n.
Pytania:
Czy w krajach, w których jest wi ˛ecej bocianów rodzi si ˛e, ´srednio rzecz bior ˛
ac, wi ˛ecej dzieci? Odpowied´z
brzmi – tak, potwierdzaj ˛
a to uzyskane wyniki.
Czy na tej podstawie mo˙zemy s ˛
adzi´c, ˙ze liczba bocianów oddziałuje na liczb ˛e noworodków (lub odwrotnie)?
Odpowied´z brzmi – nie, poniewa˙z pomi ˛edzy badanymi zmiennymi nie ma bezpo´sredniej zale˙zno´sci
przyczynowo-skutkowej. Jest to przykład zale˙zno´sci pozornej.
Agnieszka Rossa
Korelacja a zale˙zno ´sci pozorne – Przykład
Czy w krajach, w których jest wi ˛ecej bocianów rodzi si ˛e wi ˛ecej dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomi ˛edzy powierzchni ˛
a, liczb ˛
a
mieszka ´nców, liczb ˛
a urodze ´n oraz liczb ˛
a bocianów (!):
macierz współczynników
powierzchnia
liczba bocianów
liczba mieszka ´
nców
liczba urodze ´
n
korelacji liniowej Pearsona
powierzchnia
1
0,579
0,812
0,923
liczba bocianów
0,579
1
0,354
0,620
liczba mieszka ´
nców
0,812
0,354
1
0,851
liczba urodze ´
n
0,923
0,620
0,851
1
Zaskoczeniem mo˙ze by´c do´s´c wysoka warto´s´c współczynnika korelacji liniowej dla liczby bocianów i liczby urodze ´n.
Pytania:
Czy w krajach, w których jest wi ˛ecej bocianów rodzi si ˛e, ´srednio rzecz bior ˛
ac, wi ˛ecej dzieci? Odpowied´z
brzmi – tak, potwierdzaj ˛
a to uzyskane wyniki.
Czy na tej podstawie mo˙zemy s ˛
adzi´c, ˙ze liczba bocianów oddziałuje na liczb ˛e noworodków (lub odwrotnie)?
Odpowied´z brzmi – nie, poniewa˙z pomi ˛edzy badanymi zmiennymi nie ma bezpo´sredniej zale˙zno´sci
przyczynowo-skutkowej. Jest to przykład zale˙zno´sci pozornej.
Agnieszka Rossa
Korelacja a zale˙zno ´sci pozorne – Przykład
Czy w krajach, w których jest wi ˛ecej bocianów rodzi si ˛e wi ˛ecej dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich
(dane z 1990 roku) pomi ˛edzy powierzchni ˛
a, liczb ˛
a
mieszka ´nców, liczb ˛
a urodze ´n oraz liczb ˛
a bocianów (!):
macierz współczynników
powierzchnia
liczba bocianów
liczba mieszka ´
nców
liczba urodze ´
n
korelacji liniowej Pearsona
powierzchnia
1
0,579
0,812
0,923
liczba bocianów
0,579
1
0,354
0,620
liczba mieszka ´
nców
0,812
0,354
1
0,851
liczba urodze ´
n
0,923
0,620
0,851
1
Zaskoczeniem mo˙ze by´c do´s´c wysoka warto´s´c współczynnika korelacji liniowej dla liczby bocianów i liczby urodze ´n.
Pytania:
Czy w krajach, w których jest wi ˛ecej bocianów rodzi si ˛e, ´srednio rzecz bior ˛
ac, wi ˛ecej dzieci? Odpowied´z
brzmi – tak, potwierdzaj ˛
a to uzyskane wyniki.
Czy na tej podstawie mo˙zemy s ˛
adzi´c, ˙ze liczba bocianów oddziałuje na liczb ˛e noworodków (lub odwrotnie)?
Odpowied´z brzmi – nie, poniewa˙z pomi ˛edzy badanymi zmiennymi nie ma bezpo´sredniej zale˙zno´sci
przyczynowo-skutkowej. Jest to przykład zale˙zno´sci pozornej.
Agnieszka Rossa
Korelacja a zale˙zno ´sci pozorne – Przykład c.d.
Zale˙zno´s´c przyczynowo-skutkowa pomi ˛edzy liczb ˛
a
urodze ´n i liczb ˛
a bocianów jest
pozorna
, gdy˙z ma tu
miejsce jedynie współwyst ˛epowanie obu zjawisk (wi ˛ekszej
liczbie bocianów towarzyszy na ogół wi ˛eksza liczba
urodze ´n i na odwrót).
Pozorna zale˙zno´s´c ma miejsce tak˙ze mi ˛edzy liczb ˛
a
urodze ´n i powierzchni ˛
a kraju.
Układ zale˙zno´sci przyczynowo-skutkowych w tym
przykładzie mo˙zna zilustrowa´c graficznie:
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Korelacja a zale˙zno ´sci pozorne – Przykład c.d.
Zale˙zno´s´c przyczynowo-skutkowa pomi ˛edzy liczb ˛
a
urodze ´n i liczb ˛
a bocianów jest
pozorna
, gdy˙z ma tu
miejsce jedynie współwyst ˛epowanie obu zjawisk (wi ˛ekszej
liczbie bocianów towarzyszy na ogół wi ˛eksza liczba
urodze ´n i na odwrót).
Pozorna zale˙zno´s´c ma miejsce tak˙ze mi ˛edzy liczb ˛
a
urodze ´n i powierzchni ˛
a kraju.
Układ zale˙zno´sci przyczynowo-skutkowych w tym
przykładzie mo˙zna zilustrowa´c graficznie:
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Korelacja a zale˙zno ´sci pozorne – Przykład c.d.
Zale˙zno´s´c przyczynowo-skutkowa pomi ˛edzy liczb ˛
a
urodze ´n i liczb ˛
a bocianów jest
pozorna
, gdy˙z ma tu
miejsce jedynie współwyst ˛epowanie obu zjawisk (wi ˛ekszej
liczbie bocianów towarzyszy na ogół wi ˛eksza liczba
urodze ´n i na odwrót).
Pozorna zale˙zno´s´c ma miejsce tak˙ze mi ˛edzy liczb ˛
a
urodze ´n i powierzchni ˛
a kraju.
Układ zale˙zno´sci przyczynowo-skutkowych w tym
przykładzie mo˙zna zilustrowa´c graficznie:
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Przypu´s´cmy, ˙ze porz ˛
adkujemy 4 studentów w zale˙zno´sci
od stopnia ich zdolno´sci matematycznych, zaczynaj ˛
ac od
studenta najlepszego, któremu przydzielamy numer 1,
a ko ´ncz ˛
ac na studencie najsłabszym, któremu
przydzielamy numer 4 (ocen ˛e zdolno´sci powierzamy np.
ekspertowi).
Mówimy wówczas, ˙ze studenci zostali
uporz ˛
adkowani w
kolejno ´sci rang
, a numer studenta jest jego
rang ˛
a
.
Oznaczmy rangi poszczególnych studentów przez a
i
.
Przykładowo, niech:
a
1
=
4, a
2
=
2, a
3
=
3, a
4
=
1,
co
oznacza, i˙z w badanej grupie, ustawionej w kolejno´sci
alfabetycznej, pierwszy student (oznaczmy go umownie
liter ˛
a A) jest najsłabszy, student B – dobry, student C –
słaby, a student D – najlepszy.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Przypu´s´cmy, ˙ze porz ˛
adkujemy 4 studentów w zale˙zno´sci
od stopnia ich zdolno´sci matematycznych, zaczynaj ˛
ac od
studenta najlepszego, któremu przydzielamy numer 1,
a ko ´ncz ˛
ac na studencie najsłabszym, któremu
przydzielamy numer 4 (ocen ˛e zdolno´sci powierzamy np.
ekspertowi).
Mówimy wówczas, ˙ze studenci zostali
uporz ˛
adkowani w
kolejno ´sci rang
, a numer studenta jest jego
rang ˛
a
.
Oznaczmy rangi poszczególnych studentów przez a
i
.
Przykładowo, niech:
a
1
=
4, a
2
=
2, a
3
=
3, a
4
=
1,
co
oznacza, i˙z w badanej grupie, ustawionej w kolejno´sci
alfabetycznej, pierwszy student (oznaczmy go umownie
liter ˛
a A) jest najsłabszy, student B – dobry, student C –
słaby, a student D – najlepszy.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Przypu´s´cmy, ˙ze porz ˛
adkujemy 4 studentów w zale˙zno´sci
od stopnia ich zdolno´sci matematycznych, zaczynaj ˛
ac od
studenta najlepszego, któremu przydzielamy numer 1,
a ko ´ncz ˛
ac na studencie najsłabszym, któremu
przydzielamy numer 4 (ocen ˛e zdolno´sci powierzamy np.
ekspertowi).
Mówimy wówczas, ˙ze studenci zostali
uporz ˛
adkowani w
kolejno ´sci rang
, a numer studenta jest jego
rang ˛
a
.
Oznaczmy rangi poszczególnych studentów przez a
i
.
Przykładowo, niech:
a
1
=
4, a
2
=
2, a
3
=
3, a
4
=
1,
co
oznacza, i˙z w badanej grupie, ustawionej w kolejno´sci
alfabetycznej, pierwszy student (oznaczmy go umownie
liter ˛
a A) jest najsłabszy, student B – dobry, student C –
słaby, a student D – najlepszy.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załó˙zmy, ˙ze w podobny sposób uporz ˛
adkowali´smy tych
samych studentów z punktu widzenia ich zdolno´sci
muzycznych. Niech b
i
b ˛ed ˛
a rangami poszczególnych
studentów:
b
1
=
2, b
2
=
1, b
3
=
3, b
4
=
4
W ten sposób ka˙zdemu studentowi przyporz ˛
adkowali´smy
po dwie rangi a
i
oraz b
i
.
Pytanie:
Jak na tej podstawie mo˙zemy oceni´c, czy istnieje
zale˙zno´s´c mi ˛edzy zdolno´sciami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak oceni´c
stopie ´n zgodno´sci (lub niezgodno´sci) rang a
i
,
b
i
?
Uwaga:
W przypadku danych rangowych nie mo˙zemy
zastosowa´c współczynnika korelacji Pearsona.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załó˙zmy, ˙ze w podobny sposób uporz ˛
adkowali´smy tych
samych studentów z punktu widzenia ich zdolno´sci
muzycznych. Niech b
i
b ˛ed ˛
a rangami poszczególnych
studentów:
b
1
=
2, b
2
=
1, b
3
=
3, b
4
=
4
W ten sposób ka˙zdemu studentowi przyporz ˛
adkowali´smy
po dwie rangi a
i
oraz b
i
.
Pytanie:
Jak na tej podstawie mo˙zemy oceni´c, czy istnieje
zale˙zno´s´c mi ˛edzy zdolno´sciami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak oceni´c
stopie ´n zgodno´sci (lub niezgodno´sci) rang a
i
,
b
i
?
Uwaga:
W przypadku danych rangowych nie mo˙zemy
zastosowa´c współczynnika korelacji Pearsona.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załó˙zmy, ˙ze w podobny sposób uporz ˛
adkowali´smy tych
samych studentów z punktu widzenia ich zdolno´sci
muzycznych. Niech b
i
b ˛ed ˛
a rangami poszczególnych
studentów:
b
1
=
2, b
2
=
1, b
3
=
3, b
4
=
4
W ten sposób ka˙zdemu studentowi przyporz ˛
adkowali´smy
po dwie rangi a
i
oraz b
i
.
Pytanie:
Jak na tej podstawie mo˙zemy oceni´c, czy istnieje
zale˙zno´s´c mi ˛edzy zdolno´sciami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak oceni´c
stopie ´n zgodno´sci (lub niezgodno´sci) rang a
i
,
b
i
?
Uwaga:
W przypadku danych rangowych nie mo˙zemy
zastosowa´c współczynnika korelacji Pearsona.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Załó˙zmy, ˙ze w podobny sposób uporz ˛
adkowali´smy tych
samych studentów z punktu widzenia ich zdolno´sci
muzycznych. Niech b
i
b ˛ed ˛
a rangami poszczególnych
studentów:
b
1
=
2, b
2
=
1, b
3
=
3, b
4
=
4
W ten sposób ka˙zdemu studentowi przyporz ˛
adkowali´smy
po dwie rangi a
i
oraz b
i
.
Pytanie:
Jak na tej podstawie mo˙zemy oceni´c, czy istnieje
zale˙zno´s´c mi ˛edzy zdolno´sciami matematycznymi oraz
muzycznymi w badanej grupie. Innymi słowy, jak oceni´c
stopie ´n zgodno´sci (lub niezgodno´sci) rang a
i
,
b
i
?
Uwaga:
W przypadku danych rangowych nie mo˙zemy
zastosowa´c współczynnika korelacji Pearsona.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest
współczynnik korelacji rang
Spearmana
, okre´slony wzorem
r
S
=
1 −
6
P
n
i=1
d
2
i
n(n
2
− 1)
,
gdzie d
i
=
a
i
− b
i
.
Własno ´sci:
Współczynnik r
S
przymuje warto´sci z przedziału
[−
1, 1]
.
Warto´s´c
r
S
=
1
oznacza, ˙ze istnieje całkowita zgodno´s´c
uporz ˛
adkowa ´n wg rang a
i
i b
i
.
Warto´s´c
r
S
= −
1
oznacza z kolei pełn ˛
a przeciwstawno´s´c
uporz ˛
adkowa ´n mi ˛edzy rangami.
Warto´s´c
r
S
=
0
oznacza brak korelacji rang.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest
współczynnik korelacji rang
Spearmana
, okre´slony wzorem
r
S
=
1 −
6
P
n
i=1
d
2
i
n(n
2
− 1)
,
gdzie d
i
=
a
i
− b
i
.
Własno ´sci:
Współczynnik r
S
przymuje warto´sci z przedziału
[−
1, 1]
.
Warto´s´c
r
S
=
1
oznacza, ˙ze istnieje całkowita zgodno´s´c
uporz ˛
adkowa ´n wg rang a
i
i b
i
.
Warto´s´c
r
S
= −
1
oznacza z kolei pełn ˛
a przeciwstawno´s´c
uporz ˛
adkowa ´n mi ˛edzy rangami.
Warto´s´c
r
S
=
0
oznacza brak korelacji rang.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest
współczynnik korelacji rang
Spearmana
, okre´slony wzorem
r
S
=
1 −
6
P
n
i=1
d
2
i
n(n
2
− 1)
,
gdzie d
i
=
a
i
− b
i
.
Własno ´sci:
Współczynnik r
S
przymuje warto´sci z przedziału
[−
1, 1]
.
Warto´s´c
r
S
=
1
oznacza, ˙ze istnieje całkowita zgodno´s´c
uporz ˛
adkowa ´n wg rang a
i
i b
i
.
Warto´s´c
r
S
= −
1
oznacza z kolei pełn ˛
a przeciwstawno´s´c
uporz ˛
adkowa ´n mi ˛edzy rangami.
Warto´s´c
r
S
=
0
oznacza brak korelacji rang.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest
współczynnik korelacji rang
Spearmana
, okre´slony wzorem
r
S
=
1 −
6
P
n
i=1
d
2
i
n(n
2
− 1)
,
gdzie d
i
=
a
i
− b
i
.
Własno ´sci:
Współczynnik r
S
przymuje warto´sci z przedziału
[−
1, 1]
.
Warto´s´c
r
S
=
1
oznacza, ˙ze istnieje całkowita zgodno´s´c
uporz ˛
adkowa ´n wg rang a
i
i b
i
.
Warto´s´c
r
S
= −
1
oznacza z kolei pełn ˛
a przeciwstawno´s´c
uporz ˛
adkowa ´n mi ˛edzy rangami.
Warto´s´c
r
S
=
0
oznacza brak korelacji rang.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest
współczynnik korelacji rang
Spearmana
, okre´slony wzorem
r
S
=
1 −
6
P
n
i=1
d
2
i
n(n
2
− 1)
,
gdzie d
i
=
a
i
− b
i
.
Własno ´sci:
Współczynnik r
S
przymuje warto´sci z przedziału
[−
1, 1]
.
Warto´s´c
r
S
=
1
oznacza, ˙ze istnieje całkowita zgodno´s´c
uporz ˛
adkowa ´n wg rang a
i
i b
i
.
Warto´s´c
r
S
= −
1
oznacza z kolei pełn ˛
a przeciwstawno´s´c
uporz ˛
adkowa ´n mi ˛edzy rangami.
Warto´s´c
r
S
=
0
oznacza brak korelacji rang.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Jednym ze współczynników korelacji obliczanych dla
danych rangowych jest
współczynnik korelacji rang
Spearmana
, okre´slony wzorem
r
S
=
1 −
6
P
n
i=1
d
2
i
n(n
2
− 1)
,
gdzie d
i
=
a
i
− b
i
.
Własno ´sci:
Współczynnik r
S
przymuje warto´sci z przedziału
[−
1, 1]
.
Warto´s´c
r
S
=
1
oznacza, ˙ze istnieje całkowita zgodno´s´c
uporz ˛
adkowa ´n wg rang a
i
i b
i
.
Warto´s´c
r
S
= −
1
oznacza z kolei pełn ˛
a przeciwstawno´s´c
uporz ˛
adkowa ´n mi ˛edzy rangami.
Warto´s´c
r
S
=
0
oznacza brak korelacji rang.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Student
rangi a
i
rangi b
i
ró˙znice rang d
i
d
2
i
A
4
2
2
4
B
2
1
1
1
C
3
3
0
0
D
1
4
-3
9
Razem
×
×
×
14
´
Zródło: Dane umowne.
Warto´s´c współczynnika korelacji rang Spearmana w tym
przykładzie wynosi:
r
S
=
1 −
6 · 14
4(16 − 1)
= −
0, 4
co ´swiadczy o stosunkowo słabej korelacji mi ˛edzy
zdolno´sciami matematycznymi i muzycznymi badanych
studentów.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rang Spearmana
Przykład
Student
rangi a
i
rangi b
i
ró˙znice rang d
i
d
2
i
A
4
2
2
4
B
2
1
1
1
C
3
3
0
0
D
1
4
-3
9
Razem
×
×
×
14
´
Zródło: Dane umowne.
Warto´s´c współczynnika korelacji rang Spearmana w tym
przykładzie wynosi:
r
S
=
1 −
6 · 14
4(16 − 1)
= −
0, 4
co ´swiadczy o stosunkowo słabej korelacji mi ˛edzy
zdolno´sciami matematycznymi i muzycznymi badanych
studentów.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest
współczynnik Kendalla
.
Zaló˙zmy, ˙ze obserwujemy dwie cechy ilo´sciowe X i Y
w pewnej n-elementowej zbiorowo´sci.
Jednostki zbiorowo´sci ł ˛
aczymy w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowo´sci mo˙zna utworzy´c ł ˛
acznie
N = n·(n−1)
takich podzbiorów (tj. uporz ˛
adkowanych par).
Współczynnik korelacji Kendalla obliczamy na podstawie
zbiorowo´sci dwuelementowych podzbiorów, utworzonych z
elementów zbioru wyj´sciowego.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest
współczynnik Kendalla
.
Zaló˙zmy, ˙ze obserwujemy dwie cechy ilo´sciowe X i Y
w pewnej n-elementowej zbiorowo´sci.
Jednostki zbiorowo´sci ł ˛
aczymy w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowo´sci mo˙zna utworzy´c ł ˛
acznie
N = n·(n−1)
takich podzbiorów (tj. uporz ˛
adkowanych par).
Współczynnik korelacji Kendalla obliczamy na podstawie
zbiorowo´sci dwuelementowych podzbiorów, utworzonych z
elementów zbioru wyj´sciowego.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest
współczynnik Kendalla
.
Zaló˙zmy, ˙ze obserwujemy dwie cechy ilo´sciowe X i Y
w pewnej n-elementowej zbiorowo´sci.
Jednostki zbiorowo´sci ł ˛
aczymy w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowo´sci mo˙zna utworzy´c ł ˛
acznie
N = n·(n−1)
takich podzbiorów (tj. uporz ˛
adkowanych par).
Współczynnik korelacji Kendalla obliczamy na podstawie
zbiorowo´sci dwuelementowych podzbiorów, utworzonych z
elementów zbioru wyj´sciowego.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji
rangowej jest
współczynnik Kendalla
.
Zaló˙zmy, ˙ze obserwujemy dwie cechy ilo´sciowe X i Y
w pewnej n-elementowej zbiorowo´sci.
Jednostki zbiorowo´sci ł ˛
aczymy w dwuelementowe
podzbiory.
Dla n-elementowej zbiorowo´sci mo˙zna utworzy´c ł ˛
acznie
N = n·(n−1)
takich podzbiorów (tj. uporz ˛
adkowanych par).
Współczynnik korelacji Kendalla obliczamy na podstawie
zbiorowo´sci dwuelementowych podzbiorów, utworzonych z
elementów zbioru wyj´sciowego.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Niech
U
j
dla
j = 1, 2, . . . , N
b ˛ed ˛
a zmiennymi przyjmuj ˛
acymi
warto´sci 1 lub -1, zgodnie z nast ˛epuj ˛
acymi zasadami:
U
j
=
1
, gdy warto´s´c cechy X dla pierwszego elementu
w j-tej parze jest wi ˛eksza ni˙z dla drugiego elementu.
U
j
= −
1
, gdy warto´s´c cechy X dla pierwszego elementu
w j-tej parze jest mniejsza ni˙z dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne
V
j
dla
j = 1, 2, . . . , N
, odwołuj ˛
ac si ˛e do analogicznego sposobu
uporz ˛
adkowa ´n warto´sci cechy Y w poszczególnych
parach.
Uwaga:
Dalej zakłada´c b ˛edziemy, ˙ze zarówno warto´sci
cechy X , jak i cechy Y nie powtarzaj ˛
a si ˛e w badanej
zbiorowo´sci (w przeciwnym przypadku trzeba skorzysta´c z
pewnej skorygowanej formuły na współczynnik Kendalla,
która tutaj nie b ˛edzie przytoczona).
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Niech
U
j
dla
j = 1, 2, . . . , N
b ˛ed ˛
a zmiennymi przyjmuj ˛
acymi
warto´sci 1 lub -1, zgodnie z nast ˛epuj ˛
acymi zasadami:
U
j
=
1
, gdy warto´s´c cechy X dla pierwszego elementu
w j-tej parze jest wi ˛eksza ni˙z dla drugiego elementu.
U
j
= −
1
, gdy warto´s´c cechy X dla pierwszego elementu
w j-tej parze jest mniejsza ni˙z dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne
V
j
dla
j = 1, 2, . . . , N
, odwołuj ˛
ac si ˛e do analogicznego sposobu
uporz ˛
adkowa ´n warto´sci cechy Y w poszczególnych
parach.
Uwaga:
Dalej zakłada´c b ˛edziemy, ˙ze zarówno warto´sci
cechy X , jak i cechy Y nie powtarzaj ˛
a si ˛e w badanej
zbiorowo´sci (w przeciwnym przypadku trzeba skorzysta´c z
pewnej skorygowanej formuły na współczynnik Kendalla,
która tutaj nie b ˛edzie przytoczona).
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Niech
U
j
dla
j = 1, 2, . . . , N
b ˛ed ˛
a zmiennymi przyjmuj ˛
acymi
warto´sci 1 lub -1, zgodnie z nast ˛epuj ˛
acymi zasadami:
U
j
=
1
, gdy warto´s´c cechy X dla pierwszego elementu
w j-tej parze jest wi ˛eksza ni˙z dla drugiego elementu.
U
j
= −
1
, gdy warto´s´c cechy X dla pierwszego elementu
w j-tej parze jest mniejsza ni˙z dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne
V
j
dla
j = 1, 2, . . . , N
, odwołuj ˛
ac si ˛e do analogicznego sposobu
uporz ˛
adkowa ´n warto´sci cechy Y w poszczególnych
parach.
Uwaga:
Dalej zakłada´c b ˛edziemy, ˙ze zarówno warto´sci
cechy X , jak i cechy Y nie powtarzaj ˛
a si ˛e w badanej
zbiorowo´sci (w przeciwnym przypadku trzeba skorzysta´c z
pewnej skorygowanej formuły na współczynnik Kendalla,
która tutaj nie b ˛edzie przytoczona).
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech
P
oznacza liczb ˛e przypadków (par)
zgodnie
uporz ˛
adkowanych
, tj. liczb ˛e par, dla których warto´sci U
j
s ˛
a równe V
j
.
Podobnie, niech
Q
oznacza liczb ˛e przypadków (par)
niezgodnie uporz ˛
adkowanych
, tj. liczb ˛e par, dla których
warto´sci U
j
oraz V
j
s ˛
a przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyra˙za si ˛e wzorem:
τ =
P − Q
n(n − 1)
.
Podobnie, jak współczynnik korelacji Spearmanna,
współczynnik
τ
(tau) przyjmuje zawsze warto´sci z
przedziału
[−
1, 1]
. Jest równie˙z podobnie interpretowany.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech
P
oznacza liczb ˛e przypadków (par)
zgodnie
uporz ˛
adkowanych
, tj. liczb ˛e par, dla których warto´sci U
j
s ˛
a równe V
j
.
Podobnie, niech
Q
oznacza liczb ˛e przypadków (par)
niezgodnie uporz ˛
adkowanych
, tj. liczb ˛e par, dla których
warto´sci U
j
oraz V
j
s ˛
a przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyra˙za si ˛e wzorem:
τ =
P − Q
n(n − 1)
.
Podobnie, jak współczynnik korelacji Spearmanna,
współczynnik
τ
(tau) przyjmuje zawsze warto´sci z
przedziału
[−
1, 1]
. Jest równie˙z podobnie interpretowany.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech
P
oznacza liczb ˛e przypadków (par)
zgodnie
uporz ˛
adkowanych
, tj. liczb ˛e par, dla których warto´sci U
j
s ˛
a równe V
j
.
Podobnie, niech
Q
oznacza liczb ˛e przypadków (par)
niezgodnie uporz ˛
adkowanych
, tj. liczb ˛e par, dla których
warto´sci U
j
oraz V
j
s ˛
a przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyra˙za si ˛e wzorem:
τ =
P − Q
n(n − 1)
.
Podobnie, jak współczynnik korelacji Spearmanna,
współczynnik
τ
(tau) przyjmuje zawsze warto´sci z
przedziału
[−
1, 1]
. Jest równie˙z podobnie interpretowany.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Niech
P
oznacza liczb ˛e przypadków (par)
zgodnie
uporz ˛
adkowanych
, tj. liczb ˛e par, dla których warto´sci U
j
s ˛
a równe V
j
.
Podobnie, niech
Q
oznacza liczb ˛e przypadków (par)
niezgodnie uporz ˛
adkowanych
, tj. liczb ˛e par, dla których
warto´sci U
j
oraz V
j
s ˛
a przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla
wyra˙za si ˛e wzorem:
τ =
P − Q
n(n − 1)
.
Podobnie, jak współczynnik korelacji Spearmanna,
współczynnik
τ
(tau) przyjmuje zawsze warto´sci z
przedziału
[−
1, 1]
. Jest równie˙z podobnie interpretowany.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Wró´cmy do przykładu dotycz ˛
acego zdolno´sci matematycznych
i muzycznych grupy studentów (A, B, C, D). W tym przykładzie
mo˙zna utworzy´c ł ˛
acznie 4·(4− 1) = 12 dwuelementowych
podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna
tablicy).
Dalsze kolumny prezentuj ˛
a uporz ˛
adkowane w parach warto´sci
cech, w tym przypadku rang a
i
oraz b
i
, a tak˙ze warto´sci U
j
,
V
j
.
Pary
a
i
dla pierwszej
uporz ˛
adkowanie U
j
b
i
dla pierwszej
uporz ˛
adkowanie V
j
studentów
i drugiej osoby w parze
i drugiej osoby w parze
(A,B)
4; 2
1
2; 1
1
(A,C)
4; 3
1
2; 3
-1
(A,D)
4; 1
1
2; 4
-1
(B,A)
2; 4
-1
1; 2
-1
(B,C)
2; 3
-1
1; 3
-1
(B,D)
2; 1
1
1; 4
-1
(C,A)
3; 4
-1
3; 2
1
(C,B)
3; 2
1
3; 1
1
(C,D)
3; 1
1
3; 4
-1
(D,A)
1; 4
-1
4; 2
1
(D,B)
1; 2
-1
4; 1
1
(D,C)
1; 3
-1
4; 3
1
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Wró´cmy do przykładu dotycz ˛
acego zdolno´sci matematycznych
i muzycznych grupy studentów (A, B, C, D). W tym przykładzie
mo˙zna utworzy´c ł ˛
acznie 4·(4− 1) = 12 dwuelementowych
podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna
tablicy).
Dalsze kolumny prezentuj ˛
a uporz ˛
adkowane w parach warto´sci
cech, w tym przypadku rang a
i
oraz b
i
, a tak˙ze warto´sci U
j
,
V
j
.
Pary
a
i
dla pierwszej
uporz ˛
adkowanie U
j
b
i
dla pierwszej
uporz ˛
adkowanie V
j
studentów
i drugiej osoby w parze
i drugiej osoby w parze
(A,B)
4; 2
1
2; 1
1
(A,C)
4; 3
1
2; 3
-1
(A,D)
4; 1
1
2; 4
-1
(B,A)
2; 4
-1
1; 2
-1
(B,C)
2; 3
-1
1; 3
-1
(B,D)
2; 1
1
1; 4
-1
(C,A)
3; 4
-1
3; 2
1
(C,B)
3; 2
1
3; 1
1
(C,D)
3; 1
1
3; 4
-1
(D,A)
1; 4
-1
4; 2
1
(D,B)
1; 2
-1
4; 1
1
(D,C)
1; 3
-1
4; 3
1
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Liczba
P
przypadków (par) zgodnie uporz ˛
adkowanych w
naszym przykładzie wynosi
P = 4
(oznaczone w tablicy
kolorem niebieskim).
Z kolei liczba
Q
przypadków (par) niezgodnie
uporz ˛
adkowanych wynosi
Q = 8
(oznaczone w tablicy
kolorem czerwonym).
Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi:
τ = −
4
12
≈ −0, 33
co wskazuje na słab ˛
a korelacj ˛e mi ˛edzy zdolno´sciami
matematycznymi i muzycznymi w badanej grupie
studentów (podobna warto´s´c, jak współczynnika r
S
).
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Liczba
P
przypadków (par) zgodnie uporz ˛
adkowanych w
naszym przykładzie wynosi
P = 4
(oznaczone w tablicy
kolorem niebieskim).
Z kolei liczba
Q
przypadków (par) niezgodnie
uporz ˛
adkowanych wynosi
Q = 8
(oznaczone w tablicy
kolorem czerwonym).
Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi:
τ = −
4
12
≈ −0, 33
co wskazuje na słab ˛
a korelacj ˛e mi ˛edzy zdolno´sciami
matematycznymi i muzycznymi w badanej grupie
studentów (podobna warto´s´c, jak współczynnika r
S
).
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Przykład
Liczba
P
przypadków (par) zgodnie uporz ˛
adkowanych w
naszym przykładzie wynosi
P = 4
(oznaczone w tablicy
kolorem niebieskim).
Z kolei liczba
Q
przypadków (par) niezgodnie
uporz ˛
adkowanych wynosi
Q = 8
(oznaczone w tablicy
kolorem czerwonym).
Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi:
τ = −
4
12
≈ −0, 33
co wskazuje na słab ˛
a korelacj ˛e mi ˛edzy zdolno´sciami
matematycznymi i muzycznymi w badanej grupie
studentów (podobna warto´s´c, jak współczynnika r
S
).
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Uwagi
Zauwa˙zymy, ˙ze je´sli dla pewnej pary elementów, np. (A, B)
warto´s´c U
j
wynosi 1, to dla pary (B, A) musi by´c U
j
= −
1.
Oznacza to, ˙ze zamiast bada´c zbiorowo´s´c wszystkich
podzbiorów dwuelementowych, w´sród których niektóre
pary składaj ˛
a si ˛e z tych samych elementów, a ró˙zni ˛
a si ˛e
jedynie ich kolejno´sci ˛
a (np. (A, B) i (B, A) lub (A, C)
i (C, A) itd.), mo˙zna ograniczy´c rozwa˙zania do mniejszej
zbiorowo´sci par, w której podzbiór o okre´slonych
elementach wyst ˛epuje tylko raz.
Jednak w takiej zbiorowo´sci liczba wszystkich mo˙zliwych
par byłaby równa
n(n−1)
2
, a warto´sci P i Q byłyby o połow ˛e
mniejsze, a wi ˛ec wzór na współczynnik τ przyj ˛
ałby posta´c:
τ =
2(P
0
− Q
0
)
n(n − 1)
,
gdzie
P
0
=
1
2
P, Q
0
=
1
2
Q.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Uwagi
Zauwa˙zymy, ˙ze je´sli dla pewnej pary elementów, np. (A, B)
warto´s´c U
j
wynosi 1, to dla pary (B, A) musi by´c U
j
= −
1.
Oznacza to, ˙ze zamiast bada´c zbiorowo´s´c wszystkich
podzbiorów dwuelementowych, w´sród których niektóre
pary składaj ˛
a si ˛e z tych samych elementów, a ró˙zni ˛
a si ˛e
jedynie ich kolejno´sci ˛
a (np. (A, B) i (B, A) lub (A, C)
i (C, A) itd.), mo˙zna ograniczy´c rozwa˙zania do mniejszej
zbiorowo´sci par, w której podzbiór o okre´slonych
elementach wyst ˛epuje tylko raz.
Jednak w takiej zbiorowo´sci liczba wszystkich mo˙zliwych
par byłaby równa
n(n−1)
2
, a warto´sci P i Q byłyby o połow ˛e
mniejsze, a wi ˛ec wzór na współczynnik τ przyj ˛
ałby posta´c:
τ =
2(P
0
− Q
0
)
n(n − 1)
,
gdzie
P
0
=
1
2
P, Q
0
=
1
2
Q.
Agnieszka Rossa
Inne miary korelacji – współczynnik korelacji rangowej Kendalla
Uwagi
Zauwa˙zymy, ˙ze je´sli dla pewnej pary elementów, np. (A, B)
warto´s´c U
j
wynosi 1, to dla pary (B, A) musi by´c U
j
= −
1.
Oznacza to, ˙ze zamiast bada´c zbiorowo´s´c wszystkich
podzbiorów dwuelementowych, w´sród których niektóre
pary składaj ˛
a si ˛e z tych samych elementów, a ró˙zni ˛
a si ˛e
jedynie ich kolejno´sci ˛
a (np. (A, B) i (B, A) lub (A, C)
i (C, A) itd.), mo˙zna ograniczy´c rozwa˙zania do mniejszej
zbiorowo´sci par, w której podzbiór o okre´slonych
elementach wyst ˛epuje tylko raz.
Jednak w takiej zbiorowo´sci liczba wszystkich mo˙zliwych
par byłaby równa
n(n−1)
2
, a warto´sci P i Q byłyby o połow ˛e
mniejsze, a wi ˛ec wzór na współczynnik τ przyj ˛
ałby posta´c:
τ =
2(P
0
− Q
0
)
n(n − 1)
,
gdzie
P
0
=
1
2
P, Q
0
=
1
2
Q.
Agnieszka Rossa
Analiza regresji
Wprowadzenie
Jak ju˙z wcze´sniej wspomniano, na ogół powi ˛
azania
pomi ˛edzy cechami (zmiennymi) nie maj ˛
a charakteru
matematycznego, który dałoby si ˛e zapisa´c jednoznacznie
w postaci:
Y = f (X
1
,
X
2
, . . . ,
X
s
),
gdzie f oznacza pewn ˛
a funkcj ˛e opisuj ˛
ac ˛
a zale˙zno´s´c
zmiennej Y od zmiennych X
1
,
X
2
, . . . ,
X
s
.
Zapis taki oznaczałby, ˙ze zale˙zno´s´c pomi ˛edzy Y a
pozostałymi cechamy jest ´sci´sle funkcyjna, tj. konkretnym
warto´sciom obserwowanych cech X
1
,
X
2
, . . . ,
X
s
odpowiada dokładnie jedna warto´s´c cechy Y .
W przypadku zjawisk społecznych, ekonomicznych,
przyrodniczych itp. zale˙zno´sci funkcyjne rzadko wyst ˛epuj ˛
a,
cz ˛e´sciej natomiast wyst ˛epuj ˛
a zale˙zno´sci korelacyjne.
Agnieszka Rossa
Analiza regresji
Wprowadzenie
Jak ju˙z wcze´sniej wspomniano, na ogół powi ˛
azania
pomi ˛edzy cechami (zmiennymi) nie maj ˛
a charakteru
matematycznego, który dałoby si ˛e zapisa´c jednoznacznie
w postaci:
Y = f (X
1
,
X
2
, . . . ,
X
s
),
gdzie f oznacza pewn ˛
a funkcj ˛e opisuj ˛
ac ˛
a zale˙zno´s´c
zmiennej Y od zmiennych X
1
,
X
2
, . . . ,
X
s
.
Zapis taki oznaczałby, ˙ze zale˙zno´s´c pomi ˛edzy Y a
pozostałymi cechamy jest ´sci´sle funkcyjna, tj. konkretnym
warto´sciom obserwowanych cech X
1
,
X
2
, . . . ,
X
s
odpowiada dokładnie jedna warto´s´c cechy Y .
W przypadku zjawisk społecznych, ekonomicznych,
przyrodniczych itp. zale˙zno´sci funkcyjne rzadko wyst ˛epuj ˛
a,
cz ˛e´sciej natomiast wyst ˛epuj ˛
a zale˙zno´sci korelacyjne.
Agnieszka Rossa
Analiza regresji
Wprowadzenie
Jak ju˙z wcze´sniej wspomniano, na ogół powi ˛
azania
pomi ˛edzy cechami (zmiennymi) nie maj ˛
a charakteru
matematycznego, który dałoby si ˛e zapisa´c jednoznacznie
w postaci:
Y = f (X
1
,
X
2
, . . . ,
X
s
),
gdzie f oznacza pewn ˛
a funkcj ˛e opisuj ˛
ac ˛
a zale˙zno´s´c
zmiennej Y od zmiennych X
1
,
X
2
, . . . ,
X
s
.
Zapis taki oznaczałby, ˙ze zale˙zno´s´c pomi ˛edzy Y a
pozostałymi cechamy jest ´sci´sle funkcyjna, tj. konkretnym
warto´sciom obserwowanych cech X
1
,
X
2
, . . . ,
X
s
odpowiada dokładnie jedna warto´s´c cechy Y .
W przypadku zjawisk społecznych, ekonomicznych,
przyrodniczych itp. zale˙zno´sci funkcyjne rzadko wyst ˛epuj ˛
a,
cz ˛e´sciej natomiast wyst ˛epuj ˛
a zale˙zno´sci korelacyjne.
Agnieszka Rossa
Analiza regresji
Wprowadzenie
W statystyce zale˙zno´sci o charakterze korelacyjnym
pomi ˛edzy zmienn ˛
a Y a pewnym zespołem zmiennych
X
1
,
X
2
, . . . ,
X
s
wyra˙za si ˛e cz ˛esto w postaci zbli˙zonej do
przedstawionej powy˙zej, ale z pewn ˛
a istotn ˛
a zmian ˛
a.
Mianowicie:
Y = f (x
1
,
x
2
, . . . ,
x
s
) +
x
1
,
x
2
, . . . ,
x
s
reprezentuj ˛
a tu konkretne (ustalone) warto´sci
zmiennych X
1
,
X
2
, . . . ,
X
s
;
jest składnikiem losowym reprezentuj ˛
acym sumaryczny
(nieobserwowany) wpływ innych czynników;
Doł ˛
aczenie składnika losowego powoduje, ˙ze konkretnym
warto´sciom x
1
,
x
2
, . . . ,
x
s
mog ˛
a odpowiada´c nie takie
same, ale
ró˙zne
warto´sci zmiennej Y .
Agnieszka Rossa
Analiza regresji
Wprowadzenie
W statystyce zale˙zno´sci o charakterze korelacyjnym
pomi ˛edzy zmienn ˛
a Y a pewnym zespołem zmiennych
X
1
,
X
2
, . . . ,
X
s
wyra˙za si ˛e cz ˛esto w postaci zbli˙zonej do
przedstawionej powy˙zej, ale z pewn ˛
a istotn ˛
a zmian ˛
a.
Mianowicie:
Y = f (x
1
,
x
2
, . . . ,
x
s
) +
x
1
,
x
2
, . . . ,
x
s
reprezentuj ˛
a tu konkretne (ustalone) warto´sci
zmiennych X
1
,
X
2
, . . . ,
X
s
;
jest składnikiem losowym reprezentuj ˛
acym sumaryczny
(nieobserwowany) wpływ innych czynników;
Doł ˛
aczenie składnika losowego powoduje, ˙ze konkretnym
warto´sciom x
1
,
x
2
, . . . ,
x
s
mog ˛
a odpowiada´c nie takie
same, ale
ró˙zne
warto´sci zmiennej Y .
Agnieszka Rossa
Analiza regresji
Wprowadzenie
W statystyce zale˙zno´sci o charakterze korelacyjnym
pomi ˛edzy zmienn ˛
a Y a pewnym zespołem zmiennych
X
1
,
X
2
, . . . ,
X
s
wyra˙za si ˛e cz ˛esto w postaci zbli˙zonej do
przedstawionej powy˙zej, ale z pewn ˛
a istotn ˛
a zmian ˛
a.
Mianowicie:
Y = f (x
1
,
x
2
, . . . ,
x
s
) +
x
1
,
x
2
, . . . ,
x
s
reprezentuj ˛
a tu konkretne (ustalone) warto´sci
zmiennych X
1
,
X
2
, . . . ,
X
s
;
jest składnikiem losowym reprezentuj ˛
acym sumaryczny
(nieobserwowany) wpływ innych czynników;
Doł ˛
aczenie składnika losowego powoduje, ˙ze konkretnym
warto´sciom x
1
,
x
2
, . . . ,
x
s
mog ˛
a odpowiada´c nie takie
same, ale
ró˙zne
warto´sci zmiennej Y .
Agnieszka Rossa
Analiza regresji
Wprowadzenie
W statystyce zale˙zno´sci o charakterze korelacyjnym
pomi ˛edzy zmienn ˛
a Y a pewnym zespołem zmiennych
X
1
,
X
2
, . . . ,
X
s
wyra˙za si ˛e cz ˛esto w postaci zbli˙zonej do
przedstawionej powy˙zej, ale z pewn ˛
a istotn ˛
a zmian ˛
a.
Mianowicie:
Y = f (x
1
,
x
2
, . . . ,
x
s
) +
x
1
,
x
2
, . . . ,
x
s
reprezentuj ˛
a tu konkretne (ustalone) warto´sci
zmiennych X
1
,
X
2
, . . . ,
X
s
;
jest składnikiem losowym reprezentuj ˛
acym sumaryczny
(nieobserwowany) wpływ innych czynników;
Doł ˛
aczenie składnika losowego powoduje, ˙ze konkretnym
warto´sciom x
1
,
x
2
, . . . ,
x
s
mog ˛
a odpowiada´c nie takie
same, ale
ró˙zne
warto´sci zmiennej Y .
Agnieszka Rossa
Analiza regresji
Terminologia
Zmienna obja ´sniana
(zmienna zale˙zna) – zmienna
b ˛ed ˛
aca przedmiotem badania. Na ogół oznaczamy j ˛
a
symbolem Y .
Zmienne obja ´sniaj ˛
ace
(zmienne niezale˙zne) – zmienne,
za pomoc ˛
a których chcemy obja´sni´c zmiany zmiennej
zale˙znej. Na ogół oznaczamy je symbolami X
1
,
X
2
, . . .
.
Funkcja regresji
– funkcja odwzorowuj ˛
aca zale˙zno´s´c
pomi ˛edzy zmienn ˛
a obja´snian ˛
a Y a zmiennymi
obja´sniaj ˛
acymi.
W przypadku wielu zmiennych obja´sniaj ˛
acych mówimy o
regresji wielorakiej
, natomiast w przypadku jednej
zmiennej obja´sniaj ˛
acej – o
regresji jednej zmiennej
.
Agnieszka Rossa
Analiza regresji
Terminologia
Zmienna obja ´sniana
(zmienna zale˙zna) – zmienna
b ˛ed ˛
aca przedmiotem badania. Na ogół oznaczamy j ˛
a
symbolem Y .
Zmienne obja ´sniaj ˛
ace
(zmienne niezale˙zne) – zmienne,
za pomoc ˛
a których chcemy obja´sni´c zmiany zmiennej
zale˙znej. Na ogół oznaczamy je symbolami X
1
,
X
2
, . . .
.
Funkcja regresji
– funkcja odwzorowuj ˛
aca zale˙zno´s´c
pomi ˛edzy zmienn ˛
a obja´snian ˛
a Y a zmiennymi
obja´sniaj ˛
acymi.
W przypadku wielu zmiennych obja´sniaj ˛
acych mówimy o
regresji wielorakiej
, natomiast w przypadku jednej
zmiennej obja´sniaj ˛
acej – o
regresji jednej zmiennej
.
Agnieszka Rossa
Analiza regresji
Terminologia
Zmienna obja ´sniana
(zmienna zale˙zna) – zmienna
b ˛ed ˛
aca przedmiotem badania. Na ogół oznaczamy j ˛
a
symbolem Y .
Zmienne obja ´sniaj ˛
ace
(zmienne niezale˙zne) – zmienne,
za pomoc ˛
a których chcemy obja´sni´c zmiany zmiennej
zale˙znej. Na ogół oznaczamy je symbolami X
1
,
X
2
, . . .
.
Funkcja regresji
– funkcja odwzorowuj ˛
aca zale˙zno´s´c
pomi ˛edzy zmienn ˛
a obja´snian ˛
a Y a zmiennymi
obja´sniaj ˛
acymi.
W przypadku wielu zmiennych obja´sniaj ˛
acych mówimy o
regresji wielorakiej
, natomiast w przypadku jednej
zmiennej obja´sniaj ˛
acej – o
regresji jednej zmiennej
.
Agnieszka Rossa
Analiza regresji
Terminologia
Zmienna obja ´sniana
(zmienna zale˙zna) – zmienna
b ˛ed ˛
aca przedmiotem badania. Na ogół oznaczamy j ˛
a
symbolem Y .
Zmienne obja ´sniaj ˛
ace
(zmienne niezale˙zne) – zmienne,
za pomoc ˛
a których chcemy obja´sni´c zmiany zmiennej
zale˙znej. Na ogół oznaczamy je symbolami X
1
,
X
2
, . . .
.
Funkcja regresji
– funkcja odwzorowuj ˛
aca zale˙zno´s´c
pomi ˛edzy zmienn ˛
a obja´snian ˛
a Y a zmiennymi
obja´sniaj ˛
acymi.
W przypadku wielu zmiennych obja´sniaj ˛
acych mówimy o
regresji wielorakiej
, natomiast w przypadku jednej
zmiennej obja´sniaj ˛
acej – o
regresji jednej zmiennej
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nast ˛epuj ˛
ace
zało˙zenia:
Składnik losowy ma warto´s´c ´sredni ˛
a równ ˛
a 0 i pewn ˛
a
dodatni ˛
a wariancj ˛e oznaczan ˛
a symbolem σ
2
.
Mamy tylko jedn ˛
a zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Funkcja f nale˙zy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych zało˙zeniach, zale˙zno´s´c pomi ˛edzy cechami
Y i X mo˙zemy zapisa´c w postaci
Y = a + bx + ,
gdzie a i b s ˛
a pewnymi parametrami.
Model ten nazywamy
modelem regresji liniowej jednej
zmiennej
. Parametry a i b nazywamy odpowiednio
wyrazem wolnym
i
współczynnikiem regresji
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nast ˛epuj ˛
ace
zało˙zenia:
Składnik losowy ma warto´s´c ´sredni ˛
a równ ˛
a 0 i pewn ˛
a
dodatni ˛
a wariancj ˛e oznaczan ˛
a symbolem σ
2
.
Mamy tylko jedn ˛
a zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Funkcja f nale˙zy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych zało˙zeniach, zale˙zno´s´c pomi ˛edzy cechami
Y i X mo˙zemy zapisa´c w postaci
Y = a + bx + ,
gdzie a i b s ˛
a pewnymi parametrami.
Model ten nazywamy
modelem regresji liniowej jednej
zmiennej
. Parametry a i b nazywamy odpowiednio
wyrazem wolnym
i
współczynnikiem regresji
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nast ˛epuj ˛
ace
zało˙zenia:
Składnik losowy ma warto´s´c ´sredni ˛
a równ ˛
a 0 i pewn ˛
a
dodatni ˛
a wariancj ˛e oznaczan ˛
a symbolem σ
2
.
Mamy tylko jedn ˛
a zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Funkcja f nale˙zy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych zało˙zeniach, zale˙zno´s´c pomi ˛edzy cechami
Y i X mo˙zemy zapisa´c w postaci
Y = a + bx + ,
gdzie a i b s ˛
a pewnymi parametrami.
Model ten nazywamy
modelem regresji liniowej jednej
zmiennej
. Parametry a i b nazywamy odpowiednio
wyrazem wolnym
i
współczynnikiem regresji
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nast ˛epuj ˛
ace
zało˙zenia:
Składnik losowy ma warto´s´c ´sredni ˛
a równ ˛
a 0 i pewn ˛
a
dodatni ˛
a wariancj ˛e oznaczan ˛
a symbolem σ
2
.
Mamy tylko jedn ˛
a zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Funkcja f nale˙zy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych zało˙zeniach, zale˙zno´s´c pomi ˛edzy cechami
Y i X mo˙zemy zapisa´c w postaci
Y = a + bx + ,
gdzie a i b s ˛
a pewnymi parametrami.
Model ten nazywamy
modelem regresji liniowej jednej
zmiennej
. Parametry a i b nazywamy odpowiednio
wyrazem wolnym
i
współczynnikiem regresji
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nast ˛epuj ˛
ace
zało˙zenia:
Składnik losowy ma warto´s´c ´sredni ˛
a równ ˛
a 0 i pewn ˛
a
dodatni ˛
a wariancj ˛e oznaczan ˛
a symbolem σ
2
.
Mamy tylko jedn ˛
a zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Funkcja f nale˙zy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych zało˙zeniach, zale˙zno´s´c pomi ˛edzy cechami
Y i X mo˙zemy zapisa´c w postaci
Y = a + bx + ,
gdzie a i b s ˛
a pewnymi parametrami.
Model ten nazywamy
modelem regresji liniowej jednej
zmiennej
. Parametry a i b nazywamy odpowiednio
wyrazem wolnym
i
współczynnikiem regresji
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Dalej przyjmiemy nast ˛epuj ˛
ace
zało˙zenia:
Składnik losowy ma warto´s´c ´sredni ˛
a równ ˛
a 0 i pewn ˛
a
dodatni ˛
a wariancj ˛e oznaczan ˛
a symbolem σ
2
.
Mamy tylko jedn ˛
a zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Funkcja f nale˙zy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych zało˙zeniach, zale˙zno´s´c pomi ˛edzy cechami
Y i X mo˙zemy zapisa´c w postaci
Y = a + bx + ,
gdzie a i b s ˛
a pewnymi parametrami.
Model ten nazywamy
modelem regresji liniowej jednej
zmiennej
. Parametry a i b nazywamy odpowiednio
wyrazem wolnym
i
współczynnikiem regresji
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Funkcj ˛e
f (x ) = a + bx
nazywamy
prost ˛
a regresji
.
Podstawowym problemem, jaki pojawia si ˛e przy
wyznaczaniu równania prostej regresji, która opisywałaby
mo˙zliwie wiernie zale˙zno´s´c pomi ˛edzy konkretnymi
zmiennymi Y i X , jest okre´slenie liczbowych warto´sci
parametrów a i b.
Dokonujemy tego na podstawie obserwacji warto´sci cech
Y i X w badanej zbiorowo´sci, stosuj ˛
ac tzw.
metod ˛e
najmniejszych kwadratów
MNK.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Funkcj ˛e
f (x ) = a + bx
nazywamy
prost ˛
a regresji
.
Podstawowym problemem, jaki pojawia si ˛e przy
wyznaczaniu równania prostej regresji, która opisywałaby
mo˙zliwie wiernie zale˙zno´s´c pomi ˛edzy konkretnymi
zmiennymi Y i X , jest okre´slenie liczbowych warto´sci
parametrów a i b.
Dokonujemy tego na podstawie obserwacji warto´sci cech
Y i X w badanej zbiorowo´sci, stosuj ˛
ac tzw.
metod ˛e
najmniejszych kwadratów
MNK.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Funkcj ˛e
f (x ) = a + bx
nazywamy
prost ˛
a regresji
.
Podstawowym problemem, jaki pojawia si ˛e przy
wyznaczaniu równania prostej regresji, która opisywałaby
mo˙zliwie wiernie zale˙zno´s´c pomi ˛edzy konkretnymi
zmiennymi Y i X , jest okre´slenie liczbowych warto´sci
parametrów a i b.
Dokonujemy tego na podstawie obserwacji warto´sci cech
Y i X w badanej zbiorowo´sci, stosuj ˛
ac tzw.
metod ˛e
najmniejszych kwadratów
MNK.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Przykład
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Przykład
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Przykład – jak wyznaczy ´c prost ˛
a regresji?
W tym przykładzie chcieliby´smy, ˙zeby prosta najlepiej
przybli˙zała dana chmur ˛e punktów, czyli by warto´sci ró˙znic
y
i
− ˆ
y
i
(tzw. warto´sci resztowe lub inaczej – warto´sci
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
Jak łatwo zauwa˙zy´c, przesuni ˛ecie prostej w kierunku
jednego z punktów mo˙ze spowodowa´c odsuni ˛ecie od
innych punktów. Tak wiec postulat, aby jednocze´snie
minimalizowa´c wszystkie warto´sci resztowe nie jest
mo˙zliwy do realizacji.
Jako kryterium dopasowania prostej regresji do danych
empirycznych przyjmuje si ˛e
minimalizacj ˛e sumy
kwadratów warto ´sci resztowych
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Przykład – jak wyznaczy ´c prost ˛
a regresji?
W tym przykładzie chcieliby´smy, ˙zeby prosta najlepiej
przybli˙zała dana chmur ˛e punktów, czyli by warto´sci ró˙znic
y
i
− ˆ
y
i
(tzw. warto´sci resztowe lub inaczej – warto´sci
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
Jak łatwo zauwa˙zy´c, przesuni ˛ecie prostej w kierunku
jednego z punktów mo˙ze spowodowa´c odsuni ˛ecie od
innych punktów. Tak wiec postulat, aby jednocze´snie
minimalizowa´c wszystkie warto´sci resztowe nie jest
mo˙zliwy do realizacji.
Jako kryterium dopasowania prostej regresji do danych
empirycznych przyjmuje si ˛e
minimalizacj ˛e sumy
kwadratów warto ´sci resztowych
.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Przykład – jak wyznaczy ´c prost ˛
a regresji?
W tym przykładzie chcieliby´smy, ˙zeby prosta najlepiej
przybli˙zała dana chmur ˛e punktów, czyli by warto´sci ró˙znic
y
i
− ˆ
y
i
(tzw. warto´sci resztowe lub inaczej – warto´sci
składnika losowego) były jak najmniejsze dla wszystkich
badanych jednostek.
Jak łatwo zauwa˙zy´c, przesuni ˛ecie prostej w kierunku
jednego z punktów mo˙ze spowodowa´c odsuni ˛ecie od
innych punktów. Tak wiec postulat, aby jednocze´snie
minimalizowa´c wszystkie warto´sci resztowe nie jest
mo˙zliwy do realizacji.
Jako kryterium dopasowania prostej regresji do danych
empirycznych przyjmuje si ˛e
minimalizacj ˛e sumy
kwadratów warto ´sci resztowych
.
Agnieszka Rossa
Metoda najmniejszych kwadratów
Niech
(
y
1
,
x
1
), (
y
2
,
x
2
), . . . , (
y
n
,
x
n
),
b ˛edzie n-elementowym zbiorem warto´sci zmiennych Y i X .
Rozwa˙zmy sum ˛e kwadratów warto´sci resztowych
n
X
i=1
(
y
i
− ˆ
y
i
)
2
,
lub równowa˙znie
n
X
i=1
(
y
i
− (a + bx
i
))
2
,
któr ˛
a oznaczymy symbolem S(a, b).
Funkcj ˛e regresji, dla której warto´sci parametrów a, b
wyznaczone zostały w drodze minimalizacji sumy S(a, b)
nazywamy
prost ˛
a regresji MNK
i oznaczamy przez ˆ
y .
Agnieszka Rossa
Metoda najmniejszych kwadratów
Niech
(
y
1
,
x
1
), (
y
2
,
x
2
), . . . , (
y
n
,
x
n
),
b ˛edzie n-elementowym zbiorem warto´sci zmiennych Y i X .
Rozwa˙zmy sum ˛e kwadratów warto´sci resztowych
n
X
i=1
(
y
i
− ˆ
y
i
)
2
,
lub równowa˙znie
n
X
i=1
(
y
i
− (a + bx
i
))
2
,
któr ˛
a oznaczymy symbolem S(a, b).
Funkcj ˛e regresji, dla której warto´sci parametrów a, b
wyznaczone zostały w drodze minimalizacji sumy S(a, b)
nazywamy
prost ˛
a regresji MNK
i oznaczamy przez ˆ
y .
Agnieszka Rossa
Metoda najmniejszych kwadratów
Niech
(
y
1
,
x
1
), (
y
2
,
x
2
), . . . , (
y
n
,
x
n
),
b ˛edzie n-elementowym zbiorem warto´sci zmiennych Y i X .
Rozwa˙zmy sum ˛e kwadratów warto´sci resztowych
n
X
i=1
(
y
i
− ˆ
y
i
)
2
,
lub równowa˙znie
n
X
i=1
(
y
i
− (a + bx
i
))
2
,
któr ˛
a oznaczymy symbolem S(a, b).
Funkcj ˛e regresji, dla której warto´sci parametrów a, b
wyznaczone zostały w drodze minimalizacji sumy S(a, b)
nazywamy
prost ˛
a regresji MNK
i oznaczamy przez ˆ
y .
Agnieszka Rossa
Metoda najmniejszych kwadratów
Troch ˛e matematyki, czyli jak obliczy ´c a i b
Po zro˙zniczkowaniu sumy S(a, b) wzgl ˛edem a i b
i przyrównaniu obu pochodnych cz ˛
astkowych do 0, mamy
∂
S(a, b)
∂
a
= −
2
n
X
i=1
(
y
i
− (a + bx
i
)) =
0,
∂
S(a, b)
∂
b
= −
2
n
X
i=1
x
i
(
y
i
− (a + bx
i
)) =
0.
Zapisuj ˛
ac inaczej, mamy układ dwóch równa ´n
n
X
i=1
y
i
− na − b
n
X
i=1
x
i
=
0,
n
X
i=1
x
i
y
i
− a
n
X
i=1
x
i
− b
n
X
i=1
x
2
i
=
0.
Agnieszka Rossa
Metoda najmniejszych kwadratów
Troch ˛e matematyki, czyli jak obliczy ´c a i b
Po zro˙zniczkowaniu sumy S(a, b) wzgl ˛edem a i b
i przyrównaniu obu pochodnych cz ˛
astkowych do 0, mamy
∂
S(a, b)
∂
a
= −
2
n
X
i=1
(
y
i
− (a + bx
i
)) =
0,
∂
S(a, b)
∂
b
= −
2
n
X
i=1
x
i
(
y
i
− (a + bx
i
)) =
0.
Zapisuj ˛
ac inaczej, mamy układ dwóch równa ´n
n
X
i=1
y
i
− na − b
n
X
i=1
x
i
=
0,
n
X
i=1
x
i
y
i
− a
n
X
i=1
x
i
− b
n
X
i=1
x
2
i
=
0.
Agnieszka Rossa
Metoda najmniejszych kwadratów
Troch ˛e matematyki
Z pierwszego równania natychmiast otrzymujemy, ˙ze
a =
1
n
n
X
i=1
y
i
− b
n
X
i=1
x
i
!
=
¯
y − b¯
x
.
Po wstawieniu powy˙zszego wyra˙zenia do drugiego
równania mamy tak˙ze
n
X
i=1
x
i
y
i
− (¯
y − b¯
x )
n
X
i=1
x
i
− b
n
X
i=1
x
2
i
=
0,
co po przekształceniach daje
b =
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
P
n
i=1
(
x
i
− ¯
x )
2
.
Agnieszka Rossa
Metoda najmniejszych kwadratów
Troch ˛e matematyki
Z pierwszego równania natychmiast otrzymujemy, ˙ze
a =
1
n
n
X
i=1
y
i
− b
n
X
i=1
x
i
!
=
¯
y − b¯
x
.
Po wstawieniu powy˙zszego wyra˙zenia do drugiego
równania mamy tak˙ze
n
X
i=1
x
i
y
i
− (¯
y − b¯
x )
n
X
i=1
x
i
− b
n
X
i=1
x
2
i
=
0,
co po przekształceniach daje
b =
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
P
n
i=1
(
x
i
− ¯
x )
2
.
Agnieszka Rossa
Metoda najmniejszych kwadratów
Troch ˛e matematyki
Z pierwszego równania natychmiast otrzymujemy, ˙ze
a =
1
n
n
X
i=1
y
i
− b
n
X
i=1
x
i
!
=
¯
y − b¯
x
.
Po wstawieniu powy˙zszego wyra˙zenia do drugiego
równania mamy tak˙ze
n
X
i=1
x
i
y
i
− (¯
y − b¯
x )
n
X
i=1
x
i
− b
n
X
i=1
x
2
i
=
0,
co po przekształceniach daje
b =
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
P
n
i=1
(
x
i
− ¯
x )
2
.
Agnieszka Rossa
Metoda najmniejszych kwadratów
Podsumowanie
Równanie prostej regresji MNK
ˆ
y = a + bx
znajdziemy,
obliczaj ˛
ac wyraz wolny a oraz współczynnik regresji b,
które s ˛
a okre´slone nast ˛epuj ˛
acymi wzorami
a = ¯
y − b¯
x ,
b =
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
P
n
i=1
(
x
i
− ¯
x )
2
,
lub równowa˙znie
b =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
2
x
,
gdzie
(
y
1
,
x
1
), (
y
2
,
x
2
), . . . , (
y
n
,
x
n
),
s ˛
a warto´sciami zmiennych Y i X w badanej zbiorowo´sci.
Agnieszka Rossa
Relacja ł ˛
acz ˛
aca współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r :
b =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
2
x
,
r =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
x
· s
y
.
Wniosek 1:
Pomi ˛edzy współczynnikami b i r zachodzi
równo´s´c
b = r ·
s
y
s
x
Wniosek 2:
Współczynniki b i r maj ˛
a zawsze ten sam
znak, przy czym współczynnik b nie musi nale˙ze´c do
przedziału [−1, 1], w przeciwie ´nstwie do współczynnika r
korelacji liniowej Pearsona.
Agnieszka Rossa
Relacja ł ˛
acz ˛
aca współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r :
b =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
2
x
,
r =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
x
· s
y
.
Wniosek 1:
Pomi ˛edzy współczynnikami b i r zachodzi
równo´s´c
b = r ·
s
y
s
x
Wniosek 2:
Współczynniki b i r maj ˛
a zawsze ten sam
znak, przy czym współczynnik b nie musi nale˙ze´c do
przedziału [−1, 1], w przeciwie ´nstwie do współczynnika r
korelacji liniowej Pearsona.
Agnieszka Rossa
Relacja ł ˛
acz ˛
aca współczynnik regresji i współczynnik korelacji
liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz
współczynnik korelacji liniowej Pearsona r :
b =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
2
x
,
r =
1
n
P
n
i=1
(
x
i
− ¯
x )(y
i
− ¯
y )
s
x
· s
y
.
Wniosek 1:
Pomi ˛edzy współczynnikami b i r zachodzi
równo´s´c
b = r ·
s
y
s
x
Wniosek 2:
Współczynniki b i r maj ˛
a zawsze ten sam
znak, przy czym współczynnik b nie musi nale˙ze´c do
przedziału [−1, 1], w przeciwie ´nstwie do współczynnika r
korelacji liniowej Pearsona.
Agnieszka Rossa
Regresja liniowa jednej zmiennej
Przykład c.d.
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Jak wiemy, zmienno´s´c ka˙zdej cechy ilo´sciowej, a wi ˛ec
równie˙z zmiennej obja´snianej Y , mo˙zemy ocenia´c np. za
pomoc ˛
a wariancji s
2
y
:
s
2
y
=
1
n
n
X
i=1
(
y
i
− ¯
y )
2
,
gdzie y
1
,
y
2
, . . . ,
y
n
jest n-elementowym zbiorem
zaobserowanych warto´sci tej zmiennej.
Pomijaj ˛
ac składnik 1/n w powy˙zszym wyra˙zeniu,
otrzymujemy wzór na tzw. całkowit ˛
a sum ˛e kwadratów
SST =
n
X
i=1
(
y
i
− ¯
y )
2
.
Mo˙zna pokaza´c, ˙ze SST daje si ˛e rozbi´c na dwie sumy,
które tak˙ze interpretujemy w kategoriach zmienno´sci.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Jak wiemy, zmienno´s´c ka˙zdej cechy ilo´sciowej, a wi ˛ec
równie˙z zmiennej obja´snianej Y , mo˙zemy ocenia´c np. za
pomoc ˛
a wariancji s
2
y
:
s
2
y
=
1
n
n
X
i=1
(
y
i
− ¯
y )
2
,
gdzie y
1
,
y
2
, . . . ,
y
n
jest n-elementowym zbiorem
zaobserowanych warto´sci tej zmiennej.
Pomijaj ˛
ac składnik 1/n w powy˙zszym wyra˙zeniu,
otrzymujemy wzór na tzw. całkowit ˛
a sum ˛e kwadratów
SST =
n
X
i=1
(
y
i
− ¯
y )
2
.
Mo˙zna pokaza´c, ˙ze SST daje si ˛e rozbi´c na dwie sumy,
które tak˙ze interpretujemy w kategoriach zmienno´sci.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Jak wiemy, zmienno´s´c ka˙zdej cechy ilo´sciowej, a wi ˛ec
równie˙z zmiennej obja´snianej Y , mo˙zemy ocenia´c np. za
pomoc ˛
a wariancji s
2
y
:
s
2
y
=
1
n
n
X
i=1
(
y
i
− ¯
y )
2
,
gdzie y
1
,
y
2
, . . . ,
y
n
jest n-elementowym zbiorem
zaobserowanych warto´sci tej zmiennej.
Pomijaj ˛
ac składnik 1/n w powy˙zszym wyra˙zeniu,
otrzymujemy wzór na tzw. całkowit ˛
a sum ˛e kwadratów
SST =
n
X
i=1
(
y
i
− ¯
y )
2
.
Mo˙zna pokaza´c, ˙ze SST daje si ˛e rozbi´c na dwie sumy,
które tak˙ze interpretujemy w kategoriach zmienno´sci.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
SST =
n
X
i=1
(
y
i
− ˆ
y
i
)
2
+
n
X
i=1
(ˆ
y
i
− ¯
y )
2
,
gdzie ˆ
y
i
=
a + bx
i
.
Pierwszy ze składników nosi nazw ˛e
sumy kwadratów
bł ˛edów
, poniewa˙z jest sum ˛
a kwadratów warto´sci
resztowych. Jest oznaczany przez SSE . Drugi składnik
nosi miano
regresyjnej sumy kwadratów
i jest oznaczany
symbolem SSR.
Suma SSR jest cz ˛e´sci ˛
a zmienno´sci całkowitej SST , któr ˛
a
mo˙zna obja´sni´c za pomoc ˛
a regresji mi ˛edzy zmienn ˛
a
obja´snian ˛
a Y i zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Z kolei sum ˛e SSE traktujemy jako t ˛e cz ˛e´s´c zmienno´sci
SST , która nie jest wyja´sniona przez model regresji.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
SST =
n
X
i=1
(
y
i
− ˆ
y
i
)
2
+
n
X
i=1
(ˆ
y
i
− ¯
y )
2
,
gdzie ˆ
y
i
=
a + bx
i
.
Pierwszy ze składników nosi nazw ˛e
sumy kwadratów
bł ˛edów
, poniewa˙z jest sum ˛
a kwadratów warto´sci
resztowych. Jest oznaczany przez SSE . Drugi składnik
nosi miano
regresyjnej sumy kwadratów
i jest oznaczany
symbolem SSR.
Suma SSR jest cz ˛e´sci ˛
a zmienno´sci całkowitej SST , któr ˛
a
mo˙zna obja´sni´c za pomoc ˛
a regresji mi ˛edzy zmienn ˛
a
obja´snian ˛
a Y i zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Z kolei sum ˛e SSE traktujemy jako t ˛e cz ˛e´s´c zmienno´sci
SST , która nie jest wyja´sniona przez model regresji.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
SST =
n
X
i=1
(
y
i
− ˆ
y
i
)
2
+
n
X
i=1
(ˆ
y
i
− ¯
y )
2
,
gdzie ˆ
y
i
=
a + bx
i
.
Pierwszy ze składników nosi nazw ˛e
sumy kwadratów
bł ˛edów
, poniewa˙z jest sum ˛
a kwadratów warto´sci
resztowych. Jest oznaczany przez SSE . Drugi składnik
nosi miano
regresyjnej sumy kwadratów
i jest oznaczany
symbolem SSR.
Suma SSR jest cz ˛e´sci ˛
a zmienno´sci całkowitej SST , któr ˛
a
mo˙zna obja´sni´c za pomoc ˛
a regresji mi ˛edzy zmienn ˛
a
obja´snian ˛
a Y i zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Z kolei sum ˛e SSE traktujemy jako t ˛e cz ˛e´s´c zmienno´sci
SST , która nie jest wyja´sniona przez model regresji.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Mianowicie
SST =
n
X
i=1
(
y
i
− ˆ
y
i
)
2
+
n
X
i=1
(ˆ
y
i
− ¯
y )
2
,
gdzie ˆ
y
i
=
a + bx
i
.
Pierwszy ze składników nosi nazw ˛e
sumy kwadratów
bł ˛edów
, poniewa˙z jest sum ˛
a kwadratów warto´sci
resztowych. Jest oznaczany przez SSE . Drugi składnik
nosi miano
regresyjnej sumy kwadratów
i jest oznaczany
symbolem SSR.
Suma SSR jest cz ˛e´sci ˛
a zmienno´sci całkowitej SST , któr ˛
a
mo˙zna obja´sni´c za pomoc ˛
a regresji mi ˛edzy zmienn ˛
a
obja´snian ˛
a Y i zmienn ˛
a obja´sniaj ˛
ac ˛
a X .
Z kolei sum ˛e SSE traktujemy jako t ˛e cz ˛e´s´c zmienno´sci
SST , która nie jest wyja´sniona przez model regresji.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Iloraz
R
2
=
SSR
SST
=
P
n
i=1
(ˆ
y
i
− ¯
y )
2
P
n
i=1
(
y
i
− ¯
y )
2
,
jest nazwany
współczynnikiem determinacji
.
R
2
jest miar ˛
a stopnia dopasowania funkcji regresji do
danych empirycznych.
W przypadku regresji liniowej jednej zmiennej
współczynnik determinacji R
2
równy jest kwadratowi
współczynnika korelacji liniowej Pearsona.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Iloraz
R
2
=
SSR
SST
=
P
n
i=1
(ˆ
y
i
− ¯
y )
2
P
n
i=1
(
y
i
− ¯
y )
2
,
jest nazwany
współczynnikiem determinacji
.
R
2
jest miar ˛
a stopnia dopasowania funkcji regresji do
danych empirycznych.
W przypadku regresji liniowej jednej zmiennej
współczynnik determinacji R
2
równy jest kwadratowi
współczynnika korelacji liniowej Pearsona.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Iloraz
R
2
=
SSR
SST
=
P
n
i=1
(ˆ
y
i
− ¯
y )
2
P
n
i=1
(
y
i
− ¯
y )
2
,
jest nazwany
współczynnikiem determinacji
.
R
2
jest miar ˛
a stopnia dopasowania funkcji regresji do
danych empirycznych.
W przypadku regresji liniowej jednej zmiennej
współczynnik determinacji R
2
równy jest kwadratowi
współczynnika korelacji liniowej Pearsona.
Agnieszka Rossa
Ocena ”dobroci” dopasowania prostej regresji MNK
Przykład c.d.
Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution
Agnieszka Rossa
Przewidywanie na podstawie funkcji regresji
Funkcj ˛e regresji mo˙zna wykorzysta´c do przewidywania
warto´sci zmiennej obja´snianej Y na podstawie znanych
warto´sci zmiennej obja´sniaj ˛
acych (
ekstrapolacja
).
Tego rodzaju przewidywanie ma sens przy zało˙zeniu, ˙ze
charakter zale˙zno´sci i oddziaływania czynników nie
uwzgl ˛ednionych w modelu s ˛
a podobne do zaobserwo-
wanych w badanej zbiorowo´sci.
W naszym przykładzie otrzymali´smy prost ˛
a regresji:
ˆ
y = 5, 17 + 1, 76 · x
Na tej podstawie mo˙zemy oceni´c np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
ˆ
y
(
x =18)
=
5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt
Nale˙zy jednak pami ˛eta´c, ˙ze przy tego rodzaju przewidywa-
niach mo˙zemy si ˛e myli´c o pewn ˛
a warto´s´c. W celu oceny
skali bł ˛edu obliczamy tzw.
´sredni bł ˛
ad przewidywania
.
Agnieszka Rossa
Przewidywanie na podstawie funkcji regresji
Funkcj ˛e regresji mo˙zna wykorzysta´c do przewidywania
warto´sci zmiennej obja´snianej Y na podstawie znanych
warto´sci zmiennej obja´sniaj ˛
acych (
ekstrapolacja
).
Tego rodzaju przewidywanie ma sens przy zało˙zeniu, ˙ze
charakter zale˙zno´sci i oddziaływania czynników nie
uwzgl ˛ednionych w modelu s ˛
a podobne do zaobserwo-
wanych w badanej zbiorowo´sci.
W naszym przykładzie otrzymali´smy prost ˛
a regresji:
ˆ
y = 5, 17 + 1, 76 · x
Na tej podstawie mo˙zemy oceni´c np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
ˆ
y
(
x =18)
=
5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt
Nale˙zy jednak pami ˛eta´c, ˙ze przy tego rodzaju przewidywa-
niach mo˙zemy si ˛e myli´c o pewn ˛
a warto´s´c. W celu oceny
skali bł ˛edu obliczamy tzw.
´sredni bł ˛
ad przewidywania
.
Agnieszka Rossa
Przewidywanie na podstawie funkcji regresji
Funkcj ˛e regresji mo˙zna wykorzysta´c do przewidywania
warto´sci zmiennej obja´snianej Y na podstawie znanych
warto´sci zmiennej obja´sniaj ˛
acych (
ekstrapolacja
).
Tego rodzaju przewidywanie ma sens przy zało˙zeniu, ˙ze
charakter zale˙zno´sci i oddziaływania czynników nie
uwzgl ˛ednionych w modelu s ˛
a podobne do zaobserwo-
wanych w badanej zbiorowo´sci.
W naszym przykładzie otrzymali´smy prost ˛
a regresji:
ˆ
y = 5, 17 + 1, 76 · x
Na tej podstawie mo˙zemy oceni´c np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
ˆ
y
(
x =18)
=
5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt
Nale˙zy jednak pami ˛eta´c, ˙ze przy tego rodzaju przewidywa-
niach mo˙zemy si ˛e myli´c o pewn ˛
a warto´s´c. W celu oceny
skali bł ˛edu obliczamy tzw.
´sredni bł ˛
ad przewidywania
.
Agnieszka Rossa
Przewidywanie na podstawie funkcji regresji
Funkcj ˛e regresji mo˙zna wykorzysta´c do przewidywania
warto´sci zmiennej obja´snianej Y na podstawie znanych
warto´sci zmiennej obja´sniaj ˛
acych (
ekstrapolacja
).
Tego rodzaju przewidywanie ma sens przy zało˙zeniu, ˙ze
charakter zale˙zno´sci i oddziaływania czynników nie
uwzgl ˛ednionych w modelu s ˛
a podobne do zaobserwo-
wanych w badanej zbiorowo´sci.
W naszym przykładzie otrzymali´smy prost ˛
a regresji:
ˆ
y = 5, 17 + 1, 76 · x
Na tej podstawie mo˙zemy oceni´c np.
oczekiwany wynik z egzaminu dla osoby, która otrzymałaby
z kolokwium 18 punktów. Mamy:
ˆ
y
(
x =18)
=
5, 17 + 1, 76 · 18 = 36, 85 ≈ 37 pkt
Nale˙zy jednak pami ˛eta´c, ˙ze przy tego rodzaju przewidywa-
niach mo˙zemy si ˛e myli´c o pewn ˛
a warto´s´c. W celu oceny
skali bł ˛edu obliczamy tzw.
´sredni bł ˛
ad przewidywania
.
Agnieszka Rossa
Przewidywanie na podstawie funkcji regresji
Rozwa˙zmy pierwiastek kwadratowy sumy kwadratów
bł ˛edów SSE podzielony przez liczebno´s´c zbiorowo´sci,
pomniejszon ˛
a o liczb ˛e parametrów funkcji regresji
(w przypadku regresji liniowej jednej zmiennej liczba
parametrów równa jest 2). Mamy:
S
=
r
SSE
n − 2
=
v
u
u
t
1
n − 2
n
X
i=1
(
y
i
− ˆ
y
i
)
2
Powy˙zsze wyra˙zenie nazywamy ´srednim bł ˛edem
przewidywania. W naszym przykładzie S
jest równe:
S
=
r 69, 26
19 − 2
≈ 2, 02
zatem przewiduj ˛
ac wynik z egzaminu na podstawie wy-
znaczonej prostej regresji, mylimy si ˛e ´srednio o ok. 2 pkt.
Agnieszka Rossa
Przewidywanie na podstawie funkcji regresji
Rozwa˙zmy pierwiastek kwadratowy sumy kwadratów
bł ˛edów SSE podzielony przez liczebno´s´c zbiorowo´sci,
pomniejszon ˛
a o liczb ˛e parametrów funkcji regresji
(w przypadku regresji liniowej jednej zmiennej liczba
parametrów równa jest 2). Mamy:
S
=
r
SSE
n − 2
=
v
u
u
t
1
n − 2
n
X
i=1
(
y
i
− ˆ
y
i
)
2
Powy˙zsze wyra˙zenie nazywamy ´srednim bł ˛edem
przewidywania. W naszym przykładzie S
jest równe:
S
=
r 69, 26
19 − 2
≈ 2, 02
zatem przewiduj ˛
ac wynik z egzaminu na podstawie wy-
znaczonej prostej regresji, mylimy si ˛e ´srednio o ok. 2 pkt.
Agnieszka Rossa