STATYSTYKA WYKŁAD
~ ANALIZA KORELACJI I REGRESJI ~
Zależności korelacyjne
Przykłady korelacji
Wstępne wnioski z przedstawionych przykładów
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Średnie arytmetyczne i odchylenie standardowe
- własności współczynnika korelacji liniowej Pearsona
- przykład
- podsumowanie
- korelacja a zależność pozorne – przykład
c) współczynnik korelacji rang Spearmana
- przykład
- własności
d) współczynnik korelacji rangowej Kendalla
- wstęp
- przykłady
- uwagi
Regresja liniowa
Wprowadzenie
Terminologia
Regresja liniowa jednej zmiennej
- założenia
- model
- przykładowe wykresy
- jak obliczyć regresję liniową jednej zmiennej
4. Metoda najmniejszych kwadratów
- jak obliczyć a i b
- Podsumowanie
5. Relacje łączące współczynnik regresji i współczynnik korelacji liniowej Pearsona
- wzory
- wnioski
- przykład
6. Ocena dobroci dopasowania prostej regresji MNK
- wstęp
- wzory
- przykłady
- przewidywanie na podstawie funkcji regresji
Zależności korelacyjne
Przykłady
Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodnicze itp. stwierdzamy niemal zawsze, ze każde z nich jest uwarunkowane działaniem innych zjawisk.
Istnienie związków pomiędzy zjawiskami charakteryzującymi badane zbiorowości bywa często przedmiotem dociekań i eksperymentów naukowych.
Przykład 1: David Buss w publikacji z 2001 roku pt. ”Psychologia ewolucyjna. Jak wytłumaczyć społeczne zachowania człowieka?”, opisał badanie, w którym sprawdzał, czy istnieje związek między szybkością˛ chodzenia a pozycja˛ społeczna˛. Okazało się, że związek ten jest dość wyraźny wśród mężczyzn, natomiast w mniejszym stopniu wśród kobiet.
Przykład 2: Allison i Cicchetti w pracy ”Sleep in mammals” (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujące charakterystyki:
długość snu w ciągu doby (godz./dobę)
maksymalna długości ˙życia (lata),
masa ciała (kg),
masa mózgu (g),
czas trwania ciąży (dni).
Cel badania: Ustalenie, czy istnieją˛ jakiekolwiek zależności pomiędzy wymienionymi charakterystykami, a jeśli tak, to jaka jest siła tych zależności.
Wyniki badań: Bedą˛ przedstawione dalej.
Przykład 3:
Związek pomiędzy waga˛ a wzrostem człowieka próbuje się˛ wyrazić´ za pomocą˛ tzw. wskaźnika BMI (Body Mass Index):
$$BMI = \ \frac{\text{waga}}{{(\ wzrost\ w\ metrach)}^{2}}$$
Przyjmuje się, że wartość´ BMI dla osób z prawidłowa˛ masa˛ ciała zawiera się˛ mniej więcej w przedziale 18, 5 ≤ BMI ≤ 25. Jednak BMI kształtuje się na poziomie indywidualnym dla konkretnych osób i może znacznie przekraczać wartość 25.
Przykład ten wskazuje, że zależność´ między waga˛ a wzrostem nie jest ściśle funkcyjna. Podana formuła opisuje tylko w przybliżeniu tę zależności.
Przy analizie współzależności pomiędzy wzrostem i waga˛ nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podająca wagę˛ y konkretnej osoby z ustalonym wzrostem x.
Mimo tego wydaje się, że ”jakaś” zależność pomiędzy waga˛ i wzrostem istnieje.
Obserwując obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest większa w grupie osób wyższych i na odwrót.
Związek między wagą i wzrostem jest przykładem tzw. związku korelacyjnego, w skrócie – korelacji.
Z korelacją mamy do czynienia wtedy, gdy wraz ze zmiana˛ wartości jednej cechy zmienia się˛ średnia wartość drugiej cechy.
Przykład korelacji wagi i wzrostu
Inne przykłady
Wstępne wnioski z przedstawionych przykładów
Związek korelacyjny można odkryć´ obserwując dużą liczbę przypadków. Nie ujawnia się w pojedynczych obserwacjach.
Zależność korelacyjna może być prostoliniowa (w skrócie – liniowa) lub krzywoliniowa, silna lub słaba.
Na podstawie obserwacji wykresu rozproszenia możemy w przybliżeniu ocenić charakter zależności i jej siłę.
Potrzebujemy miary, która pomogłaby wyrazić siłę zależności w sposób liczbowy
Pomiar siły korelacji liniowej
Współczynnik korelacji liniowej Pearsona
Załóżmy, że między cechami X i Y występuje zależność korelacyjna o charakterze liniowym.
Współczynnikiem służącym do pomiaru siły tego związku jest współczynnik korelacji liniowej Pearsona określony wzorem
$$r = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i}\ - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}\ \bullet \ s_{y}}$$
Gdzie $\overset{\overline{}}{x},\ \ \overset{\overline{}}{y}$ oznaczają średnią arytmetyczne, natomiast sx, sy odchylenia standardowe zmiennych odpowiednio X i Y
Własności współczynnik korelacji liniowej Pearsona
Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [-1, 1].
Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia).
Wartość bezwzględna |r | informuje o sile korelacji liniowej.
W szczególnym przypadku, gdy |r | = 1, wówczas mamy do czynienia z korelacja˛ funkcyjna˛ (tzn. zależność´ Y od X można wyrazić´ za pomocą˛ funkcji Y = aX + b, gdzie a, b są˛ pewnymi stałymi).
Współczynnik r mierzy tylko korelację o charakterze prostoliniowym.
Gdy r = 0, wówczas mówimy, że nie ma korelacji liniowej (ale może być krzywoliniowa).
Współczynniki korelacji liniowej Pearsona. Allison i Cicchetti – Wyniki badań ssaków
macierz współczynników korelacji liniowej Pearsona | masa ciała (kg) | masa mózgu (g) | czas (godz./dobę) | maks. długość życia (lata) | czas ciąży (dni) |
---|---|---|---|---|---|
masa ciała (kg) | 1 | 0,93 | - 0,31 | 0,3, | 0,65 |
masa mózgu (g) | 0,93 | 1 | - 0,36 | 0,51 | 0,75 |
czas (godz./dobę) | - 0,31 | - 0,36 | 1 | - 0,41 | -0,63 |
maks. długość życia (lata) | 0,30 | 0,51 | - 0,41 | 1 | 0,61 |
czas ciąży (dni) |
0,65 | 0,75 | - 0,63 | 0,61 | 1 |
Kilka wybranych uwag podsumowania:
wszystkie cechy są˛ ze sobą˛ wzajemnie powiązane (w mniejszym lub większym stopniu),
można zauważyć silna˛, dodatnia˛ korelacje˛ liniowa˛ między masa˛ mózgu i ciała
umiarkowana, ujemna korelacja liniowa miedzy czasem snu a czasem ˙życia,
dość´ silna korelacja (dodatnia lub ujemna) czasu ciąży z innymi zmiennymi,
Pytanie: Jak opisać´ zależność´ np. czasu ciąży od wszystkich pozostałych zmiennych jednocześnie? Odpowiedzi dostarcza analiza regresji.
Korelacja a zależności pozorne – Przykład
Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci?
Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiędzy powierzchnia˛, liczba˛ mieszkańców, liczba˛ urodzeń oraz liczba˛ bocianów (!)
macierz współczynników korelacji liniowej Pearsona | powierzchnia | liczba bocianów | liczba mieszkańców | liczba urodzeń |
---|---|---|---|---|
powierzchnia | 1 | 0,579 | 0,812 | 0,923 |
liczba bocianów | 0,579 | 1 | 0,354 | 0,620 |
liczba mieszkańców | 0,812 | 0,354 | 1 | 0,851 |
liczba urodzeń | 0,923 | 0,620 | 0,851 | 1 |
Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń.
Pytania:
Czy w krajach, w których jest więcej bocianów rodzi się˛, średnio rzecz biorąc, więcej dzieci? Odpowiedz brzmi – tak, potwierdzają˛ to uzyskane wyniki.
Czy na tej podstawie możemy sadzić, że liczba bocianów oddziałuje na liczbę˛ noworodków (lub odwrotnie)? Odpowiedź brzmi – nie, ponieważ pomiędzy badanymi zmiennymi nie ma bezpośredniej zależności przyczynowo-skutkowej. Jest to przykład zależności pozornej.
Zależność przyczynowo-skutkowa pomiędzy liczba˛ urodzeń i liczba˛ bocianów jest pozorna, gdyż˙ ma tu miejsce jedynie współwystępowanie obu zjawisk (większej liczbie bocianów towarzyszy na ogół większa liczba urodzeń i na odwrót).
Pozorna zależność´ ma miejsce także między liczba˛ urodzeń i powierzchnia˛ kraju.
Układ zależności przyczynowo-skutkowych w tym przykładzie można zilustrować graficznie:
Średnie arytmetyczne i odchylenia standardowe – przypomnienie
Średnie arytmetyczne:
$$\overset{\overline{}}{x} = \ \frac{1}{n}\sum_{i = 1}^{n}x_{i}\ \ \ ,\ \ \overset{\overline{}}{y} = \ \frac{1}{n}\sum_{i = 1}^{n}y_{i}$$
Odchylenia standardowe:
$$s_{x} = \sqrt{\frac{1}{n}\sum_{i = 1}^{k}{\left( \ x_{i} - \ \overset{\overline{}}{x}\ \right)^{2}\text{\ \ }}}\ \ ,\ \ s_{y} = \sqrt{\frac{1}{n}\sum_{i = 1}^{k}{\left( \ y_{i} - \ \overset{\overline{}}{y}\ \right)^{2}\text{\ \ }}}$$
współczynnik korelacji rang Spearmana
Przykład 1
Przypuśćmy, że porządkujemy 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynając od studenta najlepszego, któremu przydzielamy numer 1, a kończąc na studencie najsłabszym, któremu przydzielamy numer 4 (ocenę zdolności powierzamy np. ekspertowi).
Mówimy wówczas, że studenci zostali uporządkowani w kolejności rang, a numer studenta jest jego ranga˛.
Oznaczmy rangi poszczególnych studentów przez ai . Przykładowo, niech: a1 = 4 ,
a2 = 2, a3 = 3, a4 = 1, co oznacza, iż w badanej grupie, ustawionej w kolejności alfabetycznej, pierwszy student (oznaczmy go umownie litera˛ A) jest najsłabszy, student B – dobry, student C – słaby, a student D – najlepszy.
Przykład 2
Załóżmy, że w podobny sposób uporządkowaliśmy tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech bi będą˛ rangami poszczególnych studentów: b1 = 2,b2 = 1, b3 = 3, b4 = 4
W ten sposób każdemu studentowi przyporządkowaliśmy po dwie rangi ai oraz bi .
Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje zależność między zdolnościami matematycznymi oraz muzycznymi w badanej grupie. Innymi słowy, jak ocenić stopień zgodności (lub niezgodności) rang ai, bi?
Uwaga: W przypadku danych rangowych nie możemy zastosować współczynnika korelacji Pearsona.
Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem
$$r_{s} = 1 - \ \frac{6\sum_{i = 1}^{n}d_{i}^{2}}{n\left( n^{2} - 1 \right)}$$
Gdzie di = ai − bi
Własności:
Współczynnik rS przyjmuje wartości z przedziału [-1, 1].
Wartość rS = 1 oznacza, że istnieje całkowita zgodność uporządkowań wg rang ai i bi .
Wartość rS = -1 oznacza z kolei pełna˛ przeciwstawność uporządkowań między rangami.
Wartość rS = 0 oznacza brak korelacji rang.
Przykład 3
Student | rangi ai | rangi bi | różnice rang di | di2 |
---|---|---|---|---|
A B C D |
4 2 3 1 |
2 1 3 4 |
2 1 0 -3 |
4 1 0 9 |
Razem | x | x | x | 14 |
Wartość współczynnika korelacji rang Spearmana w tym przykładzie wynosi:
$$r_{s} = 1 - \ \frac{6\ \bullet 14}{4\left( 16 - 1 \right)} = \ - 0,4$$
co świadczy o stosunkowo słabej korelacji między zdolnościami matematycznymi i muzycznymi badanych studentów.
Współczynnik korelacji rangowej Kendalla
Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla.
Załóżmy, ˙ze obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości.
Jednostki zbiorowości łączymy w dwuelementowe podzbiory.
Dla n-elementowej zbiorowości można utworzyć´ łącznie N = n(n-1) takich podzbiorów (tj. uporządkowanych par).
Współczynnik korelacji Kendalla obliczamy na podstawie zbiorowości dwuelementowych podzbiorów, utworzonych z elementów zbioru wyjściowego.
Niech Uj dla j = 1,2,…..,N będą˛ zmiennymi przyjmującymi wartości 1 lub -1, zgodnie z następującymi zasadami:
Uj = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest większa niż dla drugiego elementu.
Uj = -1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest mniejsza niż dla drugiego elementu.
W podobny sposób zdefiniujmy zmienne Vj dla j = 1,2,…..,N, odwołując się˛ do analogicznego sposobu uporządkowań wartości cechy Y w poszczególnych parach.
Uwaga: Dalej zakładać będziemy, ˙ze zarówno wartości cechy X, jak i cechy Y nie powtarzają˛ się˛ w badanej zbiorowości (w przeciwnym przypadku trzeba skorzystać z pewnej skorygowanej formuły na współczynnik Kendalla, która tutaj nie będzie przytoczona).
Przykład 1
Niech P oznacza liczb ˛e przypadków (par) zgodnie uporządkowanych, tj. liczbę˛ par, dla których wartości Uj są˛ równe Vj .
Podobnie, niech Q oznacza liczb ˛e przypadków (par) niezgodnie uporządkowanych, tj. liczbę˛ par, dla których wartości Uj oraz Vj są˛ przeciwnego znaku.
Przy tych oznaczeniach współczynniki korelacji Kendalla wyraża się wzorem:
$$\tau = \ \frac{P - Q}{n(n - 1)}$$
Podobnie, jak współczynnik korelacji Spearmanna, współczynnik τ(tau) przyjmuje zawsze wartości z przedziału [-1, 1]. Jest również podobnie interpretowany.
Przykład 2
Wróćmy do przykładu dotyczącego zdolności matematycznych i muzycznych grupy studentów (A,B,C,D). W tym przykładzie można utworzyć´ łącznie 4(4- 1)=12 dwuelementowych podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna tablicy).
Dalsze kolumny prezentują˛ uporządkowane w parach wartości cech, w tym przypadku rang ai oraz bi , a także wartości Uj , Vj .
Pary studentów | ai dla pierwszej i drugiej osoby w parze | uporządkowanie Uj | bi dla pierwszej i drugiej osoby w parze | uporządkowanie Vj |
---|---|---|---|---|
(A,B) (A,C) (A,D) (B,A) (B,C) (B,D) (C,A) (C,B) (C,D) (D,A) (D,B) (D,C) |
4; 2 4; 3 4; 1 2; 4 2; 3 2; 1 3; 4 3; 2 3; 1 1; 4 1; 2 1; 3 |
1 1 1 -1 -1 1 -1 1 1 -1 -1 -1 |
2; 1 2; 3 2; 4 1; 2 1; 3 1; 4 3; 2 3; 1 3; 4 4; 2 4; 1 4; 3 |
1 -1 -1 -1 -1 -1 1 1 -1 1 1 1 |
Liczba P przypadków (par) zgodnie uporządkowanych w naszym przykładzie wynosi P = 4 (oznaczone w tablicy kolorem niebieskim).
Z kolei liczba Q przypadków (par) niezgodnie uporządkowanych wynosi Q = 8 (oznaczone w tablicy kolorem czerwonym).
Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi:
$$\tau = - \ \frac{4}{12}\ \approx \ - 0,33$$
co wskazuje na słaba˛ korelacje˛ między zdolnościami matematycznymi i muzycznymi w badanej grupie studentów (podobna wartość, jak współczynnika rS).
Uwagi
Zauważymy, że jeśli dla pewnej pary elementów, np. (A,B) wartość Uj wynosi 1, to dla pary (B,A) musi być Uj = -1.
Oznacza to, że zamiast badać zbiorowość wszystkich podzbiorów dwuelementowych, wśród których niektóre pary składają˛ się˛ z tych samych elementów, a różnią się˛ jedynie ich kolejnością˛ (np. (A,B) i (B,A) lub (A,C) i (C,A) itd.), można odgraniczyć rozwiązania do mniejszej zbiorowości par, w której podzbiór o określonych elementach występuje tylko raz.
Jednak w takiej zbiorowości liczba wszystkich możliwych par byłaby równa $\frac{n(n - 1)}{2}$ , a wartości P i Q byłyby o połowę mniejsze, a więc wzór na współczynnik przyjąłby postać:
$$\mathbf{\tau = \ }\frac{\mathbf{2(}\mathbf{P}^{\mathbf{'}}\mathbf{- \ }\mathbf{Q}^{\mathbf{'}}\mathbf{)}}{\mathbf{n}\left( \mathbf{n - 1} \right)}\mathbf{\ \ \ ,\ gdzie\ \ \ \ \ \ }\mathbf{P}^{\mathbf{'}}\mathbf{= \ }\frac{\mathbf{1}}{\mathbf{2}}\mathbf{P,\ \ }\mathbf{Q}^{\mathbf{'}}\mathbf{= \ }\frac{\mathbf{1}}{\mathbf{2}}\mathbf{Q}$$
Analiza regresji
Wprowadzenie
Jak już˙ wcześniej wspomniano, na ogół powiązania pomiędzy cechami (zmiennymi) nie maja˛ charakteru matematycznego, który dałoby się zapisać jednoznacznie w postaci: Y = f (X1,X2,….Xs) gdzie f oznacza pewna˛ funkcje˛ opisująca˛ zależność´ zmiennej Y od zmiennych X1,X2,….Xs
Zapis taki oznaczałby, że zależność pomiędzy Y a pozostałymi cechami jest ściśle funkcyjna, tj. konkretnym wartościom obserwowanych cech X1,X2,….Xs odpowiada dokładnie jedna wartość cechy Y.
W przypadku zjawisk społecznych, ekonomicznych, przyrodniczych itp. zależności funkcyjne rzadko występują, częściej natomiast występują˛ zależności korelacyjne.
W statystyce zależności o charakterze korelacyjnym pomiędzy zmienna˛ Y a pewnym zespołem zmiennych X1,X2,….Xs wyraża się często w postaci zbliżonej do przedstawionej powyżej, ale z pewna˛ istotna˛ zmiana˛. Mianowicie:
Y = f (x1, x2, ….xs) + ϵ
x1, x2, ….xs reprezentuja˛ tu konkretne (ustalone) wartości zmiennych X1,X2,….Xs
ϵ jest składnikiem losowym reprezentującym sumaryczny (nieobserwowany) wpływ innych czynników
Dołączenie składnika losowego ϵ powoduje, że konkretnym wartościom x x1, x2, ….xs mogą˛ odpowiadać´ nie takie same, ale różne wartości zmiennej Y.
Terminologia
Zmienna objaśniana (zmienna zależna) – zmienna będąca przedmiotem badania. Na ogół oznaczamy ja˛ symbolem Y.
Zmienne objaśniające (zmienne niezależne) – zmienne, za pomocą˛ których chcemy objaśnić´ zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X1,X2,….Xs
Funkcja regresji – funkcja odwzorowująca zależność pomiędzy zmienna˛ objaśnianą Y a zmiennymi objaśniającymi.
W przypadku wielu zmiennych objaśniających mówimy o regresji wielorakiej, natomiast w przypadku jednej zmiennej objaśniającej – o regresji jednej zmiennej.
Regresja liniowa jednej zmiennej
Dalej przyjmiemy następujące założenia:
Składnik losowy ϵ ma wartość średnią równą 0 i pewna˛ dodatnia˛ wariancje˛ oznaczana˛ symbolem δ2.
Mamy tylko jedna˛ zmienna˛ objaśniająca˛ X.
Funkcja f należy do klasy funkcji liniowych.
Model regresji liniowej:
Przy podanych założeniach, zależność pomiędzy cechami Y i X możemy zapisać w postaci Y = a + bx + ϵ gdzie a i b sa˛ pewnymi parametrami.
Model ten nazywamy modelem regresji liniowej jednej zmiennej. Parametry a i b nazywamy odpowiednio wyrazem wolnym i współczynnikiem regresji.
Funkcję f (x) = a + bx nazywamy prosta˛ regresji.
Podstawowym problemem, jaki pojawia się przy wyznaczaniu równania prostej regresji, która opisywałaby możliwie wiernie zależności pomiędzy konkretnymi zmiennymi Y i X, jest określenie liczbowych wartości parametrów a i b.
Dokonujemy tego na podstawie obserwacji wartości cech Y i X w badanej zbiorowości, stosując tzw. metodę˛ najmniejszych kwadratów MNK.
Przykłady
Regresja liniowa jednej zmiennej - Przykład – jak wyznaczyć prostą regresji?
W tym przykładzie chcielibyśmy, żeby prosta najlepiej przybliżała dana chmurę punktów, czyli by wartości różnic$\text{\ yi} - \ \hat{y_{i}}$ (tzw. wartości resztowe lub inaczej – wartości składnika losowego) były jak najmniejsze dla wszystkich badanych jednostek.
Jak łatwo zauważać, przesunięcie prostej w kierunku jednego z punktów może spowodować odsunięcie od innych punktów. Tak wiec postulat, aby jednocześnie minimalizować wszystkie wartości resztowe nie jest możliwy do realizacji.
Jako kryterium dopasowania prostej regresji do danych empirycznych przyjmuje się minimalizację sumy kwadratów wartości resztowych.
Niech (y1, x1), (y2, x2),……, (yn,xn); będzie n-elementowym zbiorem wartości zmiennych Y i X.
Rozważmy sumę kwadratów wartości resztowych
$$\sum_{i = 1}^{n}\left( y_{i} - \ \hat{\text{yi}} \right)^{2}$$
lub równoważnie
$$\sum_{i = 1}^{n}\left( y_{i} - \ \left( a + bx_{i} \right) \right)^{2}\text{\ \ \ }$$
która˛ oznaczymy symbolem S(a, b).
Funkcję regresji, dla której wartości parametrów a, b wyznaczone zostały w drodze minimalizacji sumy S(a, b) nazywamy prosta˛ regresji MNK i oznaczamy przez y^.
Metoda najmniejszych kwadratów - Trochę matematyki, czyli jak obliczyć a i b
Po zróżniczkowaniu sumy S(a, b) względem a i b i przyrównaniu obu pochodnych cząstkowych do 0, mamy
$$\frac{\partial S\left( a,b \right)}{\partial a} = \ - 2\sum_{i = 1}^{n}\left( y_{i} - \ \left( a + bx_{i} \right) \right) = 0$$
$$\frac{\partial S(a,b)}{\partial b} = \ - 2\sum_{i = 1}^{n}{x_{i}\left( y_{i} - \left( a + bx_{i} \right) \right)} = 0$$
Zapisując inaczej, mamy układ dwóch równań
$$\sum_{i = 1}^{n}{y_{i} - na - b\sum_{i = 1}^{n}{x_{i} = 0}}$$
$$\sum_{i = 1}^{n}{x_{i}y_{i} - a\sum_{i = 1}^{n}{x_{i} - b\sum_{i = 1}^{n}x_{i}^{2}}} = 0$$
Z pierwszego równania natychmiast otrzymujemy, że
$$a = \ \frac{1}{n}\ \left( \sum_{i = 1}^{n}y_{i} - b\sum_{i = 1}^{n}x_{i} \right) = \ \overset{\overline{}}{y} - b\overset{\overline{}}{x}$$
Po wstawieniu powyższego wyrażenia do drugiego równania mamy także
$$\sum_{i = 1}^{n}{x_{i}y_{i} - \ \left( \overset{\overline{}}{y} - b\overset{\overline{}}{x} \right)}\sum_{i = 1}^{n}{x_{i} - b\sum_{i = 1}^{n}{x_{i}^{2} = 0}}$$
co po przekształceniach daje
$$b = \ \frac{\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{\sum_{i = 1}^{n}\left( x_{i} - \ \overset{\overline{}}{x} \right)^{2}}$$
Podsumowanie
Równanie prostej regresji MNK $\hat{y}$= a + bx znajdziemy, obliczając wyraz wolny a oraz współczynnik regresji b, które są˛ określone następującymi wzorami
$$a = \ \overset{\overline{}}{y} - b\overset{\overline{}}{x}$$
$$b = \ \frac{\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{\sum_{i = 1}^{n}\left( x_{i} - \ \overset{\overline{}}{x} \right)^{2}}$$
lub równoważnie
$$b = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}^{2}}$$
gdzie
(y1, x1), (y2, x2),……, (yn, xn) są˛ wartościami zmiennych Y i X w badanej zbiorowości.
Relacja łącząca współczynnik regresji i współczynnik korelacji liniowej Pearsona
Porównajmy wzory na współczynnik regresji b oraz współczynnik korelacji liniowej Pearsona r :
$b = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}^{2}}\text{\ \ \ \ \ \ \ \ \ \ }$ $r = \ \frac{\frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i} - \ \overset{\overline{}}{x} \right)\left( y_{i} - \ \overset{\overline{}}{y} \right)}}{s_{x}\ \bullet \ s_{y}}$
Wniosek 1: Pomiędzy współczynnikami b i r zachodzi równość
$$b = r\ \bullet \ \frac{s_{y}}{s_{x}}$$
Wniosek 2: Współczynniki b i r maja˛ zawsze ten sam znak, przy czym współczynnik b nie musi należeć do przedziału [-1, 1], w przeciwieństwie do współczynnika r korelacji liniowej Pearsona.
Regresja liniowa jednej zmiennej - Przykład
Ocena ”dobroci” dopasowania prostej regresji MNK
Jak wiemy, zmienność każdej cechy ilościowej, a więc również zmiennej objaśnianej Y, możemy oceniać np. za pomocą˛ wariancji sy2
$$s_{y}^{\ 2} = \ \frac{1}{n}\sum_{i = 1}^{n}\left( y_{i} - \ \overset{\overline{}}{y} \right)^{2}$$
gdzie y1, y2,…….,yn jest n-elementowym zbiorem zaobserwowanych wartości tej zmiennej.
Pomijając składnik $\frac{1}{n}\text{\ \ \ }$w powyższym wyrażeniu, otrzymujemy wzór na tzw. całkowita˛ sumę˛ kwadratów
$$SST = \ \sum_{i = 1}^{n}\left( y_{i} - \ \overset{\overline{}}{y} \right)^{2}$$
Można pokazać, że SST daje się rozbić na dwie sumy, które także interpretujemy w kategoriach zmienności.
Mianowicie
$$SST = \ \sum_{i = 1}^{n}\left( y_{i} - \ \hat{y_{i}} \right)^{2} + \ \sum_{i = 1}^{n}\left( \hat{y_{i}} - \ \overset{\overline{}}{y} \right)^{2}$$
Gdzie $\hat{y_{i}} = a + bx_{i}$
Pierwszy ze składników nosi nazwę sumy kwadratów błędów, ponieważ˙ jest suma˛ kwadratów wartości resztowych. Jest oznaczany przez SSE. Drugi składnik nosi miano regresyjnej sumy kwadratów i jest oznaczany symbolem SSR.
Suma SSR jest częścią zmienności całkowitej SST, która˛ można objaśnić´ za pomocą˛ regresji między zmienna˛ objaśniana˛ Y i zmienna˛ objaśniająca˛ X.
Z kolei sumę SSE traktujemy jako tę część zmienności SST, która nie jest wyjaśniona przez model regresji.
Iloraz
$$R^{2} = \ \frac{\text{SSR}}{\text{SST}} = \ \frac{\sum_{i = 1}^{n}\left( \hat{y_{i}} - \ \overset{\overline{}}{y} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - \ \hat{y_{i}} \right)^{2}}$$
jest nazwany współczynnikiem determinacji.
R2 jest miara˛ stopnia dopasowania funkcji regresji do danych empirycznych.
W przypadku regresji liniowej jednej zmiennej współczynnik determinacji R2 równy jest kwadratowi współczynnika korelacji liniowej Pearsona.
Przewidywanie na podstawie funkcji regresji
Funkcję regresji można wykorzystać do przewidywania wartości zmiennej objaśnianej Y na podstawie znanych wartości zmiennej objaśniających (ekstrapolacja).
Tego rodzaju przewidywanie ma sens przy założeniu, ˙ze charakter zależności i oddziaływania czynników nie uwzględnionych w modelu są˛ podobne do zaobserwowanych w badanej zbiorowości.
W naszym przykładzie otrzymaliśmy prosta˛ regresji: $\hat{y}$ = 5, 17 + 1, 76* x Na tej podstawie możemy ocenić np. oczekiwany wynik z egzaminu dla osoby, która otrzymałaby z kolokwium 18 punktów. Mamy:
$${\hat{y}}_{(x = 18)}\ = \ 5,\ 17\ + \ 1,76 \bullet 18\ = \ 36,\ 85\ \approx 37\ pkt$$
Należy jednak pamiętać, ˙ze przy tego rodzaju przewidywaniach możemy się˛ mylić o pewna˛ wartość´. W celu oceny skali błędu obliczamy tzw. średni błąd przewidywania.
Rozważmy pierwiastek kwadratowy sumy kwadratów błędów SSE podzielony przez liczebność zbiorowości, pomniejszona˛ o liczbę˛ parametrów funkcji regresji (w przypadku regresji liniowej jednej zmiennej liczba parametrów równa jest 2). Mamy:
$$S_{\varepsilon} = \ \sqrt{\frac{\text{SSE}}{n - 2}} = \ \sqrt{\frac{1}{n - 2}\frac{1}{n - 2}\sum_{i = 1}^{n}\left( y_{i} - \ \hat{y_{i}} \right)^{2}}$$
Powyższe wyrażenie nazywamy średnim błędem przewidywania. W naszym przykładzie Sε jest równe:
$$S_{\varepsilon} = \ \sqrt{\frac{69,26}{19 - 2}\ \approx 2,02}$$
zatem przewidując wynik z egzaminu na podstawie wyznaczonej prostej regresji, mylimy się średnio o ok. 2 pkt.