background image

ROZDZIAŁ 11 

PODSTAWY KORELACJI I REGRESJI 

I. Pojęcia wstępne 

Prezentowane dotychczas metody statystyczne dotyczyły analizy struktury zbiorowości 
i opierały się na obserwacjach jednej zmiennej. Wiemy jednak, że w wielu przypadkach do 
poznania całokształtu zagadnienia potrzebna jest analiza zbiorowości z punktu widzenia 
kilku cech, które często pozostają ze sobą w pewnym związku. Często słyszymy zdanie: 
„Rak płuc powiązany jest z paleniem papierosów". Mówi ono, że im więcej papierosów się 
pali, tym jest bardziej prawdopodobne, że zachoruje się na raka. Mówimy, że im więcej 

jednego, tym więcej drugiego. Zamiast używać nieprecyzyjnych słów, takich jak „więcej" 

lub „mało", statystycy wolą oceniać rzeczy używając liczb. Tak została wymyślona 
matematyczna technika korelacji jako narzędzie służące do dokładnego określenia stopnia, 
w jakim dwie zmienne są ze sobą powiązane. Podstawowym problemem statystyki 
w takich badaniach jest stwierdzenie, czy między zmiennymi .zachodzi jakiś związek, jakaś 
zależność i czy związek jest bardziej czy mniej ścisły. 

Uwzględniając ilość zmiennych otrzymamy cztery odmiany zależności: 
• Zmienna zależna jednowymiarowa oraz jedna zmienna niezależna. 
• Zmienna zależna jednowymiarowa oraz wiele zmiennych niezależnych. 
• Zmienna zależna wielowymiarowa oraz jedna zmienna niezależna. 
• Zmienna zależna wielowymiarowa oraz wiele zmiennych niezależnych. 

Jeśli chodzi o postać zależności, to możemy mówić o dwóch odmianach: 

• zależność liniowa (sytuacja [1] i [2] na rysunku 11.1), 
• zależność krzywoliniowa (sytuacja [4] na rysunku 11.1). 

W tym rozdziale zajmiemy się zależnością liniową między jedną zmienną niezależną 
i jednowymiarową zmienną zależną. 

W wielu doświadczeniach biologicznych i medycznych należy ustalić i ocenić 

powiązania badanej zmiennej losowej Y od innych zmiennych. Interesuje nas siła, kształt 
i kierunek tego powiązania. Dwie zmienne mogą być pomiędzy sobą powiązane 
zależnością funkcyjną lub zależnością statystyczną (korelacyjną). Związek funkcyjny 
odznacza się tym, że każdej wartości jednej zmiennej niezależnej (będziemy ją oznaczać 
X) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej zależnej (oznaczamy 

ją przez Y). Wiadomo np., że obwód kwadratu jest funkcją jego boku (0=4a). 

Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej 

odpowiadają ściśle określone średnie wartości drugiej zmiennej. Można zatem obliczyć, jak 
zmieni się - średnio biorąc - wartość zmiennej zależnej Y w zależności od wartości 
zmiennej niezależnej X. Oczywiście najpierw na podstawie analizy merytorycznej należy 
uzasadnić logiczne występowanie związku, a dopiero potem przystąpić do określenia siły 

203 

background image

Przystępny kurs statystyki 

i kierunku zależności. Znane są bowiem w literaturze przykłady badania - nawet istotnej 
statystycznie - zależności np. między liczbą zajętych gniazd bocianich a liczbą urodzeń na 
danym obszarze, czy między liczbą zarejestrowanych odbiorników TV a liczbą chorych 
umysłowo. Zwróćmy też uwagę, że liczbowe stwierdzenie występowania współzależności 
nie zawsze oznacza występowanie związku przyczynowo-skutkowego między badanymi 
zmiennymi. Współwystępowanie dwóch zjawisk może również wynikać z bezpośredniego 
oddziaływania na nie jeszcze innego, trzeciego zjawiska. 

Prostym sposobem wykrywania związku korelacyjnego między badanymi cechami 

jest obserwacja szeregów statystycznych, które zawierają informacje o tych cechach. 

Wykresy, które reprezentują obrazowo związek pomiędzy zmiennymi, nazywane 

są wykresami rozrzutu (Scatterplot). Analizę zależności powinno się rozpoczynać od ich 
sporządzenia. Wzrokowa ocena umożliwia często określenie siły i rodzaju zależności. 

© - korelacja liniowa dodatnia © - korelacja liniowa ujemna 

® - brak korelacji ©- korelacja krzywoliniowa 

Rys. 11.1 Korelacyjne wykresy rozrzutu 

Przyjmijmy, że zbiorowość jest badana ze względu na dwie zmienne X i Y, a realizacje 
tych zmiennych w populacji lub próbie n-elementowej zestawione są w postaci dwóch 
szeregów szczegółowych lub rozdzielczych. W prostokątnym układzie współrzędnych na 
osi odciętych zaznaczamy zmienną niezależną a na osi rzędnych wartości zmiennej 
zależnej. Punkty, odpowiadające poszczególnym wartościom cech, tworzą korelacyjny 
wykres rozrzutu. Rzadko zdarza się, że zaznaczone punkty leżą dokładnie na linii prostej 
(pełna korelacja), częściej spotykana konfiguracja składa się z wielu zaznaczonych 
punktów leżących mniej więcej wzdłuż konkretnej krzywej (najczęściej linii prostej). Taka 
sytuacja przedstawiona jest jako przypadek [1] i [2] na rysunku 11.1. Gdy korelacja staje 
się coraz mniej doskonała, wówczas punkty zaczynają się rozpraszać i przesuwać, aż do 
kolistego tworu (brak korelacji). Taka sytuacja występuje w przypadku [3] na rysunku 

11.1. 

204 

background image

Podstawy korelacji i regresji 

Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada 
wzrost średnich wartości drugiej cechy (przypadek [1] na rysunku). 

Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej cechy 

odpowiada spadek średnich wartości drugiej cechy (przypadek [2] na rysunku). 

Natężenie (siłę) współzależności dwóch zmiennych można wyrazić liczbowo za 

pomocą wielu mierników. Najbardziej popularny jest współczynnik korelacji liniowej 
Pearsona. Współczynnik ten (oznaczony symbolem r

x y

 i przyjmujący wartości z przedziału 

[-1, 1]) jest miernikiem siły związku prostoliniowego między dwiema cechami 

mierzalnymi. 

Wzór na współczynnik korelacji liniowej Pearsona jest wyznaczony przez standaryzację 
kowariancji i ma postać: 

Znak współczynnika korelacji informuje nas o kierunku korelacji, natomiast jego 
bezwzględna wartość - o sile związku. Mamy oczywiście równość r

 xy

 = r

  y x

. Gdy r

 xy

 = |1| 

to zależność korelacyjna przechodzi w zależność funkcyjną (funkcja liniowa). Jeśli 
natomiast  r

x y

 = 0, oznacza to zupełny brak związku korelacyjnego między badanymi 

zmiennymi X i Y (przypadek [3] na rysunku). Ograniczeniem jego jest natomiast warunek 
liniowości. 

W analizie statystycznej zwykle przyjmuje się następującą skalę: 
a) r

 xy

 = 0 zmienne nie są skorelowane 

b)  0 < r

x y

< 0 , l korelacja nikła 

c) 0,l  r

x y

< 0 , 3 korelacja słaba 

d) 0,3 r

 xy

 < 0,5 korelacja przeciętna 

e) 0,5 r

 xy

 < 0,7 korelacja wysoka 

f) 0,7 r

 xy

 < 0,9 korelacja bardzo wysoka 

g) 0,9 r

 xy

 < 1 korelacja prawie pełna 

205 

background image

Przystępny kurs statystyki 

Przykład 1 
Z

 populacji dzieci i młodzieży wybrano losowo próbę 15-osobową i określono następujące 

dane -x

i

 wiek w latach, y

i

; wzrost w centymetrach. Otrzymano następujące dane: 

x

i

 - 7 8 9 10 11 11,5 12 13 14 15 16 17 18 18,5 19 

y

i

 - 120 122 125 131 135 140 142 145 150 154 159 162 164 168 170 

Współczynnik korelacji Pearsona obliczony dla tego przykładu wynosi r

x y

 = 0,99369 

Następujący rysunek pokazuje wykres rozrzutu dla tej grupy: 

Rys. 11.2 Wykres rozrzutu 

II. Funkcja regresji 

Wprowadzimy teraz pojęcie funkcji regresji jako narzędzie do badania mechanizmu 
powiązań między zmiennymi. Funkcja regresji to analityczny wyraz przyporządkowania 
średnich wartości zmiennej zależnej konkretnym wartościom zmiennej niezależnej. Wybór 
analitycznej postaci funkcji regresji (liniowa, nieliniowa) nie jest sprawą łatwą. Decyzje 
należy podejmować na podstawie wstępnej analizy materiału statystycznego, wykresu 
rozrzutu oraz na podstawie źródeł pozastatystycznych dotyczących badanej dziedziny 
zjawiska. Najprostsze i najczęściej spotykane zależności między zmiennymi to te, które 
mają postać liniową. Krzywe regresji będące liniami prostymi nazywamy prostymi regresji. 
Mają one następującą postać: 

206 

Parametry równania regresji z próby szacuje się klasyczną metodą najmniejszych 
kwadratów. 

Metoda najmniejszych kwadratów (MNK) polega na takim oszacowaniu 

parametrów funkcji (1), by dla danych z próby spełniony był warunek: 

background image

Podstawy korelacji i regresji 

wyznaczone na podstawie równania (1). 

Wykorzystując (2) otrzymujemy wzory: 

Parametry a

x

, a

y

 noszą nazwę parametrów regresji. Parametr b

y

 to wyraz wolny (constant, 

intercept) równania regresji. Wyrażenie a

y

 jest estymatorem współczynnika regresji 

liniowej (slope) i określa o ile jednostek przeciętnie wzrośnie (lub zmaleje, gdy a

y

 < 0) 

wartość zmiennej zależnej, gdy wartość zmiennej niezależnej wzrośnie o jedną jednostkę. 

Rys. 11.3 Wykres rozrzutu wraz z 95% przedziałem ufności 

Ze względu na prostą, logiczną interpretację współczynnik ten ma duże znaczenie 
praktyczne. Powyższy rysunek pokazuje - dla rozpatrywanego przykładu - wykres prostej 
regresji wagi osoby badanej względem wieku z 95 % przedziałem ufności (zaznaczonym 
przerywanymi liniami). 

Rachunek korelacji i regresji może dotyczyć zbiorowości generalnej lub wyników prób 
losowych pobranych z populacji generalnych. W pierwszym przypadku mamy do czynienia 
z opisem statystycznym, a w drugim z wnioskowaniem statystycznym. Wnioskowanie 

207 

wyrażenie 

ma osiągnąć minimum (2), 

gdzie y

i

 oznaczają wartości empiryczne zmiennej Y, a 

wartości teoretyczne 

background image

Przystępny kurs statystyki 

ufności. Obszar między nimi to obszar ufności dla prostej regresji. Przykładowy 95 % (p = 
0,95) przedział ufności pokazany jest na rysunku powyżej (rys. 11.3). 

Teraz zajmiemy się wnioskowaniem mającym zastosowanie w analizie współzależności 
zmiennych. Nasuwa się bowiem pytanie, czy korelacja stwierdzona w próbie ma także 
miejsce w populacji, z której pobrano próbę. W ocenie stwierdzenia faktu - czy istniejąca 
zależność między X i Y w próbie jest tylko przypadkowa, czy też jest prawidłowością 
w populacji - pomoże nam test istotności współczynnika korelacji Pearsona. 

Test istotności współczynnika korelacji Pearsona 

Przykład 2 
Sprawdźmy istotność statystyczną korelacji wyliczonej dla grupy 15-osobowej z przykładu 

1 na poziomie istotności p = 0,01. 

Obliczamy wartość statystyki testu istotności dla małej próby, otrzymując 

208 

statystyczne daje bowiem podstawy do uogólnienia otrzymanych wyników. Wnioskowanie 
statystyczne o właściwościach populacji obejmuje dwa główne zagadnienia: estymację 
parametrów populacji oraz weryfikację hipotez statystycznych. Pełniejszą informację o linii 
regresji otrzymamy, konstruując przedział ufności (linia przerywana na rysunku 11.3). 

Wyliczone w ten sposób granice ufności są różne dla różnych x, ulegają 

rozszerzeniu, gdy wartości X

i

 oddalają się od 

Otrzymujemy w ten sposób dwie krzywe 

Dla poziomu istotności p= 0,01 oraz 15-2 = 13 

background image

Podstawy korelacji i regresji 

stopni swobody odczytujemy z tablic rozkładu Studenta wartość krytyczną t

0,01

 = 3,012. Ze 

względu na to, że t = 45,236 > t

0,01

 =3,012, hipotezę zerową z 1 % błędem należy odrzucić. 

III. A jak to się liczy w programie STATISTICA 

W programie STATISTICA do analizy korelacji służy opcja Macierze korelacji w module 
PODSTAWOWE STATYSTYKI I TABELE. Po wybraniu tej opcji i naciśnięciu OK 
(lub po dwukrotnym kliknięciu na nazwie opcji) otwiera się okno Współczynnik korelacji 
liniowej Pearsona
 przedstawione na poniższym rysunku. 

Rys. 11.4 Okno dialogowe Współczynnik korelacji liniowej Pearsona 

Na górze okna mamy dwa przyciski dla określenia sposobu wprowadzania danych. 
• Pierwszy - Jedna lista zmiennych - otwiera pojedyncze okno do wyboru zmiennych. 

Dla wybranych zmiennych obliczana jest kwadratowa macierz korelacji (podaje 
korelację każdej pary zmiennych). 
Macierz aż do rozmiarów 500x500 może być obliczana w tym module. 

• Drugi - Dwie listy zmiennych - otwiera dwa okna do wyboru zmiennych. Dla 

wybranych zmiennych obliczana jest prostokątna macierz korelacji (podawana jest 
korelacja każda zmienna z pierwszej listy z każdą ze zmiennych z drugiej listy). 
Dokładne opisanie sposobu wyboru zmiennych do analizy znajdziemy w rozdziale 
trzecim. 

Opcja Zapisz macierz umożliwia zapisanie pod wybraną nazwą w dowolnym katalogu na 
dysku lub dyskietce otrzymanej macierzy korelacji. Po wybraniu tej opcji pojawia się okno 
dialogowe, w którym podajemy, gdzie i pod jaką nazwą chcemy zapisać macierz korelacji. 

209 

background image

Przystępny kurs statystyki 

Poniżej mamy dwie grupy opcji Wyniki i Opcje umożliwiają one określenie co i jak 
będzie wyświetlanie w arkuszu wyników. Grupa Opcje umożliwia wybór następujących 
opcji: 
• Usuwanie BD przypadkami - jeśli to pole jest wybrane, wtedy do analizy brane są 

tylko te przypadki, które mają kompletne dane dla wszystkich wybranych zmiennych. 
Jeśli ta opcja nie jest wybrana, wtedy każda korelacja jest obliczana dla wszystkich 
przypadków, które mają kompletne dane dla poszczególnych par zmiennych. 
Przykładowo niech zmienne v1, v2, v3 mają odpowiednio po n = 8, 10, 10 przypadków. 
Wówczas przy obliczaniu macierzy korelacji, korelacja między zmiennymi v1 i v2 jest 
obliczana dla 8 przypadków, a korelacja między zmiennymi v2, v3 dla 10 przypadków. 

• Pokaż długie nazwy zmiennych - jeśli ta opcja jest wybrana, wtedy w arkuszu 

wyników w pierwszej kolumnie obok nazwy zmiennej wyświetlana jest dodatkowo 
etykieta zmiennej (krótki nasz komentarz). 

• Obliczenia zwiększonej precyzji - wybranie tej opcji włącza rozszerzoną precyzję 

obliczeń. Wybieramy tę opcję, kiedy dla jednej lub większej liczby zmiennych stosunek 
odchylenia standardowego do średniej jest mniejszy od 0,0000000000001. 

Grupa Wyniki umożliwia wybór jednego z trzech sposobów prezentowania wyników 
obliczeń: 
• Macierz kor. (podświetl p) - wyświetlana jest tylko macierz korelacji. 
• Macierz kor. (pokaż p i N) - wyświetlane są współczynniki korelacji wraz 

z odpowiednimi poziomami istotności. Jeśli opcja Usuwanie BD przypadkami nie 
była wybrana, to dodatkowo zostają pokazane liczebności przypadków (N), jak widać 
to na poniższym przykładzie. 

Rys. 11.5 Okno z wynikami 

• Dokładna tabela wyników - wyświetlona jest pełna informacja o przeprowadzonej 

analizie. Poniższy rysunek pokazuje przykładową tablicę wyników dla dwóch 
zmiennych wraz z objaśnieniami poszczególnych pól tabeli. 

210 

background image

Podstawy korelacji i regresji 

211 

Rys. 11.6 Okno z wynikami - opcja Dokładna tabela wyników 

[ 1 ]

 - Średnie arytmetyczne wybranych zmiennych. 

[2] - Odchylenia standardowe. 
[3] - Współczynnik korelacji Pearsona. 
[4] - Współczynnik determinacji (kwadrat współczynnika korelacji). Jest to opisowa 

miara dokładności dopasowania regresji do danych empirycznych. Przyjmuje 
wartości z przedziału <0, 1> lub w ujęciu procentowym <0, 100%> i informuje, 
zgodnie z zapisem, jaka część zaobserwowanej w próbie całkowitej zmienności 
Y została wyjaśniona (zdeterminowana) regresją względem X. 

[5] - Wartość statystyki t badającej istotność współczynnika korelacji. 
[6] - Wartość prawdopodobieństwa p - poziom prawdopodobieństwa tzw. komputerowy 

[7] - Liczebność grupy. 
[8] - Wyraz wolny regresji liniowej Y względem X. 
[9] - Współczynnik regresji liniowej zmiennej Y względem zmiennej X. 
[ 1 0 ]

 - Wyraz wolny regresji liniowej X względem Y. 

[ 1 1 ] -

 Współczynnik regresji liniowej zmiennej X względem zmiennej Y. 

W arkuszu wyników kolorem czerwonym zaznaczone są wyniki istotnie statystycznie - te, 
dla których poziom p jest mniejszy od wartości 0,05 (domyślne ustawienie poziomu 
istotności). Jeśli potrzeba, wartość tę możemy zmienić wykorzystując przycisk 

na 

pasku narzędzi w arkuszu wyników i podać kryterium (np. wartość 0,001), według którego 
wyróżniane są komórki z wynikami. Dokonujemy tego w oknie (pojawi się ono po 
wybraniu przycisku Opcje): 

background image

Przystępny kurs statystyki 

zostały omówione szczegółowo wcześniej. 

Po wybraniu danych do analizy i ustawieniu odpowiednich opcji procedurę 

obliczeniową uruchamiamy wykorzystując przycisk Korelacje lub OK. 

Na dole okna Współczynnik korelacji liniowej Pearsona mamy przyciski 

umożliwiające graficzną prezentacje danych i przeprowadzonej analizy statystycznej. 

- umożliwia tworzenie wykresów rozrzutu (Scaterplot) dla wybranych 

zmiennych. Punkty identyfikowane są za pomocą nazw lub numerów przypadków. 

- umożliwia tworzenie dla wybranych zmiennych wykresów rozrzutu wraz 

z linią regresji i jej 95 % przedziałem ufności. 

| - umożliwia tworzenie trójwymiarowych wykresów rozrzutu dla wybranej 

trójki zmiennych. Jeśli użyjemy opcji /w names punkty na wykresie będą 
identyfikowane za pomocą nazw lub numerów przypadków. 

- umożliwia tworzenie macierzowych wykresów rozrzutu dla wybranych 

zmiennych. 

Rysunek poniższy przedstawia przykład macierzowego wykresu rozrzutu dla wybranej 
szóstki zmiennych. 

Rys.

 11.7 Macierzowy wykres rozrzutu 

212 

Przyciski 

otwierają okna do ustawiania wag i selekcji przypadków. Okna te 

background image

Podstawy korelacji i regresji 

umożliwia tworzenie trójwymiarowego wykresu rozrzutu wraz z wykresem 

powierzchniowym (surface plot) dla wybranych trójek zmiennych. 

- umożliwia tworzenie skategoryzowanych wykresów 

rozrzutu wraz z linią regresji dla wybranych par zmiennych. Po wywołaniu tej opcji 
w pierwszym wywołanym oknie podajemy zmienne do analizy korelacyjnej, 
a w drugim - zmienne definiujące kategorie. 

Poniższy rysunek przedstawia przykład skategoryzowanego wykresu rozrzutu dla wybranej 
pary zmiennych. Zmienne dzielące na kategorie to w naszym przykładzie zmienna PŁEĆ 
i zmienna SZCZEPIENIE. 

Rys. 11.8 Skategoryzowany wykres rozrzutu 

- umożliwia tworzenie trójwymiarowych histogramów dla 

wybranych par zmiennych. Wykresy takie można wykorzystać do wstępnej oceny 
kierunku i siły współzależności między obserwowanymi zmiennymi. Przykładowo 
na poniższych rysunkach mamy dwa histogramy, pierwszy dla słabej korelacji 
(r

xy

=0,03), a drugi dla bardzo wysokiej korelacji (r

xy

=-0,97). 

213 

background image

Przystępny kurs statystyki 

Rys. 11.9 Histogram przy słabej korelacji 

Rys. 10 Histogram przy bardzo 

wysokiej korelacji 

Wykresy możemy otrzymać jeszcze inaczej - przy pomocy prawego przycisku myszy. 
Analizując arkusz wyników możemy potrzebować graficznego przedstawienia korelacji. 
Aby wówczas utworzyć wykres rozrzutu wystarczy umieścić kursor na odpowiednim 
współczynniku korelacji i nacisnąć prawy przycisk myszy. W podręcznym menu, które się 
otworzy, wybieramy opcję Podręczne wykresy statystyczne, a następnie wybieramy jeden 
z wykresów rozrzutu. 

UWAGI: 
(l)Przy interpretacji współczynnika korelacji liniowej Pearsona należy pamiętać, że 

wartość współczynnika bliska zeru nie zawsze oznacza brak zależności a jedynie brak 
zależności liniowej (przypadek [4] na rysunku 1  l . l ) . 

Analizując korelację warto więc zawsze zacząć od analizy wykresu rozrzutu zmiennych 
(scatterplot). Może wystąpić też sytuacja opisana w poniższym przykładzie. 

Przykład 3 
W pewnym doświadczeniu farmakologicznym badano wpływ pewnego preparatu na 
zmianę jednego ze składników krwi. Otrzymano następujące wyniki: 

Wyniki obliczeń współczynnika korelacji, jego istotności i współczynników linii regresji 
zawiera poniższe okno: 

214 

background image

Podstawy korelacji i regresji 

Rys. 11.11 Wyniki obliczeń - przykład 3 

Wyniki obliczeń wskazują na istnienie w miarę mocnej zależności liniowej (współczynnik 
korelacji r = 0,689). Analizując wykres rozrzutu (przedstawiony poniżej) zauważamy, że 
krzywa logarytmiczna (naszkicowana w prawym rogu) o wiele lepiej opisuje istniejącą 
zależność. 

Rys. 11.12 Wykres rozrzutu dla danych z powyższego przykładu 

(2) Wielkość współczynnika korelacji zależy też od zakresu zmienności badanych cech. 

Uwzględniając tylko niektóre przypadki można wnioskować o braku zależności. Z kolei 
odrzucenie pewnej liczby obserwacji może zwiększyć wartość współczynnika korelacji. 
Pamiętajmy - współczynnik korelacji podlega wpływom skrajnych wartości. 

Przykład 4 
Wysunięto hipotezę, że istnieje związek między czasem leczenia chorych na zaburzenia 
układu krążenia a aktywnością pewnego enzymu w organizmie tych chorych. Losowa 
próba dała następujące wyniki (czas leczenia w dniach): 

215 

background image

Przystępny kurs statystyki 

KOBIETY 

MĘŻCZYŹNI 

Czas 

Aktywność 

Czas 

Aktywność 

Leczenia 

enzymu 

Leczenia 

enzymu 

41 

42 

44 

40 

35 

37 

43 

39 

35 

36 

43 

35 

10 

36 

10 

30 

14 

26 

18 

22 

20 

20 

24 

42 

26 

41 

Czy korelacja aktywności enzymu względem czasu leczenia jest istotna (na poziomie 
istotności 0,05)? Podać równanie regresji. 

Po wprowadzeniu danych do programu STATISTICA i wykonaniu analizy 

korelacji otrzymujemy następujący wynik: 

Rys. 11.13 Okno z wynikami - przykład 4 

Otrzymana tablica wskazuje na brak istotnej korelacji (w próbie wynosiła ona  r

x y

= -0,404). 

Wykres rozrzutu wskazuje na dwie skrajne wartości, odrzucenie których zmienia całkiem 
wynik obliczeń. 

216 

background image

Podstawy korelacji i regresji 

Rys. 11.14 Wykres rozrzutu - przykład 3 

Wynik analizy po odrzuceniu skrajnych wartości przedstawia poniższy rysunek: 

Rys. 11.15 Okno z wynikami - przykład 3 

Wynika z niego, że między aktywnością enzymu a czasem leczenia istnieje wysoka 
współzależność (r

x y

 = - 0,9). Zależność ta jest istotnie statystyczna nawet dla poziomu 

istotności wynoszącego p= 0,000001. Równanie regresji przyjmuje postać 
AKTYWNOŚĆ ENZYMU = -1,114 • CZAS_LECZENIA + 43,1374. Współczynnik 
determinacji (0,81) świadczy o dobrym dopasowaniu funkcji regresji do danych 
empirycznych. Tylko niecałe 19% informacji o aktywności enzymu nie zostało wyjaśnione 
przez zmienną czas leczenia. Skategoryzowany wykres rozrzutu przedstawiony poniżej 
(kategorie - kobiety, mężczyźni) zwraca naszą uwagę na inny rodzaj zależności w tych 
podgrupach niż dla całej rozważanej próby. 

background image

Przystępny kurs statystyki 

Rys. 11.16 Skategoryzowany wykres rozrzutu. 

(3) Korelację wybranych zmiennych możemy obliczyć w każdym momencie. Po 

zaznaczeniu zmiennych wykorzystujemy podręczne menu (trzecia opcja - Statystyki 
podręczne)
 otrzymane po naciśnięciu prawego przycisku myszy. 

Menu to ma postać: 

Rys. 11.17 Menu opcji Statystyki podręczne 

Wybierając z tego menu drugą opcję (Korelacje...) otrzymamy macierz korelacji 
wybranych zmiennych. Wybierając opcję piątą (Korelacje względem ...) możemy 
otrzymać skategoryzowane macierze korelacji wybranych zmiennych (podzielone na 

218 

background image

Podstawy korelacji i regresji 

kategorie). Zmienną grupującą wybieramy w oknie, które pojawi się po wybraniu tej opcji. 
Dodatkowe informacje i wykresy otrzymamy typując opcje w oknie Statystyki podręczne 
- Opcje rozszerzone
 przedstawionym na rysunku 11.18 (poniżej). Okno to otwiera się po 
wybraniu ostatniej opcji (Więcej). 

Rys. 11.18 Okno Statystyki podręczne - Opcje rozszerzone 

Dokładniejszą i bardziej rozbudowaną analizę regresji przedstawimy omawiając moduł 
Regresja Wielokrotna. 

219