11 Podstawy korelacji i regresji

background image

ROZDZIAŁ 11

PODSTAWY KORELACJI I REGRESJI

I. Pojęcia wstępne

Prezentowane dotychczas metody statystyczne dotyczyły analizy struktury zbiorowości
i opierały się na obserwacjach jednej zmiennej. Wiemy jednak, że w wielu przypadkach do
poznania całokształtu zagadnienia potrzebna jest analiza zbiorowości z punktu widzenia
kilku cech, które często pozostają ze sobą w pewnym związku. Często słyszymy zdanie:
„Rak płuc powiązany jest z paleniem papierosów". Mówi ono, że im więcej papierosów się
pali, tym jest bardziej prawdopodobne, że zachoruje się na raka. Mówimy, że im więcej

jednego, tym więcej drugiego. Zamiast używać nieprecyzyjnych słów, takich jak „więcej"

lub „mało", statystycy wolą oceniać rzeczy używając liczb. Tak została wymyślona
matematyczna technika korelacji jako narzędzie służące do dokładnego określenia stopnia,
w jakim dwie zmienne są ze sobą powiązane. Podstawowym problemem statystyki
w takich badaniach jest stwierdzenie, czy między zmiennymi .zachodzi jakiś związek, jakaś
zależność i czy związek jest bardziej czy mniej ścisły.

Uwzględniając ilość zmiennych otrzymamy cztery odmiany zależności:
• Zmienna zależna jednowymiarowa oraz jedna zmienna niezależna.
• Zmienna zależna jednowymiarowa oraz wiele zmiennych niezależnych.
• Zmienna zależna wielowymiarowa oraz jedna zmienna niezależna.
• Zmienna zależna wielowymiarowa oraz wiele zmiennych niezależnych.

Jeśli chodzi o postać zależności, to możemy mówić o dwóch odmianach:

• zależność liniowa (sytuacja [1] i [2] na rysunku 11.1),
• zależność krzywoliniowa (sytuacja [4] na rysunku 11.1).

W tym rozdziale zajmiemy się zależnością liniową między jedną zmienną niezależną
i jednowymiarową zmienną zależną.

W wielu doświadczeniach biologicznych i medycznych należy ustalić i ocenić

powiązania badanej zmiennej losowej Y od innych zmiennych. Interesuje nas siła, kształt
i kierunek tego powiązania. Dwie zmienne mogą być pomiędzy sobą powiązane
zależnością funkcyjną lub zależnością statystyczną (korelacyjną). Związek funkcyjny
odznacza się tym, że każdej wartości jednej zmiennej niezależnej (będziemy ją oznaczać
X) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej zależnej (oznaczamy

ją przez Y). Wiadomo np., że obwód kwadratu jest funkcją jego boku (0=4a).

Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej

odpowiadają ściśle określone średnie wartości drugiej zmiennej. Można zatem obliczyć, jak
zmieni się - średnio biorąc - wartość zmiennej zależnej Y w zależności od wartości
zmiennej niezależnej X. Oczywiście najpierw na podstawie analizy merytorycznej należy
uzasadnić logiczne występowanie związku, a dopiero potem przystąpić do określenia siły

203

background image

Przystępny kurs statystyki

i kierunku zależności. Znane są bowiem w literaturze przykłady badania - nawet istotnej
statystycznie - zależności np. między liczbą zajętych gniazd bocianich a liczbą urodzeń na
danym obszarze, czy między liczbą zarejestrowanych odbiorników TV a liczbą chorych
umysłowo. Zwróćmy też uwagę, że liczbowe stwierdzenie występowania współzależności
nie zawsze oznacza występowanie związku przyczynowo-skutkowego między badanymi
zmiennymi. Współwystępowanie dwóch zjawisk może również wynikać z bezpośredniego
oddziaływania na nie jeszcze innego, trzeciego zjawiska.

Prostym sposobem wykrywania związku korelacyjnego między badanymi cechami

jest obserwacja szeregów statystycznych, które zawierają informacje o tych cechach.

Wykresy, które reprezentują obrazowo związek pomiędzy zmiennymi, nazywane

są wykresami rozrzutu (Scatterplot). Analizę zależności powinno się rozpoczynać od ich
sporządzenia. Wzrokowa ocena umożliwia często określenie siły i rodzaju zależności.

© - korelacja liniowa dodatnia © - korelacja liniowa ujemna

® - brak korelacji ©- korelacja krzywoliniowa

Rys. 11.1 Korelacyjne wykresy rozrzutu

Przyjmijmy, że zbiorowość jest badana ze względu na dwie zmienne X i Y, a realizacje
tych zmiennych w populacji lub próbie n-elementowej zestawione są w postaci dwóch
szeregów szczegółowych lub rozdzielczych. W prostokątnym układzie współrzędnych na
osi odciętych zaznaczamy zmienną niezależną a na osi rzędnych wartości zmiennej
zależnej. Punkty, odpowiadające poszczególnym wartościom cech, tworzą korelacyjny
wykres rozrzutu. Rzadko zdarza się, że zaznaczone punkty leżą dokładnie na linii prostej
(pełna korelacja), częściej spotykana konfiguracja składa się z wielu zaznaczonych
punktów leżących mniej więcej wzdłuż konkretnej krzywej (najczęściej linii prostej). Taka
sytuacja przedstawiona jest jako przypadek [1] i [2] na rysunku 11.1. Gdy korelacja staje
się coraz mniej doskonała, wówczas punkty zaczynają się rozpraszać i przesuwać, aż do
kolistego tworu (brak korelacji). Taka sytuacja występuje w przypadku [3] na rysunku

11.1.

204

background image

Podstawy korelacji i regresji

Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej cechy odpowiada
wzrost średnich wartości drugiej cechy (przypadek [1] na rysunku).

Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej cechy

odpowiada spadek średnich wartości drugiej cechy (przypadek [2] na rysunku).

Natężenie (siłę) współzależności dwóch zmiennych można wyrazić liczbowo za

pomocą wielu mierników. Najbardziej popularny jest współczynnik korelacji liniowej
Pearsona. Współczynnik ten (oznaczony symbolem r

x y

i przyjmujący wartości z przedziału

[-1, 1]) jest miernikiem siły związku prostoliniowego między dwiema cechami

mierzalnymi.

Wzór na współczynnik korelacji liniowej Pearsona jest wyznaczony przez standaryzację
kowariancji i ma postać:

Znak współczynnika korelacji informuje nas o kierunku korelacji, natomiast jego
bezwzględna wartość - o sile związku. Mamy oczywiście równość r

xy

= r

y x

. Gdy r

xy

= |1|

to zależność korelacyjna przechodzi w zależność funkcyjną (funkcja liniowa). Jeśli
natomiast r

x y

= 0, oznacza to zupełny brak związku korelacyjnego między badanymi

zmiennymi X i Y (przypadek [3] na rysunku). Ograniczeniem jego jest natomiast warunek
liniowości.

W analizie statystycznej zwykle przyjmuje się następującą skalę:
a) r

xy

= 0 zmienne nie są skorelowane

b) 0 < r

x y

< 0 , l korelacja nikła

c) 0,l r

x y

< 0 , 3 korelacja słaba

d) 0,3 r

xy

< 0,5 korelacja przeciętna

e) 0,5 r

xy

< 0,7 korelacja wysoka

f) 0,7 r

xy

< 0,9 korelacja bardzo wysoka

g) 0,9 r

xy

< 1 korelacja prawie pełna

205

background image

Przystępny kurs statystyki

Przykład 1
Z

populacji dzieci i młodzieży wybrano losowo próbę 15-osobową i określono następujące

dane -x

i

wiek w latach, y

i

; wzrost w centymetrach. Otrzymano następujące dane:

x

i

- 7 8 9 10 11 11,5 12 13 14 15 16 17 18 18,5 19

y

i

- 120 122 125 131 135 140 142 145 150 154 159 162 164 168 170

Współczynnik korelacji Pearsona obliczony dla tego przykładu wynosi r

x y

= 0,99369

Następujący rysunek pokazuje wykres rozrzutu dla tej grupy:

Rys. 11.2 Wykres rozrzutu

II. Funkcja regresji

Wprowadzimy teraz pojęcie funkcji regresji jako narzędzie do badania mechanizmu
powiązań między zmiennymi. Funkcja regresji to analityczny wyraz przyporządkowania
średnich wartości zmiennej zależnej konkretnym wartościom zmiennej niezależnej. Wybór
analitycznej postaci funkcji regresji (liniowa, nieliniowa) nie jest sprawą łatwą. Decyzje
należy podejmować na podstawie wstępnej analizy materiału statystycznego, wykresu
rozrzutu oraz na podstawie źródeł pozastatystycznych dotyczących badanej dziedziny
zjawiska. Najprostsze i najczęściej spotykane zależności między zmiennymi to te, które
mają postać liniową. Krzywe regresji będące liniami prostymi nazywamy prostymi regresji.
Mają one następującą postać:

206

Parametry równania regresji z próby szacuje się klasyczną metodą najmniejszych
kwadratów.

Metoda najmniejszych kwadratów (MNK) polega na takim oszacowaniu

parametrów funkcji (1), by dla danych z próby spełniony był warunek:

background image

Podstawy korelacji i regresji

wyznaczone na podstawie równania (1).

Wykorzystując (2) otrzymujemy wzory:

Parametry a

x

, a

y

noszą nazwę parametrów regresji. Parametr b

y

to wyraz wolny (constant,

intercept) równania regresji. Wyrażenie a

y

jest estymatorem współczynnika regresji

liniowej (slope) i określa o ile jednostek przeciętnie wzrośnie (lub zmaleje, gdy a

y

< 0)

wartość zmiennej zależnej, gdy wartość zmiennej niezależnej wzrośnie o jedną jednostkę.

Rys. 11.3 Wykres rozrzutu wraz z 95% przedziałem ufności

Ze względu na prostą, logiczną interpretację współczynnik ten ma duże znaczenie
praktyczne. Powyższy rysunek pokazuje - dla rozpatrywanego przykładu - wykres prostej
regresji wagi osoby badanej względem wieku z 95 % przedziałem ufności (zaznaczonym
przerywanymi liniami).

Rachunek korelacji i regresji może dotyczyć zbiorowości generalnej lub wyników prób
losowych pobranych z populacji generalnych. W pierwszym przypadku mamy do czynienia
z opisem statystycznym, a w drugim z wnioskowaniem statystycznym. Wnioskowanie

207

wyrażenie

ma osiągnąć minimum (2),

gdzie y

i

oznaczają wartości empiryczne zmiennej Y, a

wartości teoretyczne

background image

Przystępny kurs statystyki

ufności. Obszar między nimi to obszar ufności dla prostej regresji. Przykładowy 95 % (p =
0,95) przedział ufności pokazany jest na rysunku powyżej (rys. 11.3).

Teraz zajmiemy się wnioskowaniem mającym zastosowanie w analizie współzależności
zmiennych. Nasuwa się bowiem pytanie, czy korelacja stwierdzona w próbie ma także
miejsce w populacji, z której pobrano próbę. W ocenie stwierdzenia faktu - czy istniejąca
zależność między X i Y w próbie jest tylko przypadkowa, czy też jest prawidłowością
w populacji - pomoże nam test istotności współczynnika korelacji Pearsona.

Test istotności współczynnika korelacji Pearsona

Przykład 2
Sprawdźmy istotność statystyczną korelacji wyliczonej dla grupy 15-osobowej z przykładu

1 na poziomie istotności p = 0,01.

Obliczamy wartość statystyki testu istotności dla małej próby, otrzymując

208

statystyczne daje bowiem podstawy do uogólnienia otrzymanych wyników. Wnioskowanie
statystyczne o właściwościach populacji obejmuje dwa główne zagadnienia: estymację
parametrów populacji oraz weryfikację hipotez statystycznych. Pełniejszą informację o linii
regresji otrzymamy, konstruując przedział ufności (linia przerywana na rysunku 11.3).

Wyliczone w ten sposób granice ufności są różne dla różnych x, ulegają

rozszerzeniu, gdy wartości X

i

oddalają się od

Otrzymujemy w ten sposób dwie krzywe

Dla poziomu istotności p= 0,01 oraz 15-2 = 13

background image

Podstawy korelacji i regresji

stopni swobody odczytujemy z tablic rozkładu Studenta wartość krytyczną t

0,01

= 3,012. Ze

względu na to, że t = 45,236 > t

0,01

=3,012, hipotezę zerową z 1 % błędem należy odrzucić.

III. A jak to się liczy w programie STATISTICA

W programie STATISTICA do analizy korelacji służy opcja Macierze korelacji w module
PODSTAWOWE STATYSTYKI I TABELE. Po wybraniu tej opcji i naciśnięciu OK
(lub po dwukrotnym kliknięciu na nazwie opcji) otwiera się okno Współczynnik korelacji
liniowej Pearsona
przedstawione na poniższym rysunku.

Rys. 11.4 Okno dialogowe Współczynnik korelacji liniowej Pearsona

Na górze okna mamy dwa przyciski dla określenia sposobu wprowadzania danych.
• Pierwszy - Jedna lista zmiennych - otwiera pojedyncze okno do wyboru zmiennych.

Dla wybranych zmiennych obliczana jest kwadratowa macierz korelacji (podaje
korelację każdej pary zmiennych).
Macierz aż do rozmiarów 500x500 może być obliczana w tym module.

• Drugi - Dwie listy zmiennych - otwiera dwa okna do wyboru zmiennych. Dla

wybranych zmiennych obliczana jest prostokątna macierz korelacji (podawana jest
korelacja każda zmienna z pierwszej listy z każdą ze zmiennych z drugiej listy).
Dokładne opisanie sposobu wyboru zmiennych do analizy znajdziemy w rozdziale
trzecim.

Opcja Zapisz macierz umożliwia zapisanie pod wybraną nazwą w dowolnym katalogu na
dysku lub dyskietce otrzymanej macierzy korelacji. Po wybraniu tej opcji pojawia się okno
dialogowe, w którym podajemy, gdzie i pod jaką nazwą chcemy zapisać macierz korelacji.

209

background image

Przystępny kurs statystyki

Poniżej mamy dwie grupy opcji Wyniki i Opcje umożliwiają one określenie co i jak
będzie wyświetlanie w arkuszu wyników. Grupa Opcje umożliwia wybór następujących
opcji:
• Usuwanie BD przypadkami - jeśli to pole jest wybrane, wtedy do analizy brane są

tylko te przypadki, które mają kompletne dane dla wszystkich wybranych zmiennych.
Jeśli ta opcja nie jest wybrana, wtedy każda korelacja jest obliczana dla wszystkich
przypadków, które mają kompletne dane dla poszczególnych par zmiennych.
Przykładowo niech zmienne v1, v2, v3 mają odpowiednio po n = 8, 10, 10 przypadków.
Wówczas przy obliczaniu macierzy korelacji, korelacja między zmiennymi v1 i v2 jest
obliczana dla 8 przypadków, a korelacja między zmiennymi v2, v3 dla 10 przypadków.

• Pokaż długie nazwy zmiennych - jeśli ta opcja jest wybrana, wtedy w arkuszu

wyników w pierwszej kolumnie obok nazwy zmiennej wyświetlana jest dodatkowo
etykieta zmiennej (krótki nasz komentarz).

• Obliczenia zwiększonej precyzji - wybranie tej opcji włącza rozszerzoną precyzję

obliczeń. Wybieramy tę opcję, kiedy dla jednej lub większej liczby zmiennych stosunek
odchylenia standardowego do średniej jest mniejszy od 0,0000000000001.

Grupa Wyniki umożliwia wybór jednego z trzech sposobów prezentowania wyników
obliczeń:
• Macierz kor. (podświetl p) - wyświetlana jest tylko macierz korelacji.
• Macierz kor. (pokaż p i N) - wyświetlane są współczynniki korelacji wraz

z odpowiednimi poziomami istotności. Jeśli opcja Usuwanie BD przypadkami nie
była wybrana, to dodatkowo zostają pokazane liczebności przypadków (N), jak widać
to na poniższym przykładzie.

Rys. 11.5 Okno z wynikami

• Dokładna tabela wyników - wyświetlona jest pełna informacja o przeprowadzonej

analizie. Poniższy rysunek pokazuje przykładową tablicę wyników dla dwóch
zmiennych wraz z objaśnieniami poszczególnych pól tabeli.

210

background image

Podstawy korelacji i regresji

211

Rys. 11.6 Okno z wynikami - opcja Dokładna tabela wyników

[ 1 ]

- Średnie arytmetyczne wybranych zmiennych.

[2] - Odchylenia standardowe.
[3] - Współczynnik korelacji Pearsona.
[4] - Współczynnik determinacji (kwadrat współczynnika korelacji). Jest to opisowa

miara dokładności dopasowania regresji do danych empirycznych. Przyjmuje
wartości z przedziału <0, 1> lub w ujęciu procentowym <0, 100%> i informuje,
zgodnie z zapisem, jaka część zaobserwowanej w próbie całkowitej zmienności
Y została wyjaśniona (zdeterminowana) regresją względem X.

[5] - Wartość statystyki t badającej istotność współczynnika korelacji.
[6] - Wartość prawdopodobieństwa p - poziom prawdopodobieństwa tzw. komputerowy

[7] - Liczebność grupy.
[8] - Wyraz wolny regresji liniowej Y względem X.
[9] - Współczynnik regresji liniowej zmiennej Y względem zmiennej X.
[ 1 0 ]

- Wyraz wolny regresji liniowej X względem Y.

[ 1 1 ] -

Współczynnik regresji liniowej zmiennej X względem zmiennej Y.

W arkuszu wyników kolorem czerwonym zaznaczone są wyniki istotnie statystycznie - te,
dla których poziom p jest mniejszy od wartości 0,05 (domyślne ustawienie poziomu
istotności). Jeśli potrzeba, wartość tę możemy zmienić wykorzystując przycisk

na

pasku narzędzi w arkuszu wyników i podać kryterium (np. wartość 0,001), według którego
wyróżniane są komórki z wynikami. Dokonujemy tego w oknie (pojawi się ono po
wybraniu przycisku Opcje):

background image

Przystępny kurs statystyki

zostały omówione szczegółowo wcześniej.

Po wybraniu danych do analizy i ustawieniu odpowiednich opcji procedurę

obliczeniową uruchamiamy wykorzystując przycisk Korelacje lub OK.

Na dole okna Współczynnik korelacji liniowej Pearsona mamy przyciski

umożliwiające graficzną prezentacje danych i przeprowadzonej analizy statystycznej.

- umożliwia tworzenie wykresów rozrzutu (Scaterplot) dla wybranych

zmiennych. Punkty identyfikowane są za pomocą nazw lub numerów przypadków.

- umożliwia tworzenie dla wybranych zmiennych wykresów rozrzutu wraz

z linią regresji i jej 95 % przedziałem ufności.

| - umożliwia tworzenie trójwymiarowych wykresów rozrzutu dla wybranej

trójki zmiennych. Jeśli użyjemy opcji /w names punkty na wykresie będą
identyfikowane za pomocą nazw lub numerów przypadków.

- umożliwia tworzenie macierzowych wykresów rozrzutu dla wybranych

zmiennych.

Rysunek poniższy przedstawia przykład macierzowego wykresu rozrzutu dla wybranej
szóstki zmiennych.

Rys.

11.7 Macierzowy wykres rozrzutu

212

Przyciski

otwierają okna do ustawiania wag i selekcji przypadków. Okna te

background image

Podstawy korelacji i regresji

umożliwia tworzenie trójwymiarowego wykresu rozrzutu wraz z wykresem

powierzchniowym (surface plot) dla wybranych trójek zmiennych.

- umożliwia tworzenie skategoryzowanych wykresów

rozrzutu wraz z linią regresji dla wybranych par zmiennych. Po wywołaniu tej opcji
w pierwszym wywołanym oknie podajemy zmienne do analizy korelacyjnej,
a w drugim - zmienne definiujące kategorie.

Poniższy rysunek przedstawia przykład skategoryzowanego wykresu rozrzutu dla wybranej
pary zmiennych. Zmienne dzielące na kategorie to w naszym przykładzie zmienna PŁEĆ
i zmienna SZCZEPIENIE.

Rys. 11.8 Skategoryzowany wykres rozrzutu

- umożliwia tworzenie trójwymiarowych histogramów dla

wybranych par zmiennych. Wykresy takie można wykorzystać do wstępnej oceny
kierunku i siły współzależności między obserwowanymi zmiennymi. Przykładowo
na poniższych rysunkach mamy dwa histogramy, pierwszy dla słabej korelacji
(r

xy

=0,03), a drugi dla bardzo wysokiej korelacji (r

xy

=-0,97).

213

background image

Przystępny kurs statystyki

Rys. 11.9 Histogram przy słabej korelacji

Rys. 10 Histogram przy bardzo

wysokiej korelacji

Wykresy możemy otrzymać jeszcze inaczej - przy pomocy prawego przycisku myszy.
Analizując arkusz wyników możemy potrzebować graficznego przedstawienia korelacji.
Aby wówczas utworzyć wykres rozrzutu wystarczy umieścić kursor na odpowiednim
współczynniku korelacji i nacisnąć prawy przycisk myszy. W podręcznym menu, które się
otworzy, wybieramy opcję Podręczne wykresy statystyczne, a następnie wybieramy jeden
z wykresów rozrzutu.

UWAGI:
(l)Przy interpretacji współczynnika korelacji liniowej Pearsona należy pamiętać, że

wartość współczynnika bliska zeru nie zawsze oznacza brak zależności a jedynie brak
zależności liniowej (przypadek [4] na rysunku 1 l . l ) .

Analizując korelację warto więc zawsze zacząć od analizy wykresu rozrzutu zmiennych
(scatterplot). Może wystąpić też sytuacja opisana w poniższym przykładzie.

Przykład 3
W pewnym doświadczeniu farmakologicznym badano wpływ pewnego preparatu na
zmianę jednego ze składników krwi. Otrzymano następujące wyniki:

Wyniki obliczeń współczynnika korelacji, jego istotności i współczynników linii regresji
zawiera poniższe okno:

214

background image

Podstawy korelacji i regresji

Rys. 11.11 Wyniki obliczeń - przykład 3

Wyniki obliczeń wskazują na istnienie w miarę mocnej zależności liniowej (współczynnik
korelacji r = 0,689). Analizując wykres rozrzutu (przedstawiony poniżej) zauważamy, że
krzywa logarytmiczna (naszkicowana w prawym rogu) o wiele lepiej opisuje istniejącą
zależność.

Rys. 11.12 Wykres rozrzutu dla danych z powyższego przykładu

(2) Wielkość współczynnika korelacji zależy też od zakresu zmienności badanych cech.

Uwzględniając tylko niektóre przypadki można wnioskować o braku zależności. Z kolei
odrzucenie pewnej liczby obserwacji może zwiększyć wartość współczynnika korelacji.
Pamiętajmy - współczynnik korelacji podlega wpływom skrajnych wartości.

Przykład 4
Wysunięto hipotezę, że istnieje związek między czasem leczenia chorych na zaburzenia
układu krążenia a aktywnością pewnego enzymu w organizmie tych chorych. Losowa
próba dała następujące wyniki (czas leczenia w dniach):

215

background image

Przystępny kurs statystyki

KOBIETY

MĘŻCZYŹNI

Czas

Aktywność

Czas

Aktywność

Leczenia

enzymu

Leczenia

enzymu

1

41

1

42

2

44

2

40

3

35

3

37

4

43

4

39

5

35

5

36

8

43

7

35

10

36

10

30

14

26

18

22

20

20

24

42

26

41

Czy korelacja aktywności enzymu względem czasu leczenia jest istotna (na poziomie
istotności 0,05)? Podać równanie regresji.

Po wprowadzeniu danych do programu STATISTICA i wykonaniu analizy

korelacji otrzymujemy następujący wynik:

Rys. 11.13 Okno z wynikami - przykład 4

Otrzymana tablica wskazuje na brak istotnej korelacji (w próbie wynosiła ona r

x y

= -0,404).

Wykres rozrzutu wskazuje na dwie skrajne wartości, odrzucenie których zmienia całkiem
wynik obliczeń.

216

background image

Podstawy korelacji i regresji

Rys. 11.14 Wykres rozrzutu - przykład 3

Wynik analizy po odrzuceniu skrajnych wartości przedstawia poniższy rysunek:

Rys. 11.15 Okno z wynikami - przykład 3

Wynika z niego, że między aktywnością enzymu a czasem leczenia istnieje wysoka
współzależność (r

x y

= - 0,9). Zależność ta jest istotnie statystyczna nawet dla poziomu

istotności wynoszącego p= 0,000001. Równanie regresji przyjmuje postać
AKTYWNOŚĆ ENZYMU = -1,114 • CZAS_LECZENIA + 43,1374. Współczynnik
determinacji (0,81) świadczy o dobrym dopasowaniu funkcji regresji do danych
empirycznych. Tylko niecałe 19% informacji o aktywności enzymu nie zostało wyjaśnione
przez zmienną czas leczenia. Skategoryzowany wykres rozrzutu przedstawiony poniżej
(kategorie - kobiety, mężczyźni) zwraca naszą uwagę na inny rodzaj zależności w tych
podgrupach niż dla całej rozważanej próby.

background image

Przystępny kurs statystyki

Rys. 11.16 Skategoryzowany wykres rozrzutu.

(3) Korelację wybranych zmiennych możemy obliczyć w każdym momencie. Po

zaznaczeniu zmiennych wykorzystujemy podręczne menu (trzecia opcja - Statystyki
podręczne)
otrzymane po naciśnięciu prawego przycisku myszy.

Menu to ma postać:

Rys. 11.17 Menu opcji Statystyki podręczne

Wybierając z tego menu drugą opcję (Korelacje...) otrzymamy macierz korelacji
wybranych zmiennych. Wybierając opcję piątą (Korelacje względem ...) możemy
otrzymać skategoryzowane macierze korelacji wybranych zmiennych (podzielone na

218

background image

Podstawy korelacji i regresji

kategorie). Zmienną grupującą wybieramy w oknie, które pojawi się po wybraniu tej opcji.
Dodatkowe informacje i wykresy otrzymamy typując opcje w oknie Statystyki podręczne
- Opcje rozszerzone
przedstawionym na rysunku 11.18 (poniżej). Okno to otwiera się po
wybraniu ostatniej opcji (Więcej).

Rys. 11.18 Okno Statystyki podręczne - Opcje rozszerzone

Dokładniejszą i bardziej rozbudowaną analizę regresji przedstawimy omawiając moduł
Regresja Wielokrotna.

219


Wyszukiwarka

Podobne podstrony:
korelacja i regresja - ćwiczenia, UG - wzr, I semestr Zarządzanie rok akademicki 11 12, I sem. - Sta
ZK PZ Spotkanie 6 (korelacje i Regresja)
11 Podstawy chemii organicznej Profesor Boduszek
Korelacja i regresja
PP 11, Podstawy programowania
11 podstawy prawne w przedsiębiorstwie 01 2013
Wykład 11 - Podstawowe pojęcia i terminy genetyczne, Pielęgniarstwo licencjat AWF, Genetyka
korelacja regresja Word2003, Elementy matematyki wyższej
statystyka, Korelacja i regresja liniowa, Korelacja i regresja liniowa
pyt 10,11 , Podstawowa i całkowita przemiana materii, potrzeby energetyczne człowieka, metody pomiar
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
70 NW 11 Podstawka pod klucze
Lista 2 korelacje i regresje id Nieznany

więcej podobnych podstron