wyklad4b ANALIZA WSPÓŁZALEŻNOŚCI

background image

W wielu badaniach medycznych

gromadzimy dane będące liczebnościami. Na
przykład możemy klasyfikować chorych w
badanej próbie do różnych kategorii pod
względem wieku, płci czy natężenia choroby,
czyli kilku badanych cech.
Przedstawiane do
tej pory w naszym cyklu metody statystyczne
stają się użyteczne dla danych jednej cechy,
danymi jakościowymi lub ilościowych.

Techniki statystyczne omówione w tym
odcinku należą do najbardziej przydatnych w
analizie danych jakościowych i ilościowych.
Umożliwiają one dokonanie oceny zależności
między zmiennymi tego typu.

Wykład 4.

ANALIZA

WSPÓŁZALEŻNOŚCI

background image

Tabele wielodzielcze (kontyngencji).

background image

Tabele wielodzielcze (kontyngencji).

Pierwszym krokiem jest przedstawienie zebranych danych

indywidualnych w postaci tabeli wielodzielczej (kontyngencji).

Wymaga to zliczenia jednostek w odpowiednich komórkach

tabeli z danymi. Zliczanie to bez użycia komputera jest

żmudne, zwłaszcza dla dużej liczby przypadków.

Tabele wielodzielcze stanowią podstawę do obliczania

pozostałych statystyk określających siłę związku. Tabela

wielodzielcza przedstawia rozkład obserwacji ze względu na

kilka cech jednocześnie.

Załóżmy, że dysponujemy n obserwacjami dla jakościowej cechy

X (posiadającej kategorie X1, X2, ... Xk) i jakościowej cechy Y

(o kategoriach Y1, Y2, ...Yp) (tab. 1).

Liczebności nij określają liczbę elementów próby, dla których

cecha X ma wariant Xi i jednocześnie cecha Y - wariant Yj.

Tablica wielodzielcza pokazuje więc określony łączny rozkład

obu cech. Liczebności w ostatnim wierszu i w ostatniej

kolumnie nazywamy empirycznymi brzegowymi rozkładami,

odpowiednio cechy Y i cechy X.

Na przykład, chcąc ocenić wpływ używek (papieros, kawa,

alkohol) na pewną chorobę, zebraliśmy dane na temat ich

używania w grupie 90-osobowej. Zastosowano podział na 4

kategorie: nigdy (tzn. nie używano nigdy), niewiele (używano w

małych ilościach), średnio (używano w średnich ilościach) i

dużo (używano w dużych ilościach).

background image

Przykład tabeli wielodzielczej

Grupa

Kobiety

Mężczyźni

Razem

n

%

n

%

n

%

Cukrzyca

25

35,7

20

40,0

45

37,5

Bez

cukrzycy

45

64,3

30

60,0

75

62,5

background image

Tabela

Lp.

Kawa

Papierosy

Alkohol

Płeć

1

nigdy

dużo

niewiele

m

2

niewiele

nigdy

nigdy

m

3

dużo

dużo

średnio

k

4

niewiele

niewiele

dużo

m

5

średnio

niewiele

niewiele

k

6

dużo

dużo

dużo

m

7

nigdy

średnio

niewiele

k

8

srednio

dużo

nigdy

m

9

nigdy

nigdy

średnio

k

10

dużo

dużo

dużo

m

Zliczając otrzymane dane dla papierosów i płci, otrzymamy
następującą tabelę wielodzielczą (tab. 3)

background image

Tabela 3

Płeć

Papiero
s
nigdy

Papiero
s

niewiel
e

Papiero
s
średnio

Papiero
s
dużo

Razem

kobieta 11

8

6

5

30

mężczy
zna

4

4

28

24

60

razem

15

12

34

29

90

Widać wyraźną przewagę mężczyzn w grupie

palących dużą lub średnią liczbę papierosów, natomiast
około 3-krotnie więcej kobiet niż mężczyzn nigdy nie
paliło. Informacje byłyby bogatsze po dołączeniu danych
odsetkowych. Odsetki wylicza się względem: ostatniej
rubryki (płci), ostatniego wiersza (liczby wypalanych
papierosów) oraz całkowitej liczby respondentów.
Następny etap analizy statystycznej tak zebranych danych
to próba weryfikacji hipotezy, że dwie jakościowe cechy w
populacji są niezależne

.

background image

Najczęściej stosowanym narzędziem jest test .

.

Został on opracowany przez Karla Pearsona w
1900 roku i jest metodą, dzięki której można się
upewnić, czy dane zawarte w tabeli
wielodzielczej dostarczają wystarczającego
dowodu na związek tych dwóch zmiennych. Test

polega na porównaniu częstości

zaobserwowanych z częstościami oczekiwanymi
przy założeniu hipotezy zerowej (o braku związku
między tymi dwiema zmiennymi). Częstości
oczekiwane obliczamy, wykorzystując częstości
marginalne (z tablicy wielodzielczej) według
następującego wzoru:

Wówczas hipotezę zerową orzekającą, że cechy X
i Y są niezależne, możemy zweryfikować testem
według następującego schematu:

background image

Weryfikacja hipotezy

zerowej:

H0: cechy X i Y są

niezależne

Wobec hipotezy

alternatywnej: H1: cechy X

i Y są zależne

Do weryfikacji hipotezy

stosujemy statystykę:

gdzie E - oczekiwana częstość komórki oraz O -
obserwowana częstość komórki
Przy założeniu hipotezy zerowej opisywana
statystyka ma asymptotyczny rozkład

o s = (k - 1) (p - 1)
stopniach swobody

background image

Rys. 1.
Na przykład badano zależność między liczbą
wypalanych papierosów a wystąpieniem
pewnych zmian patologicznych w płucach w
grupie 1500 osób. Zebrane dane przedstawiono
w wielodzielczej tabeli 4.
Tabela 4

   

Niepalący

Palący

mało

Palący

dużo

Razem

zmiany

występuj

ące

51

250

560

861

zmian nie

ma

370

210

59

639

razem

421

460

619

1500

background image

Wyliczymy wartość oczekiwaną E11. Zgodnie z
definicją:
Wyniki obliczeń pozostałych wartości oczekiwanych
przedstawiono w tabeli 5. w nawiasach obok wartości

obserwowanych.

   

Niepalący

Palący
mało

Palący
dużo

Razem

zmiany
występują

51
(241,654)

250
(264,04)

560
(353,306)

861

zmian
nie ma

370
(179,346)

210
(195,96)

59
(263,694)

639

razem

421

460

619

1500

Wartość statystyki

wynosi 701,073

1.

Z kolei wartość krytyczna odczytana z tablic dla
poziomu istotności alfa = 0,001 wynosi

13,817

alfa

=

13,817

>

. Pozwala więc nam odrzucić hipotezę zerową i
stwierdzić, że na poziomie istotności alfa = 0,001
istnieje zależność między liczbą wypalanych
papierosów dziennie a wystąpieniem
patologicznych zmian w płucach.

background image

Zauważmy, że bardzo duże wartości oznaczają
dużą różnicę pomiędzy częstościami
obserwowanymi a oczekiwanymi, i jest to dowód
istnienia zależności. Przeciwnie mała wartość
(zwłaszcza bliska 0) nie daje dowodu na
istnienie korelacji.

Dla tabeli dwudzielczych 2x2 postaci:

wartość statystyki wyznaczamy według
prostszego, praktycznego wzoru:

a

b

c

d

background image

Na przykład w próbie liczącej 100

mężczyzn w wieku 50-60 lat zbadano
częstość występowania choroby wieńcowej i
podwyższonego ciśnienia tętniczego.
Chcemy ocenić, czy choroba wieńcowa
współistnieje z podwyższonym ciśnieniem
tętniczym

Tabela 6

   

Ciśnienie

niepodwyższone

Ciśnienie

podwyższo

ne

Razem

choroba

wieńcowa

nie

występuje

37

17

54

choroba

wieńcowa

występuje

8

38

46

razem

45

55

100

background image

Obliczając

według wzoru podanego wyżej, otrzymujemy

= 26,23. Dla

poziomu istotności (wzorek) = 0,0001 mamy wartość krytyczną

alfa

= 15,139.

Ponieważ

>

alfa

, więc odrzucamy hipotezę

zerową o niezależności zmiennych. Mamy tym samym
podstawy, by wnioskować, że choroba wieńcowa występuje
częściej u osób z podwyższonym ciśnieniem tętniczym.

Uwaga: Dla tabeli 2x2 przedstawionej wyżej statystyka

jest często modyfikowana w celu utworzenia bardziej
odpowiedniego testu. W większości komputerowych
programów statystycznych mamy możliwości obliczenia
tych poprawek. Najbardziej popularna to poprawka Yatesa:

gdzie N to liczebność całej próby. Stosujemy ją,
jeżeli 20 < N < 40
i którakolwiek z liczebności oczekiwanych jest
mniejsza od 5.

background image

Statystyka

sprawdza, czy dwie zmienne są ze sobą powiązane.
Jednakże oprócz sprawdzenia, czy między
zmiennymi zachodzi związek, interesuje nas,
jak
silne jest to powiązanie. Samej wartości

jako pomiaru siły związku nie możemy stosować,
zależy ona bowiem od liczebności grupy N i rośnie
wraz z jej wzrostem.
W praktyce najczęściej korzystamy z następujących
miar
utworzonych na podstawie wartości

Współczynnik

Współczynnik ten jest miarą korelacji
pomiędzy dwiema zmiennymi jakościowymi w
tabeli 2x2. Przyjmuje on wartości od 0 (brak
powiązania między zmiennymi) do 1
(całkowite powiązanie między zmiennymi).

background image

Współczynnik V - Cramera:

gdzie k i p to wymiary tabeli wielodzielczej
Współczynnik ten również przyjmuje wartości od
0 (brak relacji między zmiennymi) do 1.

Współczynnik kontyngencji Pearsona:

Gdy zmienne są niezależne, wówczas C = 0. Jego
maksymalna wartość jest zawsze mniejsza od 1 i
zależy od liczby wierszy i rubryk Na przykład dla
tabeli 3x3 ta wartość wynosi 0,816. Ogranicza to
jego zastosowanie do tablic kwadratowych (o
jednakowych wymiarach).

background image

Interpretacja wszystkich tych

współczynników jest taka sama:

· jeżeli ma wartość zero, to cechy X i

Y są niezależne

· im bliższa jedności jest wartość

tych współczynników, tym silniejsze
jest powiązanie między
analizowanymi cechami X i Y.

Obliczając opisane współczynniki dla

danych dotyczących choroby wieńcowej,
otrzymujemy współczynnik Fi = V = 0,51,
a współczynnik kontyngencji wynosi C =
0,46. Między rozpatrywanymi zmiennymi
zachodzi więc wysoka korelacja.
Przedstawione tu przykłady przeliczaliśmy
dla przybliżenia idei "na piechotę".

background image

W praktyce posługujemy się oczywiście

komputerem.

W pakiecie STATISTICA test

znajdziemy w

dwóch miejscach. Pierwsze z nich to moduł
Statystyki nieparametryczne.

Znajdująca się tam

opcja Tablice 2x2, chi/V/Fi kwadrat, test Mc
Nemary,... umożliwia obliczenie statystyki

oraz innych statystyk z nią związanych dla tabel

2x2.

W programie STATISTICA do analizy tablic
wielodzielczych służy również opcja Tabele
wielodzielcze w module Podstawowe statystyki i
tabele. Po wybraniu tej opcji i naciśnięciu OK
otwiera się okno
Okno dialogowe: Określ tabelę

background image

background image

W oknie tym możemy wybrać dwie grupy statystycznych

analiz dotyczących:

  [1] tabel zbiorczych

  [2] tabel wielodzielczych i wielokrotnych odpowiedzi

O tym, w której z tych grup statystycznych będziemy

przeprowadzać analizy, decyduje wybór dokonany na

liście rozwijalnej Analiza (opcja oznaczona [3]). My

wybieramy opcję Tabele wielodzielcze. Wybór tej opcji

umożliwia rozwiązanie problemów związanych z

tabelaryzacją zmiennych jakościowych. Możemy

utworzyć tabele wielodzielcze i zbiorcze oraz obliczyć

różne statystyki związane z takimi tabelami. W

module tym możemy analizować tabele dowolnych

rozmiarów, niekoniecznie 2x2, jak w poprzednim

module.

Po wybraniu zmiennych i kliknięciu przycisku OK

otwiera się pośrednie okno, w którym wybieramy, jakie

podsumowania i statystyki dla wybranych zmiennych

chcemy policzyć. Okno to wraz z zaznaczonymi

najważniejszymi opcjami pokazane jest na następnym

rysunku

background image

background image

Jak widzimy, grupa opcji

Statystyki dla tabel dwudzielczych
oferuje bogatszy wybór statystyk i
współczynników aniżeli w
poprzednim module. Chcąc
otrzymać wyniki dla pokazanych tam
opcji, musimy je wybrać przez
kliknięcie nazwy lub okienka opcji.
Okno to udostępnia nam również
przyciski oferujące interpretacje
graficzne analizowanych problemów.

Przykładowy wykres dla danych
opisujących powiązanie między
występowaniem nadciśnienia i
chorobą wieńcową pokazuje
rysuneku 5.

background image

background image

background image

background image

• Współczynnik korelacji liniowej Pearsona

(dalej nazywany po prostu współczynnikiem

korelacji), wymaga, aby zmienne były

ciągłe. Określa on stopień proporcjonalnych

powiązań wartości dwóch zmiennych.

Wartość korelacji (współczynnik korelacji)

nie zależy od jednostek miary, w jakich

wyrażamy badane zmienne, np. korelacja

pomiędzy wzrostem i ciężarem będzie taka

sama bez względu na to, w jakich

jednostkach (cale i funty czy centymetry i

kilogramy) wyrazimy badane wielkości.

Określenie "proporcjonalne" znaczy zależne

liniowo, to znaczy, że korelacja jest silna,

jeśli może być opisana przy pomocy linii

prostej (nachylonej do góry lub na dół).

background image

Analizę współzależności należy

uzupełnić o współczynnik
determinacji, będący kwadratem
współczynnika korelacji liniowej
Pearsona ( ).

Współczynnik determinacji

informuje, jaka część zmiennej
objaśnianej jest wyjaśniona przez
zmienną objaśniającą. Przy pomocy
tego współczynnika można
wnioskować, czy na zmienną
objaśniającą wpływają również inne
czynniki, nie podlegające badaniu.

2

xy

r

background image

Prosta regresji: y=ax+b,

gdzie

a = cov(x,y)/

S^2; b= - a

• Linia, o której mowa, nazywa się linią regresji

albo linią szacowaną metodą najmniejszych
kwadratów, ponieważ jej parametry określane są
w ten sposób, by suma kwadratów odchyleń
punktów pomiarowych od tej linii była
minimalna. Zwróćmy uwagę, że fakt podnoszenia
odległości do kwadratu powoduje, iż
współczynnik korelacji reaguje na sposób
rozmieszczenia danych (jak to zobaczymy w
dalszej części opisu).

•  

x

y

yy

background image

Tabele wielodzielcze

Tabele wielodzielcze
  W wielu badaniach medycznych

gromadzimy dane będące

liczebnościami. Na przykład możemy

klasyfikować chorych w badanej próbie

do różnych kategorii pod względem

wieku, płci czy natężenia choroby.

Przedstawiane do tej pory w naszym

cyklu metody statystyczne stają się

bezużyteczne dla danych tego typu,

zwanych danymi jakościowymi.

background image

W sytuacji, gdy obserwacje

statystyczne dotyczące badanych
zmiennych są liczne, bazowanie na
wartościach szczegółowych może być
uciążliwe. W celu zapewnienia
przejrzystości zebranych danych
sporządza się wówczas tablicę korelacyjną.

Na skrzyżowaniu kolumn z

wierszami wpisuje się liczebności
jednostek zbiorowości statystycznej, u
których zaobserwowano jednoczesne
występowanie określonych wartości
i .

i

x

i

x

i

y

background image

Schemat tablicy

korelacyjnej:

x

i

y

j

y

1

y

2

...

y

t

i

t

i

ij

n

n

1

x

1

x

2

.
.
.

x

k

n

11

n

21

.
.
.

n

k1

n

12

n

22

.
.
.

n

k2

.
.
.
.
.
.

n

1t

n

2t

.
.
.

n

kt

n

1

n

2

.
.
.

n

k

j

k

i

ij

n

n

1

n

.1

n

.2

n

.t

n

background image

Tabele wielodzielcze stanowią podstawę do

obliczania pozostałych statystyk

określających siłę związku.

gdzie E - oczekiwana liczebność komórki oraz O
lub nij - obserwowana liczebność komórki

background image

Na przykład badano zależność między liczbą

wypalanych papierosów a wystąpieniem pewnych

zmian patologicznych w płucach w grupie 1500

osób. Zebrane dane przedstawiono w następującej

tabeli wielodzielczej

Niepalący

Palący

mało

Palący

dużo

Razem

zmiany występujące

51

250

560

861

zmian nie ma

370

210

59

639

razem

421

460

619

1500

Wyliczymy wartość oczekiwaną E

11

. Zgodnie z

definicją:

background image

Wyniki obliczeń pozostałych wartości

oczekiwanych przedstawiono w tabeli. w

nawiasach obok wartości obserwowanych.

•  

background image

Inny przykład tabeli korelacyjnej.
Wykształcenie badanych osób
przebywających w Domach Pomocy
Społecznej z uwzględnieniem płci

Wykształcenie

Płeć

Żeńska

Męska

Liczba
podstawowe
%

53

86,9%

16

43,2%


Liczba
zawodowe

%

2

3,3 %

14

37,8 %


Liczba
średnie
%

6

9,8 %

5

13,5 %


Liczba

wyższe
%

0

0,0 %

2

5,4 %


Liczba
Razem

%

61

100,0 %

37

100,0 %

background image

W tablicy korelacyjnej zawarte są
rozkłady brzegowe i warunkowe.
Rozkład brzegowy (por. ostatnia
kolumna określa rozkład brzegowy
cechy X, ostatni wiersz – rozkład
brzegowy cechy Y) prezentuje
strukturę wartości jednej zmiennej (X
lub Y) bez względu na kształtowanie
się wartości drugiej zmiennej.

Rozkłady brzegowe i warunkowe

mogą być scharakteryzowane pewnymi
sumarycznymi wielkościami (najczęściej
są to średnie arytmetyczne)

background image

Średnie arytmetyczne z

rozkładów brzegowych wyznacza
się ze wzorów:

Średnie arytmetyczne z

rozkładów warunkowych oblicza
się następująco:

i

k

i

i

n

x

n

x

1

1

j

t

i

j

n

y

n

y

1

1

ij

k

i

i

j

j

n

x

n

x

1

.

1

ij

t

i

j

i

i

n

y

n

y

1

.

1

background image

W sytuacji, gdy wraz ze

wzrostem (spadkiem) wartości jednej
zmiennej następuje wzrost (spadek)
warunkowych średnich drugiej
zmiennej, wówczas można stwierdzić
istnienie korelacji dodatniej
między zmiennymi. W sytuacji,
kiedy występuje przeciwny kierunek
zmian, można mówić o korelacji
ujemnej.

background image

Jeżeli różnice pomiędzy

średnimi są takie same, tzn.:

wówczas związek między

zmiennymi jest liniowy.

1

2

3

1

2

...

t

t

x

x

x

x

x

x

1

2

3

1

2

...

k

k

y

y

y

y

y

y

background image

Dla tabel dwudzielczych 2x2 postaci

wartość statystyki wyznaczamy według

prostszego, praktycznego wzoru:

a

b

c

d

background image

Na przykład w próbie liczącej 100 mężczyzn

w wieku 50-60 lat zbadano częstość

występowania choroby wieńcowej i

podwyższonego ciśnienia tętniczego.

Chcemy ocenić, czy choroba wieńcowa

współistnieje z podwyższonym ciśnieniem

tętniczym

Obliczając

według wzoru podanego wyżej,
otrzymujemy

=
26,23

background image

Innym miernikiem korelacyjnego związku cech

jest współczynnik korelacji rang
Spearmana. Współczynnik ten stosowany
jest głównie do badania współzależności
cech niemierzalnych, bądź cechy mierzalnej i
niemierzalnej. Może być on również
stosowany w badaniu związku
korelacyjnego pomiędzy cechami
mierzalnymi (szczególnie w przypadku małej
próby).

Konstrukcja współczynnika korelacji

rang opiera się na zgodności pozycji, którą
zajmuje każda z odpowiadających sobie
wielkości we wzrastającym lub
malejącym szeregu wartości cechy.

background image

Współczynnik korelacji rang Spearmana

(Q) wylicza się w oparciu o wyznaczone
różnice rang ( ) oraz liczby par
obserwacji (n):

przy czym:

gdzie:
- rangi zmiennej X oraz Y (i=1,2,...n)

n

n

d

Q

n

i

i

3

1

2

6

1

i

i

y

x

i

v

v

d

i

i

y

x

v

v ,

background image

gdy

Współczynnik korelacji rang

przyjmuje wartości z przedziału
, a jego interpretacja
jest analogiczna do
współczynnika korelacji Pearsona

1

Q

0

1

2

n

i

i

d

1

1

Q

background image

Przykład. W celu zbadania, czy istnieje związek
między zdyscyplinowaniem pacjentów względem
zaleceń personelu medycznego a wynikami
terapii na pewną dolegliwość poddano
obserwacji 10 pacjentów. Otrzymano
następujące wyniki obserwacji zestawione w
tabeli

:

Pacjent

Ranga

zdyscyply-

-nowanie

Ranga

terapii

Różnica

rang (d)

Kwadrat

różnicy

rang (d

2

)

1
2
3
4
5
6
7
8
9

10

6
2
5
1

10

4
9
3
8
7

4
1
5
3

10

7
6
2
9
8

2
1
0

-2

0

-3

3
1

-1
-1

4
1
0
4
0
9
9
1
1
1

Razem

0

30

background image

background image

WSPÓŁCZYNNIK

KORELACJI RANG

SPEARMANA

Współczynnik korelacji rang

Spearmana służy do opisu siły

korelacji dwóch cech w  przypadku,

gdy:

• - cechy są mierzalne, a badana

zbiorowość jest nieliczna,

• - cechy mają charakter jakościowy i

istnieje możliwość ich

• uporządkowania.

background image

Wzór na współczynnik

korelacji rang Spearmana

jest następujący:

)

1

(

6

1

2

1

2

n

n

d

Q

n

i

i

gdzie:d

i

= r

1i

– r

2i

,

r

1i

– ranga i-tego obiektu w pierwszym uporządkowaniu,

r

2i

– ranga i-tego obiektu w drugim uporządkowaniu,

n – liczba badanych obiektów.

Współczynnik

korelacji

rang

Spearmana

przyjmuje

wartości

z przedziału <-1,1>. Im bliższy jest on liczbie 1 lub
-1, tym silniejsza jest analizowana zależność.

background image

Przykład 1

W pewnym mieście przeprowadzono badania dotyczące
oglądalności ulubionych programów telewizyjnych. W
poniższej tabeli zamieszczono wyniki dla losowo
wybranego małżeństwa

.

Współczynnik korelacji rang Spearmana dla badanych cech wynosi:

93

,

0

)

1

7

(

7

108

6

1

2

r


Document Outline


Wyszukiwarka

Podobne podstrony:
wyklad 3b ANALIZA WSPÓŁZALEŻNOŚCI
WYKLAD ANALIZA MATEMATYCZNA
ćw 5 analiza współzależności zmiennych
Wykład analiza do zal 5
statys ANALIZA WSPÓŁZALEŻNOŚCI
AnaLIZA STATYSTYCZNA 8 wykład2, ANALIZA STATYSTYCZNA
AnaLIZA STATYSTYCZNA 8 wykład3, ANALIZA STATYSTYCZNA
wykład 3, Analiza żywności wykład 6
N wykladyIO analizaobiektowa
29 Wyklad 7 Teoria wspolzaleznosci a
wyklad3 analiza 1 czynnikowa
Wykład 6 Analiza rynku konsumenckiego
ProgCPP Wyklad Analiza 01
Wspomaganie czytania i pisania wykłady Analizatory
Analiza współzależności i korelacji

więcej podobnych podstron