PARAMETRY
STATYSTYCZNE
to wielkości liczbowe, które służą
do opisu struktury zbiorowości
statystycznej w sposób
systematyczny
Zadania parametrów
statystycznych
Określenie przeciętnego rozmiaru i
rozmieszczenia wartości zmiennej- za
pośrednictwem miar położenia
Określenie granic obszaru zmienności wartości
zmiennej-
za pośrednictwem miar zmienności
Określenie skupienia i spłaszczenia (w stosunku
do krzywej normalnej) oraz stopnia zmiany od
idealnej asymetrii-
za pośrednictwem miar
asymetrii i koncentracji
MIARY POŁOŻENIA
MIARY POZYCYJNE
MIARY PRZECIĘTNE
MIARY POZYCYJNE
modalna
kwartyl pierwszy
mediana (kwartyl drugi)
kwartyl trzeci
decyle
MIARY PRZECIĘTNE
średnia arytmetyczna
średnia harmoniczna
średnia geometryczna
modalna
Miary przeciętne
charakteryzują średni lub typowy poziom
wartości cechy, wokół których skupiają się
wszystkie pozostałe wartości analizowanej
cechy
Średnią arytmetyczną
definiuje się jako sumę wartości cechy
mierzalnej podzieloną przez liczbę
jednostek skończonej zbiorowości
statystycznej.
ŚREDNIA NIEWAŻNA STOSOWANA DLA
SZEREGÓW SZCZEGÓŁOWYCH
gdzie:
n -
liczebność zbiorowości próbnej (próby),
x
i
- wariant cechy
Dwóch pracowników wykonuje detale tego samego typu. Przeprowadzono
obserwację czasu wykonania pięciu detali przez robotnika A i dziesięciu detali
przez robotnika B i otrzymano następujące szeregi szczegółowe opisujące czas
wykonania detalu:
dla robotnika A: 12, 15, 15, 18, 20
dla robotnika B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21
Korzystając z wzoru na obliczenie
średniej :
min
16
5
80
5
20
18
15
15
12
A
x
min
4
,
15
10
154
10
21
21
20
18
15
15
12
12
10
10
B
x
W pewnym doświadczeniu medycznym
bada się czas snu pacjentów leczonych
na pewną chorobę. Zmierzono u n=12
losowo wybranych pacjentów czas snu
i otrzymano następujące wyniki
(w minutach):
435,389,533,324,561,395,416,500,499,397,
356,398.
Należy obliczyć średni czas snu:
583
,
433
x
ŚREDNIA ARYTMETYCZNA
WAŻONA-
wyznacza się w szeregach rozdzielczych
punktowych i w szeregach rozdzielczych z przedziałami klasowymi
SZEREG ROZDZIELCZY
PUNKTOWY
SZEREG ROZDDZIELCZY Z
PRZEDZIAŁAMI KLASOWYMI
Przykład: W tabeli poniżej zestawiono wyniki badań czasu pracy
wykonania 15 detali. Jest to szereg szczegółowy punktowy. Średnia
arytmetyczną czasu wyznaczymy na podstawie wzoru:
Numer
klasy
Czas w
min
Liczba
detal
i
Obliczenia
pomocnicze
i
x
i
n
i
x
i
*n
i
1
10
2
20
2
12
3
36
3
15
4
60
4
18
2
36
5
20
2
40
6
21
2
42
RAZEM
15
234
min
6
,
15
234
*
15
1
x
Ćwiczenie
Dziesięć osób czekających przed
gabinetami lekarskimi w przychodni
zapytano, ile razy korzystały z porad
lekarskich w ciągu ubiegłego roku
kalendarzowego. Uzyskane informacje
przedstawiono w postaci
następującego szeregu rozdzielczego
Oblicz ile razy w roku przeciętnie
korzystały z porad lekarza
badane osoby?
Liczba
porad
Liczba
osób
0
1
2
3
4
6
1
1
2
2
3
1
Razem
10
Oblicz średni czas reakcji na nowy lek:
Obliczenia pomocnicze
i
X
i
i
n
X
Numer
Klasy
Przedział
Klasowy
Liczebność
klasy
n
i
1
2
3
4
5
1
2
3
4
5
6
7
8-12
13-17
18-22
23-27
28-32
33-37
38-42
4
29
38
80
35
9
5
ŁĄCZNIE
200
24
200
4800
x
Jeżeli znamy średnie arytmetyczne dla pewnych
r-
grup i na tej podstawie chcemy wyznaczy średnią
arytmetyczną dla wszystkich grup łącznie
wykorzystujemy wówczas następujący wzór:
i
r
i
i
n
x
N
x
1
1
Korzystając z powyższego wzoru możemy obliczy średni
czas wykonania detalu przez robotnika A i B. Obliczona w
ten sposób średnia nazywa się średnią ważona,
wyznaczona na podstawie
średnich cząstkowych :
min
6
,
15
15
4
,
15
x
10
16
x
5
x
B
A
x
x ;
Średnią harmoniczną
stosuje się wtedy, gdy wartości cechy są
podane w przeliczeniu na stałą
jednostkę innej zmiennej, czyli w postaci
wskaźników natężenia, np. prędkość
pojazdu w km/h ; pracochłonność w
min/szt. ; gęstość zaludnienia w osobach /
km
2
.
WZORY
SZEREG SZCZEGÓŁOWY
SZEREG ROZDZIELCZY
Średnią geometryczną
stosuje się w
badaniach średniego
tempa zmian zjawisk,
a więc gdy zjawiska
są ujmowane
dynamicznie.
n
n
G
x
x
x
x
*
...
*
*
2
1
Przykład:
Z danych o ludności pewnego miasta wynika, że
w trzech kolejnych okresach liczba ludności
wynosiła odpowiednio : 5000, 7500, 8250.
Obliczmy średni przyrost względny ludności:
Wartości cechy (współczynniki względne) w tym
zadaniu będą następujące:
Zgodnie z wzorem na obliczenie średniej
geometrycznej średni przyrost ludności w trzech
kolejnych latach wynosił:
5
,
1
5000
7500
1
X
1
,
1
7500
8250
2
X
28
,
1
1
,
1
5
,
1
G
X
Modalna Mo (dominanta D,
moda, wartość najczęstsza)
jest to wartość cechy statystycznej, która
w danym rozdziale empirycznym
występuje najczęściej
Dla
szeregów szczegółowych oraz
szeregów rozdzielczych punktowych
modalna odpowiada wartości cechy o
największej liczebności (częstości).
W
szeregach rozdzielczych z przedziałami
klasowymi
bezpośrednio można określić
tylko przedział, w którym modalna
występuje, jej przybliżoną wartość
wyznacza się graficznie z histogramu
liczebności (częstości)
gdzie:
m -
numer przedziału (klasy), w którym występuje modalna,
X
0m
dolna granica przedziału, w którym występuje modalna,
n
m
-
liczebność przedziału modalnej, tzn. klasy o numerze m,
n
m-1
; n
m+1
-
liczebność klas poprzedzającej i następnej, o numerach m – 1 i
m + 1,
h
m
-
rozpiętość przedziału klasowego, w którym występuje modalna
Określimy za pomocą modalnej przeciętną
liczbę przyjmowanych w ciągu dnia przez
pacjentów leków
Liczba przyjmowanych leków % pacjentów
0
1
2
3
4
5 i więcej
4
19
21
32
17
7
RAZEM
100
Obliczyć modalną dla podanych w poniższej
tabeli danych
Leczeni pacjenci według czasu reakcji na
podany lek
Czas reakcji w minutach Liczba osób
8-12
13-17
18-22
23-27
28-32
33-37
38-42
4
29
38
80
35
9
5
RAZEM
200
Kwantyle
definiuje się jako wartości cechy badanej
zbiorowości, przedstawionej w postaci
szeregu statystycznego, które dzielą
zbiorowość na określone części pod
względem liczby jednostek, części te
pozostają do siebie w określonych
proporcjach.
KWARTYL DRUGI
– MEDIANA Me
dzieli zbiorowość na dwie równe części;
połowa jednostek ma wartości cechy
mniejsze lub równe medianie, a połowa
wartości cechy równe lub większe od Me;
stąd nazwa wartość środkowa
MEDIANA
– SZEREG
SZCZEGÓŁOWY
Przykład:
wiek kobiet przyjętych w październiku 1999 na oddział
ginekologiczny z przyczyn nagłych można przedstawić w
postaci następującego szeregu statystycznego:
18, 57, 34, 32, 29, 31, 19, 19, 27, 26, 26, 22, 23, 26,
26, 34, 26,
Teraz należy ten szereg uporządkować:
18, 19, 19, 22, 23, 26, 26, 26, 26, 26,27, 29, 31, 32,
34, 34, 57.
Szereg ten składa się z
17
wartości zmiennych. Wartością
środkową – medianą- w tym przypadku będzie wartość
znajdująca się na pozycji
9,
czyli
Me =26
Przykład:
Weźmy pod uwagę tym razem wiek kobiet przyjętych w
październiku 1999 roku na oddział położniczy w sposób
zaplanowany.
Po uporządkowaniu szereg opisujący wiek tych kobiet
przedstawia się następująco:
19,21,22,28,28,29
Jak widać tym razem mamy 6 przypadków, czyli ilość
parzystą. Wartościami środkowymi będą wielkości z
pozycji 3 i 4 , czyli 22 i 28
. Medianą zatem będzie
średnia arytmetyczna z tych dwóch liczb, czyli
25
.
Wyznaczyć medianę dla wzrostu
podanego poniżej:
165, 166,167,170,172,173,175,175,181
Podejrzewano, że pewna choroba wiąże się z
podwyższonym poziomem białych krwinek.
W grupie pacjentów leczonych z powodu tej
choroby zbadano liczbę białych krwinek
w 1 mm3 krwi. Otrzymano następujące
wyniki; 7400, 6400, 7800, 7500, 6900, 7300,
8000, 15900, 6700, 16300. Należy wyznaczyć
medianę dla tego szeregu
MEDIANA
– SZEREG
ROZDZIELCZY
GDZIE
m -
numer przedziału (klasy), w którym
występuje mediana,
X
0m
dolna granica przedziału, w którym
występuje mediana
n
m
-
liczebność przedziału mediany, tzn.
klasy o numerze m,
suma liczebności przedziałów
poprzedzających przedział mediany, czyli
liczebność skumulowana,
h
m
-
rozpiętość przedziału klasowego, w którym
jest mediana,
N
Me
- pozycja mediany, czyli
Zastosowanie mediany
W mikrobiologii do ustalenia przeciętnej liczby
drobnoustrojów.
W hematologii
– do ustalania przeciętnej
wartości erytrocytów lub leukocytów we krwi.
Przy ustalaniu przeciętnej przeżywalności
pooperacyjnej oraz dożywalności po leczeniu
wielu nieuleczalnych dotychczas chorób (np. po
operacjach nowotworów złośliwych).
Wyznaczyć medianę czasu reakcji na lek,
korzystając z danych zawartych w tabeli
Numer
klasy
Przedział
klasowy
Liczebność
klasy
Liczebność
skumulowana
1
2
3
4
5
6
7
8-12
13-17
18-22
23-27
28-32
33-37
38-42
4
29
38
80
35
9
5
4
33
71
151
186
195
200
RAZEM
200
KWARTYL PIERWSZY Q
1
dzieli zbiorowość na dwie części w ten
sposób, że 25% jednostek zbiorowości ma
wartości cechy niższe bądź równe
kwartylowi pierwszemu Q
1, a 75% równe
bądź wyższe od tego kwartyla
KWARTYL TRZECI Q
3
dzieli zbiorowość na dwie części w ten
sposób, że 75% jednostek zbiorowości ma
wartości cechy niższe bądź równe
kwartylowi trzeciemu Q
3, a 25% równe
bądź wyższe od tego kwartyla
DECYLE
Np. decyl pierwszy oznacza, że 10%
jednostek ma wartości cechy mniejsze
bądź równe od decyla pierwszego, a 90%
jednostek wartości cechy równe lub
większe od decyla pierwszego
Miary zmienności
(rozproszenia,
dyspersji)
MIARY KLASYCZNE
MIARY POZYCYJNE
MIARY KLASYCZNE
wariancja
odchylenie standardowe
odchylenie przeciętne
współczynnik zmienności
MIARY POZYCYJNE
rozstęp
odchylenie ćwiartkowe
współczynnik zmienności
Rozstęp
różnica pomiędzy wartością maksymalną, a minimalną
cechy -
jest miarą charakteryzującą empiryczny obszar
zmienności badanej cechy, nie daje on jednak informacji o
zróżnicowaniu poszczególnych wartości cechy w
zbiorowości .
Wariancja
jest to średnia arytmetyczna odchyleń kwadratów poszczególnych
wartości cechy od średniej arytmetycznej zbiorowości
Szereg szczegółowy
Szereg rozdzielczy punktowy
Szereg rozdzielczy z przedziałami
klasowymi
Odchylenie standardowe s
jest to pierwiastek kwadratowy z wariancji.
Stanowi miarę zróżnicowania o mianie
zgodnym z mianem badanej cechy,
określa przeciętne zróżnicowanie
poszczególnych wartości cechy od
średniej arytmetycznej.
Wzór
2
s
s
Odchylenie standardowe jest obok
średniej arytmetycznej najczęściej
stosowanym parametrem statystycznym
Jest wielkością obliczoną na podstawie
wszystkich obserwacji danego szeregu
Im zbiorowość jest bardziej zróżnicowana,
tym większa jest wariancja i oczywiście
odchylenie standardowe
Z odchyleniem standardowym wiąże się tzw. Reguła trzech
sigm, oparta na nierówności Czybyszewa, która mówi, ze
wystąpienie obserwacji o wartości cechy poza przedziałem
)
3
;
3
(
s
x
s
x
Odchylenie standardowe spełnia regułę trzech sigm w
przypadku rozkładu normalnego lub zbliżonego do
normalnego ponad 2/3 wszystkich zaobserwowanych wartości
zmiennej (68,28%) różni się od średniej nie mniej niż o
wartość odchylenia standardowego (+-s), 95,45% obserwacji
różni się od średniej o dwa odchylenia standardowe, natomiast
99,73% obserwacji mieści się w przedziale średnia +-3
odchylenia standardowe
Jest mało prawdopodobne
Odchylenie standardowe
Typowy obszar zmienności cechy
Reguła trzech sigm
2
s
s
s
x
x
s
x
typ
)
3
;
3
(
s
x
s
x
Współczynnik zmienności
jest ilorazem bezwzględnej miary
zmienności cechy i średniej wartości tej
cechy, jest wielkością niemianowaną,
najczęściej podawaną w procentach.
Współczynnik zmienności stosuje
się zwykle w porównaniach, gdy
chcemy ocenić zróżnicowanie:
Kilku zbiorowości pod względem tej samej
cechy,
Tej samej zbiorowości pod względem kilku
różnych cech.
Klasyczny współczynniki
zmienności
x
s
V
Województwa Polski scharakteryzowano przez dwie
cechy: powierzchnię X i liczbę ludności Y.
Należy obliczy dla powyższych cech współczynniki
zmienności
Wyznaczone dla
cechy X parametry
przedstawiają się
następująco:
Wyznaczone dla
cechy Y parametry
przedstawiają się
następująco:
24
,
2
;
28
,
6
s
x
590
;
784
s
y
Obliczone współczynniki zmienności wskazują, że zarówno
pod względem powierzchni jak i liczby ludności
województwa są silnie zróżnicowane, przy czym różnią się
one znacznie bardziej pod względem liczby mieszkańców
%
7
,
35
100
28
,
6
24
,
2
X
V
Powierzchnia
%
3
,
75
100
784
590
Y
V
Liczba ludności
Współczynnik zmienności charakteryzuje
stosunek nasilenia przyczyn ubocznych
do przyczyn głównych
Wartości liczbowe współczynników zmienności
najczęściej są podawane w procentach.
Przyjmuje się, że jeżeli współczynnik zmienności
jest poniżej 10%, to cechy wykazują
zróżnicowanie nieistotne statystycznie. Duże
wartości tego współczynnika świadczą o
zróżnicowania a więc niejednorodności
zbiorowości.
MIARY ASYMETRII
wskaźnik skośności
współczynnik skośności
W wielu sytuacjach badanie średniego
poziomu cechy i rozproszenia jej wartości
nie wykazuje istnienia różnic między
analizowanymi zbiorowościami. Obserwacja
rozkładów empirycznych tych cech wyklucza
natomiast podobieństwo struktury
rozważanych zbiorowości.
W tabeli przedstawiono strukturę
czasu reakcji na lek w trzech
grupach
CZAS REAKCJI
Odsetek pacjentów
GRUPA I
GRUPA II
GRUPA III
10-20
10
5
10
20-30
20
35
25
30-40
40
25
25
40-50
20
25
35
50-60
10
10
5
RAZEM
100
100
100
średnia
35
35
35
odchylenie stand
120
120
120
mediana
35
34
36
modalna
35
27,5
42,5
GRUPA I
0
5
10
15
20
25
30
35
40
45
Grupa I
10 20 30 40 50 60
GRUPA II
0
5
10
15
20
25
30
35
40
Grupa II
10 20 30 40 50 60
GRUPA III
0
5
10
15
20
25
30
35
40
Grupa III
10 20 30 40 50 60
Rozkłady różnią się między sobą kierunkiem i
siłą asymetrii (miary klasyczne):
dla szeregów symetrycznych
jeżeli
asymetria prawostronna
jeżeli
asymetria lewostronna.
Im większe są różnice pomiędzy średnią
arytmetyczną a modalną, tym bardziej
asymetryczny jest rozkład badanej cechy.
Skośność dodatnia (prawostronna)
ma miejsce wówczas, gdy dłuższe ramię
krzywej charakteryzującej rozkład
liczebności szeregu znajduje się po
prawej stronie średniej.
Jeżeli dłuższe ramię krzywej
znajduje się po lewej stronie średniej,
wówczas można mówić o skośności
ujemnej (lewostronnej).
Charakter asymetrii można również
określać na podstawie punktów
wyznaczonych przez dominantę, medianę i
średnią arytmetyczną.
W szeregu symetrycznym wszystkie miary
pozycyjne są sobie równe.
W szeregu asymetrycznym miary te
kształtują się na różnym poziomie: im
większa skośność, tym większe są różnice
pomiędzy dominantą, medianą i średnią
arytmetyczną.
Jednym z mierników skośności jest
wskaźnik skośności (inaczej: bezwzględna
miara skośności):
Wskaźnik ten jest bezwzględną
miarą asymetrii posiadającą miano
badanej cechy. Z tego względu ma
on ograniczone zastosowanie w
analizie porównawczej. Poza tym,
wskaźnik skośności określa jedynie kierunek
asymetrii (prawo-, czy lewostronna) nie
wskazując jej siły.
Mo
x
Ws
W szeregach asymetrycznych wskaźnik
asymetrii może być większy lub mniejszy
od zera. Wówczas mówimy o asymetrii
prawostronnej lub lewostronnej. I tak:
asymetria prawostronna
- asymetria lewostronna
Mo
Me
x
czyli
Mo
x
0
Mo
Me
x
czyli
Mo
x
0
Współczynniki skośności (asymetrii)
są stosowane w porównaniach, do określenia siły oraz
kierunku asymetrii,
Wielkość różnicy pomiędzy średnią arytmetyczną a
wartością modalną jest jednak zależna od wielkości
jednostek statystycznych . Dla otrzymania miary
asymetrii, uniezależnionej od wielkości obserwacji, a
zależnej tylko od struktury zbiorowości statystycznej,
różnicę pomiędzy średnią i modalną dzielimy przez
odchylenie standardowe i w ten sposób otrzymujemy
współczynnik asymetrii,
Miarą określającą zarówno kierunek
jak i siłę asymetrii jest współczynnik
skośności:
Współczynnik ten przyjmuje
zazwyczaj wartości z przedziału:
<-1;1>. Jedynie przy bardzo silnej
asymetrii wartość współczynnika może
wykroczyć poza w/w przedział.
s
D
x
As
Jeżeli dany rozkład jest symetryczny,
wówczas
W przypadku asymetrii prawostronnej:
Dla rozkładu o asymetrii lewostronnej:
0
As
0
As
0
As
Współczynniki asymetrii
Rozkłady symetryczne (mają oś symetrii a po obu
jej stronach rozkład ilości jest taki sam); rozkłady
symetryczne można podzielić na normalne,
spłaszczone i wysmukłe
n
i
x
i
n
i
x
i
n
i
x
i
r. normalny
r. wysmukły
r. spłaszczony
Współczynnik koncentracji
to wielkość statystyczna
zwana inaczej
kurtozą
lub
współczynnikiem
skupienia. Jest to miara
skupienia, którą możemy
wyliczyć ze wzoru:
4
4
s
m
K
gdzie:
a) dla szeregu
punktowego
b) dla szeregu
rozdzielczego
4
1
4
)
(
1
x
x
n
m
n
i
i
i
k
i
i
n
x
x
n
m
4
1
4
)
(
1
Analiza zależności
korelacyjnej
pomiędzy cechami
Współczynnik korelacji
Przy analizie zjawisk procesów stanowiących
przedmiot badania zazwyczaj charakteryzujemy
jednostki badane za pomocą więcej niż jednej
cechy.
Bardzo często interesują nas powiązania jakie
zachodzą pomiędzy analizowanymi cechami i w
związku z tym zachodzi potrzeba ich łącznego
badania
Celem takiej analizy jest stwierdzenie, czy
między badanymi zmiennymi zachodzą jakieś
zależności , jaka jest ich siła , jaka jest ich
postać i kierunek
Typy zależności
Zależność funkcyjna
Zależność statystyczna
Związek funkcyjny
Odznacza się tym, że każdej wartości jednej zmiennej
niezależnej (będziemy ją oznaczać jako X) odpowiada
tylko jedna, jednoznacznie określona wartość zmiennej
zależnej (Y).
Takie jednoznaczne związki funkcyjne obserwujemy w
zaplanowanym eksperymentach czy urządzeniach
technicznych. Np. wiemy, że objętość strzykawki jest
jednoznacznie wyznaczona przez jej wymiary, że droga
poruszającego się ciała zależy od prędkości według
zależności funkcyjnej S=vt.
W badaniach biomedycznych takiej jednoznacznej
zależności funkcyjnej nie obserwujemy.
Związek statystyczny
polega na tym, że określonym wartościom jednej
zmiennej odpowiadają ściśle określone średnie
wartości drugiej zmiennej. Można zatem
obliczyć, jak się zmieni (średnio biorąc) wartość
zmiennej zależnej Y w zależności od wartości
zmiennej niezależnej X. Np. jak zmieni się
średnio hematokryt –HTC w zależności od
zmian hemoglobiny
– HGB w krwince czerwonej.
Zanim przystąpimy do zbadania zależności
należy uzasadnić logicznie istnienie związku
pomiędzy badanymi cechami
Liczbowe stwierdzenie występowania zależności
nie zawsze oznacza występowanie związku
przyczynowo-
skutkowego między badanymi
zmiennymi.
Współwystępowanie dwóch zjawisk może również
wynikać z bezpośredniego oddziaływania na nie
jeszcze innego, trzeciego zjawiska.
ANALIZA KORELACJI
jest matematycznym narzędziem
pozwalającym na stwierdzenie
powiązania, określenia jego siły i kierunku
między dwiema zmiennymi X i Y.
Korelacja między
zmiennymi X i Y
jest miarą
siły liniowego związku
między tymi zmiennymi.
Wykresy rozrzutu
Analizę związku korelacyjnego między
badanymi cechami rozpoczynamy zawsze
od sporządzenia wykresu. Wykresy, które
reprezentują obrazowo związek pomiędzy
zmiennymi, nazywane są wykresami
rozrzutu
Korelacyjne wykresy rozrzutu; 1 - korelacja liniowa dodatnia, 2 - korelacja
liniowa ujemna, 3 - brak korelacji, 4 - korelacja krzywoliniowa
Miara zależności
Powinna przyjmować największe wartości
dla cech całkowicie zależnych
(układających się na wykresie w linię
prostą),
Powinna odróżniać od siebie cechy o tym
samym kierunku wzrostu od cech o
kierunku przeciwnym
Powinna być łatwa w interpretacji
Współczynnik korelacji to miara
zależności liniowej o następujących
własnościach:
Przyjmuje wartości od -1 do + 1
Jeżeli wartość współczynnika korelacji wynosi 1, to
cechy są ściśle zależne a ich wartości równocześnie
rosną lub maleją
Jeżeli wartość współczynnika korelacji wynosi – 1, to
cechy są ściśle zależne, a wzrostowi wartości jednej
cechy odpowiada spadek wartości drugiej cechy
Jeżeli wartość współczynnika korelacji wynosi 0 , to
cechy są niezależne liniowo- to znaczy, że żadna
funkcja liniowa nie opisuje jakiegokolwiek związku
obu cech
Wzrostowi współczynnika korelacji od 0 do 1
odpowiada wzrost zależności między cechami o
zgodnej tendencji, natomiast spadkowi od 0 do – 1,
odpowiada wzrost zależności między cechami o
przeciwnej tendencji.
Im większa wartość współczynnika, tym większa jest
zależność liniowa między zmiennymi. r
xy
= 0 oznacza
brak korelacji, r
xy
= 1 oznacza maksymalną korelację,
natomiast r
xy
= - 1 oznacza korelację ujemną, tzn.
jeżeli zmienna x rośnie, to y maleje i na odwrót.
Korelacja przyjmuje zawsze wartości w zakresie
[ - 1,1], co pozwala uniezależnić analizę od dziedziny
badanych zmiennych.
Interpretacja wartości współczynnika
korelacji
-1< ρ < - 0,7 – bardzo silna korelacja ujemna
-0,7< ρ < - 0,5 – silna korelacja ujemna
-0,5< ρ < - 0,3- korelacja ujemna o średnim natężeniu
-0,3< ρ < - 0,2 – słaba korelacja ujemna
-0,2< ρ < 0,2- korelacja nieistotna, nie ma związku
liniowego między cechami
0,2 < ρ < 0,3 – słaba korelacja dodatnia
0,3 < ρ < 0,5 – korelacja dodatnia o średnim
natężeniu
0,5 < ρ < 0,7 – silna korelacja dodatnia
0,7 < ρ < 1 – bardzo silna korelacja dodatnia
Współczynnik korelacji Pearsona
wyliczamy wówczas, gdy obie zmienne są
mierzalne i mają rozkład zbliżony do
normalnego, a zależność jest
prostoliniowa (stąd nazwa). Przy
interpretacji współczynnika korelacji
liniowej Pearsona należy więc pamiętać,
że wartość współczynnika bliska zeru nie
zawsze oznacza brak zależności, a
jedynie brak zależności liniowej.
Znak współczynnika korelacji informuje nas o
kierunku korelacji, natomiast jego
bezwzględna wartość - o sile związku.
Oczywiście r
XY
jest równe r
YX .
Jeśli r
XY
= 0,
oznacza to zupełny brak związku
korelacyjnego między badanymi zmiennymi X
i Y . Im wartość bezwzględna współczynnika
korelacji jest bliższa jedności, tym zależność
korelacyjna między zmiennymi jest silniejsza.
Gdy r
XY
= |1|, to zależność korelacyjna
przechodzi w zależność funkcyjną (funkcja
liniowa).
Znak „+” przy wartości współczynnika oznacza, że
wraz ze wzrostem wartości jednej zmiennej
obserwujemy wzrost wartości drugiej zmiennej. Znak
„-” przy wartości współczynnika oznacza, że wraz ze
wzrostem jednej zmiennej obserwujemy spadek
wartości drugiej zmiennej.
Wartość współczynnika korelacji nie zależy od
jednostek miary, w jakich wyrażamy badane
zmienne, np. korelacja miedzy wzrostem a ciężarem
będzie taka sama bez względu na to w jakich
jednostkach wyrazimy badane wielkości.
Wielkość współczynnika korelacji zależy
od zakresu zmienności badanych cech
0
5
10
15
20
25
30
35
40
45
50
0
2
4
6
8
Uwzględniając w
badaniach tylko punkty
zaznaczone w
prostokącie moglibyśmy
wnioskować o braku
związku pomiędzy
cechami. Zwiększenie
liczby obserwacji sprawia,
ze współczynnik korelacji
może być znaczący.
Współczynnik korelacji, podobnie jak średnia
arytmetyczna podlega wpływom wartości skrajnych-
odrzucenie zaznaczonych na wykresie obserwacji zwiększy
wartość wyznaczanego współczynnika korelacji
0
5
10
15
20
25
30
35
0
2
4
6
8
10