STATYSTYKA OPISOWA

Wprowadzenie do statystyki

Miary położenia

Miary rozproszenia

Miary współzależności

(korelacji)

WPROWADZENIE

Wyraz statystyka pochodzi od łacińskiego słowa status,

co oznacza stan, położenie, stosunki (w języku włoskim

stato oznacza państwo) i użyty został przez

G. Achenwalla dla oznaczenia nauki o „osobliwościach

państwowych”, zwanej państwoznastwem. Statystyka

to zbiór metod służących pozyskiwaniu, prezentacji

i analizie danych. Inna definicja: statystyka to nauka

traktująca o metodach ilościowych badania zjawisk

masowych. Zjawisko masowe to takie zjawisko,

które badane w dużej masie zdarzeń wskazuje

właściwą sobie prawidłowość, jakiej nie można

zaobserwować

pojedynczym

przypadku.

Przykłady

zjawisk

masowych: spożycie pewnych artykułów na 1

mieszkańca, urodzenia itp.

Statystyka:

a) umożliwia dokładniejszy sposób opisu interesującej

nas rzeczywistości,

b) zmusza nas do dokładności i śmiałości w działaniu

i rozumowaniu,

c) umożliwia formułowanie uogólnień na podstawie

uzyskanych wyników analizy,

d) pozwala na przewidywanie rozwoju zjawisk

w przyszłości, czyli pobudzanie do prognoz,

e) dostarcza narzędzi do porządkowania informacji

o zjawiskach – a przez to pozwala na budowę ich

ogólnego obrazu,

f) dostarcza narzędzi do prowadzenia analizy

przyczyn kształtujących badane zjawiska i procesy,

a więc umożliwia dokonanie ich klasyfikacji na

czynniki systematyczne i przypadkowe.

Powstaje pytanie: dlaczego w zbiorze wielu zdarzeń

zachodzą prawidłowości statystyczne podczas, gdy

poszczególne zdarzenia są zróżnicowane? Otóż

każde

zjawisko

(ekonomicznej,

przyrodnicze,

socjologiczne itp.) kształtuje się pod wpływem

dwojakiego rodzaju przyczyn:

głównych

(podstawowych,

typowych,

systematycznych).

ubocznych (przypadkowych, indywidualne).

Ad 1) Przyczyny główne oddziałują na każde zjawisko

w sposób jednakowy, mają charakter wewnętrzny,

ich istota wypływa z charakteru zjawiska – działają w

ściśle określonym kierunku. Przyczyny te są wspólne

dla wszystkich jednostek badanej zbiorowości

zdarzeń (wpływ czynników głównych).

Ad 2) Przyczyny uboczne działają na każde

zjawisko w sposób odmienny. Wyrażają

zróżnicowanie osobnicze (wpływ czynnika losowego).

Ostatecznym celem stosowania tych

metod jest otrzymanie użytecznych
informacji na temat zjawiska, którego
dotyczą. Istotne jest, aby badania
statystyczne

były

zaplanowane

w sposób nie budzący zastrzeżeń. Ich
cel powinien być określony zrozumiale
i szczegółowo. Materiał statystyczne
powinien zaś być wiarygodny i
przejrzysty.

Cel badania jest możliwy do osiągnięcia

wówczas, gdy jednostki statystyczne
są precyzyjnie określone pod
względem:

- rzeczowym (przedmiot badań),
- przestrzennym (miejsce badań),
- czasowym (okres badań).

ZBIOROWOŚĆ I CECHY

STATYSTYCZNE

Zbiorowość statystyczna (populacja)

to zbiór dowolnych elementów
objętych badaniem statystycznym.
Wyodrębniona część zbiorowości nosi
nazwę próby statystycznej.
Elementy badanej zbiorowości
określane są mianem jednostek
statystycznych. Właściwości tych
jednostek nazywane są cechami
statystycznymi.

CECHY STATYSTYCZNE:

STAŁE (wspólne wszystkim
jednostkom badanej zbiorowości).
Nie podlegają badaniu a jedynie
decydują o zaliczeniu jednostek do
określonej zbiorowości.

II. ZMIENNE (podlegają badaniom).

Cechy statystycznie zmienne:

ilościowe jakościowe

skokowe ciągłe

Badania statystyczne:

pełne częściowe

spisy rejestracja bieżąca

sprawozdawczość

Badania statystyczne:

ciągłe okresowe

doraźne

Metody prezentacji danych

statystycznych:

1. Szeregi statystyczne.
2. Tablice statystyczne.
3. Wykresy statystyczne.

Szeregi statystyczne

(ze względu na budowę):

szczegółowe rozdzielcze

kumulacyjne

Szeregi statystyczne

(ze względu na cechy):

czasowe

przestrzenne

WYKRESY STATYSTYCZNE:

LINIOWY

Ceny akcji spółki Kęty

0,00

20,00

40,00

60,00

80,00

100,00

120,00

140,00

160,00

2000

2001

2002

2003

2004

kwartały

WYKRESY STATYSTYCZNE:

BRYŁOWY

434

481

576

768

1130

200

400

600

800

1000

1200

wartość

(mln PLN)

2000

2001

2002

2003

2004

lata

Przychody ze sprzedaży

WYKRESY STATYSTYCZNE:

SŁUPKOWY

Przychody ze sprzedaży

434

481

576

768

1130

200

400

600

800

1000

1200

2000

2001

2002

2003

2004

lata

wartość

(mln PLN)

WYKRESY STATYSTYCZNE:

KOŁOWY

Udziały w rynku

27%

33%

15%

25%

Spółka A
Spólka B
Spółka C
Spółka D

WYKRESY STATYSTYCZNE:

PUNKTOWY

Przychody ze sprzedaży

434

481

576

768

1130

200

400

600

800

1000

1200

1999

2000

2001

2002

2003

2004

2005

lata

wartość

(mln PLN)

WYKRESY STATYSTYCZNE:

WARTSTWOWY

Przychody ze sprzedaży

434

481

576

768

1130

200

400

600

800

1000

1200

2000

2001

2002

2003

2004

lata

wartość

(mln PLN)

WYKRESY STATYSTYCZNE:

PIERŚCIENIOWY

Przychody ze sprzedaży

434

481

576

768

1130

ANALIZA STRUKTURY ZJAWISK

MASOWYCH

Rozkładem empirycznym określa się

przyporządkowanie poszczególnym
wartościom zmiennej x

odpowiadających im liczebności n

. W

określaniu rozkładu empirycznego zamiast
liczebności n

stosuje się częstości

względne określone wzorem:

przy czym:





1

TYPY ROZKŁADÓW

EMPIRYCZNYCH

Rozkład jednomodalny

Rozkład bimodalny

Rozkład wielomodalny

Rozkład skrajnie asymetryczny

Rozkład siodłowy

Rozkład umiarkowanie asymetryczny

Rozkład symetryczny

Rozkład spłaszczony

Rozkład wysmukły

OPISOWE CHARAKTERYSTYKI

ROZKŁADÓW

Przeprowadzając analizę struktury

zjawisk masowych należy zbadać:

1. tendencję centralną, czyli tzw. przeciętny

poziom

2. Zróżnicowanie wartości, czyli tzw.

dyspersję (zmienność, rozproszenie)

3. asymetrię rozkładu (skośność)
4. koncentrację.
Do przeprowadzenia tych badań

wykorzystuje się charakterystyki

nazywane parametrami. Charakterystyki

opisowe to liczby (wielkości), które

pozwalają w sposób syntetyczny określić

właściwości badanych rozkładów.

MIARY ŚREDNIE (PRZECIĘTNE)

Miary średnie pozwalają określić

tendencję centralną. Służą do

określania tej wartości zmiennej,

wokół której kupiają się wszystkie

pozostałe zmienne.

Podział średnich:
1. Średnie klasyczne.
2. Średnie pozycyjne.
Do średnich klasycznych zalicza się średnie:
1. arytmetyczną
2. geometryczną
3. harmoniczną.

Średnia arytmetyczna to suma

wartości zmiennej wszystkich
jednostek badanej zbiorowości
podzielona przez liczbę tych
jednostek:

gdzie:
x

– wartość cechy,

n – liczebność próby













...

Jeżeli wartości zmiennej

występują z różną częstotliwością,
wówczas wylicza się średnią
arytmetyczną ważoną (wagami są
liczebności odpowiadające
poszczególnym wartościom):

gdzie:





















...





W przypadku danych zgrupowanych w

szereg rozdzielczy przedziałowy wzór
na średnią arytmetyczną jest
następujący:

gdzie:
- środek i-tego przedziału

klasowego.

Jeżeli zamiast liczebności

wykorzystywane są częstości w

i ,

wzór

na średnią arytmetyczną przyjmuje
postać:





















...









Średnia arytmetyczna jest miarą prawidłową

jedynie w odniesieniu do zbiorowości
jednorodnych, o niewielkim zróżnicowaniu
wartości zmiennej. Średniej tej nie należy
stosować w przypadku rozkładów skrajnie
asymetrycznych, bimodalnych i
wielomodalnych. Nie oblicza się jej
również w przypadkach, gdy w
zbiorowości występują wartości skrajne.
Ponadto, średniej arytmetycznej nie należy
stosować dla szeregu o otwartych
przedziałach, jeżeli przedziały te
charakteryzują się dużą liczebnością.

Średnia harmoniczna jest

odwrotnością średniej arytmetycznej z
odwrotności wartości zmiennych. W
przypadku szeregów
szczegółowych (wyliczających) średnią
harmoniczną liczy się ze wzoru:





Dla szeregów rozdzielczych

punktowych średnią harmoniczną liczy
się z uwzględnieniem wag, tzn:





Dla szeregów rozdzielczych

przedziałowych średnią harmoniczną
liczy się następująco:

Średnią harmoniczną stosuje się

wówczas, gdy wartości zmiennej
podane są w jednostkach względnych.





Średnia geometryczna jest

pierwiastkiem n-tego stopnia z
iloczynu n zmiennych:

gdzie:
- znak iloczynu.









...



W przypadku, gdy wartości zmiennej

występują z różną częstotliwością,

średnią geometryczną wylicza się z

wykorzystaniem następującej formuły:

gdzie:









...





...

Średnią geometryczną stosuje się w

przypadkach, gdy wartości zmiennej tworzą postęp

geometryczny lub w przypadku rozkładu skrajnie

asymetrycznego.

Średnia ta ma zastosowanie przy badaniu

średniego tempa zmian.

Średniej geometrycznej nie należy stosować,

jeżeli którakolwiek z wartości zmiennej jest ujemna

lub równa zeru!!!

ŚREDNIE POZYCYJNE

Najczęściej wykorzystywanymi

średnimi pozycyjnymi są:
dominanta (moda, wartość
najczęstsza) oraz mediana
(wartość środkowa).

Dominantą nazywa się taką

wartość zmiennej, nie będącą
ani najmniejsza ani największą,
która w danym rozkładzie
empirycznym występuje najczęściej.

W szeregach rozdzielczych punktowych

jest tą wartością cechy, której odpowiada

największa liczebność.

W szeregach rozdzielczych przedziałowych

bezpośrednio można wyznaczyć wyłącznie

przedział zwany przedziałem dominanty

(jest to przedział o największej liczebności).

Wartość dominanty wyznacza się ze wzoru:

gdzie:
- dominanta
- dolna granica przedziału dominanty
- liczebność przedziału dominanty
- liczebność przedziału poprzedzającego przedział
dominanty
- liczebność przedziału następującego po przedziale
dominanty
- interwał (rozpiętość) przedziału dominanty.



 





















Dla szeregów rozdzielczych przedziałowych

dominantę można również wyznaczyć metodą graficzną,

która polega na wykreśleniu histogramu liczebności z

trzech przedziałów klasowych: przedziału dominanty oraz

dwóch przedziałów sąsiednich.

Wyznaczanie dominanty jest uzasadnione wówczas,

gdy szereg spełnia następujące warunki:

 rozkład empiryczny jest rozkładem jednomodalnym,
 asymetria rozkładu jest umiarkowana,
 przedział dominanty i przedziały sąsiednie mają jednakowe

rozpiętości.

Medianą określa się taką

wartość cechy, że co najmniej połowa
jednostek ma wartość cechy nie
większą niż i co
najmniej połowa ma wartość nie
mniejszą niż .

Medianą jest wartość cechy, którą

posiada środkowa jednostka w
uporządkowanym rosnąco ciągu
elementów zbiorowości.













Zatem:
















parzystego

dla

ego

nieparzyst

dla

W przypadku szeregu

rozdzielczego przedziałowego medianę
wyznacza się metodą graficzną lub
rachunkową. W metodzie graficznej
wykorzystuje się wykres krzywej
liczebności skumulowanej.

Jeżeli dane są przedstawione za

pomocą szeregu rozdzielczego
punktowego (cecha skokowa) –
medianą jest pierwsza wartość,
której odpowiada co najmniej
połowa skumulowanej liczebności.

Jeżeli mamy do czynienia z szeregiem rozdzielczym

klasowym (dla cechy ciągłej) medianę można wyznaczyć

wykorzystując wzór:

gdzie:
- liczebność i-tej klasy
- liczebność zbiorowości (próby)
- numer klasy zawierającej medianę
- dolna granica przedziału, w którym znajduje się
mediana
- interwał (rozpiętość) przedziału mediany
- liczebność przedziału mediany.

















n
m

Jeżeli mamy do czynienia z

szeregiem rozdzielczym klasowym (dla
cechy ciągłej) medianę można
wyznaczyć wykorzystując wzór:









MIARY ZMIENNOŚCI

Na zjawiska masowe oddziałują

dwa rodzaje przyczyn:

Główne (wywołujące zmienność
systematyczną)

Uboczne (wywołujące zmienność
przypadkową)

Przybliżonym miernikiem

składnika systematycznego zbiorowości
są miary przeciętne (średnie).
Odchylenia wartości poszczególnych
jednostek zbiorowości od wartości
średniej powstają pod wpływem
przyczyn przypadkowych (ubocznych).

Do pomiaru tych odchyleń

wykorzystuje się miary zmienności

(zróżnicowania, dyspersji,

rozproszenia).

Dyspersja to zróżnicowanie jednostek

badanej zbiorowości ze względu na

wartość badanej cechy statystycznej. Siłę

dyspersji można oceniać

za pomocą miar:

1. Klasycznych
2. Pozycyjnych.
Punktem odniesienia w miarach

klasycznych jest średnia arytmetyczna,

zaś miary pozycyjne wyznaczane są

przede wszystkim na podstawie kwartyli.

Miary klasyczne:
1. Wariancja
2. Odchylenie standardowe
3. Odchylenie przeciętne (dewiata)
4. Współczynnik zmienności*.

* - jeśli do jego wyliczenia

wykorzystywana jest średnia
arytmetyczna oraz odchylenie
standardowe)

Miary pozycyjne:
1. Empiryczny obszar zmienności

(rozstęp, amplituda wahań, pole
rozsiania)

2. Odchylenie ćwiartkowe
3. Współczynnik zmienności**.

** - jeśli do jego wyliczenia

wykorzystywana jest mediana oraz
odchylenie ćwiartkowe)

Najczęściej stosowane miary

rozproszenia:

1. Obszar zmienności
2. Odchylenie przeciętne
3. Wariancja
4. Odchylenie standardowe
5. Współczynnik zmienności.

Obszarem zmienności określa się

różnicę pomiędzy największą a najmniejszą

wartością zmiennej, tzn.:

Miara ta ma niewielką wartość

poznawczą, gdyż obszar zmienności

uzależniony jest

od wartości skrajnych, które często różnią

się istotnie od wszystkich pozostałych

wartości zmiennej. Na obszar zmienności

wpływają tylko wartości skrajne,

pozostałe zaś nie mają żadnego

wpływu na wynik. Obszar zmienności

wykorzystywany jest jedynie przy

wstępnej ocenie rozproszenia.

min

max





Odchyleniem przeciętnym d nazywa

się średnią arytmetyczną z

bezwzględnych odchyleń wartości zmiennej

x od średniej arytmetycznej.

Odchylenie przeciętne wyznaczamy z

następujących wzorów:

- dla szeregu szczegółowego:

gdzie:
n - liczebność badanej zbiorowości
- wartości przyjmowane przez cechę mierzalną
- średnia arytmetyczna badanej zbiorowości











x
x

dla szeregu rozdzielczego punktowego:

dla szeregu rozdzielczego
przedziałowego:

gdzie:
- środek i-tego przedziału klasowego











1











1

Wariancją określa się średnią

arytmetyczną z sumy kwadratów
odchyleń poszczególnych wartości
cechy statystycznej od średniej
arytmetycznej całej zbiorowości
statystycznej. Wariancję wyznacza
się z następujących wzorów:

- dla szeregu szczegółowego:















- dla szeregu rozdzielczego

punktowego:

- dla szeregu rozdzielczego

przedziałowego:















1





 







1

Podstawowe właściwości wariancji:
1. Jest zawsze liczbą nieujemną
2. Jest zawsze wielkością

mianowaną, tzn. wyrażoną w
jednostkach badanej cechy
statystycznej. Miano wariancji
zawsze jest kwadratem jednostki
fizycznej, w jakiej mierzona jest
badana cecha

3. Im zbiorowość statystyczna jest

bardziej zróżnicowana, tym wartość
wariancji jest wyższa

Wariancja, jako miara dyspersji

wykorzystywana dla szeregów
rozdzielczych przedziałowych, daje
zawsze wartości zawyżone. Przyczyna
zawyżenia wartości wynika z
faktu, iż w przypadku szeregów
rozdzielczych przedziałowych korzysta
się ze środków przedziałów. W
celu zmniejszenia popełnionego błędu,
przy obliczaniu wariancji w przypadku
przedziałów o zbyt dużej rozpiętości (i),
stosuje się tzw. poprawkę Shepparda.
Wzór na wariancję przyjmuje wówczas
postać:

pop







Odchylenie standardowe jest

pierwiastkiem kwadratowym z
wariancji:

gdzie:
- odchylenie standardowe
- wariancja.
Odchylenie standardowe określa,

o ile wszystkie jednostki
statystyczne danej zbiorowości różnią
się średnio od wartości średniej
arytmetycznej badanej zmiennej.

s 

W statystyce odchylenie

standardowe wykorzystywane jest do

tworzenia typowego obszaru zmienności

statystycznej. W obszarze takim mieści

się około 2/3 wszystkich jednostek

badanej zbiorowości statystycznej.

Typowy obszar zmienności określa wzór:

Użyteczność kategorii typowego

obszaru zmienności sprowadza się przede

wszystkim do rozdziału jednostek

statystycznych

na typowe (tzn. występujące

stosunkowo często) i nietypowe (tzn.

występujące stosunkowo rzadko).

typ







Z odchyleniem standardowym

łączy się pojęcie zmiennej
standaryzowanej (unormowanej)
dla rozkładu empirycznego cechy
mierzalnej :





Miary dyspersji (rozproszenia),

jak i wartości średnie są liczbami
mianowanymi. Fakt ten
umożliwia bezpośrednie
porównywania miar dyspersji
obliczonych dla różnych szeregów.

Jeżeli badane zjawisko mierzone

jest w różnych jednostkach miary lub
kształtuje się na niejednakowym
poziomie, wówczas do oceny
rozproszenia należy stosować
współczynnik zmienności.

Współczynnik zmienności jest ilorazem

odchylenia przeciętnego lub odchylenia
standardowego oraz średniej:

lub

(zamiast może być inna średnia, np.

mediana)

Współczynnik zmienności może

być wyrażony w procentach.
Współczynnik ten zastępuje
bezwzględne miary dyspersji.

V 

Współczynnik zmienności

pozwala porównywać różne
szeregi lub szeregi tego
samego typu, ale o różnej
strukturze. Umożliwia on
dokonanie analiz zmienności w
czasie i przestrzeni.
Współczynnik zmienności (obok
odchylenia standardowego)
wykorzystywany jest jako miara
ryzyka finansowego.

MIARY ASYMETRII (SKOŚNOŚCI)

Szczegółowa analiza statystyczna

powinna zawierać nie tylko

poziom przeciętny i wewnętrzne

zróżnicowanie zbiorowości. Istotne

jest również określenie, czy

przeważająca liczba jednostek

znajduje się powyżej czy poniżej

przeciętnego poziomu badanej cechy.

Należy dokonać zatem oceny

asymetrii rozkładu. W związku z

tym określa się charakter (kierunek)

oraz natężenie (rozmiar) skośności.

W zjawiskach społeczno-

gospodarczych zwykle spotyka się
skośność dodatnią (prawostronną).

Skośność ta często występuje w

badaniach:

- dochodów,

- wykonania norm pracy, planów pracy,
- absencji w pracy,
- wkładów oszczędnościowych,
- odległości przewozów osób, czy

towarów.

Skośność dodatnia

(prawostronna) ma miejsce
wówczas, gdy dłuższe ramię krzywej
charakteryzującej rozkład
liczebności szeregu znajduje się
po prawej stronie średniej.

Jeżeli dłuższe ramię krzywej

znajduje się po lewej stronie
średniej, wówczas można mówić o
skośności ujemnej (lewostronnej).

Inaczej: jeśli spełniona jest

nierówność:

to rozkład

charakteryzuje się asymetrią
prawostronną. Jeżeli natomiast:

to można

wówczas mówić o asymetrii
lewostronnej.





x Me D x

D Me x x

Charakter asymetrii można

również określać na podstawie
punktów wyznaczonych przez
dominantę, medianę i średnią
arytmetyczną.

W szeregu symetrycznym wszystkie

miary pozycyjne są sobie równe.

W szeregu asymetrycznym

miary te kształtują się na
różnym poziomie: im większa
skośność, tym większe są różnice
pomiędzy dominantą, medianą i
średnią arytmetyczną.

Jednym z mierników skośności jest

wskaźnik skośności (inaczej:
bezwzględna miara skośności):

Wskaźnik ten jest bezwzględną

miarą asymetrii posiadającą miano
badanej cechy. Z tego względu
ma on ograniczone zastosowanie
w analizie porównawczej. Poza tym,
wskaźnik skośności określa jedynie
kierunek asymetrii (prawo-, czy
lewostronna) nie wskazując jej siły.





Miarą określającą zarówno

kierunek jak i siłę asymetrii jest
współczynnik skośności:

Współczynnik ten przyjmuje

zazwyczaj wartości z przedziału:
<-1;1>. Jedynie przy bardzo silnej
asymetrii wartość współczynnika
może wykroczyć poza w/w
przedział.





Jeżeli dany rozkład jest symetryczny,

wówczas .

W przypadku asymetrii

prawostronnej:

.
Dla rozkładu o asymetrii

lewostronnej:

.
Im silniejsza jest asymetria

rozkładu, tym wartość bezwzględna
współczynnika skośności jest wyższa.







ANALIZA WSPÓŁZALEŻNOŚCI

Analiza struktury zjawisk dotyczyła

jednej cechy. W praktyce jednak bywa
tak, że badane jednostki statystyczne
charakteryzowane są przez kilka cech.
Cechy te nie są od siebie odizolowane,
mają na siebie wpływ oraz
posiadają wzajemne uwarunkowania.
Dlatego często zachodzi
potrzeba badania współzależności
między tymi cechami.

Przeprowadzając analizę można spotkać

dwa rodzaje współzależności zmiennych:

1. Współzależność funkcyjną, polegającą na

tym, że zmiana wartości jednej zmiennej
pociąga określoną zmianę wartości drugiej
zmiennej.

2. Współzależność stochastyczną

(probabilistyczną), polegającą na tym, że
wraz ze zmianą jednej zmiennej zmienia
się rozkład prawdopodobieństwa drugiej
zmiennej. Szczególnym przypadkiem
zależności stochastycznej jest
zależność korelacyjna.

Zależności korelacyjne zachodzą

wówczas, gdy określonym
wartościom jednej zmiennej
odpowiadają ściśle określone
średnie wartości drugiej zmiennej.

Zdarzają się jednak sytuacje, w

których nie istnieje
współzależność (korelacja) ale ma
miejsce zbieżność występowania
zjawisk. Taką zbieżność określa się
mianem korelacji pozornej.

Najczęściej spotykanymi

metodami wykrywania związków
korelacyjnych są:

1. Metoda porównywania

przebiegu szeregów
statystycznych.

2. Metoda graficzna.

0 x

Cechę dwuwymiarową oznacza

się jako uporządkowaną parę
(X,Y). Składowymi mogą być
zarówno cechy ilościowe jak i
jakościowe. To od tego, z jakimi
cechami mamy do czynienia zależy
wybór sposobu opisu współzależności.

Podstawą analizy jest zbiorowość

jednostek scharakteryzowanych
parą własności, gdzie i=1,2,...,n.

Badając zbiorowość jednostek pod

względem

wyróżnionych cech otrzymuje

się ciąg par wartości:



 



,...,





x ,

MIARY WSPÓŁZALEŻNOŚCI

Do badania zależności między

zmiennymi X i Y wykorzystuje się
najczęściej współczynnik korelacji
liniowej Pearsona, będący miarą siły
związku prostoliniowego między
dwiema cechami mierzalnymi.
Współczynnik ten wylicza się ze wzoru:

gdzie:
cov(x,y) - kowariancja zmiennych X i Y
s - odchylenie standardowe.

 

   





cov

Kowariancja jest średnią arytmetyczną

iloczynu odchyleń zmiennych X i Y od
ich średnich arytmetycznych:

Rozpatrując kowariancję uzyskać

można następujące informacje o
istniejącym związku pomiędzy
zmiennymi X i Y:

Jeżeli cov(x,y)>0 – dodatnia korelacja

Jeżeli cov(x,y)<0 – ujmena korelacja

Jeżeli cov(x,y)=0 – brak korelacji

 



 

















cov

Kowariancji nie można

stosować do bezpośrednich
porównań. Dlatego jest ona
standaryzowana przez odchylenia
standardowe, dzięki czemu otrzymuje
się współczynnik korelacji liniowej
Pearsona.

Właściwości współczynnika korelacji:
1. Przyjmuje wartości z przedziału <-1;1>
2. Dodatni znak świadczy o dodatnim, zaś

ujemny o ujemnym związku korelacyjnym

3. Im tym związek

korelacyjny jest silniejszy.



Sposoby komentowania współczynnika korelacji:
a) - współzależność nie występuje,
b) - słaby stopień współzależności,
c) - umiarkowany (średni) stopień

współzależności,
d) - znaczny stopień współzależności,
e) - wysoki stopień współzależności,
f) - bardzo wysoki stopień
współzależności,
g) - całkowita (ścisła) współzależność
(zależność funkcyjna

pomiędzy

badanymi cechami).





















Analizę współzależności należy

uzupełnić o współczynnik
determinacji, będący kwadratem
współczynnika korelacji liniowej
Pearsona ( ).

Współczynnik determinacji informuje,

jaka część zmiennej objaśnianej jest
wyjaśniona przez zmienną objaśniającą.
Przy pomocy tego współczynnika można
wnioskować, czy na zmienną
objaśniającą wpływają również inne
czynniki, nie podlegające badaniu.

W sytuacji, gdy obserwacje

statystyczne dotyczące badanych
zmiennych są liczne, bazowanie na
wartościach szczegółowych może być
uciążliwe. W celu zapewnienia
przejrzystości zebranych danych sporządza
się wówczas tablicę korelacyjną.

Na skrzyżowaniu kolumn z

wierszami wpisuje się liczebności
jednostek zbiorowości statystycznej, u
których zaobserwowano jednoczesne
występowanie określonych wartości
i .

Schemat tablicy korelacyjnej:

...

n 



1

.
.
.

.
.
.
.
.
.

.
.
.

n 



1

…

W tablicy korelacyjnej zawarte są

rozkłady brzegowe i warunkowe.

Rozkład brzegowy (por. ostatnia

kolumna określa rozkład brzegowy

cechy X, ostatni wiersz – rozkład

brzegowy cechy Y) prezentuje

strukturę wartości jednej zmiennej (X

lub Y) bez względu na kształtowanie

się wartości drugiej zmiennej.

Rozkłady brzegowe i warunkowe

mogą być scharakteryzowane pewnymi

sumarycznymi wielkościami (najczęściej

są to średnie arytmetyczne)

Średnie arytmetyczne z

rozkładów brzegowych wyznacza
się ze wzorów:

Średnie arytmetyczne z

rozkładów warunkowych oblicza
się następująco:







1







1







1







1

W sytuacji, gdy wraz ze

wzrostem (spadkiem) wartości
jednej zmiennej następuje wzrost
(spadek) warunkowych średnich
drugiej zmiennej, wówczas można
stwierdzić istnienie korelacji
dodatniej między zmiennymi. W
sytuacji, kiedy występuje
przeciwny kierunek zmian,
można mówić o korelacji ujemnej.

Jeżeli różnice pomiędzy średnimi

są takie same, tzn.:

wówczas związek między

zmiennymi jest liniowy.

...











...











Innym miernikiem korelacyjnego związku

cech jest współczynnik korelacji rang
Spearmana. Współczynnik ten stosowany
jest głównie do badania
współzależności cech niemierzalnych, bądź
cechy mierzalnej i niemierzalnej. Może być
on również stosowany w badaniu
związku korelacyjnego pomiędzy cechami
mierzalnymi (szczególnie w przypadku małej
próby).

Konstrukcja współczynnika korelacji

rang opiera się na zgodności pozycji, którą
zajmuje każda z odpowiadających sobie
wielkości we wzrastającym lub
malejącym szeregu wartości cechy.

Współczynnik korelacji rang

Spearmana (Q) wylicza się w
oparciu o wyznaczone różnice rang
( ) oraz liczby par obserwacji (n):

przy czym:

gdzie:
- rangi zmiennej X oraz Y

(i=1,2,...n)

















v ,

gdy

Współczynnik korelacji rang

przyjmuje wartości z przedziału
, a jego interpretacja
jest analogiczna do
współczynnika korelacji
Pearsona.











Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Slide 47
Slide 48
Slide 49
Slide 50
Slide 51
Slide 52
Slide 53
Slide 54
Slide 55
Slide 56
Slide 57
Slide 58
Slide 59
Slide 60
Slide 61
Slide 62
Slide 63
Slide 64
Slide 65
Slide 66
Slide 67
Slide 68
Slide 69
Slide 70
Slide 71
Slide 72
Slide 73
Slide 74
Slide 75
Slide 76
Slide 77
Slide 78
Slide 79
Slide 80
Slide 81
Slide 82
Slide 83
Slide 84
Slide 85
Slide 86
Slide 87
Slide 88
Slide 89
Slide 90
Slide 91
Slide 92
Slide 93
Slide 94
Slide 95
Slide 96
Slide 97
Slide 98

Wyszukiwarka

Podobne podstrony:
STATYSTYKA OPISOWA '
1 Statystyka opisowa Wprowadze Nieznany (2)
Gorgol I Elementy statystyki opisowej
egzamin ze statystyki, Statystyka opisowa
ROZDZIAŁ 4, Statystyka opisowa
Parametry stosowane w statystyce opisowej, Płyta farmacja Bydgoszcz, statystyka, pozostałe
STATYSTYKA OPISOWA 6 11 2010
Statystyka opisowa wykład interpretacje
1 2 statystyka opisowaid 10222 Nieznany
Przykłady do rozwiązania - tablica korelacyjna, Informatyka i Ekonometria SGGW, Semestr 2, Statystyk
WZORY(1), UEP lata 2014-2019, Statystyka opisowa
Statystyka [25 stron], Statystyka opisowa

więcej podobnych podstron

STATYSTYKA OPISOWA (slajdy)

Document Outline