STATYSTYKA OPISOWA (slajdy)

background image

STATYSTYKA OPISOWA

Wprowadzenie do statystyki

Miary położenia

Miary rozproszenia

Miary współzależności

(korelacji)

background image

WPROWADZENIE

Wyraz statystyka pochodzi od łacińskiego słowa status,

co oznacza stan, położenie, stosunki (w języku włoskim

stato oznacza państwo) i użyty został przez

G. Achenwalla dla oznaczenia nauki o „osobliwościach

państwowych”, zwanej państwoznastwem. Statystyka

to zbiór metod służących pozyskiwaniu, prezentacji

i analizie danych. Inna definicja: statystyka to nauka

traktująca o metodach ilościowych badania zjawisk

masowych. Zjawisko masowe to takie zjawisko,

które badane w dużej masie zdarzeń wskazuje

właściwą sobie prawidłowość, jakiej nie można

zaobserwować

w

pojedynczym

przypadku.

Przykłady

zjawisk

masowych: spożycie pewnych artykułów na 1

mieszkańca, urodzenia itp.

background image

Statystyka:

a) umożliwia dokładniejszy sposób opisu interesującej

nas rzeczywistości,

b) zmusza nas do dokładności i śmiałości w działaniu

i rozumowaniu,

c) umożliwia formułowanie uogólnień na podstawie

uzyskanych wyników analizy,

d) pozwala na przewidywanie rozwoju zjawisk

w przyszłości, czyli pobudzanie do prognoz,

e) dostarcza narzędzi do porządkowania informacji

o zjawiskach – a przez to pozwala na budowę ich

ogólnego obrazu,

f) dostarcza narzędzi do prowadzenia analizy

przyczyn kształtujących badane zjawiska i procesy,

a więc umożliwia dokonanie ich klasyfikacji na

czynniki systematyczne i przypadkowe.

background image

Powstaje pytanie: dlaczego w zbiorze wielu zdarzeń

zachodzą prawidłowości statystyczne podczas, gdy

poszczególne zdarzenia są zróżnicowane? Otóż

każde

zjawisko

(ekonomicznej,

przyrodnicze,

socjologiczne itp.) kształtuje się pod wpływem

dwojakiego rodzaju przyczyn:

1.

głównych

(podstawowych,

typowych,

systematycznych).

2.

ubocznych (przypadkowych, indywidualne).

Ad 1) Przyczyny główne oddziałują na każde zjawisko

w sposób jednakowy, mają charakter wewnętrzny,

ich istota wypływa z charakteru zjawiska – działają w

ściśle określonym kierunku. Przyczyny te są wspólne

dla wszystkich jednostek badanej zbiorowości

zdarzeń (wpływ czynników głównych).

Ad 2) Przyczyny uboczne działają na każde

zjawisko w sposób odmienny. Wyrażają

zróżnicowanie osobnicze (wpływ czynnika losowego).

background image

Ostatecznym celem stosowania tych

metod jest otrzymanie użytecznych
informacji na temat zjawiska, którego
dotyczą. Istotne jest, aby badania
statystyczne

były

zaplanowane

w sposób nie budzący zastrzeżeń. Ich
cel powinien być określony zrozumiale
i szczegółowo. Materiał statystyczne
powinien zaś być wiarygodny i
przejrzysty.

background image

Cel badania jest możliwy do osiągnięcia

wówczas, gdy jednostki statystyczne
są precyzyjnie określone pod
względem:

- rzeczowym (przedmiot badań),
- przestrzennym (miejsce badań),
- czasowym (okres badań).

background image

ZBIOROWOŚĆ I CECHY

STATYSTYCZNE

Zbiorowość statystyczna (populacja)

to zbiór dowolnych elementów
objętych badaniem statystycznym.
Wyodrębniona część zbiorowości nosi
nazwę próby statystycznej.
Elementy badanej zbiorowości
określane są mianem jednostek
statystycznych. Właściwości tych
jednostek nazywane są cechami
statystycznymi.

background image

CECHY STATYSTYCZNE:

I.

STAŁE (wspólne wszystkim
jednostkom badanej zbiorowości).
Nie podlegają badaniu a jedynie
decydują o zaliczeniu jednostek do
określonej zbiorowości.

II. ZMIENNE (podlegają badaniom).

background image

Cechy statystycznie zmienne:

ilościowe jakościowe

skokowe ciągłe

background image

Badania statystyczne:

pełne częściowe

spisy rejestracja bieżąca

sprawozdawczość

background image

Badania statystyczne:

ciągłe okresowe

doraźne

background image

Metody prezentacji danych

statystycznych:

1. Szeregi statystyczne.
2. Tablice statystyczne.
3. Wykresy statystyczne.

background image

Szeregi statystyczne

(ze względu na budowę):


szczegółowe rozdzielcze

kumulacyjne

background image

Szeregi statystyczne

(ze względu na cechy):


czasowe

przestrzenne

background image

WYKRESY STATYSTYCZNE:

LINIOWY

Ceny akcji spółki Kęty

0,00

20,00

40,00

60,00

80,00

100,00

120,00

140,00

160,00

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

2000

2001

2002

2003

2004

kwartały

ce

n

a

background image

WYKRESY STATYSTYCZNE:

BRYŁOWY

434

481

576

768

1130

0

200

400

600

800

1000

1200

wartość

(mln PLN)

2000

2001

2002

2003

2004

lata

Przychody ze sprzedaży

background image

WYKRESY STATYSTYCZNE:

SŁUPKOWY

Przychody ze sprzedaży

434

481

576

768

1130

0

200

400

600

800

1000

1200

2000

2001

2002

2003

2004

lata

wartość

(mln PLN)

background image

WYKRESY STATYSTYCZNE:

KOŁOWY

Udziały w rynku

27%

33%

15%

25%

Spółka A
Spólka B
Spółka C
Spółka D

background image

WYKRESY STATYSTYCZNE:

PUNKTOWY

Przychody ze sprzedaży

434

481

576

768

1130

0

200

400

600

800

1000

1200

1999

2000

2001

2002

2003

2004

2005

lata

wartość

(mln PLN)

background image

WYKRESY STATYSTYCZNE:

WARTSTWOWY

Przychody ze sprzedaży

434

481

576

768

1130

0

200

400

600

800

1000

1200

2000

2001

2002

2003

2004

lata

wartość

(mln PLN)

background image

WYKRESY STATYSTYCZNE:

PIERŚCIENIOWY

Przychody ze sprzedaży

434

481

576

768

1130

background image

ANALIZA STRUKTURY ZJAWISK

MASOWYCH

Rozkładem empirycznym określa się

przyporządkowanie poszczególnym
wartościom zmiennej x

i

odpowiadających im liczebności n

i

. W

określaniu rozkładu empirycznego zamiast
liczebności n

i

stosuje się częstości

względne określone wzorem:

przy czym:

n

n

w

i

i

n

n

k

i

i

1

background image

TYPY ROZKŁADÓW

EMPIRYCZNYCH

n

i

x

i

Rozkład jednomodalny

background image

n

i

x

i

Rozkład bimodalny

background image

n

i

x

i

Rozkład wielomodalny

background image

n

i

x

i

Rozkład skrajnie asymetryczny

background image

n

i

x

i

Rozkład siodłowy

background image

n

i

x

i

Rozkład umiarkowanie asymetryczny

background image

n

i

x

i

Rozkład symetryczny

background image

n

i

x

i

Rozkład spłaszczony

background image

n

i

x

i

Rozkład wysmukły

background image

OPISOWE CHARAKTERYSTYKI

ROZKŁADÓW

Przeprowadzając analizę struktury

zjawisk masowych należy zbadać:

1. tendencję centralną, czyli tzw. przeciętny

poziom

2. Zróżnicowanie wartości, czyli tzw.

dyspersję (zmienność, rozproszenie)

3. asymetrię rozkładu (skośność)
4. koncentrację.
Do przeprowadzenia tych badań

wykorzystuje się charakterystyki

nazywane parametrami. Charakterystyki

opisowe to liczby (wielkości), które

pozwalają w sposób syntetyczny określić

właściwości badanych rozkładów.

background image

MIARY ŚREDNIE (PRZECIĘTNE)

Miary średnie pozwalają określić

tendencję centralną. Służą do

określania tej wartości zmiennej,

wokół której kupiają się wszystkie

pozostałe zmienne.

Podział średnich:
1. Średnie klasyczne.
2. Średnie pozycyjne.
Do średnich klasycznych zalicza się średnie:
1. arytmetyczną
2. geometryczną
3. harmoniczną.

background image

Średnia arytmetyczna to suma

wartości zmiennej wszystkich
jednostek badanej zbiorowości
podzielona przez liczbę tych
jednostek:

gdzie:
x

i

– wartość cechy,

n – liczebność próby

n

i

i

n

x

n

n

x

x

x

x

1

2

1

1

...

background image

Jeżeli wartości zmiennej

występują z różną częstotliwością,
wówczas wylicza się średnią
arytmetyczną ważoną (wagami są
liczebności odpowiadające
poszczególnym wartościom):

gdzie:

k

i

i

i

k

k

n

x

n

n

n

x

n

x

n

x

x

1

2

2

1

1

1

...

k

i

i

n

n

1

background image

W przypadku danych zgrupowanych w

szereg rozdzielczy przedziałowy wzór
na średnią arytmetyczną jest
następujący:

gdzie:
- środek i-tego przedziału

klasowego.


Jeżeli zamiast liczebności

wykorzystywane są częstości w

i ,

wzór

na średnią arytmetyczną przyjmuje
postać:

k

i

i

i

k

k

n

x

n

n

n

x

n

x

n

x

x

1

0

0

2

0

2

1

0

1

1

...

0

i

x

k

i

i

i

w

x

x

1

background image


Średnia arytmetyczna jest miarą prawidłową

jedynie w odniesieniu do zbiorowości
jednorodnych, o niewielkim zróżnicowaniu
wartości zmiennej. Średniej tej nie należy
stosować w przypadku rozkładów skrajnie
asymetrycznych, bimodalnych i
wielomodalnych. Nie oblicza się jej
również w przypadkach, gdy w
zbiorowości występują wartości skrajne.
Ponadto, średniej arytmetycznej nie należy
stosować dla szeregu o otwartych
przedziałach, jeżeli przedziały te
charakteryzują się dużą liczebnością.

background image

Średnia harmoniczna jest

odwrotnością średniej arytmetycznej z
odwrotności wartości zmiennych. W
przypadku szeregów
szczegółowych (wyliczających) średnią
harmoniczną liczy się ze wzoru:

n

i

i

h

x

n

x

1

1

background image

Dla szeregów rozdzielczych

punktowych średnią harmoniczną liczy
się z uwzględnieniem wag, tzn:

n

i

i

i

h

n

x

n

x

1

1

background image

Dla szeregów rozdzielczych

przedziałowych średnią harmoniczną
liczy się następująco:


Średnią harmoniczną stosuje się

wówczas, gdy wartości zmiennej
podane są w jednostkach względnych.

n

i

i

i

h

n

x

n

x

1

0

1

background image

Średnia geometryczna jest

pierwiastkiem n-tego stopnia z
iloczynu n zmiennych:

gdzie:
- znak iloczynu.

n

n

i

i

n

n

g

x

x

x

x

x

1

2

1

...

background image

W przypadku, gdy wartości zmiennej

występują z różną częstotliwością,

średnią geometryczną wylicza się z

wykorzystaniem następującej formuły:

gdzie:

n

k

i

n

i

n

n

k

n

n

g

i

k

x

x

x

x

x

1

2

1

...

2

1

n

n

n

n

k

...

2

1

background image


Średnią geometryczną stosuje się w

przypadkach, gdy wartości zmiennej tworzą postęp

geometryczny lub w przypadku rozkładu skrajnie

asymetrycznego.

Średnia ta ma zastosowanie przy badaniu

średniego tempa zmian.

Średniej geometrycznej nie należy stosować,

jeżeli którakolwiek z wartości zmiennej jest ujemna

lub równa zeru!!!


background image

ŚREDNIE POZYCYJNE

Najczęściej wykorzystywanymi

średnimi pozycyjnymi są:
dominanta (moda, wartość
najczęstsza) oraz mediana
(wartość środkowa).

Dominantą nazywa się taką

wartość zmiennej, nie będącą
ani najmniejsza ani największą,
która w danym rozkładzie
empirycznym występuje najczęściej.

background image


W szeregach rozdzielczych punktowych

jest tą wartością cechy, której odpowiada

największa liczebność.

W szeregach rozdzielczych przedziałowych

bezpośrednio można wyznaczyć wyłącznie

przedział zwany przedziałem dominanty

(jest to przedział o największej liczebności).


background image


Wartość dominanty wyznacza się ze wzoru:

gdzie:
- dominanta
- dolna granica przedziału dominanty
- liczebność przedziału dominanty
- liczebność przedziału poprzedzającego przedział
dominanty
- liczebność przedziału następującego po przedziale
dominanty
- interwał (rozpiętość) przedziału dominanty.


 

D

D

D

D

D

D

D

D

i

n

n

n

n

n

n

x

D

1

1

1

D

D

x

D

n

1

D

n

1

D

n

D

i

background image


Dla szeregów rozdzielczych przedziałowych

dominantę można również wyznaczyć metodą graficzną,

która polega na wykreśleniu histogramu liczebności z

trzech przedziałów klasowych: przedziału dominanty oraz

dwóch przedziałów sąsiednich.

Wyznaczanie dominanty jest uzasadnione wówczas,

gdy szereg spełnia następujące warunki:

 rozkład empiryczny jest rozkładem jednomodalnym,
 asymetria rozkładu jest umiarkowana,
 przedział dominanty i przedziały sąsiednie mają jednakowe

rozpiętości.


background image


Medianą określa się taką

wartość cechy, że co najmniej połowa
jednostek ma wartość cechy nie
większą niż i co
najmniej połowa ma wartość nie
mniejszą niż .


Medianą jest wartość cechy, którą

posiada środkowa jednostka w
uporządkowanym rosnąco ciągu
elementów zbiorowości.

Me

x

Me

i

Me

x

Me

i

background image


Zatem:






parzystego

n

dla

x

x

ego

nieparzyst

n

dla

x

Me

n

n

n

2

1

2

2

2

1

background image


W przypadku szeregu

rozdzielczego przedziałowego medianę
wyznacza się metodą graficzną lub
rachunkową. W metodzie graficznej
wykorzystuje się wykres krzywej
liczebności skumulowanej.

Jeżeli dane są przedstawione za

pomocą szeregu rozdzielczego
punktowego (cecha skokowa) –
medianą jest pierwsza wartość,
której odpowiada co najmniej
połowa skumulowanej liczebności.

background image

Jeżeli mamy do czynienia z szeregiem rozdzielczym

klasowym (dla cechy ciągłej) medianę można wyznaczyć

wykorzystując wzór:

gdzie:
- liczebność i-tej klasy
- liczebność zbiorowości (próby)
- numer klasy zawierającej medianę
- dolna granica przedziału, w którym znajduje się
mediana
- interwał (rozpiętość) przedziału mediany
- liczebność przedziału mediany.


1

1

2

m

i

i

m

m

om

n

n

n

i

x

Me

i

n

n
m

om

x

m

i

m

n

background image


Jeżeli mamy do czynienia z

szeregiem rozdzielczym klasowym (dla
cechy ciągłej) medianę można
wyznaczyć wykorzystując wzór:

Me

x

Me

i

background image

MIARY ZMIENNOŚCI

Na zjawiska masowe oddziałują

dwa rodzaje przyczyn:

1.

Główne (wywołujące zmienność
systematyczną)

2.

Uboczne (wywołujące zmienność
przypadkową)

Przybliżonym miernikiem

składnika systematycznego zbiorowości
są miary przeciętne (średnie).
Odchylenia wartości poszczególnych
jednostek zbiorowości od wartości
średniej powstają pod wpływem
przyczyn przypadkowych (ubocznych).

background image

Do pomiaru tych odchyleń

wykorzystuje się miary zmienności

(zróżnicowania, dyspersji,

rozproszenia).

Dyspersja to zróżnicowanie jednostek

badanej zbiorowości ze względu na

wartość badanej cechy statystycznej. Siłę

dyspersji można oceniać

za pomocą miar:

1. Klasycznych
2. Pozycyjnych.
Punktem odniesienia w miarach

klasycznych jest średnia arytmetyczna,

zaś miary pozycyjne wyznaczane są

przede wszystkim na podstawie kwartyli.

background image

Miary klasyczne:
1. Wariancja
2. Odchylenie standardowe
3. Odchylenie przeciętne (dewiata)
4. Współczynnik zmienności*.

* - jeśli do jego wyliczenia

wykorzystywana jest średnia
arytmetyczna oraz odchylenie
standardowe)

background image

Miary pozycyjne:
1. Empiryczny obszar zmienności

(rozstęp, amplituda wahań, pole
rozsiania)

2. Odchylenie ćwiartkowe
3. Współczynnik zmienności**.

** - jeśli do jego wyliczenia

wykorzystywana jest mediana oraz
odchylenie ćwiartkowe)

background image

Najczęściej stosowane miary

rozproszenia:

1. Obszar zmienności
2. Odchylenie przeciętne
3. Wariancja
4. Odchylenie standardowe
5. Współczynnik zmienności.

background image

Obszarem zmienności określa się

różnicę pomiędzy największą a najmniejszą

wartością zmiennej, tzn.:

Miara ta ma niewielką wartość

poznawczą, gdyż obszar zmienności

uzależniony jest

od wartości skrajnych, które często różnią

się istotnie od wszystkich pozostałych

wartości zmiennej. Na obszar zmienności

wpływają tylko wartości skrajne,

pozostałe zaś nie mają żadnego

wpływu na wynik. Obszar zmienności

wykorzystywany jest jedynie przy

wstępnej ocenie rozproszenia.

min

max

x

x

R

background image

Odchyleniem przeciętnym d nazywa

się średnią arytmetyczną z

bezwzględnych odchyleń wartości zmiennej

x od średniej arytmetycznej.

Odchylenie przeciętne wyznaczamy z

następujących wzorów:

- dla szeregu szczegółowego:

gdzie:
n - liczebność badanej zbiorowości
- wartości przyjmowane przez cechę mierzalną
- średnia arytmetyczna badanej zbiorowości

n

i

i

x

x

n

d

1

1

i

x
x

background image

-

dla szeregu rozdzielczego punktowego:

-

dla szeregu rozdzielczego
przedziałowego:

gdzie:
- środek i-tego przedziału klasowego

i

k

i

i

n

x

x

n

d

1

1

i

k

i

i

n

x

x

n

d

1

0

1

i

x

0

background image

Wariancją określa się średnią

arytmetyczną z sumy kwadratów
odchyleń poszczególnych wartości
cechy statystycznej od średniej
arytmetycznej całej zbiorowości
statystycznej. Wariancję wyznacza
się z następujących wzorów:

- dla szeregu szczegółowego:

n

i

i

x

x

n

s

1

2

2

1

2

s

background image

- dla szeregu rozdzielczego

punktowego:

- dla szeregu rozdzielczego

przedziałowego:

i

n

i

i

n

x

x

n

s

1

2

2

1

i

n

i

i

n

x

x

n

s

 

1

2

0

2

1

background image

Podstawowe właściwości wariancji:
1. Jest zawsze liczbą nieujemną
2. Jest zawsze wielkością

mianowaną, tzn. wyrażoną w
jednostkach badanej cechy
statystycznej. Miano wariancji
zawsze jest kwadratem jednostki
fizycznej, w jakiej mierzona jest
badana cecha

3. Im zbiorowość statystyczna jest

bardziej zróżnicowana, tym wartość
wariancji jest wyższa

background image

4.

Wariancja, jako miara dyspersji

wykorzystywana dla szeregów
rozdzielczych przedziałowych, daje
zawsze wartości zawyżone. Przyczyna
zawyżenia wartości wynika z
faktu, iż w przypadku szeregów
rozdzielczych przedziałowych korzysta
się ze środków przedziałów. W
celu zmniejszenia popełnionego błędu,
przy obliczaniu wariancji w przypadku
przedziałów o zbyt dużej rozpiętości (i),
stosuje się tzw. poprawkę Shepparda.
Wzór na wariancję przyjmuje wówczas
postać:

2

2

2

12

1

i

s

s

pop

background image

Odchylenie standardowe jest

pierwiastkiem kwadratowym z
wariancji:

gdzie:
- odchylenie standardowe
- wariancja.
Odchylenie standardowe określa,

o ile wszystkie jednostki
statystyczne danej zbiorowości różnią
się średnio od wartości średniej
arytmetycznej badanej zmiennej.

2

s

s

s

2

s

background image

W statystyce odchylenie

standardowe wykorzystywane jest do

tworzenia typowego obszaru zmienności

statystycznej. W obszarze takim mieści

się około 2/3 wszystkich jednostek

badanej zbiorowości statystycznej.

Typowy obszar zmienności określa wzór:

Użyteczność kategorii typowego

obszaru zmienności sprowadza się przede

wszystkim do rozdziału jednostek

statystycznych

na typowe (tzn. występujące

stosunkowo często) i nietypowe (tzn.

występujące stosunkowo rzadko).

s

x

x

s

x

typ

background image


Z odchyleniem standardowym

łączy się pojęcie zmiennej
standaryzowanej (unormowanej)
dla rozkładu empirycznego cechy
mierzalnej :


is

x

s

x

x

x

i

is

background image


Miary dyspersji (rozproszenia),

jak i wartości średnie są liczbami
mianowanymi. Fakt ten
umożliwia bezpośrednie
porównywania miar dyspersji
obliczonych dla różnych szeregów.

Jeżeli badane zjawisko mierzone

jest w różnych jednostkach miary lub
kształtuje się na niejednakowym
poziomie, wówczas do oceny
rozproszenia należy stosować
współczynnik zmienności.

background image


Współczynnik zmienności jest ilorazem

odchylenia przeciętnego lub odchylenia
standardowego oraz średniej:

lub

(zamiast może być inna średnia, np.

mediana)

Współczynnik zmienności może

być wyrażony w procentach.
Współczynnik ten zastępuje
bezwzględne miary dyspersji.

x

s

V

x

d

V

x

background image


Współczynnik zmienności

pozwala porównywać różne
szeregi lub szeregi tego
samego typu, ale o różnej
strukturze. Umożliwia on
dokonanie analiz zmienności w
czasie i przestrzeni.
Współczynnik zmienności (obok
odchylenia standardowego)
wykorzystywany jest jako miara
ryzyka finansowego.

background image

MIARY ASYMETRII (SKOŚNOŚCI)

Szczegółowa analiza statystyczna

powinna zawierać nie tylko

poziom przeciętny i wewnętrzne

zróżnicowanie zbiorowości. Istotne

jest również określenie, czy

przeważająca liczba jednostek

znajduje się powyżej czy poniżej

przeciętnego poziomu badanej cechy.

Należy dokonać zatem oceny

asymetrii rozkładu. W związku z

tym określa się charakter (kierunek)

oraz natężenie (rozmiar) skośności.

background image

W zjawiskach społeczno-

gospodarczych zwykle spotyka się
skośność dodatnią (prawostronną).

Skośność ta często występuje w

badaniach:

- dochodów,

- wykonania norm pracy, planów pracy,
- absencji w pracy,
- wkładów oszczędnościowych,
- odległości przewozów osób, czy

towarów.

background image


Skośność dodatnia

(prawostronna) ma miejsce
wówczas, gdy dłuższe ramię krzywej
charakteryzującej rozkład
liczebności szeregu znajduje się
po prawej stronie średniej.

Jeżeli dłuższe ramię krzywej

znajduje się po lewej stronie
średniej, wówczas można mówić o
skośności ujemnej (lewostronnej).

background image

Inaczej: jeśli spełniona jest

nierówność:

to rozkład

charakteryzuje się asymetrią
prawostronną. Jeżeli natomiast:

to można

wówczas mówić o asymetrii
lewostronnej.

D

Me

x

D

Me

x

n

i

x Me D x

i

n

i

D Me x x

i

background image

Charakter asymetrii można

również określać na podstawie
punktów wyznaczonych przez
dominantę, medianę i średnią
arytmetyczną.

W szeregu symetrycznym wszystkie

miary pozycyjne są sobie równe.

W szeregu asymetrycznym

miary te kształtują się na
różnym poziomie: im większa
skośność, tym większe są różnice
pomiędzy dominantą, medianą i
średnią arytmetyczną.

background image


Jednym z mierników skośności jest

wskaźnik skośności (inaczej:
bezwzględna miara skośności):


Wskaźnik ten jest bezwzględną

miarą asymetrii posiadającą miano
badanej cechy. Z tego względu
ma on ograniczone zastosowanie
w analizie porównawczej. Poza tym,
wskaźnik skośności określa jedynie
kierunek asymetrii (prawo-, czy
lewostronna) nie wskazując jej siły.

D

x

Ws

background image


Miarą określającą zarówno

kierunek jak i siłę asymetrii jest
współczynnik skośności:


Współczynnik ten przyjmuje

zazwyczaj wartości z przedziału:
<-1;1>. Jedynie przy bardzo silnej
asymetrii wartość współczynnika
może wykroczyć poza w/w
przedział.

s

D

x

As

background image


Jeżeli dany rozkład jest symetryczny,

wówczas .

W przypadku asymetrii

prawostronnej:

.
Dla rozkładu o asymetrii

lewostronnej:

.
Im silniejsza jest asymetria

rozkładu, tym wartość bezwzględna
współczynnika skośności jest wyższa.

0

As

0

As

0

As

background image

ANALIZA WSPÓŁZALEŻNOŚCI

Analiza struktury zjawisk dotyczyła

jednej cechy. W praktyce jednak bywa
tak, że badane jednostki statystyczne
charakteryzowane są przez kilka cech.
Cechy te nie są od siebie odizolowane,
mają na siebie wpływ oraz
posiadają wzajemne uwarunkowania.
Dlatego często zachodzi
potrzeba badania współzależności
między tymi cechami.

background image


Przeprowadzając analizę można spotkać

dwa rodzaje współzależności zmiennych:

1. Współzależność funkcyjną, polegającą na

tym, że zmiana wartości jednej zmiennej
pociąga określoną zmianę wartości drugiej
zmiennej.

2. Współzależność stochastyczną

(probabilistyczną), polegającą na tym, że
wraz ze zmianą jednej zmiennej zmienia
się rozkład prawdopodobieństwa drugiej
zmiennej. Szczególnym przypadkiem
zależności stochastycznej jest
zależność korelacyjna.

background image


Zależności korelacyjne zachodzą

wówczas, gdy określonym
wartościom jednej zmiennej
odpowiadają ściśle określone
średnie wartości drugiej zmiennej.

Zdarzają się jednak sytuacje, w

których nie istnieje
współzależność (korelacja) ale ma
miejsce zbieżność występowania
zjawisk. Taką zbieżność określa się
mianem korelacji pozornej.

background image

Najczęściej spotykanymi

metodami wykrywania związków
korelacyjnych są:

1. Metoda porównywania

przebiegu szeregów
statystycznych.

2. Metoda graficzna.

y

i

0 x

i

y

i

0 x

i

background image

y

i

0 x

i

y

i

0 x

i

background image

Cechę dwuwymiarową oznacza

się jako uporządkowaną parę
(X,Y). Składowymi mogą być
zarówno cechy ilościowe jak i
jakościowe. To od tego, z jakimi
cechami mamy do czynienia zależy
wybór sposobu opisu współzależności.

Podstawą analizy jest zbiorowość

jednostek scharakteryzowanych
parą własności, gdzie i=1,2,...,n.

Badając zbiorowość jednostek pod

względem

wyróżnionych cech otrzymuje

się ciąg par wartości:

 

 

.

,

,...,

,

,

,

2

2

1

1

n

n

y

x

y

x

y

x

i

i

y

x ,

background image

MIARY WSPÓŁZALEŻNOŚCI

Do badania zależności między

zmiennymi X i Y wykorzystuje się
najczęściej współczynnik korelacji
liniowej Pearsona, będący miarą siły
związku prostoliniowego między
dwiema cechami mierzalnymi.
Współczynnik ten wylicza się ze wzoru:

gdzie:
cov(x,y) - kowariancja zmiennych X i Y
s
- odchylenie standardowe.

 

   

y

s

x

s

y

x

r

xy

,

cov

background image

Kowariancja jest średnią arytmetyczną

iloczynu odchyleń zmiennych X i Y od
ich średnich arytmetycznych:



Rozpatrując kowariancję uzyskać

można następujące informacje o
istniejącym związku pomiędzy
zmiennymi X i Y:

1.

Jeżeli cov(x,y)>0 – dodatnia korelacja

2.

Jeżeli cov(x,y)<0 – ujmena korelacja

3.

Jeżeli cov(x,y)=0 – brak korelacji

 

 

n

i

i

i

y

y

x

x

n

y

x

1

1

,

cov

background image

Kowariancji nie można

stosować do bezpośrednich
porównań. Dlatego jest ona
standaryzowana przez odchylenia
standardowe, dzięki czemu otrzymuje
się współczynnik korelacji liniowej
Pearsona.

Właściwości współczynnika korelacji:
1. Przyjmuje wartości z przedziału <-1;1>
2. Dodatni znak świadczy o dodatnim, zaś

ujemny o ujemnym związku korelacyjnym

3. Im tym związek

korelacyjny jest silniejszy.

0

xy

r

background image

Sposoby komentowania współczynnika korelacji:
a) - współzależność nie występuje,
b) - słaby stopień współzależności,
c) - umiarkowany (średni) stopień

współzależności,
d) - znaczny stopień współzależności,
e) - wysoki stopień współzależności,
f) - bardzo wysoki stopień
współzależności,
g) - całkowita (ścisła) współzależność
(zależność funkcyjna

pomiędzy

badanymi cechami).

0

XY

r

3

,

0

0

XY

r

5

,

0

3

,

0

XY

r

7

,

0

5

,

0

XY

r

9

,

0

7

,

0

XY

r

1

9

,

0

XY

r

1

XY

r

background image


Analizę współzależności należy

uzupełnić o współczynnik
determinacji, będący kwadratem
współczynnika korelacji liniowej
Pearsona ( ).

Współczynnik determinacji informuje,

jaka część zmiennej objaśnianej jest
wyjaśniona przez zmienną objaśniającą.
Przy pomocy tego współczynnika można
wnioskować, czy na zmienną
objaśniającą wpływają również inne
czynniki, nie podlegające badaniu.

2

xy

r

background image

W sytuacji, gdy obserwacje

statystyczne dotyczące badanych
zmiennych są liczne, bazowanie na
wartościach szczegółowych może być
uciążliwe. W celu zapewnienia
przejrzystości zebranych danych sporządza
się wówczas tablicę korelacyjną.

Na skrzyżowaniu kolumn z

wierszami wpisuje się liczebności
jednostek zbiorowości statystycznej, u
których zaobserwowano jednoczesne
występowanie określonych wartości
i .

i

x

i

y

background image

Schemat tablicy korelacyjnej:

x

i

y

j

y

1

y

2

...

y

t

i

t

i

ij

n

n

1

x

1

x

2

.
.
.

x

k

n

11

n

21

.
.
.

n

k1

n

12

n

22

.
.
.

n

k2

.
.
.
.
.
.

n

1t

n

2t

.
.
.

n

kt

n

1

n

2

.
.
.

n

k

j

k

i

ij

n

n

1

n

.1

n

.2

n

.t

n

background image

W tablicy korelacyjnej zawarte są

rozkłady brzegowe i warunkowe.

Rozkład brzegowy (por. ostatnia

kolumna określa rozkład brzegowy

cechy X, ostatni wiersz – rozkład

brzegowy cechy Y) prezentuje

strukturę wartości jednej zmiennej (X

lub Y) bez względu na kształtowanie

się wartości drugiej zmiennej.

Rozkłady brzegowe i warunkowe

mogą być scharakteryzowane pewnymi

sumarycznymi wielkościami (najczęściej

są to średnie arytmetyczne)

background image

Średnie arytmetyczne z

rozkładów brzegowych wyznacza
się ze wzorów:

Średnie arytmetyczne z

rozkładów warunkowych oblicza
się następująco:

i

k

i

i

n

x

n

x

1

1

j

t

i

j

n

y

n

y

1

1

ij

k

i

i

j

j

n

x

n

x

1

.

1

ij

t

i

j

i

i

n

y

n

y

1

.

1

background image


W sytuacji, gdy wraz ze

wzrostem (spadkiem) wartości
jednej zmiennej następuje wzrost
(spadek) warunkowych średnich
drugiej zmiennej, wówczas można
stwierdzić istnienie korelacji
dodatniej między zmiennymi. W
sytuacji, kiedy występuje
przeciwny kierunek zmian,
można mówić o korelacji ujemnej.

background image

Jeżeli różnice pomiędzy średnimi

są takie same, tzn.:

wówczas związek między

zmiennymi jest liniowy.

1

2

3

1

2

...

t

t

x

x

x

x

x

x

1

2

3

1

2

...

k

k

y

y

y

y

y

y

background image

Innym miernikiem korelacyjnego związku

cech jest współczynnik korelacji rang
Spearmana. Współczynnik ten stosowany
jest głównie do badania
współzależności cech niemierzalnych, bądź
cechy mierzalnej i niemierzalnej. Może być
on również stosowany w badaniu
związku korelacyjnego pomiędzy cechami
mierzalnymi (szczególnie w przypadku małej
próby).

Konstrukcja współczynnika korelacji

rang opiera się na zgodności pozycji, którą
zajmuje każda z odpowiadających sobie
wielkości we wzrastającym lub
malejącym szeregu wartości cechy.

background image

Współczynnik korelacji rang

Spearmana (Q) wylicza się w
oparciu o wyznaczone różnice rang
( ) oraz liczby par obserwacji (n):

przy czym:

gdzie:
- rangi zmiennej X oraz Y

(i=1,2,...n)

i

d

n

n

d

Q

n

i

i

3

1

2

6

1

i

i

y

x

i

v

v

d

i

i

y

x

v

v ,

background image

gdy

Współczynnik korelacji rang

przyjmuje wartości z przedziału
, a jego interpretacja
jest analogiczna do
współczynnika korelacji
Pearsona.

1

Q

0

1

2

n

i

i

d

1

1

Q


Document Outline


Wyszukiwarka

Podobne podstrony:
STATYSTYKA OPISOWA '
1 Statystyka opisowa Wprowadze Nieznany (2)
Gorgol I Elementy statystyki opisowej
egzamin ze statystyki, Statystyka opisowa
ROZDZIAŁ 4, Statystyka opisowa
Parametry stosowane w statystyce opisowej, Płyta farmacja Bydgoszcz, statystyka, pozostałe
STATYSTYKA OPISOWA 6 11 2010
Statystyka opisowa wykład interpretacje
1 2 statystyka opisowaid 10222 Nieznany
Przykłady do rozwiązania - tablica korelacyjna, Informatyka i Ekonometria SGGW, Semestr 2, Statystyk
WZORY(1), UEP lata 2014-2019, Statystyka opisowa
Statystyka [25 stron], Statystyka opisowa

więcej podobnych podstron