Wykład 4 analiza struktury, Statystyka opisowa


Charakterystyka podstawowych parametrów analizy struktury

  1. Charakterystyka miar tendencji centralnej (przeciętnych)

W analizie struktury interesuje nas nie tylko rozkład częstości kategorii wyróżnionej zmiennej, ale najczęściej pytamy o to, co jest typowe, np. jaka jest typowa (przeciętna) płaca górników, nauczycieli, z jak licznej rodziny pochodzi typowy student, jaka jest najczęściej wydajność pracy w badanym przedsiębiorstwie itp.

Na pytanie takie odpowiadamy stosując miary tendencji centralnej (przeciętnego poziomu).

Najczęściej stosowanymi miarami przeciętnego poziomu są:

1.1 Średnia arytmetyczna 0x01 graphic
0x01 graphic

Średnia arytmetyczna jest najczęściej stosowaną klasyczną miarą tendencji centralnej.

Własności średniej są następujące:

0x01 graphic
,

Wyróżnia się średnią arytmetyczną:

Im rozkład zmiennej jest bardziej zbliżony do symetrycznego, tym większą wartość poznawczą ma średnia arytmetyczna. I odwrotnie, im rozkład jest bardziej asymetryczny, tym lepiej tendencję centralną wyraża mediana, a nie średnia arytmetyczna.

W przypadku rozkładów o stosunkowo dużej asymetrii najlepiej uwzględnić obydwa te parametry.

Średnia arytmetyczna

  1. W przypadku szeregów prostych

0x01 graphic

  1. W przypadku szeregów rozdzielczych z przedziałami

jednostkowymi

0x01 graphic

gdzie: k - liczba przedziałów klasowych w schemacie klasyfikacyjnym

  1. W szeregach rozdzielczych z równymi przedziałami klasowymi

0x01 graphic

1.2 Dominanta

Dominanta, zwana również modalną, jest to „wartość” cechy, która występuje w zbiorowości najczęściej. Największą zaletą dominanty jest łatwość jej ustalenia i interpretacji. Dominanta nie zawsze jednak będzie dawać najlepszy opis danych, gdyż:

Pomimo tych wad, dominanta jest bardzo często używaną miarą przeciętnego poziomu i można ją ustalać dla cechy jakościowej i ilościowej.

Dominanta - modalna

  1. W przypadku szeregów prostych oraz szeregów rozdzielczych z przedziałami jednostkowymi

dominantą jest poziom cechy występujący najczęściej

  1. W przypadku szeregów rozdzielczych (z przedziałami równymi i nierównymi) ustalamy, w którym przedziale jest najwięcej jednostek. Jest to przedział dominujący - oznaczmy go przez m. Z tego przedziału wyliczamy wartość dominanty według wzoru:

0x01 graphic

  1. Mediana i kwartyle

Mediana, czyli kwartyl drugi (Me lub Q2) jest kategorią cechy, która dzieli zbiorowość na połowy, z których każda zawiera po 50% obserwacji. Walory mediany (poznawcze) rosną wraz ze wzrostem liczby obserwacji oraz liczby kategorii (wariantów) zmiennej. Mediana (wartość środkowa) wskazuje więc wartość środkowej obserwacji w bazie danych, uporządkowanej ze względu na badaną cechę.

Mediana jest odporna na wpływ obserwacji o skrajnych wartościach cechy, można ją obliczać nawet wówczas, gdy krańce rozkładu są otwarte.

Suma bezwzględnych wartości różnic pomiędzy wartościami danej zmiennej dla wszystkich obserwacji a medianą jest najmniejsza ze wszystkich sum bezwzględnych wartości różnic pomiędzy wartościami wszystkich obserwacji a jakąkolwiek stałą.

Podobny sens do mediany mają kwartyle: Q1 oraz Q3.

Kwartylem pierwszym (dolnym) Q1 nazywamy taką wartość cechy (taką kategorię cechy), poniżej której leży 25% jednostek zbiorowości.

Kwartyl trzeci (górny) to taka wartość cechy, która dzieli zbiorowość na dwie części i to takie, że 75% jednostek ma wartości nie większe od Q3.

Pomiędzy Q1 i Q3 leży 50% obserwacji, które można nazwać typowym obszarem zmienności.

Mediana (kwartyl drugi) - wartość środkowa

  1. W przypadku szeregów prostych

0x01 graphic

  1. W przypadku szeregów rozdzielczych

Na podstawie kolumny liczebności skumulowanych ustalamy, w którym przedziale jest mediana - załóżmy, że jest to przedział m. Medianę wyliczamy z tego przedziału według wzoru:

0x01 graphic

0x01 graphic

0x01 graphic
− dolna granica przedziału m, w którym występuje mediana,

0x01 graphic
− skumulowana liczebność do przedziału poprzedzającego przedział zawierający medianę

nm − liczba jednostek w przedziale z medianą

hm − rozpiętość przedziału, w którym jest mediana.

Kwartyle

  1. Kwartyl 1 - jego pozycja to N podzielone przez 4

Na podstawie kolumny liczebności skumulowanych ustalamy, w którym przedziale jest kwartyl 1 - załóżmy, że jest to przedział m. Kwartyl 1 wyliczamy z tego przedziału według wzoru:

0x01 graphic

  1. Kwartyl 3 - jego pozycja to 3N/4

Na podstawie kolumny liczebności skumulowanych ustalamy, w którym przedziale jest kwartyl 3 - załóżmy, że jest to przedział m. Kwartyl 3 wyliczamy z tego przedziału według wzoru:

0x01 graphic

  1. Charakterystyka miar dyspersji

Rozkłady empiryczne charakteryzują się nie tylko tendencją centralną, ale też określonym zróżnicowaniem (rozproszeniem). Możemy spotkać rozkłady o tej samej tendencji centralnej, ale o różnej zmienności. Do jej pomiaru stosuje się miary dyspersji.

2.1. Wariancja i odchylenie standardowe

Parametry te należą do najważniejszych miar statystycznych.

Interpretację merytoryczną posiada odchylenie standardowe. Określa ono, o ile przeciętnie biorąc, poszczególne wartości cechy odchylają się +/- od średniej arytmetycznej. Posiada następujące właściwości:

0x01 graphic
.

Odchylenie standardowe

  1. W przypadku szeregów wyliczających (prostych)

0x01 graphic
lub 0x01 graphic

  1. W przypadku szeregów rozdzielczych z przedziałami jednostkowymi

0x01 graphic

lub

0x01 graphic

  1. W szeregach rozdzielczych z równymi przedziałami klasowymi

0x01 graphic

0x01 graphic

Wariancja

  1. W przypadku szeregów wyliczających (prostych)

0x01 graphic

  1. W przypadku szeregów rozdzielczych z przedziałami jednostkowymi

0x01 graphic

  1. W szeregach rozdzielczych z równymi przedziałami klasowymi

0x01 graphic

Odchylenie standardowe wykorzystujemy do określania:

− typowego obszaru zmienności

0x01 graphic

− obszaru zmienności wynikającego z reguły trzech sigm

0x01 graphic
,

Odchylenie standardowe służy też do standaryzacji zmiennych, która pozwala na wyeliminowanie wpływu jednostek miary na rozkład zmiennej. Standaryzację przeprowadza się według wzoru:

0x01 graphic
,

Zmienna standaryzowana ma średnią 0 i odchylenie standardowe równe 1.

2.2 Klasyczny współczynnik zmienności

Dla porównania rozproszenia różnych zmiennych stosujemy względną miarę zmienności zwaną klasycznym współczynnikiem zmienności. Jest to miara niezmienna względem skali. Pozwala ustalić jaki procent średniej stanowi odchylenie standardowe. Współczynnik ten liczymy według wzoru:

0x01 graphic

Współczynnik ten wyrażamy najczęściej w % i im jest on większy, tym dyspersja rozkładu jest silniejsza. Umownie przyjmuje się, że:

− jeśli 0x01 graphic
% - dyspersja słaba,

− jeśli 0x01 graphic
% - dyspersja umiarkowana,

− jeśli 0x01 graphic
% - dyspersja silna,

− jeśli 0x01 graphic
% - dyspersja bardzo silna.

2.3 Odchylenie ćwiartkowe i pozycyjny współczynnik zmienności

Odchylenie ćwiartkowe stosujemy, gdy chcemy wyeliminować silny wpływ obserwacji skrajnych

Obliczamy je, korzystając z rozstępu ćwiartkowego:0x01 graphic
, według wzoru:

0x01 graphic
.

Q informuje o tym, jakie jest przeciętne rozproszenie typowych obserwacji wokół mediany (wokół środka rozkładu).

Dla uniezależnienia pomiaru dyspersji od jednostek miary, w jakich wyrażona jest cecha stosujemy pozycyjny współczynnik dyspersji:

0x01 graphic

Pozycyjny współczynnik zmienności określa, jaką część (procent) mediany stanowi odchylenie ćwiartkowe.

Im jego wartość jest większa, tym dyspersja rozkładu jest silniejsza.

Do oceny dyspersji można też stosować miary oparte na decylach.

Czasami do pomiaru względnej dyspersji używa się współczynnika zmienności określonego wzorem:

0x01 graphic
.

Jego interpretacja jest podobna jak współczynnika VMe, mianowicie, im jego wartość jest większa, tym dyspersja badanej cechy jest silniejsza

3. Miary asymetrii

Pozwalają one na określenie, jakie jednostki w zbiorowości przeważają: czy jednostki o wartościach cechy poniżej czy też powyżej tendencji centralnej.

Biorąc powyższe pod uwagę, wyróżnia się:

a) rozkład symetryczny, w którym taka sama liczba jednostek ma wartości cechy poniżej jak i powyżej średniej arytmetycznej. W rozkładzie tym trzy podstawowe miary przeciętne: średnia, mediana i dominanta są identyczne:

0x01 graphic

0x01 graphic

b) rozkład prawostronnie asymetryczny, w którym przeważają jednostki o wartościach cechy mniejszych od średniej arytmetycznej

0x01 graphic

0x01 graphic

c) rozkład lewostronnie asymetryczny, w którym występuje przewaga jednostek o wartościach cechy powyżej średniej arytmetycznej.

0x01 graphic

0x01 graphic

Do pomiaru natężenia i kierunku asymetrii służą współczynniki asymetrii. Najczęściej stosowane są:

0x01 graphic

WS = 0 - rozkład symetryczny,

WS > 0 - rozkład prawostronnie asymetryczny,

WS < 0 - rozkład lewostronnie asymetryczny.

Jeśli przy tym : WS 0x01 graphic
− to asymetria oceniana jest jako słaba,

WS 0x01 graphic
− asymetria umiarkowana

WS 0x01 graphic
− rozkład silnie asymetryczny.

Warto też wskazać, że w rozkładzie cech ciągłych umiarkowanie asymetrycznym zachodzi następująca równość:

0x01 graphic

Wzór ten pozwala na ustalenie przybliżonej wartości jednej z trzech przeciętnych, jeśli dwie pozostałe są znane.

0x01 graphic

Miernik ten jest unormowany na przedziale 0x01 graphic
.

Przyjmuje wartość równą zero tylko wtedy, gdy rozkład jest symetryczny.

Przy jego interpretacji, jako punkt odniesienia uwzględniamy medianę, a nie średnią arytmetyczną.

Najczęściej w oparciu o podane informacje o wartościach cechy liczymy moment trzeci centralny według wzoru:

0x01 graphic
,

a następnie liczymy moment standaryzowany:

0x01 graphic
.

Interpretacja tego miernika jest identyczna jak wcześniej omówionego klasyczno-pozycyjnego współczynnika zmienności.

  1. Miary koncentracji (skupienia)

Koncentrację wokół wartości średniej określa się mianem kurtozy. Jako względną miarę koncentracji stosuje się czwarty moment centralny wyrażony w jednostkach odchylenia standardowego.

Procedura jego liczenia jest podobna do procedury liczenia klasycznej miary asymetrii. Najpierw w oparciu o zebrane informacje liczymy czwarty moment centralny:

0x01 graphic
,

a następnie współczynnik koncentracji, według wzoru:

0x01 graphic
.

Interpretacja tego współczynnika jest następująca:

4 < 3 − rozkład badanej cechy jest spłaszczony, tzn. o koncentracji wokół średniej mniejszej aniżeli w rozkładzie normalnym,

4 = 3 − rozkład o koncentracji takiej jak w rozkładzie normalnym,

4 > 3 − rozkład jest wysmukły, tzn. o koncentracji wokół średniej większej niż w rozkładzie normalnym.



Wyszukiwarka