Wykład 3
Analiza struktury
Analiza struktury zajmuje się badaniem rozkładu populacji według określonych cech statystycznych.
3.1. Podstawowe pojęcia
3.2. Klasyfikacja zbiorowości statystycznych
stopień złożoności jednostek statystycznych
rodzaj wewnętrznej konstrukcji jednostek statystycznych
3.2. Cechy statystyczne
3.2.1. Klasyfikacja cech statystycznych - rys.3.1.
3.3. Rozkład zbiorowości statystycznej według cechy ilościowej
3.3.1. Średnie klasyczne
średnia arytmetyczna
(3.1)
gdzie:
xj - |
|
j - |
|
- |
|
(3.2)
gdzie:
f(xi) - |
|
i - |
|
k - |
|
-
(3.3)
(3.4)
gdzie:
x'i - |
|
-
(3.5)
gdzie:
(3.6)
oraz
(3.7)
-
(3.8)
-
(3.9)
-
(3.10)
gdzie:
M(xi) - |
|
(3.11)
średnia harmoniczna
(3.12)
Przykład 1
średnia geometryczna
Średnie pozycyjne
|
|
|
Dominanta, zwana także . . . . . . . . . . . . . . . . . .
Przykład 2.
W szeregu liczb 1, 2, 3, 4, 4, 4, 5, 5, 6, 6, 7 dominantą jest liczba . . . . . . . .
(3.13)
lub
(3.14)
gdzie:
xD - |
|
fD - |
|
f-1 - |
|
f+1 - |
|
iD - |
|
Uwaga:
|
|
|
|
W badaniach demograficznych, rynku pracy
|
|
|
|
(3.15)
Mediana (wartość . . . . . . . . . . . . . . . .)
Mediana jest to taka wartość w szeregu statystycznym . . . . . . . . . . . . . . bądź . . . . . . . . . . . . . bądź . . . . . . . . . . . . . , która dzieli zbiorowość statystyczną na . . . . . . . . . . . . . części. W przykładzie 2 w populacji złożonej z 11 elementów medianą jest jednostka statystyczna . . . . . . . . . . . . . w szeregu, która charakteryzuje się liczbą . . . . . . . . . . . . . .. Potocznie, aczkolwiek niezbyt precyzyjnie mówi się, że . . . . . . . . . . . . . Jeśli w szeregu jest parzysta liczba jednostek statystycznych, to medianę wyznacza się jako . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . W szeregu . . . . . . . . . . . . . dla zmiennej . . . . . . . . . . . . . wyznacza się medianę za pomocą wzoru . . . . . . . . . . . . .
(3.16)
gdzie:
xMe - |
|
iMe - |
|
cumMe-1 - |
|
fMe - |
|
Kwantyle
Wśród kwantyli wyróżnia się kwartyle, decyle i percentyle. W naukach ekonomicz-nych i społecznych najczęściej poprzestaje się na . . . . . . . . . . . . . i . . . . . . . . . . . . . .. Mamy . . . . . kwartyle, które dzielą zbiorowość statystyczną na . . . . . . ćwiartki. Pierwszy kwartyl (Q1) dzieli populację na . . . . . . . . . . . . . . części: poniżej pierwszego kwartyla znajduje się . . . . . . . . . . . . . a . . . . . . . . . . . . . .. Drugi kwartyl (Q2) jest jednocześnie . . . . . . . . . . . . . i dzieli zbiorowość na . . . . . . . . . . . . . części. Trzeci kwartyl także dzieli populację na . . . . . . . . . części, z których . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Ponieważ wzór na . . . . . . . . . . . . . został podany jako formuła (3.16), to ograniczymy się do kwartyli 1 i 2
(3.17)
gdzie:
xQ1 - |
|
iQ1 - |
|
cumQ1-1 - |
|
fQ1 - |
|
Analogiczny wzór interpolacyjny na wyznaczenie kwartyla trzeciego:
(3.18)
Objaśnienie wzoru (3.18) jest podobne jak przypadku mediany i kwartyla 1.
Decyle, których jest . . . . . . ., dzielą zbiorowość na . . . . . . . części. Pierwszy decyl dzieli zbiorowość na 2 nierówne części 10 i 90%, drugi 20 i 80%, . . . . . . . . . . . . . . 40 i 60%, piąty jest jednocześnie drugim . . . . . . . i . . . . . . .. Szósty decyl dzieli populację na 60 i 40%, siódmy 70 i 30%, ósmy 80 i 20%
Percentyli jest . . . . . . .. Pierwszy dzieli zbiorowość na 2 nierówne części 1 i 90%. 50-ty percentyl jest . . . . . . ..
Przykład wzoru interpolacyjnego na siódmy decyl:
(3.19)
Oznaczenia łatwo odgadnąć przez analogię do mediany i kwartyli i można je tutaj pominąć.
3.4. Miary dyspersji rozkładu zmiennej ilościowej.
Na określenie dyspersji posiadamy także inne nazwy, których będziemy używać jako synonimy: . . . . . . . . . . . . . . (w szerszym znaczeniu), . . . . . . . . . . . . . . , . . . . . . . . . . . . . . oraz . . . . . . . . . . . . . . . Dla każdemu rodzajowi miar tendencji centralnej odpowiadają właściwe mu miary dyspersji. Najprostszą i najprymitywniejszą miarą dyspersji jest . . . . . . . . . . . . . . , czyli różnica pomiędzy największą i najmniejszą wartością w szeregu statystycznym.
3.4.1 Miary klasyczne.
Do najważniejszych miar dyspersji, o których szanujący się student(ka) nigdy nie powinien zapomnieć, należy . . . . . . . . . . . . . . rozkładu:
(3.20)
oraz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
, (3.21)
gdzie różnica (xi - m) nosi nazwę . . . . . . . . . . . . . . .
W przypadku szeregu rozdzielczego dla zmiennej dyskretnej . . . . . . . . . . . . . . . . . . . . . . . . .. x dana jest wzorem
(3.22)
Wstawiając w miejsce wariantu cechy x środki przedziałów klasowych x' otrzymujemy wzór na . . . . . . . . . . . . . . dla szeregu rozdzielczego zmiennej ciągłej:
(3.23)
W tym ostatnim przypadku zbytnia szerokość przedziałów klasowych może istotnie zawyżyć wielkość . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . Jest to efektem błędu grupowania. W. F. Sheppard wykazał, że przy rozsądnych założeniach, zastosowanie poprawki może zmniejszyć ten błąd. . . . . . . . . . . . . . . z poprawką Shepparda jest następująca
(3.24)
gdzie int jest interwałem klasowym.
Warunkiem zastosowania poprawki Shepparda są równe interwały klasowe.
. . . . . . . . . . . . . rozkładu doliczona według dowolnego ze wzorów (3.20-24) ma zastosowanie w różnych działach statystyki. . . . . . . . . . . . . . wyrażając kwadraty wartości cechy jest trudna do interpretacji. W tym celu lepiej posługiwać . . . . . . . . . . . . . . . . . . . . . . . . . . . jest wyrażone w tych samych jednostkach miary jak dana cecha statystyczna, czyli w jednostkach naturalnych. Mówimy, że odchylenie standardowe jest wyrażone w jednostkach naturalnych i jest miarą mianowaną. W przykładzie 2 licząc średni wiek kobiet w chwili zamążpójścia w latach, również . . . . . . . . . . . . . będzie wyrażone w latach. . . . . . . . . . . . . . interpretuje się jako średnią kwadratową rozrzutu między wariantami cechy i jej średnią arytmetyczną. Niekiedy powstaje potrzeba porównania dyspersji dwóch lub więcej różnych cech statystycznych. Na przykład rozkład mieszkań według liczby izb i rozkład tych samych mieszkań według powierzchni mieszkaniowej. Pierwsza z tych cech wyrażona jest w liczbie izb a druga metrach kwadratowych. Zatem trudno byłoby powiedzieć na podstawie bezwzględnych miar zmienności, jaką są . . . . . . . . . . . . . . , w którym przypadku dyspersja rozkładu jest większa. Dlatego też zaproponowano w literaturze przedmiotu względne miary dyspersji. Są nimi . . . . . . . . . . . . . :
(3.25)
Na koniec warto wspomnieć o jednej z tych miar adekwatnych dla średniej arytmetycznej, które mają coraz mniejsze znaczenie. Należy tutaj odchylenie przeciętne. Nie będziemy go jednak wykorzystywali w naszej analizie struktury, gdyż posiada wszystkie jego zalety posiada . . . . . . . . . . . . . . . . . . . . . . . . . . . . , które ponadto może być wykorzystane we wnioskowaniu statystycznym oraz analizie współzależności. W literaturze przedmiotu spotyka się, co prawda bardzo rzadko, pod nazwą odchylenia przeciętnego średnią ważoną bezwzględnych różnic pomiędzy wariantami cechy a jej średnią. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Miary dyspersji dla charakterystyk pozycyjnych.
Właściwymi miarami dyspersji dla charakterystyk pozycyjnych jest odchylenie ćwiartkowe, odchylenie środkowe odchylenie modalne oraz odpowiadające im współczynniki zmienności. Najczęściej jako miarę zmienności wykorzystuje się odchylenie ćwiartkowe oparte na kwartylach:
(3.26)
Odchylenie ćwiartkowe Q jest miarą mianowaną.
Współczynnik zmienności oparty na odchyleniu ćwiartkowym
(3.27)
W analizie porównawczej nie należy porównywać S i VS z Q i VQ. Z takiego porównania nie wiele wynika.
Odchylenie środkowe jest rzadko używane i tylko w niektórych podręcznikach je się przedstawia. S. Szulc 1968 s. 238 określa wspólną nazwą odchylenia przeciętnego średnią ważoną odchyłek zarówno od średniej jak i od mediany. Niniejszym podejmujemy próbę uporządkowania terminologii nazywając zgodnie z przyjętą praktyką pierwszy z nich odchyleniem przeciętnym a drugi odchyleniem środkowym. Ponadto zamiast średnią wartości bezwzględnych odchyłek będziemy używać średnią kwadratową odchyłek.
w przypadku szeregu szczegółowego, prostego
(3.28)
dla szeregu rozdzielczego dyskretnego
(3.29)
dla szeregu rozdzielczego ciągłego
(3.30)
odpowiedni . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(3.31)
Kolejną z miar dyspersji można zbudować oparciu o . . . . . . . . . . . . . . . . Nazwiemy ją . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Przedstawimy ją tylko dla szeregu szczegółowego prostego:
(3.32)
oraz współczynnik zmienności oparty na dominancie
(3.33)
W pozostałych przypadkach czytelnik z łatwością znajdzie odpowiednie formuły per analogiam.
3.5 Momenty
Przed wyprowadzeniem formuł na miary asymetrii i koncentracji rozkładu warto wprowadzić sobie pojęcie momentów. Ogólnie, wyróżnia się momenty . . . . . . . . . . . . . . i . . . . . . . . . . . . . . oraz zwykłe i centralne. Ograniczając się tylko do szeregu szczegółowego prostego będziemy nazywać
(3.34)
(3.35)
Jeśli A będzie równe średniej wówczas momenty nazywa się centralnymi.
(3.36)
(3.37)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Krótka charakterystyka momentów centralnych:
Mc (0) = 1 (3.38a)
Mc (1) = 0 (3.38b)
Mc (2) = S2 (3.38c)
Mc (3) ∈(-∞; +∞) (3.38d)
Mc (4) ≥ 0 (3.38e)
Jeśli we wzorze (3.35) A=0, wówczas otrzymujemy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . , dla którego moment rzędu zero jest . . . . . . . . . . . . . . . . . . . . . . . . . . . . :
(3.39)
3.6. Miary asymetrii
W rozkładzie symetrycznym zmiennej mierzalnej średnia arytmetyczna, mediana i modalna są sobie równe.
W przypadku asymetrii . . . . . . . . . . . . . . (dodatniej):
(3.40)
W szeregu o asymetrii . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(3.41)
Jako klasyczną miarę skośności można wykorzystać (a) współczynnik asymetrii oparty na momencie centralnym trzecim:
(3.42)
Podjęto próbę unormowania współczynnika asymetrii, por. Krzysztofiak (1966)
Wykorzystując zależność (3.40) i (3.41) zbudowano
c) wskaźnik skośności
(3.44)
Gdy Wsk > 0 - asymetria prawostronna
Wsk < 0 - asymetria lewostronna
Wsk = 0 - szereg (rozkład) symetryczny.
d) Wskaźnik . . . . . . . . . . . . . . oparty na kwartylach
(3.45)
3.7. Miary koncentracji (ekscesu)
Współczynnik ekscesu:
(3.46)
Jeśli
M. Krzysztofiak zaproponował . . . . . . . . . . . . współczynnika ekscesu (3.46) tak, żeby się . . . . . . . . . . . . . . .
(3.46a)
Jeśli skorygowany współczynnik alfa'4 = 0,666, wówczas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Większa wartość alfa'4 od 0,666 oznacza większą koncentrację a mniejsza - mniejszą.
Por. M. Krzysztofiak, O miarach asymetrii i ekscesu. Przegląd Statystyczny, nr 4/1966, s. 403.
5