ANALIZA STRUKTURY ZBIOROWOŚĆI
STRUKTURA - budowa wewnętrzna badanej zbiorowości statystycznej.
ROZKŁAD EMPIRYCZNY - przyporządkowanie liczby obserwacji (liczebności) odpowiednim wartościom cechy zmiennej.
Rozkład empiryczny prezentuje szereg rozdzielczy.
KLASY ROZKŁADÓW EMPIRYCZNYCH
Rozkłady symetryczne i asymetryczne
Rozkłady jednomodalne, bimodalne i wielomodalne
Rozkłady platokurtyczne (spłaszczone) i leptokurtyczne (wysmukłe)
ROZKŁAD SYMETRYCZNY - rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej
r. normalny r. leptokurtyczny r. platokurtyczny
ROZKŁAD ASYMETRYCZNY - rozkład nie posiadający oś symetrii,
1. rozkład lewostronny - ujemny - większość jednostek grupuje się wokół wartości wyższych w szeregu;
2. rozkład prawostronny - dodatni - większość jednostek grupuje się wokół wartości niższych w szeregu;
r. prawostronny r. lewostronny r. skrajnie ujemny
r. skrajnie dodatni
ROZKŁAD JEDNOMODALNY - krzywa liczebności o jednym ekstremum (maksimum)
ROZKŁAD BIMODALNY - krzywa liczebności o dwóch ekstremach
ROZKŁAD WIELOMODALNY - krzywa liczebności ma więcej niż dwa maksima
r. jednomodalny r. bimodalny r. wielomodalny
PODSTAWOWE WSKAŹNIKI STRUKTURY I NATĘŻENIA
- bezwzględna liczba jednostek i-tego wariantu cechy
- łączna liczba jednostek w zbiorowości
- częstość tj. frakcja
-wskaźnik struktury, tj. stosunek wybranej części zbiorowości do całej zbiorowości;
-wskaźnik natężenia, tj. stosunek liczebności dwóch zbiorowości pozostających ze sobą w logicznej zależności
- liczebności szeregu skumulowanego, (sumowanie liczebności kolejnych przedziałów);
- względny wskaźnik podobieństwa struktur, tj. iloraz sumy mniejszych wskaźników zaobserwowanych w kolejnych przedziałach porównywalnych rozkładów i sumy większych wskaźników;
;
WŁASNOŚCI ROZKŁADU EMPIRYCZNEGO
TENDENCJA CENTRALNA - POŁOŻENIE - punkt skupienia obserwacji znajduje się w środku rozkładu (symetria) lub w pobliżu środka rozkładu (umiarkowana asymetria)
R. wykazujące tendencję centralną
R. nie wykazujące tendencji centralnej
DYSPERSJA - ZRÓŻNICOWANIE , ROZPROSZENIE, ZMIENNOŚĆ - zróżnicowanie jednostek zbiorowości między sobą wartościami cechy zmiennej
R. słabo zróżnicowane
R. umiarkowanie zróżnicowane
R. silnie zróżnicowane
ASYMETRIA - SKOŚNOŚĆ - sposób rozmieszczenia liczebności przy wartościach cechy
R. symetryczne
R. umiarkowanie asymetryczne (p,l)
R. skrajnie asymetryczne (p,l)
KONCENTRACJA - KURTOZA, SPŁASZCZENIE - stopień skupienia obserwacji wokół wartości średniej arytmetycznej
R. normalny
R. wysmukły
R. spłaszczony
PARAMETRY OPISUJĄCE WŁASNOŚCI ROZKŁADU
PARAMETRY KLASYCZNE - miary obliczane na podstawie wszystkich obserwacji, stosowane do analizy rozkładów charakteryzujących się te tendencją centralną;
PARAMETRY POZYCYJNE - wyznaczane na podstawie miejsca jakie zajmują w szeregu lub częstotliwości występowania; szczególnie przydatne w analizie szeregów silnie (skrajnie) asymetrycznych, szeregów z otwartymi przedziałami klasowymi,
WŁASNOŚĆ ROZKŁADU |
MIARY KLASYCZNE |
MIARY POZYCYJNE |
TENDENCJA CENTRALNA |
Średnia arytmetyczna |
Mediana Me Dominanta D Kwartyle Q1,, Q3 Decyle D1, D2, ..., D9 |
DYSPERSJA |
Wariancja s2 Odchylenie przeciętne d Odchylenia standardowe s Współczynnik zmienności V(s) |
Rozstęp R Odchylenie ćwiartkowe Q Współczynnik zmienności V(Q) |
ASYMETRIA |
Moment trzeci centralny
Moment trzeci względny |
Współczynnik skośności A(x) |
KONCENTRACJA |
Moment czwarty centralny
Moment czwarty względny |
Wskaźnik spłaszczenia Wk |
MIARY POŁOŻENIA
ŚREDNIA ARYTMETYCZNA - iloraz globalnej wartości cechy oraz liczby obserwacji. Wskazuje jaki poziom badanej cechy przypada na jednostkę zbiorowości; określa jaki jest przeciętny (średni) poziom badanej cechy w zbiorowości.
szereg szczegółowy:
xi - poszczególne wartości cechy
n - ogólna liczba obserwacji
szereg rozdzielczy jednostopniowy:
xi - warianty cechy
ni - liczebności wariantów cechy
szereg rozdzielczy wielostopniowy:
- środek przedziału klasowego
ni - liczebność w przedziale
MEDIANA - wartość środkowa; wartość cechy jaką posiada jednostka znajdująca się w środku uporządkowanego szeregu. Oznacza ona, iż połowa zbiorowości ma wartości cechy nie większe niż mediana, a druga połowa wartości nie mniejsze niż mediana.
szereg szczegółowy - porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację środkową.
W przypadku parzystej liczby obserwacji wartość mediany jest średnią arytmetyczną z dwóch środkowych obserwacji.
np.
2 3 3 6 7 7 9 11 13
11 13 13 16 18 19 22 22 25 30
szereg rozdzielczy jednostopniowy - 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość mediany jest wartością cechy we wskazanej klasie;
xi |
ni |
nicum |
0 |
6 |
6 |
1 |
7 |
13 |
2 |
11 |
24 |
3 |
4 |
28 |
4 |
3 |
31 |
5 |
2 |
33 |
∑ |
33 |
x |
szereg rozdzielczy wielostopniowy - 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wyznaczamy medianę w oparciu o wzór interpolacyjny:
|
ni |
nicum |
0-10 |
9 |
9 |
10-20 |
19 |
28 |
20-30 |
23 |
51 |
30-40 |
14 |
65 |
40-50 |
9 |
74 |
50 i więcej |
7 |
81 |
∑ |
81 |
x |
KWARTYLE - wartości ćwiartkowe, dzielą zbiorowość, uporządkowaną wg rosnących wartości badanej cechy, na cztery jednakowo liczne części.
KWARTYL PIERWSZY Q1 - oznacza, iż 25% badanej zbiorowości osiąga wartości cechy nie większe niż Q1, a 75% zbiorowości ma wartości cechy nie mniejsze niż Q1.
KWARTYL DRUGI Q2 - jest równy Medianie, gdyż oznacza, iż 50% badanej zbiorowości osiąga wartości cechy nie większe niż Q2, a druga połowa - wartości nie mniejsze niż Q2.
KWARTYL TRZECI Q3 - oznacza, iż 75% badanej zbiorowości osiąga wartości cechy nie większe niż Q3, zaś pozostałe 25% - wartości nie mniejsze niż Q3.
szereg szczegółowy - porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację leżącą w ¼ zbiorowości.
np.
2 3 3 6 7 7 9 11 13
szereg rozdzielczy jednostopniowy - 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję mediany, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję mediany, 3) wartość mediany jest wartością cechy we wskazanej klasie;
xi |
ni |
nicum |
0 |
6 |
6 |
1 |
7 |
13 |
2 |
11 |
24 |
3 |
4 |
28 |
4 |
3 |
31 |
5 |
2 |
33 |
∑ |
33 |
x |
Q1=1
Q3=3
szereg rozdzielczy wielostopniowy - 1) wyznaczamy numer jednostki znajdującej się w szeregu, tzw. pozycję, 2) w szeregu skumulowanym znajdujemy klasę zawierającą pozycję parametru, 3) wyznaczamy parametr w oparciu o wzór interpolacyjny:
|
ni |
nicum |
0-10 |
9 |
9 |
10-20 |
19 |
28 |
20-30 |
23 |
51 |
30-40 |
14 |
65 |
40-50 |
9 |
74 |
50 i więcej |
7 |
81 |
∑ |
81 |
x |
DOMINANTA - MODA - to pozycyjna miara położenia wyznaczana przez częstotliwość występowania wyróżnionych wartości cechy. Informuje ona jaka wartość cechy występuje najczęściej (dominuje).
szereg szczegółowy - porządkujemy obserwacje wg rosnących wartości cechy i wskazujemy obserwację występującą najczęściej.
np.
2 3 3 6 7 7 7 9 11 13
szereg rozdzielczy jednostopniowy - wskazujemy wartość cechy wokół oscyluje największa liczba obserwacji
xi |
ni |
0 |
6 |
1 |
7 |
2 |
11 |
3 |
4 |
4 |
3 |
5 |
2 |
∑ |
33 |
szereg rozdzielczy wielostopniowy - 1) wskazujemy przedział klasowy, w którym skupia się największa liczba obserwacji 2) wyznaczamy dominantę w oparciu o wzór interpolacyjny:
|
ni |
0-10 |
9 |
10-20 |
19 |
20-30 |
23 |
30-40 |
14 |
40-50 |
9 |
50-60 |
7 |
∑ |
81 |
GRAFICZNE WYZNACZANIE DOMINANTY
GRAFICZNE WYZNACZANIE KWARTYLI
DYSPERSJA, ROZPROSZENIE, ZRÓŻNICOWANIE, ZMIENNOŚĆ - to zróżnicowanie jednostek zbiorowości pomiędzy sobą pod względem wartości cechy zmiennej.
MIARY DYSPERSJI - umożliwiają uogólnienie różnic w wartościach cechy zaobserwowanych u poszczególnych jednostek.
KLASYCZNE MIARY DYSPERSJI - obliczane na podstawie informacji o wszystkich jednostkach statystycznych, jako wypadkowa różnic w poziomie cechy.
WARIANCJA - średnia arytmetyczna z kwadratów odchyleń wartości cechy od wartości średniej arytmetycznej. WARIANCJA NIE POSIADA LOGICZNEJ INTERPRETACJI
szereg szczegółowy:
szereg rozdzielczy jednostopniowy:
szereg rozdzielczy wielostopniowy:
xi - warianty cechy
ni - liczebności wariantów cechy
- środek przedziału klasowego
n - ogólna liczba obserwacji
ODCHYLENIE STANDARDOWE - średnia z odchyleń zaobserwowanych wartości cechy od jej średniej arytmetycznej. Oznacza „o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej”.
< 0 , 100 >
WSPÓŁCZYNNIK ZMIENNOŚCI - względna miara dyspersji wyrażająca procentowy udział odchylenia standardowego w średniej arytmetycznej. Pozwala ocenić natężenie zróżnicowania badanej cechy w zbiorowości.
V(S) bliskie 0 - badana zbiorowość jest jednorodna
V(S) → 1 - rośnie siła zróżnicowania zbiorowości ze względu na badaną cechę.
ODCHYLENIE PRZECIĘTNE - średnia z bezwzględnych odchyleń zaobserwowanych wartości cechy od jej średniej arytmetycznej. Oznacza „o ile wartości cechy różnią się przeciętnie od wartości średniej arytmetycznej”.
szereg szczegółowy:
szereg rozdzielczy jednostopniowy:
szereg rozdzielczy wielostopniowy:
WSPÓŁCZYNNIK ZMIENNOŚCI -
POZYCYJNE MIARY DYSPERSJI - obliczane są na podstawie dwóch wartości cechy występujących u jednostek zajmujących szczególne miejsce w szeregu (KWANTYLE)
ROZSTĘP - odległość między najmniejszą a największą wartością cechy w rozkładzie. Przedstawia obszar zmienności 100% badanej zbiorowości.
ROZSTĘP DECYLOWY - odległość między decylem pierwszym a decylem dziewiątym. Określa obszar zmienności środkowych 80% jednostek zbiorowości.
ROZSTĘP KWARTYLOWY - odległość między kwartylem pierwszym a kwartylem trzecim. Określa obszar zmienności środkowych 50% jednostek zbiorowości.
R
D1 Q1 Me Q3 D9
R(Q)
R(D)
ODCHYLENIE ĆWIARTKOWE - to połowa obszaru zmienności środkowych 50% jednostek zbiorowości.
WSPÓŁCZYNNIK ZMIENNOŚCI -
ASYMETRIA - SKOŚNOŚĆ - sposób rozmieszczenia liczebności przy wartościach cechy, położenie punktu skupienia obserwacji, położenie dominanty.
r. symetryczny r. prawostronny r. lewostronny
ROZKŁAD SYMETRYCZNY - rozkład posiadający oś symetrii, obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Oś symetrii przecina odciętą w punkcie, która jest średnią arytmetyczną zmiennej.
ROZKŁAD ASYMETRYCZNY - rozkład nie posiadający osi symetrii,
1. ROZKŁAD LEWOSTRONNIE ASYMETRYCZNY - UJEMNY - większość jednostek skupia się wokół wyższych wartości cechy w szeregu;
2. ROZKŁAD PRAWOSTRONNIE ASYMETRYCZNY - DODATNI - większość jednostek skupia się wokół niższych wartości cechy w szeregu;
KLASYCZNE MIARY ASYMETRII - stosowane w analizie szeregów rozdzielczych punktowych i przedziałowych, wykazujących tendencję centralną;
MOMENT TRZECI CENTRALNY - średnia arytmetyczna z podniesionych do potęgi trzeciej odchyleń wartości cechy od wartości średniej arytmetycznej; informuje jaki jest kierunek asymetrii rozkładu cechy zmiennej:
rozkład symetryczny
rozkład prawostronnie asymetryczny
rozkład lewostronnie asymetryczny
MOMENT TRZECI WZGLĘDNY - to iloraz momentu trzeciego centralnego i odchylenia standardowego podniesionego do trzeciej potęgi; ocenia siłę i kierunek asymetrii:
POZYCYJNE MIARY ASYMETRII - stosowane gdy rozkład zapisany jest w formie szeregu o przedziałach otwartych, a forma ta wynika z silnej asymetrii a także występowania w rozkładzie wartości skrajnych.
WSPÓŁCZYNNIK ASYMETRII OPARTY O KWARTYLE
MIESZANE MIARY ASYMETRII - stosowane do analizy symetrii rozkładów, w których niewskazane jest obliczanie
1