STATYSTYKA
I ANALIZA STRUKTURY
Pojęcia wstępne
Statystyka jest nauką o metodach badania zjawisk masowych, służącą ich poznaniu poprzez wykrycie prawidłowości i zasadniczych tendencji rządzących tymi zjawiskami.
Badanie statystyczne (w naukach społecznych) - ogół prac mających na celu poznanie struktury zbiorowości, ocenę współzależności między cechami, ocenę zmian zjawiska w czasie.
Etapy badania statystycznego:
- projektowanie badania (określenie celu badania, charakteru badania, sposobu pozyskania danych, przygotowanie materiałów do przeprowadzenia badania),
- gromadzenie materiału statystycznego i jego opracowanie (grupowanie i prezentacja),
- analiza wyników obserwacji.
Zbiorowość (populacja) statystyczna - zbiór jednostek (osób, przedmiotów lub zjawisk) poddanych badaniu statystycznemu. Zbiorowość (populację) generalną tworzą wszystkie jednostki, w stosunku do których formułowane są wnioski ogólne z badania. Aby określić, zgodnie z celem badania zbiorowość generalną należy wszystkie jednostki określić pod względem rzeczowym (co lub kogo badamy), przestrzennym (jaki obszar obejmuje badanie), czasowym (jaki okres obejmuje badanie lub w jakim momencie się odbywa). W zależności od tego, jak liczna jest zbiorowość statystyczna oraz jakie są możliwości (czasowe, finansowe) badacza, a zatem jak pełna jest obserwacja statystyczna, prowadzone mogą być 2 typy badań. Badanie statystyczne pełne (całkowite) to takie, w którym bezpośredniej obserwacji statystycznej podlegają wszystkie elementy populacji generalnej. Jeśli bezpośredniej obserwacji podlega tylko pewien podzbiór populacji generalnej, tzw. próba, to badanie nazywamy częściowym. Badania tego typu prowadzi się szczególnie wtedy, gdy zbiorowość jest bardzo liczna i objęcie badaniem wszystkich jej elementów byłoby zbyt pracochłonne i kosztowne lub w wyniku obserwacji jednostki statystyczne mogłyby ulec zniszczeniu.
W zależności od celu badania wyróżnia się pewne istotne właściwości jednostek statystycznych - cechy statystyczne (np. płeć, wzrost, waga, wiek). Rozróżnia się dwa typy cech statystycznych: jakościowe i ilościowe. Cechy jakościowe (niemierzalne: porządkowe, nominalne) to takie, których warianty ustala się w sposób opisowy, np. płeć, wykształcenie … Z kolei, warianty cech ilościowych (mierzalnych: skokowych, ciągłych) wyrażone są za pomocą liczb w określonych jednostkach miary, np. wzrost (w cm), waga (w kg), wiek (w latach).
Szereg statystyczny - uporządkowany szereg liczbowy pod względem określonych kryteriów, tzn. szeregiem statystycznym jest szereg liczb zawierający dane dotyczące jednej zbiorowości i jednej cechy.
Źródła pozyskiwania danych:
pierwotne (obserwacja, wywiad, ankieta),
wtórne (sprawozdawczość, publikacje statystyczne).
Rodzaje szeregów:
szczegółowy
rozdzielczy = rozkład empiryczny
punktowy
|
|
|
|
. . . |
. . . |
|
|
z przedziałami klasowymi
|
|
|
|
. . . |
. . . |
|
|
- rozróżnienie pomiędzy przedziałami zamkniętymi i otwartymi,
- ustalanie granic przedziałów w zależności od tego, czy cechy są skokowe czy ciągłe.
lub
gdzie:
- rozpiętość przedziału klasowego i,
- górna granica przedziału i,
- dolna granica przedziału i.
Wskaźnik struktury (częstość, frakcja, odsetek) - występowania danego wariantu cechy - stosunek liczby jednostek o danym wariancie cechy do liczebności badanej zbiorowości:
,
,
lub
.
gdzie:
- liczba jednostek o i-tym wariancie cechy (liczebność przedziału i),
- liczba wariantów cechy (liczba przedziałów klasowych),
- liczebność zbiorowości.
Wskaźnik podobieństwa struktur
,
gdzie:
- wskaźniki struktury dla pierwszej zbiorowości,
- wskaźniki struktury dla drugiej zbiorowości.
Przykład.
Aktywni zawodowo według płci i wieku w IV kwartale 2011.
Wiek |
Liczba aktywnych zawodowo |
wskaźniki struktury |
||||
|
Ogółem |
Mężczyźni |
Kobiety |
|
||
|
1 |
2 |
3 |
w(1) |
w(2) |
w(3) |
15-24 lata |
1632 |
955 |
677 |
9,1% |
9,7% |
8,3% |
25-34 |
5319 |
2930 |
2389 |
29,6% |
29,9% |
29,4% |
35-44 |
4505 |
2382 |
2123 |
25,1% |
24,3% |
26,1% |
45-54 |
4095 |
2097 |
1998 |
22,8% |
21,4% |
24,6% |
55 lat i więcej |
2400 |
1449 |
951 |
13,4% |
14,8% |
11,7% |
Razem |
17951 |
9813 |
8138 |
|
|
|
Źródło: Mały Rocznik Statystyczny 2012, Tabl. 2(78)
9,1% aktywnych zawodowo w Polsce w IV kwartale 2011 to osoby w wieku 15-24 lata.
Aktywni zawodowo w wieku 25-34 lata stanowią 29,6% aktywnych zawodowo Polaków w IV kwartale 2011.
Udział osób aktywnych zawodowo w wieku 35-44 wynosi 25,1% aktywnych zawodowo Polaków w IV kwartale 2011.
Odsetek osób aktywnych zawodowo w wieku 45-54 wynosi 22,8% aktywnych zawodowo Polaków w IV kwartale 2011.
13,4% aktywnych zawodowo w Polsce w IV kwartale 2011 to osoby w wieku 55 lat i więcej.
Wp(2,3) = 8,3+29,4+24,3+21,4+11,7 = 95,0 - między zbiorowością mężczyzn i kobiet aktywnych zawodowo istnieje duże podobieństwo z punktu widzenia wieku.
MIARY POŁOŻENIA :
Miary położenia (miary przeciętne) - informują o przeciętnym poziomie wartości rozważanej cechy w badanej zbiorowości statystycznej:
klasyczne (średnia arytmetyczna, średnia harmoniczna, średnia geometryczna),
pozycyjne.
Średnie klasyczne - opierają się na wszystkich obserwacjach, ich obliczanie nie jest trudne i nie wymaga porządkowania danych.
Średnia arytmetyczna - suma wartości cechy mierzalnej podzielona przez liczebność zbiorowości.
- dla szeregu szczegółowego,
- dla szeregu rozdzielczego punktowego,
- dla szeregu rozdzielczego z przedziałami klasowymi,
Własności średniej arytmetycznej:
jest wielkością mianowaną,
spełnia warunek:
,
jest wielkością teoretyczną, tzn. istnieje możliwość, że
,
suma odchyleń od średniej wynosi zero, tzn.
,
nie można obliczyć dla przedziałów otwartych,
jest wrażliwa na skrajne wartości (obserwacje przypadkowe).
Pozycyjne miary położenia - wyznaczane są na podstawie szeregu uporządkowanego; należą do nich:
kwantyle (kwartyle, decyle),
dominanta.
Dominanta (modalna, moda, wartość najczęstsza) - wartość cechy statystycznej, która w danym rozkładzie empirycznym występuje najczęściej.
- w szeregu rozdzielczym punktowym jest to ta wartość cechy, której odpowiada największa liczebność,
- w szeregu rozdzielczym z przedziałami klasowymi stosujemy wzór interpolacyjny:
x0 - dolna granica przedziału dominanty (przedziału wartości, któremu odpowiada największa
liczebność),
n0 - liczebność przedziału dominanty,
n-1 - liczebność przedziału poprzedzającego przedział dominanty,
n+1 - liczebność przedziału następnego po przedziale dominanty,
h0 - rozpiętość przedziału dominanty (i jemu sąsiadujących przedziałów).
Własności dominanty:
1. Jej wyznaczenie ma sens tylko, jeśli rozkład jest jednomodalny (występuje jedno max),
2. Przedział dominanty i przedziały sąsiednie muszą mieć taką samą rozpiętość,
3. Nie da się jej wyznaczyć, gdy liczebność największa jest w przedziale skrajnym lub w sąsiedztwie przedziałów otwartych.
Mediana- dzieli zbiorowość na dwie równe części, tzn. połowa jednostek ma wartości cechy mniejsze lub równe medianie, a druga połowa wartości cechy równe lub większe od mediany,
dla szeregu szczegółowego:
- dla szeregu o nieparzystej liczbie jednostek,
- dla szeregu o parzystej liczbie jednostek.
dla szeregu rozdzielczego:
gdzie:
- wartość dolnej granicy przedziału mediany,
- rozpiętość przedziału mediany,
- liczebność przedziału mediany,
- numer mediany,
- wartość skumulowana poprzedzająca przedział mediany.
Własności mediany:
jest wielkością mianowaną,
nie zależy od wartości skrajnych,
można ją obliczyć dla szeregów z przedziałami otwartymi,
jest wielkością przybliżoną, jej dokładność zależy od wielkości przedziałów klasowych.
MIARY DYSPERSJI
Miary dyspersji (rozproszenia, zmienności) - charakteryzują stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy:
- bezwzględne (wyrażone w takich jednostkach jak badana cecha)
- względne (różnego typu współczynniki zmienności, wyrażone w %).
Miary bezwzględne:
- rozstęp (rzadko używany ze względu na wrażliwość na skraje wartości)
- odchylenie standardowe - miara o podobnej interpretacji jak odchylenie przeciętne, ale częściej stosowana
- dla szeregu szczegółowego,
- dla szeregu rozdzielczego punktowego,
- dla szeregu z przedziałami klasowymi.
Typowy przedział zmienności:
,
Współczynnik zmienności - miary niemianowane, przydatne do wszelkich porównań; pomnożone przez 100 informują, o ile % średniej (lub mediany) poszczególne wartości cechy odchylają się od średniej.
.
MIARY SKOŚNOŚCI
Z punktu widzenia skośności szeregi dzielimy:
1) symetryczne, gdy
2) asymetryczne
- skośność ujemna (asymetria lewostronna), gdy
- skośność dodatnia (asymetria prawostronna), gdy
Wskaźnik skośności - mierzy odległość między średnią arytmetyczną a dominantą; jest wielkością mianowaną
Współczynnik skośności - wielkości niemianowane, zwykle z przedziału (-1;1)
.
Finanse i rachunkowość 2012/2013 opracowanie: Joanna Trębska