STATYSTYKA OPISOWA - TEORIA
STATYSTYKA - od łacińskiego słowa status, które oznacza stan, położenie. Statystyka jest nauką o metodach ilościowych badania prawidłowości występujących w procesach masowych. Inaczej, jest to nauka o zbieraniu, analizie i interpretacji danych liczbowych.
Wyodrębnia się:
STATYSTYKĘ OPISOWĄ - opis statystyczny - która zajmuje się metodami gromadzenia i prezentacji danych oraz metodami ich sumarycznego opisu.
STATYSTYKĘ MATEMATYCZNĄ - wnioskowanie statystyczne - która zajmuje się budową reguł wnioskowania o właściwościach badanej zbiorowości na podstawie danych dotyczących części tej zbiorowości wybranej w sposób losowy.
Przedmiotem badań statystyki jest wykrywanie, analiza i opis prawidłowości występujących w procesach masowych (zjawiskach masowych).
ZJAWISKA MASOWE - procesy, które rozpatrywane w masie charakteryzują się prawidłowością nie dającą się ustalić na podstawie pojedynczej obserwacji. Zjawiska masowe to takie, które pojawiają się często, np. rodzenia, małżeństwa, bezrobocie, spożycie, wypadki drogowe.
Ze zjawiskiem masowym związane są dwa rodzaje przyczyn:
PRZYCZYNY GŁÓWNE - są jednakowe dla wszystkich elementów tworzących dane zjawiska masowe.
PRZYCZYNY UBOCZNE - są różne dla każdego elementu tworzącego badane zjawisko masowe.
Strukturę procesów masowych tworzą dwa składniki:
SKŁADNIK SYSTEMATYCZNY - efekt działania przyczyn głównych.
SKŁADNIK PRZYPADKOWY - efekt działania przyczyn ubocznych.
ZBIOROWOŚĆ STATYSTYCZNA - populacja statystyczna - zespół nieidentycznych jednostek stanowiących przedmiot badania statystycznego posiadających przynajmniej jedną cechę wspólną istotną ze względu na cel badania.
JEDNOSTKA STATYSTYCZNA - każdy element zbiorowości statystycznej.
CECHA STATYSTYCZNA - właściwość jednostki statystycznej.
Wyróżnia się cechy stałe i zmienne:
CYCHY STAŁE - jednakowe - stanowią kryterium przynależności jednostki statystycznej do badanej zbiorowości. Cechy te nie podlegają badaniu statystycznemu, jedynie określają jednostkę pod względem:
Rzeczowym - Kto? Co?
Czasowym - Kiedy?
Przestrzennym - Gdzie?
CECHY ZMIENNE - różne - stanowią przedmiot badania statystycznego.
Cechy te dzielimy na:
Cechy jakościowe - niemierzalne. Właściwości opisują słownie.
Cechy te dzielimy na:
Cechy dwudzielne - dychotomiczne - mają tylko dwa warianty, np. zysk-strata, mężczyzna-kobieta.
Cechy wielodzielne - mają więcej niż dwa warianty, np. pochodzenie.
Cechy ilościowe - mierzalne. Właściwości opisują liczbowo.
Cechy typu skokowego - przyjmują wartości całkowite, np. liczba obecności, liczba dzieci w rodzinie.
Cechy typu ciągłego - przyjmują wszystkie wartości rzeczywiste z danego przedziału liczbowego, np. staż pracy, płaca, wiek, wzrost.
Wyróżnia się cztery metody badania statystycznego:
PROJEKTOWANIE BADANIA STATYSTYCZNEGO. Obejmuje następujące czynności:
- określanie celu badania statystycznego,
- sformułowanie hipotez roboczych,
- zaprojektowanie układu i treści tablic wynikowych,
- określenie zbiorowości statystycznej pod względem rzeczowym, czasowym i przestrzennym,
- określenie źródeł informacji,
- opracowanie formularzy statystycznych i ewentualnie instrukcji do nich,
- określenie niezbędnych środków na realizację programu badań,
- określenie metod zbierania informacji,
- określenie pola zastosowania uzyskanych wyników.
OBSERWACJA STATYSTYCZNA - zbieranie danych statystycznych. Zbierając dane statystyczne korzystamy z:
- materiału pierwotnego, który tworzą dane gromadzone wyłącznie dla potrzeb badania statystycznego, np. spisy: rolny, ludności.
- materiału wtórnego, tworzą go dane gromadzone dla celów ewidencyjno-kontrolno-sprawozdawczych , a wykorzystywane są w badaniach statystycznych, np. ze sprawozdań.
Zbierając materiały statystyczne możemy zastosować metodę obserwacji:
Całkowitą - badanie całkowite, pełne, wyczerpujące. Obserwowane są wszystkie jednostki tworzące badaną zbiorowość, np. spis ludności.
Częściową - badanie częściowe, niepełne, niewyczerpujące. Obserwowane są tylko niektóre jednostki badanej zbiorowości, np. badanie budżetów gospodarstw domowych.
Badania całkowite i częściowe mogą mieć charakter badań:
Ciągłych - prowadzone są nieprzerwalnie, np. badania urodzaju, urodzeń, zgonów, małżeństw.
Okresowych - podejmowane są stałe w pewnych odstępach czasu, np. informatyzacja, spis ludności.
Doraźnych - są organizowane w sytuacjach szczególnych, np. klęski żywiołowe, zmiana ustroju.
Zbierając materiał statystyczny możemy popełnić:
BŁĘDY ZAMIERZONE
BŁĘDY NIEZAMIERZONE
OPRACOWANIE ZEBRANEGO MATERIAŁU STATYSTYCZNEGO.
Grupowanie statystyczne polega na podziale zróżnicowanej zbiorowości na możliwie jednorodne grupy z punktu widzenia celu badania statystycznego. Wyodrębnia się:
GRUPOWANIE TYPOLOGICZNE - wg cechy jakościowej, np. podział populacji ludzkiej na kobiety i mężczyzn.
GRUPOWANIE WARIANCYJNE - wg cechy ilościowej, np. podział studentów wg wysokości stypendium.
Grupowanie statystyczne powinno spełniać:
WARUNEK ROZŁĄCZNOŚCI - poszczególne jednostki statystyczne o określonych cechach powinny być jednoznacznie przydzielone do określonych grup (klas).
WARUNEK ZUPEŁNOŚCI - wszystkie jednostki tworzące daną zbiorowość muszą być uwzględnione.
Opracowany materiał statystyczny możemy zaprezentować za pomocą:
SZEREGU STATYSTYCZNEGO - jest to rząd wielkości statystycznych uporządkowanych zgodnie z przyjętym kryterium porządkowania. Wyróżnia się dwa kryteria:
- merytoryczne,
- formalne.
Z punktu widzenia merytorycznego szeregi statystyczne dzielimy na:
SZEREGI PRZESTRZENNE - geograficzne, terytorialne - przedstawiają badane zjawiska w przestrzeni, np. liczba studentów studiów dziennych wg województw.
SZEREGI CZASOWE - dynamiczne, chronologiczne - służą do prezentacji zmian zjawiska w czasie, np. wypadki drogowe w Polsce w latach 1996-2005.
SZEREGI STRUKTURALNE - obrazują budowę badanej zbiorowości z punktu widzenia przyjętej cechy w danym i ściśle określonym czasie, np. struktura studentów grupy 411 obecnych na wykładzie dn. 14.10.06 wg wzrostu.
Z punktu widzenia formalnego dzielimy na:
SZEREGI SZCZEGÓŁOWE - proste - uwidaczniają wariant cechy każdej jednostki statystycznej wchodzącej w skład określonej zbiorowości statystycznej, np. studenci grupy 411 wg liczby przeczytanych książek w czasie wakacji.
SZEREGI ROZDZIELCZE - powstają w wyniku grupowania materiału statystycznego. Dzielą się na:
- szeregi rozdzielcze punktowe,
- szeregi rozdzielcze przedziałowe.
TABLICY STATYSTYCZNEJ - zawierają liczbowy opis struktury badanej zbiorowości. W ramach badań statystycznych korzysta się m.in. z tablic:
- roboczych i wynikowych,
- podstawowych i analitycznych,
- prostych i złożonych.
Każda tablica statystyczna może zawierać jeden lub więcej szeregów statystycznych. Każda tablica statystyczna składa się z:
- tytułu,
- tablicy właściwej, w tej m.in. główki i boczku,
- informacji na temat źródła danych.
WYKRESU STATYSTYCZNEGO - jest wizualną formą prezentacji danych statystycznych oraz wyników analizy statystycznej.
Do najbardziej znanych i najczęściej wykorzystywanych wykresów zaliczamy:
WYKRESY PUNKTOWE - np. diagram korelacyjny.
WYKRESY LINIOWE - np. diagram zwykły i diagram skumulowany.
WYKRESY POWIERZCHNIOWE - np. histogram zwykły i histogram skumulowany.
ANALIZA STRUKTURY ZBIOROWOŚCI STATYSTYCZNYCH.
Podstawowym działem analizy statystycznej jest analiza struktury zjawisk. Przez strukturę danego zjawiska rozumie się budowę zbiorowości z punktu widzenia wyróżnionych cech jednostek należących do tej zbiorowości.
Parametrem opisowym nazywa się liczbę, która w sposób syntetyczny określa właściwości badanej zbiorowości. Parametry opisowe w zależności od sposobu definiowania dzielimy na:
PARAMETRY KLASYCZNE - obliczane są na podstawie wyników wszystkich obserwacji.
PARAMETRY POZYCYJNE - wyznacza się na podstawie wartości jednej lub kilku jednostek zajmujących określoną pozycję w badanej zbiorowości.
Parametry klasyczne w ramach danej grupy wykluczają się wzajemnie, zaś parametry pozycyjne w ramach danej grupy uzupełniają się i uzupełniają parametry klasyczne.
Parametry klasyczne stosuje się przede wszystkim do analizy szeregów statystycznych charakteryzujących się tendencją centralną, natomiast parametry pozycyjne można stosować do badania każdego rodzaju rozkładu, lecz szczególnie są przydatne w analizie szeregów silnie symetrycznych o otwartych przedziałach klasowych.
PARAMETRY OPISOWE DZIELIMY NA:
PARAMETRY ABSOLUTNE - bezwzględne - są wielkościami mianowanymi.
PARAMETRY STOSUNKOWE - względne - są wielkościami niemianowanymi, czasami wyrażane są w procentach.
Parametry opisowe, które służą do przeprowadzania analizy struktury zbiorowości statystycznej dzielimy na:
1). MIARY TENDENCJI CENTRALNEJ - miary położenia, średnie, przeciętne. Miary te mówią jaka jest wielkość składnika systematycznego zbiorowości statystycznej. Miary te dzielą się na:
PARAMERTY POZYCYJNE:
a). DOMINANTA - moda, wartość najczęstsza, typowa, modalna. Jest to wartość badanej cechy występująca w danej zbiorowości najczęściej.
b). MEDIANA - wartość środkowa, kwartyl drugi. Jest wartością jednostki statystycznej zajmujące środkowe miejsce w zbiorowości statystycznej uporządkowanej rosnąco lub malejąco wg wartości cechy.
c). KWARTYL PIERWSZY I KWARTYL TRZECI.
Kwartyl pierwszy dzieli zbiorowość w taki sposób, że poniżej jego wartości mieści się 25% jednostek zbiorowości, a powyżej 75%.
Kwartyl trzeci zbieżność dzieli w taki sposób, że poniżej jego wartości mieści się 75% jednostek zbiorowości, a powyżej 25%.
PARAMETRY KLASYCZNE:
a). ŚREDNIA ARYTMETYCZNA - ogólna średnia rozdzielona jednakowo na poszczególne jednostki, czyli informuje jaka byłaby wartość cechy, gdyby wszystkie jednostki były jednakowe. Jest to wartość abstrakcyjna.
b). ŚREDNIA GEOMETRYCZNA - stosuje się ją, kiedy zbiorowość jest multiplikatywna, to znaczy otrzymywana przez mnożenie oraz jeżeli wartości przedstawiane są w formie zmian względnych.
c). ŚREDNIA HARMONICZNA - stosujemy ją, gdy zbiorowość jest addytywna przedstawiona w formie szeregu rozdzielczego, pokazującego strukturę sum wartości rozpatrywanej zmiennej. Średnia harmoniczna jest odwrotnością średniej arytmetycznej odwrotności wartości jednostek zbiorowości.
Znając średnią arytmetyczną można w sposób bezpośredni obliczyć średnią harmoniczną i odwrotnie.
2). MIARY ZMIENNOŚCI - miary rozproszenia, zróżnicowania, dyspersji, rozrzutu. Miary te dzielimy na:
a). MIARY ABSOLUTNE - informują o ile różnią się badane jednostki. Mierzą one wielkość składnika przypadkowego.
b). MIARY STOSUNKOWE - informują jak wielkie są stosunkowo te różnice. Odpowiadają na pytanie jaką część składnika systematycznego stanowi składnik przypadkowy.
Ponadto miary zmienności dzielimy na:
A). PARAMETRY POZYCYJNE:
- rozstęp - empiryczny obszar zmienności - różnica pomiędzy największą wartością cechy, a najmniejszą wartością cechy. Jest to miara prosta, mało precyzyjna o niewielkiej wartości poznawczej. Nie można jej obliczyć gdy szereg jest otwarty.
- odchylenie ćwiartkowe - mierzy zróżnicowanie wartości cechy od mediany. Mierzy zróżnicowanie 50% zbiorowości. Odchylenie ćwiartkowe mierzy zmienność w dwóch ćwiartkach zbiorowości.
- pozycyjny typowy obszar zmienności - charakteryzuje typowe wartości jednostek zbiorowości w zawężonym obszarze do dwóch środkowych ćwiartek zbiorowości.
- współczynnik zmienności względem odchylenia ćwiartkowego.
B). PARAMETRY KLASYCZNE:
- wariancja - moment centralny drugiego rzędu - średnia arytmetyczna z sumy kwadratów odchyleń poszczególnych wartości cechy od jej średniej arytmetycznej.
- odchylenie standardowe - pierwiastek kwadratowy z wariancji. Parametr ten określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej.
- klasyczny typowy obszar zmienności - charakteryzuje typowe wartości jednostek w całej zbiorowości statystycznej.
- współczynnik zmienności względem odchylenia standardowego - współczynniki zmienności są liczbami niemiarowymi, często wyrażane są w procentach. Z reguły przyjmują wartości od 0 do 1. Mogą przekroczyć wartość 1.Służą do porównywania zmienności.
3). MIARY ASYMETRII - badają zależność lub niezależność składnika przypadkowego.
4). MIARY SPŁASZCZENIA - miary ekscesu, kurtozy, skupienia. Stosujemy gdy rozkłady są symetryczne lub bardzo zbliżone do symetrycznych. Mierzą one stopień skupienia wokół miar przeciętnych. Wzorcem jest dzwon Gaussa-Laplace'a właściwy rozkładowi normalnemu, dla którego spłaszczenie mierzone jest ze standaryzowanym momentem centralnym czwartego rzędu. Miarą określającą stopień kurtozy jest m.in. współczynnik spłaszczenia.
5). MIARY KONCENTRACJI - jest to nierównomierny rozkład ogólnej sumy wartości pomiędzy poszczególne jednostki badanej zbiorowości. Koncentracja występuje przy bardzo silnej lub skrajnej asymetrii i wówczas nie można liczyć miar klasycznych. Koncentracją charakteryzują się takie kategorie ekonomiczne jak: kapitał, produkcja, zysk, zatrudnienie.
4