Opracowanie statystyczne
Na tym etapie dokonujemy przejścia od opisu indywidualnego (jednostek) do opisu zbiorowości jako całości, czyli tzw. opisu sumarycznego.
Przejścia tego dokonujemy stosując metodę grupowania. Metoda ta spełnia rolę transmisji między dwiema fazami badania. Grupowania dokonać można biorąc za kryterium cechy mierzalne i niemierzalne, stad też występują różne sposoby postępowania badawczego w każdym z tych przypadków.
Cechę, którą przyjmujemy za podstawę grupowania nazywamy cechą delimitującą, tzn. dzielącą daną zbiorowość na podzbiory, czyli subpopulacje.
Każde grupowanie statystyczne ma część logiczną i techniczną.
W części logicznej dokonuje się:
wyboru kryterium, wg którego dokonuje się grupowania. Tym kryterium jest zawsze cecha delimitacyjna,
opracowania tzw. schematu klasyfikacyjnego, który zawiera logiczną koncepcję podziału zbiorowości na określoną liczbę grup.
Dobry schemat klasyfikacyjny powinien przy tym być:
rozłączny - oznacza to, że każda jednostka może być zaliczona tylko do jednej klasy,
zupełny - schemat klasyfikacyjny musi objąć swoim zakresem wszystkie jednostki badanej zbiorowości,
czytelny - czyli „właściwie” odzwierciedlać strukturę zbiorowości za względu na wyróżnioną cechę delimitującą.
W części technicznej natomiast dokonuje się operacji technicznych związanych z zaliczaniem poszczególnych jednostek do określonych grup. Są to operacje zliczania, segregowania, sumowania itp.
Grupowania wg cechy mierzalnej (jednej) dokonać możemy wykorzystując:
1) Metodę grupowania wariancyjnego.
Polega ona na podziale jednostek danej zbiorowości wg natężenia badanej cechy. Otrzymujemy wtedy rozkład danej zmiennej, który umożliwia nam poznanie, w jakim stopniu badana zbiorowość jest jednorodna.
Rezultatem grupowania wariancyjnego jest szereg strukturalno-rozdzielczy, który spełnia następujące warunki:
a) jest jednomodalny i nieskrajnie asymetryczny,
b) ma przedziały klasowe o tej samej rozpiętości,
c) jest zamknięty dołem i górą.
Szereg strukturalno-rozdzielczy otrzymany w wyniku zastosowania tej metody grupowania nazywa się często szeregiem wariancyjnym.
Może on być opisywany przy zastosowaniu parametrów klasycznych.
2) Metodę grupowania typologicznego.
Jest ona stosowana w przypadku, gdy zbiorowość jest niejednorodna. Istota tego grupowania polega na tym, że spośród jednostek badanej zbiorowości wyodrębniamy określone typy jednostek ze względu na interesującą nas cechę. W ten sposób tworzymy podzbiory, które skupiają jednostki należące do danego typu. Jest to grupowanie wg cechy mierzalnej, które bierze jednakże za podstawę wyodrębniania typów, przesłanki pozastatystyczne, czyli jakościowe. Grupowanie to wymaga, by nastąpiła integracja statystyki i tej dyscypliny wiedzy, z zakresu której grupowanie (badanie) jest prowadzone. Wynika to z faktu, iż określenie typów ma charakter merytoryczny, dzięki czemu można utworzyć jednorodne podzbiorowości ze względu na badaną cechę.
Szereg strukturalno-rozdzielczy otrzymany w rezultacie tego grupowania określa się czasami mianem szeregu typologicznego.
Ma on najczęściej przedziały o różnej rozpiętości oraz może być otwarty dołem i górą (tzn. nie posiadać pierwszej granicy dolnej i ostatniej górnej).
Do jego opisu należy stosować parametry pozycyjne.
Można też przeprowadzić grupowanie według dwóch lub większej liczby cech równocześnie. Mamy wówczas do czynienia z grupowaniem analitycznym. Grupowanie to można stosować dla zbiorowości jednorodnych i jego celem może być badanie współzależności między cechami. Rezultatem takiego grupowania dla dwóch cech jest tzw. tablica korelacyjna. Brane pod uwagę cechy mogą być przy tym zarówno cechami mierzalnymi i niemierzalnymi, bądź też jedna może być mierzalna a druga niemierzalna.
Grupowanie wariancyjne
W tej metodzie, jak już wspomniano wcześniej, należy zbudować dla badanej cechy schemat klasyfikacyjny o równych co do rozpiętości przedziałach klasowych a następnie przyporządkować poszczególnym klasom jednostki danej zbiorowości.
Procedura grupowania:
Sporządź wykaz wariantów badanej cechy,
Uporządkuj warianty cechy rosnąco (lub malejąco),
Ustal obszar zmienności (rozstęp) badanej cechy:
Określ liczbę klas (przedziałów klasowych), z jakiej składać się ma schemat klasyfikacyjny dla badanej cechy - k
Liczba ta zawiera się najczęściej w przedziale:
.
Można ją ustalić w oparciu o następujące zestawienie:
N |
k |
do 30 30 - 40 40 - 60 60 - 100 100 - 200 200 - 500 powyżej 500 |
4 4 - 5 4 - 6 5 - 8 7 - 10 9 - 12 10 − 15 |
Są również podejścia inne, bardziej sformalizowane, np.:
Oblicz rozpiętość przedziału klasowego - h:
Określ granice przedziałów klasowych. Powinny być tu spełnione następujące zasady:
dolna granica pierwszego przedziału powinna być mniejsza od minimalnego poziomu cechy, czyli
górna granica ostatniego (k - tego) przedziału powinna być wyższa od maksymalnego poziomu cechy, czyli
przyporządkowanie poszczególnych wariantów cechy do określonego prze-działu musi być jednoznaczne.
Są trzy sposoby określania granic przedziałów:
sposób klasyczny (matematyczny)
np.:
nazwa cechy |
środki przedziałów |
10 - 20 20 - 30 30 - 40 itd. |
15 25 35 .. |
W tym przypadku:
przedziały otwarte górą (zamknięte dołem)
np.:
nazwa cechy |
środki przedziałów |
10 - 19 20 - 29 30 - 39 itd. |
15 25 35 .. |
W tym przypadku:
przedziały otwarte dołem (zamknięte górą)
np.:
nazwa cechy |
środki przedziałów |
11 - 20 21 - 30 31 - 40 itd. |
15 25 35 .. |
Wykonaj część techniczną - przyporządkuj poszczególnym klasom jednostki statystyczne
Opisz skonstruowany szereg statystyczny:
podaj tytuł szeregu,
podaj tytuły kolumn,
pod szeregiem zapisz źródło danych.
Oceń poprawność zbudowanego szeregu statystycznego.
Warunki, które musi taki szereg spełniać:
jednomodalność (jedno maksimum) i brak skrajnej asymetrii,
brak klas pustych,
możliwie najbliższy symetryczności,
minimalizacja różnicy między średnią arytmetyczną wyliczoną z danych jednostkowych i średnią arytmetyczną wyliczoną w oparciu o zbudowany szereg.
Zbudowany szereg przedstaw graficznie - histogram (wykres kolumnowy).
Przykład :
W przedsiębiorstwie „A” w Poznaniu w październiku 2009 r. przeprowadzono badanie pracowników według czasu pracy przepracowanego we wrześniu w godz.
186 207 202 198 198 191 223 204 196 194 187 203 208 200 192 201 212 206 190 227 203 199 203 217 212 200 214 189 209 197 194 224 206 200 187 204 214 192 220 183 189 219 197 223 210 172 213 210 204 234 180 206 199 190 207 221 195 210 195 192 169 186 203 220 197 191 176 189 230 210 199 206 227 172 202 194 184 200 223 175 188 215 225 182 198 205 234 179 204 195 208 218 180 216 214 230 210 190 211 208
Zbuduj szereg prezentujący strukturę pracowników tego przedsiębiorstwa według czasu pracy przepracowanego we wrześniu (w godz.) stosując grupowanie wariancyjne.
1. Porządkujemy warianty badanej cechy rosnąco:
169 172 172 175 176 179 180 180 182 183 184 186 186 187 187 188 189 189 189 190 190 190 191 191 192 192 192 194 194 194 195 195 195 196 197 197 197 198 198 198 199 199 199 200 200 200 200 201 202 202 203 203 203 203 204 204 204 204 205 206 206 206 206 207 207 208 208 208 209 210 210 210 210 210 211 212 212 213 214 214 214 215 216 217 218 219 220 220 221 223 223 223 224 225 227 227 230 230 234 234
Ustalamy obszar zmienności badanej cechy:
N = |
100 |
|
xmax = |
234 |
|
xmin = |
169 |
|
Ozm = |
234 - 169 = 65 |
Proponujemy k = 6
Ustalamy rozpiętość przedziałów klasowych
; przyjmijmy więc h = 10
Określamy granice przedziałów klasowych, przykładowo:
160 - 170 |
170 - 180 |
180 - 190 |
190 - 200 |
200 - 210 |
210 - 220 |
220 - 230 |
230 - 240 |
Kolejne jednostki przyporządkujemy do właściwych przedziałów klasowych zgodnie z zasadą, że jeżeli jednostka ma poziom cechy równy granicy, to należy do tego przedziału, którego to jest granica górna (taka zasada przyjęta jest w Excellu).
Zbudowany szereg opisujemy i ostatecznie otrzymujemy:
Struktura pracowników badanego przedsiębiorstwa wg miesięcznego
czasu pracy (w godz.) przepracowanego we wrześniu 2007 r.
Miesięczny czas pracy w godz. |
Liczba pracowników |
160 - 170 170 - 180 180 - 190 190 - 200 200 - 210 210 - 220 220 - 230 230 - 240 |
1 7 14 25 27 14 10 2 |
Ogółem |
100 |
Źródło: Dane z zadania 1.
Szereg spełnia warunki wymienione w przedstawionej wcześniej procedurze.
jest jednomodalny, nie jest skrajnie asymetryczny,
nie ma klas pustych,
jest zbliżony do symetrycznego
średnia wyliczona z danych jednostkowych wynosi 202,21 godz.,
średnia wyliczona w oparciu o zbudowany szereg wynosi 201,20 godz.
9. Sporządzamy wykres szeregu: