OPRACOWANIE MATERIAŁU STATYSTYCZNEGO
- 1 -
Materiał statystyczny otrzymujemy w wyniku obserwacji statystycznej ma postać nieuporządkowanego zbioru danych o poszczególnych jednostkach statystycznych i jest on określany jako surowy (indywidualny) materiał statystyczny. Materiał ten nie może być przedmiotem analizy, porównań i wyciągania wniosków, gdyż zawiera informacje o poszczególnych jednostkach, a nie o całej zbiorowości statystycznej. Dlatego materiał ten w kolejnym etapie badania statystycznego podlega opracowaniu (uporządkowaniu).
Opracowanie materiału obejmuje: grupowanie statystyczne i zliczanie materiału statystycznego. W zależności od możliwości instytucji prowadzącej badanie statystyczne opracowanie materiału statystycznego może być prowadzone przy wykorzystaniu różnych metod organizacyjno - technicznych. Jeżeli badanie statystyczne jest prowadzone przez małe przedsiębiorstwo, wówczas większość czynności związanych z opracowaniem materiału statystycznego jest prowadzona ręcznie, bądź z wykorzystaniem komputera osobistego. Jeżeli natomiast badanie jest prowadzone przez wyspecjalizowaną instytucję, wówczas do opracowywania materiału statystycznego wykorzystuje się specjalistyczne urządzenia.
W wyniku opracowania surowego materiału statystycznego zostaje on przekształcony w materiał zbiorczy, charakteryzujący całą badaną zbiorowość bądź próbę.
Grupowanie materiału statystycznego
Grupowanie statystyczne - polega na podziale całej zbiorowości statystycznej na mniejsze jej części, czyli jednolite grupy jednostek. Wyodrębnienie tych grup dokonywane jest na podstawie jednoznacznych kryteriów. Tymi kryteriami są warianty cechy statystycznej. Jeżeli cecha statystyczna ma charakter naturalny (np. płeć), wówczas grupowanie statystyczne ma również naturalny charakter (np. podział mieszkańców Warszawy na mężczyzn i kobiety). Niekiedy jednak kryteria podziału zbiorowości grup nie mają charakteru naturalnego, wtedy podmiot prowadzący badanie musi zdecydować jakie mniejsze zostaną wyodrębnione w ramach badanej zbiorowości. Grupowanie statystyczne pozwala na uporządkowanie materiału statystycznego i zapewnia jego porównywalność. Celem grupowania statystycznego jest wskazanie podobieństwa i różnic występujących w badanej zbiorowości statystycznej oraz sformułowanie obiektywnych wniosków ogólnych. Decydujące znaczenie, przy dokonywaniu grupowania statystycznego, ma cel badania statystycznego.
Grupowanie statystyczne jest stworzenie wykazu klasyfikacyjnego, czyli uporządkowanego wykazu wariantów cech. W przypadku cechy niemierzalnej i cechy mierzalnej ze zmiennością skokową o niewielkiej liczbie wariantów stworzenie wykazu klasyfikacyjnego jest zadaniem stosunkowo prostym - można ograniczyć się w tym przypadku do wypisania wszystkich wariantów cechy.
Dokonanie prawidłowego grupowania statystycznego wymaga przestrzegania niżej wymienionych zasad:
Wykaz klasyfikacyjny (wykaz wariantów cech) musi być skonstruowany w taki sposób, aby żadna jednostka statystyczna poddana badaniu nie znalazła się poza wykazem - jest to zasada grupowania wyczerpującego;
- 2 -
Wykaz musi być skonstruowany w taki sposób, aby żadna jednostka statystyczna poddana badaniu nie była zaliczona jednocześnie do dwóch grup (wariantów) - jest to zasada grupowania rozłącznego;
Jeżeli jednostki statystyczne są bardzo zróżnicowane pod względem wartości cechy, należy tworzyć więcej przedziałów klasowych, tak aby każdy z nich zawierał jednostki o małym zróżnicowaniu wartości cechy;
Grup nie powinno być zbyt dużo, dlatego jeżeli niektóre warianty cechy występują u niewielkiej liczby jednostek, możliwe jest stworzenie grup zbiorczych, które określa się jako pozostałe czy różne10;
Przy badaniach powtarzalnych nie powinno się zmieniać wykazu klasyfikacyjnego, dzięki czemu możliwie będzie porównywanie wyników tych badań.
Przykład
Jeżeli badanie statystyczne polegało na określeniu poziomu wykształcenia ludności, to wykaz klasyfikacyjny przedstawia się następująco;
Grupowania ludności wg wykształcenia
Wykształcenie |
|
|
|
|
Osoby, które mają wykształcenie niepełne średnie zostaną zaliczone do grupy osób z wykształceniem podstawowym, a osoby, które mają wykształcenie policealne i niepełne wyższe zostaną zaliczone do grupy osób z wykształceniem średnim.
- 3 -
ZLICZANIE MATERIAŁU STATYSTYCZNEGO
Po dokonaniu grupowania statystycznego następuje zliczanie materiału, czyli ustalenie liczebności poszczególnych grup. Efektem zliczania materiału statystycznego jest stwierdzenie, ile jednostek statystycznych przypada na poszczególne warianty cechy przyjęte w wykazie klasyfikacyjnym.
Zliczanie bezpośrednie (ręczne) jest stosowane wówczas, gdy badane zbiorowości mają małą liczebność i gdy podział jednostek na grupy jest prosty. Zliczanie bezpośrednie polega na zliczeniu i zanotowaniu liczby jednostek statystycznych posiadających określony wariant i cechy.
Przykład
Policzenie przez wyznaczoną osobę liczby wiernych uczęszczających we mszy.
Zliczanie sposobem kreskowym wymaga skonstruowania tablicy roboczej, w której pionowymi kreskami zaznacza się wystąpienie określonego wariantu cechy. Ułatwieniem jest zastosowanie jako piątej - kreski poziomej, która przecina cztery kreski pionowe. W taki sposób każda wiązka oznacza pięć jednostek obserwacji. W celu sprawdzenia prawidłowości zliczania materiału statystycznego sposobem kreskowym porównuje się liczbę kresek z liczebnością badanej zbiorowości. Jednak nawet w sytuacji, gdy liczba kresek jest równa liczebności zbiorowości, mógł zostać popełniony błąd, że kreska została postawiona przy niewłaściwym wariancie cechy.
Przykład
Liczba noworodków, które narodziły się w każdym z 75 szpitali w województwie Śląskim w dniu 29.11.1998r. przedstawia się następująco: 60; 65; 67; 69; 71; 75; 76; 77; 78; 79; 81; 83; 88; 95; 96; 97; 98; 100; 102; 103; 104; 105; 106; 107; 108; 109; 110; 111; 112; 113; 114; 115; 116; 117; 119; 119; 120; 121; 122; 125; 125; 127; 128; 128; 130; 130; 132; 132; 136; 139; 142; 143; 145; 146; 147; 149; 150; 150; 150; 151; 162; 163; 163; 164; 165; 166; 166; 168; 169; 169; 177; 177; 182; 184; 184.
Liczba noworodków |
Liczba szpitali (każdy szpital oznaczony jest kreską) |
Liczba szpitali |
60 - 85 |
|
12 |
86 - 111 |
|
16 |
112 - 137 |
|
21 |
138 - 163 |
|
14 |
164 - 189 |
|
12 |
Razem |
|
75 |
Zliczanie sposobem kartkowym polega na posegregowaniu indywidualnego materiału statystycznego w postaci wypełnionych formularzy statystycznych na stosy o jednakowych wariantach cechy. Po zliczeniu formularzy znajdujących się w każdym stosie zapisuje się ich liczbę. Zliczanie sposobem kartkowym może być stosowane jedynie wówczas, gdy informacje o poszczególnych jednostkach podlegających badaniu zostały zebrane na indywidualnych formularzach.
- 4 -
Zliczanie sposobem maszynowym jest stosowane, gdy liczebność badanej zbiorowości jest duża. Jest rzadko stosowana ze względów finansowych, wysoki koszt maszyn. Ten sposób zliczania materiału statystycznego jest stosowany przez instytucje, które prowadzą wiele różnych badań statystycznych, w których można wykorzystać zakupione maszyny. Dokonując zliczenia sposobem maszynowym należy wykonać symbolizację materiału statystycznego.
Przedział to zbiór elementów danego zbioru częściowo uporządkowanego, zawartych między dwoma ustalonymi elementami tego zbioru, nazywanymi początkiem i końcem przedziału.
Przedział nazywa się domkniętym, gdy oba jego końce doń należą, zaś otwartym gdy żaden nie należy. Jeśli do przedziału należy tylko początek albo tylko koniec, przedział taki nazywa się, odpowiednio, lewostronnie albo prawostronnie domkniętym.
Przykłady przedziałów w zbiorze liczb rzeczywistych:
Przedział otwarty o końcach a i b liczb rzeczywistych jest to zbiór postaci {x: a<x<b}, gdzie a i b są pewnymi liczbami rzeczywistymi. Przedział otwarty to zbiór wszystkich liczb pomiędzy a i b (nie włączając a i b). Notacja: (a,b) lub (a;b).
Przedział otwarty :
- 5 -
Szereg statystyczny - ciąg wielkości statystycznych, uporządkowanych wg określonego kryterium
Wśród szeregów statystycznych wyróżnia się szeregi:
jednocechowe (jednowymiarowe) - obejmują wartości liczbowe jednej cechy, czyli próby jednowymiarowe (np. cecha - przychody z podatków z nieruchomości; jednostki - przedsiębiorstwa),
wielocechowe (wielowymiarowe) - uwzględniają wartości liczbowe dwu lub więcej cech, czyli próby wielowymiarowe (np. cechy - liczba złożonych zeznań podatkowych, liczba prywatnych działalności gospodarczej, opłaty z działalności gospodarczej; jednostki - osoby fizyczne prowadzące działalność gospodarczą).
Wśród jednych i drugich wyodrębnia się szeregi szczegółowe i strukturalne. W szeregach pierwszego rodzaju podawane są szczegółowe wartości liczbowe cech jednostek wchodzących w skład próby jedno lub wielowymiarowej. W przypadku drugim zadawane są pewne przedziały liczbowe oraz liczby jednostek do nich zaliczanych.
Szeregi szczegółowe najczęściej mają postać szeregu surowego i wtedy jest określany jako szereg nieuporządkowany. Gdy ma on postać odpowiednio uporządkowaną dla jednej z wybranych cech według wartości rosnących (niemalejących) lub malejących (nierosnących), to wówczas otrzymuje się szereg uporządkowany.
Sposób grupowania cech zależy od: rodzaju badania (przekrojowe, czasowe), rodzaju cechy statystycznej, sposobu pomiaru oraz liczby obserwacji (szczegółowe, rozdzielcze).
Szeregiem szczegółowym nazywamy uporządkowany, wyłącznie według wartości badanej cechy, zbiór danych. Porządkowanie polega na ustawieniu wartości określonej cechy danej zbiorowości lub próby według kolejności rosnącej lub malejącej.
Szereg szczegółowy obejmuje wartości zmiennych występujących u wszystkich jednostek badanej zbiorowości.
Przykład
Załóżmy, że mamy szereg statystyczny, zawierający 10 obserwacji dotyczących wieku studentów II roku, o następującej postaci:
19, 20, 20, 20, 20, 21, 21, 22, 23.
xi ni
19 1
20 4
21 2
22 1
23 1
- 6 -
Wzory;
Średnia arytmetyczna
D - Dominanta ( wartość występująca najczęściej )
Mediana ( wartość średnia ) dnia parzystej liczby n
Mediana ( wartość średnia ) dnia nieparzystej liczby n
Wariancja
Odchylenie standardowe
Rozstęp
Współczynnik zmienności
Odchylenie przeciętne
Współczynnik zmienności
Typowy obszar zmienności
Reguła trzech sigm
- 7 -
Szeregiem rozdzielczym nazywamy uporządkowany i pogrupowany (według przyjętych kryteriów) zbiór informacji dotyczących badanej cechy występującej w określonej zbiorowości lub próbie. Otrzymuje się go dzieląc zbiorowość statystyczną na klasy zbiorcze według pewnej cechy i podając liczebności każdej z tych klas, zwane liczebnościami klasowymi ni, i=1,2,...,k.
Szeregi rozdzielcze mogą dotyczyć zarówno cechy jakościowej, jak i ilościowej. Charakteryzują one strukturę danej zbiorowości stąd nazywane są czasem szeregami strukturalnymi.
Kolejne kroki podczas wykonywania szeregu rozdzielczego:
porządkujemy (jeśli to możliwe rosnąco) wartości cechy
zliczamy ilość wystąpień danej cechy w próbie
obliczamy częstości występowania dla każdej wartości cechy
prezentujemy wynik w formie tabeli
Jeśli cecha ma charakter ciągły, wtedy dzielimy przedział wartości cechy na przedziały klasowe. Liczba i rozpiętości przedziałów powinny być tak dobrane, aby dawały przejrzysty obraz rozkładu. Na ogół przyjmuje się, że liczba przedziałów powinna być większa od 5 i mniejsza od 20.
Jeśli cecha ma charakter skokowy, ale liczba możliwych wartości jest bardzo duża, wtedy możemy postąpić podobnie jak w przypadku cechy o charakterze ciągłym.
Przykład: Oceny ze statystyki uzyskane przez uczniów klas I Policealny Studium Technik rachunkowości w roku szkolnym 2005/2006 r.
Ocena |
Liczba uczniów |
1 |
0 |
2 |
1 |
3 |
4 |
4 |
6 |
5 |
5 |
6 |
4 |
Razem |
20 |
- 8 -
Wzory;
n |
k |
30 - 60 |
6 - 8 |
60 - 100 |
5 - 10 |
Pierwsza metoda podziału szeregu