OPRACOWANIE MATERIAŁU STATYSTYCZNEGO
Grupowanie - polega na wyodrębnieniu jednorodnych lub względnie jednorodnych części w ramach większej i zróżnicowanej zbiorowości statystycznej,
Zadaniem grupowania - jest przejście od informacji o właściwościach poszczególnych jednostek do informacji o właściwościach całej zbiorowości.
Z punktu widzenia celu, jakiemu ma służyć dzielimy je na:
typologiczne - wyodrębnianie grup jednorodnych różnych jakościowo (np. według cech terytorialnych, czasowych, rzeczowych)
- wariancyjne - mające na celu uporządkowanie badanej zbiorowości i poznanie jej struktury, które polega na łączeniu w klasy jednostek statystycznych o odpowiednich wartościach cech statystycznych.
Zliczanie - czynność ściśle związana z grupowaniem (ręczne, elektroniczne).
Szereg statystyczny
jest to zbiór wyników obserwacji uporządkowanych według określonych cech (kryteriów), których miernikiem są zmienne.
Inaczej mówiąc, szeregiem statystycznym nazywamy ciąg liczbowy monotoniczny, ograniczony z góry i z dołu (tj. taki, którego wyrazy występują tylko w pewnym przedziale wartości).
Najczęściej wyróżnia się dwa kryteria podziału szeregów:
kryterium formalne - związane z budową szeregu, na podstawie którego możemy wyodrębnić: szeregi szczegółowe, szeregi rozdzielcze i szeregi skumulowane,
kryterium merytoryczne - wynikające z typu badanej cechy zbiorowości, według którego wyróżnia się: szeregi czasowe i szeregi przestrzenne.
Sposób grupowania cech zależy od:
rodzaju badania ,
rodzaju cechy statystycznej,
sposobu pomiaru,
liczby obserwacji .
Szereg szczegłówy
uporządkowany ciąg wartości badanej cechy statystycznej, stosowany, gdy przedmiotem badania jest niewielka liczba jednostek, np. zmienna X przyjmuje wartości: x1, x2, ..., xn, wartości cechy porządkujemy rosnąco: x1 ≤x2≤ ... ≤ xn lub malejąco x1≥ x2≥ ... ≥xn.
Szereg rozdzielczy
stanowi zbiorowość statystyczną, podzieloną na części (klasy) według określonej cechy jakościowej lub ilościowej z podaniem liczebności lub częstości każdej z wyodrębnionych klas.
Szeregi rozdzielcze mogą dotyczyć zarówno cechy jakościowej, jak i ilościowej. Charakteryzują one strukturę danej zbiorowości stąd nazywane są czasem szeregami strukturalnymi.
ANALIZA STRUKTURY ZJAWISK MASOWYCH
Rozkład empiryczny- zestawienie wyników w postaci szeregu rozdzielczego z cechą mierzalną.
Rozkład empiryczny odzwierciedla strukturę badanej zbiorowości z punktu widzenia określonej cechy statystycznej
Szereg czasowy
szereg czasowy - powstaje gdy podstawą grupowania jest zmiana badanego zjawiska w czasie:
- szereg czasowy okresów - zawiera informację o rozmiarach zjawiska w krótszych lub dłuższych okresach.
- szereg czasowy momentów - ujmuje wielkość zjawiska w danym momencie, najczęściej na początku lub końcu np. miesiąca.
Podstawowe oznaczenia, podstawowe wielkości
n - liczebność próby (zbiorowości próbnej),
xi - wariant cechy statystycznej (i = 1, 2 , ... , n),
ni - liczba jednostek o i-tym wariancie
cechy,
k - liczba klas (wariantów cechy),
przy czym:
Przykład szeregu szczegółowego
Dokonano pomiaru wzrostu (w cm) 12 studentów z jednej grupy ćwiczeniowej i otrzymano następujące wyniki:
165, 166, 166, 167, 170, 170, 171, 172, 173, 175, 177, 181.
Szereg rozdzielczy otrzymujemy wówczas gdy zbiorowość statystyczną podzielimy na klasy według określonej cechy (jakościowej lub ilościowej) i podamy liczebność każdej z tych klas.
W pewnym zakładzie przeprowadzono badanie grupy krwi. Wybrano losowo 50 osób. Wyniki zostały przedstawione w szeregu rozdzielczym punktowym
GRUPA KRWI xi |
LICZEBNOŚĆ ni |
---|---|
A | 7 |
B | 3 |
AB | 10 |
0 | 30 |
Badano czas reakcji organizmu osób cierpiących na pewne schorzenie po zażyciu nowego leku. Zbiorowość statystyczną stanowiło 150 pacjentów leczonych w szpitalu. Mierzono czas (w min) od podania jednorazowej dawki leku do momentu wystąpienia pewnego objawu. Zebrane wyniki przedstawiono w postaci obok podanego szeregu rozdzielczego.
Czas reakcji w min | Liczba osób |
---|---|
3-7 | 3 |
8-12 | 4 |
13-17 | 15 |
18-22 | 24 |
23-27 | 70 |
28-32 | 22 |
33-37 | 7 |
38-42 | 5 |
RAZEM | 150 |
Wskaźnik struktury
W określaniu rozkładu empirycznego zamiast liczebności ni stosuje się częstości względne (zwane wskaźnikiem struktury) określone wzorem:
Przy czym:
Szeregi rozdzielcze skumulowane
Uzyskuje się poprzez przyporządkowanie kolejnym wariantom cechy odpowiadających im liczebności (częstości ) skumulowanych.
Dystrybuanta empiryczna
To przyporządkowanie kolejnym wartościom cechy statystycznej (zmiennej) odpowiadających im częstości skumulowanych (względnie liczebności skumulowanych)
W wybranej grupie studentów przeprowadzono kolokwium z matematyki.
Studenci otrzymali następujące oceny: 2, 5, 3, 4, 3+, 4, 3, 4+, 3+ , 3+, 5, 4, 3+, 4+, 3+, 3+, 3, 2, 3, 3+, 3, 4, 3+, 4, 3+, 4, 3, 4+, 4+, 3+.
W przypadku gdy wariantów jest dużo budujemy szeregi rozdzielcze z przedziałami klasowymi.
Tworzenie szeregów rozdzielczych z przedziałami klasowymi-etapy:
-ustalenie liczby klas
-określenie wielkości przedziałów klasowych
przyporządkowywanie danych przedziałom klasowym
zliczanie liczby jednostek w każdej klasie
Ustalanie liczby klas
|
---|
|
|
Wzory na obliczanie niezbędnej liczby klas
Rozpiętość przedziału klasowego
Różnicę pomiędzy górną x1i i dolną x0i granica i- tego przedziału klasowego nazywamy rozpiętością (szerokością) przedziału klasowego i oznaczamy przez hi
Wzór na ustalenie rozpiętości przedziałów klasowych
Gdzie nazywa się rozstępem, a k oznacza liczbę klas
Gęstość liczebności (częstości)
To stosunek liczebności (częstości) danej klasy do rozpiętości przedziału klasowego.
Gęstość częstości-wzór
Ustalanie granic poszczególnych klas
Jako dolną granicę najczęściej przyjmuje się najmniejszą wartość cechy lub bliskiej tej wartości, czyli:
Przy cechach ciągłych górne granice klas poprzednich powinny być dolnymi granicami klas następnych, aby nie było pomiędzy przedziałami luk ponadto trzeba ustalić, do której klasy zaliczyć wartości graniczne.
Przykład
Struktura badanej zbiorowości dzieci w wieku 7 lat według masy ciała
Szereg szczegółowy:
16,17,17,18,18,18,18,18,19,19,19,19,20,20,20,20,20,20,20,20,
20,20,21,21,21,21,21,21,21,21,22,22,22,22,22,22,22, 22,22,22,22,22,23,23,23,23,23,23,23,23,23,23,23,23,23,23,23,
24,24,24,24,24,24,24, 24,24,24,24,24,24,24,24,24,24, 24,24,24,24,24,25,25,25,25,25,26,26,26,26,26,26,26,27,27,27,
27,27,2727,28,28,28,28,28,29,29,29,29,29,29,29,2930,30,30,30,30,30,30,31,31,31,31,31,31,32,32,32,32,33,33,34,34,34,37,40,42,44,45,46,47,47.
ROZWIĄZANIE
R = 47-16=31,
h = 31/12=2,58=3
początek pierwszego przedziału klasowego
x01 = xmin = 16
(przyjmujemy, że rozpiętość przedziałów klasowych jest taka sama dla wszystkich klas)
ETAP CZWARTY - POLEGA NA:
opisie statystycznym - dotyczy tylko danej zbiorowości generalnej lub próby niekoniecznie losowej,
lub wnioskowaniu statystycznym - kiedy badanie jest reprezentacyjne (próba losowa) i jego wyniki są uogólniane na całą populację generalną.
Podstawą wnioskowania statystycznego są empiryczne wyniki badania reprezentacyjnego (wyniki losowo wybranej próby)
Charakterystyki obliczane z próby losowej nazywamy statystykami (np. średnia arytmetyczna z próby, odchylenie standardowe z próby)
Te same parametry obliczone z populacji generalnej noszą nazwę parametrów
W badaniu, opartym na metodzie reprezentatywnej, badaniu podlega jedynie jej losowo wybrana część, parametry są szacowane na podstawie wyniku z próby.
Wartości tych parametrów zależą od wyników próby losowej
Jeżeli próba jest reprezentatywna, to statystyki są dobrymi estymatorami parametrów populacji generalnej.
Wraz ze wzrostem liczebności próby wartość estymatorów zbliża się do prawdziwych wartości parametrów
PREZENTACJA GRAFICZNA MATERIAŁU STATYSTYCZNEGO
Pogrupowany i uporządkowany materiał statystyczny prezentuje się za pomocą tablic statystycznych prostych i kombinowanych oraz odpowiednich wykresów.
Wykres
jest graficzną formą rejestracji danych oraz narzędziem prezentacji i analizy uogólnionych informacji statystycznych.
Wykresy ujmują zjawiska w sposób syntetyczny w związku z tym zawierają mniej szczegółów niż tablice (należy je traktować jako uzupełnienie tablic statystycznych)
Budowa wykresu
Każdy wykres powinien posiadać:
Tytuł
Źródło danych, na podstawie których został sporządzony
Legendę, czyli wyjaśnienie zastosowanych symboli, barw oraz przyjętych skal.
W grafice statystycznej wyróżnia się następujące rodzaje wykresów:
Liniowe- prezentacja za pomocą linii lub odcinków
Powierzchniowe – prezentacja za pomocą figur płaskich (wykresy słupkowe, kołowe)
Pasmowe
Punktowe
Mapowe- kartogramy
Kombinowane oraz specjalne
Wykresy opisujące rozkład cechy mierzalnej w prostokątnym układzie współrzędnych to:
histogramy (wykresy słupkowe) - zbór przylegających prostokątów, których podstawy, równe rozpiętości przedziałów klasowych - znajdują się na osi odciętych, a wysokości są określone na osi rzędnych przez liczebności (częstości) odpowiadające poszczególnym przedziałom klasowym lub przez gęstości liczebności (częstości) w przypadku nierównych przedziałów klasowych.
diagramy, wykresy liniowe (wielobok liczebności) - jest łamaną, powstałą przez połączenie punków, których współrzędnymi są środki przedziałów klasowych i odpowiadające im liczebności (częstości lub gęstości).
krzywe liczebności (częstości) dla cechy ciągłej - gęsta siatka punktów wyznaczająca wielobok liczebności.
Tablice statystyczne
Prezentują dane statystyczne uporządkowane według określonego kryterium
Stanowią główną formę prezentacji danych liczbowych, dlatego powinny spełniać określone wymogi dotyczące formalnej budowy oraz merytorycznej spoistości
Budowa tablicy
Każda tablica powinna zawierać:
Część opisową
Tytuł
Nazwy wierszy (boczek), nazwy kolumn (główka)
Źródła danych
Ewentualnie inne uwagi wyjaśniające (np. legenda użytych znaków graficznych)
Część liczbową – tabelę właściwą
Podział tablic
Proste – struktura lub dynamika jednej zbiorowości statystycznej ze względu na jedną cechę (ilościową lub jakościową), Tablica prosta może być utożsamiana z szeregiem statystycznym.
Złożone – opis badanej zbiorowości według kilku cech, lub opis kilku zbiorowości ze względu na jedną cechę. Tego rodzaju tablice prezentują zespół szeregów statystycznych, a stopień ich złożoności zależy od liczby badanych cech lub zbiorowości.
Przykład tablicy wielodzielczej
Z populacji mężczyzn urodzonych w 1970 r. wybrano losowo grupę złożoną z 90 osób i określono ich wagę i wzrost. Wagę mierzono z dokładnością do 0,1 kg, a wzrost 0,1 cm. Otrzymane wyniki zaprezentowano w poniższej tabeli dwudzielczej.