Statystyka WYKŁAD 3 (14.04)
ORGANIZACJA BADAŃ STATYSTYCZNYCH
W badaniu statystycznym wyróżnia się następujące etapy:
-przygotowanie (programowanie) badania
-obserwację statystyczną
-opracowanie i prezentację materiału statystycznego
-opis lub wnioskowanie statystyczne
I ETAP przygotowania badania statystycznego
Obejmuje czynności przygotowawcze:
-ustalenie celu i metody badania
-określenie zbiorowości statystycznej i cech podlegających badaniu
-zdefiniowanie jednostki statystycznej i sprawozdawczej
Zbiorowość i jednostka statystyczna są ściśle określone pod względem:
-rzeczowym (co?)
-czasowym (kiedy?)
-przestrzennym (gdzie?)
Jednostkami sprawozdawczymi są te jednostki, które posiadają odpowiednie źródła informacji niezbędnych w badaniu (firmy, instytucje itp.)
II ETAP przygotowania badania statystycznego
Jest to obserwacja polegająca na:
-ustaleniu wartości cech ilościowych
-lub odmian cech jakościowych wszystkich jednostek tworzących zbiorowość statystyczną
Może to odbywać się za pomocą:
-bezpośredniego pomiaru
-zbierania informacji od jednostek sprawozdawczych
Zbiór danych uzyskany w wyniku obserwacji nazywamy materiałem statystycznym.
Natomiast jeżeli dane są gromadzone specjalnie do celów badania statystycznego jest to materiał pierwotny (np. dane zbierane przy spisie powszechnym).
Jeżeli dane gromadzone są z innych powodów, a tylko wykorzystane do badań statystycznych- jest to materiał wtórny (np. dane o podatnikach itp.)
Zebrane materiały statystyczne tworzą tzw. surowy materiał statystyczny, który zwykle obciążony jest pewnymi błędami.
Błędy dzielimy na:
-systematyczne- zniekształcenie tendencyjne (zawyżone lub zaniżone dane sumaryczne w stosunku do rzeczywistości)
-przypadkowe- nieumyślne (wynikające z nieuwagi, niedbalstwa lub niewiedzy).
III ETAP przygotowania badania statystycznego
Opracowanie materiału statystycznego, które dzieli się na:
-grupowanie
-zliczanie
Grupowanie - polega na wyodrębnianiu jednorodnych cech (lub względnie jednorodnych) w ramach większej zbiorowości np. grupowanie według płci, stanu cywilnego itp.
Jednostki zaliczane do tej samej grupy nie powinny być zbyt zróżnicowane pod względem badanej cechy i liczba grup nie powinna być zbyt duża.
Jednolity system grupowania nazywa się klasyfikacją np.: podział jednostek chorobowych w służbie zdrowia lub wyodrębnianie na Wydziale poszczególnych kierunków kształcenia.
Grupowanie można podzielić na:
-proste- względem 1 cechy (np. podział studentów ze względu na płeć)
-złożone- względem kilku cech (np. podział studentów ze względu na przynależność do grup administracyjnych oraz średnią ocen)
lub na:
-typologiczne- wyodrębnia jednorodne grupy na podstawie wariantów cech jakościowych (podział ludzi aktywnych zawodowo według grup społeczno-ekonomicznych - pracujących na pełnym etacie w spółdzielniach rolniczych)
-wariancyjne- opiera się na cechach ilościowych (np. podział studentów jednego rocznika według miesiąca urodzenia).
SZEREG STATYSTYCZNY- jest to uporządkowany zbiór wyników obserwacji według pewnej cechy. Służy do prezentowania materiału statystycznego, może być przedstawiony w postaci tablicy i wykresu.
Szereg może być:
-nieuporządkowany (wartości lub cechy jednostek spisane są według kolejności badania)
-uporządkowany (te same wartości lub cechy uporządkowane są w określony sposób - według malejących lub rosnących wartości)
KLASYFIKACJA SZEREGÓW STATYSTYCZNYCH
Szeregi statystyczne
sczegółowe rozdzielcze przestrzenne czasowe
(wyliczające) (strukturalne) (geograficzne) (dynamiczne)
cech mierzalnych cech niemierzalnych momentów okresów
punktowe przedziałowe (klasowe)
Szereg szczegółowy - prezentuje materiał statystyczny uporządkowany wyłącznie według wartości badanej cechy (malejące lub rosnące). Najczęściej zmienne podawane są w kolejności od najmniejszego do największego.
Szereg rozdzielczy- zbiór wartości liczbowych uporządkowanych według wariantów badanej cechy mierzalnej lub niemierzalnej, przy czym poszczególnym wariantom zmiennej przyporządkowane są odpowiadające im liczebności. Ten rodzaj szeregu określa strukturę badanej zbiorowości.
Tworząc szeregi rozdzielcze na podstawie cechy mierzalnej, jej warianty określamy punktowo lub przedziałowo.
Szeregi rozdzielcze punktowe buduje się dla cechy skokowej.
Np.
Liczba dzieci w małżeństwie 0 1 2 3 4
Liczba małżeństw 6 18 34 14 9
Szeregi rozdzielcze przedziałowe - planuje się na początku badania statystycznego (bez uniwersalnych zaleceń statystycznych). Szereg ten powinien być tak zbudowany, aby klasyfikacja danych przeprowadzana była w sposób:
-rozłączny (poszczególne przedziały nie mogą zachodzić na siebie)
-wyczerpujący (klasy powinny obejmować wszystkie jednostki badanej zbiorowości)
Liczba przedziałów (klas) zależy od:
-liczebności zbiorowości
-zmienności badanej cechy
Zbyt mała liczba klas powoduje zbytnie skondensowanie materiału statystycznego (zaciera się prawidłowość rozkładu zmiennej). Natomiast zbyt duża liczba klas daje nadmierną szczegółowość, co utrudnia analizę i wyciąganie wniosków.
Liczba klas
Wielu autorów podaje różne dane dotyczące prawidłowego doboru ich odpowiedniej ilości.
Yulle i Kendall - od 15 do 25 (nie mniej niż 10 jednostek ale dopuszcza również 100)
Szulc - od 10 do 20 (nie mniej niż 10 jednostek ale dopuszcza również 100)
Zając - od 4 do 6 (przy liczebności 40-60 jednostek)
od 7 do 10 (przy liczebności 60-100 jednostek)
od 9 do 12 (przy liczebności 100-200 jednostek)
od 12 do 17 (przy liczebności 200-500 jednostek)
Podaje się też wzory do wyliczania orientacyjnej liczebności klas w zależności od liczebności zbiorowości:
k=1+3,322 log n
k- liczba klas
n- liczebność zbiorowości
Rozpiętość przedziału zwana jest długością, interwałem lub rozstępem przedziałowym.
Jest to różnica między górną i dolną granicą klasy. Jest ona uwarunkowana obszarem zmienności badanej cechy, a tym samym liczbą ustalonych klas.
Przybliżoną wielkość interwału można wyliczyć:
i = xmax - xmin /k
i = xmax - xmin / 1+3,322 log n
i- interwał przedziałowy
k- liczba klas
xmax- największa wartość cechy
xmin- najmniejsza wartość cechy
szeregi przestrzenne (geograficzne lub terytorialne) - przedstawiają rozmieszczenie wielkości statystycznych według jednostek administracyjnych np.: województw, państw, części świata.
szeregi dynamiczne (czasowe - chronologiczne) - prezentują rozwój zjawisk w czasie, przy czym może być uwzględniony ściśle określony moment np.:
-1 października każdego roku (szeregi masowe momentów)
-pewien przedział czasowy- lata czy miesiące (szeregi czasowe okresowe)
IV ETAP przygotowania badania statystycznego
Może być w formie:
-opisu statystycznego
-lub wnioskowania statystycznego
Opis statyczny- dotyczy tylko danej zbiorowości generalnej lub próby (niekoniecznie losowej).
Ma charakter sumaryczny- nie odnosi się do poszczególnych jednostek ale do całej zbiorowości.
Opis statystyczny dokonuje się za pomocą odpowiednich miar:
-średnia arytmetyczna
-odchylenie standardowe
-współczynnik korelacji
Wnioskowanie statystyczne- ma miejsce wówczas gdy badanie jest reprezentatywne (próba losowa) i jego wyniki są uogólnione na całą populację, z której została pobrana próba.
Możliwości uogólnienia wyników z próby losowej na całą populację daje rachunek prawdopodobieństwa.
Metody wnioskowania statystycznego wchodzą w zakres statystyki matematycznej.
Po obliczeniu charakterystyk liczbowych można przystąpić do analizy:
-struktury (estymacja przedziałowa - przedziały ufności)
-współzależności zjawisk masowych (korelacje, regresje, Chi-kwadrat)
-dynamiki zjawisk losowych (szeregi dynamiczne, indeksy zespołowe)
Celem badania statystycznego jest realizacja jednego lub kilku wymienionych zadań:
-poznanie rozkładu zbiorowości pod względem wybranej lub wybranych cech (analiza struktury)
-ocena rodzajów związków występujących między cechami (analiza współzależności)
-poznanie zmian zbiorowości w czasie (analiza dynamiki).
Niezależnie od celu badania statystycznego, całość prac związanych z jego realizacją można podzielić na cztery etapy:
przygotowanie (programowanie) badania
obserwację statystyczną
opracowanie i prezentację materiału statystycznego
opis lub wnioskowanie statystyczne
Statystyka opisowa
Podstawowa analiza danych powinna doprowadzić do zwięzłego przedstawienia ogólnej charakterystyki istotnych właściwości badanej zbiorowości.
Liczby dające taki sumaryczny opis zbiorowości nazywamy parametrami statystycznymi.
Parametry tak charakteryzują zbiorowość , że porównywanie różnych zbiorowości statystycznych można sprowadzić do ich porównań.
Podstawowe zadania tych parametrów opisowych to:
określenie przeciętnego rozmiaru i rozmieszczenia wartości zmiennej
określenie granic obszaru zmienności wartości zmiennej
określenie skupienia i spłaszczenia ( w stosunku do kształtu krzywej rozkładu normalnego) oraz stopnia zmiany od idealnej symetrii
Rozkładem empirycznym jednej zmiennej nazywamy podporządkowanie kolejnym wartościom zmiennej (x) odpowiadających im liczebności (n).
Rozkład odzwierciedla więc strukturę badanej zbiorowości z punku widzenia określonej cechy.
Rozkłady empiryczne ustalane są na podstawie konkretnych obserwacji. Od rodzaju rozkładów empirycznych zależy dobór odpowiednich statystyk służących do opisu zbiorowości.
Rodzaje rozkładów empirycznych
Rozkłady empiryczne
Cechy skokowej Cechy ciągłej
Wielomodalne Jednomodalne Jednomodalne Wielomodalne
Symetryczne Umiarkowanie symetryczne Skrajnie symetryczne
Normalne Prawoskośne
Leptokurtyczne (spłaszczony) Lewoskośne
Rozkład jednomodalny- jest to rozkład w którym krzywa liczebności (dla cechy ciągłej) lub diagram ( dla cechy skokowej) ma jedno maksimum.
Rozkład symetryczny jednomodalny- w nim liczebności odpowiadające wartościom zmiennej rozkładają się symetrycznie wokół liczebności największej.
Rozkłady empiryczne o charakterze symetrycznym występują rzadko. Częściej spotykamy się z rozkładami zbliżonymi do symetrycznych (asymetrycznych).
Rozkład asymetryczny- w nim liczebności mogą się skupiać wokół niskich bądź wysokich wartości cechy. Rozkłady asymetryczne mogą być:
-umiarkowanie asymetryczne
-skrajnie asymetryczne
Rozkład asymetryczny prawostronny (prawoskośny)- dużo jednostek posiada stosunkowo niskie wartości cechy, a niewiele jednostek ma wysokie wartości.
Rozkład asymetryczny lewostronny (lewoskośny)- stosunkowo niewiele jednostek posiada niskie wartości cechy, natomiast liczne występują jednostki o ich wysokich wartościach.
Rozkłady w których prawie wszystkie jednostki mają niskie lub wysokie wartości cechy nazywamy rozkładami skrajnie asymetrycznymi.
Są to rozkłady jednostronne względem wartości cechy o maximum liczebności.
Niektóre cechy statystyczne mogą mieć rozkład będący niejako kompozycją dwóch rozkładów asymetrycznych. Określa się je mianem rozkładów U lub rozkładów siodłowych.
Rozkłady bimodalne- są to rozkłady o wyraźnie zarysowanych dwóch punktach skupienia obserwacji. Rozkłady mające więcej niż dwa maksima lokalne nazywamy wielomodalnymi.
Rozkłady symetryczne i umiarkowanie asymetryczne charakteryzują zbiorowości jednorodne ze względu na badaną cechę.
Rozkłady asymetryczne, wielomodalne i siodłowe dotyczą zbiorowości, w których cechy są znacznie zróżnicowane.
W teorii statystyki wypracowano wiele charakterystyk opisowych za pomocą których można przeprowadzić analizę struktury zjawisk masowych czyli analizę właściwości różnych rozkładów.
Do charakterystyk najczęściej wykorzystywanych przy opisie struktury zbiorowości należą miary.
Najczęściej wykorzystywane miary:
-Miary średnie (zw. miary położenia lub przeciętne lub miary poziomu zmienności)- służą do określania tej wartości zmiennej opisanej przez rozkład, wokół której skupiają się wszystkie pozostałe wartości zmiennej.
-Miary rozproszenia ( zmienności, zróżnicowania, dyspersji)- służą do badania stopnia zróżnicowania wartości zmiennej.
-Miary asymetrii (skośności)- służące do badania kierunku zróżnicowania wartości zmiennej.
- Miary koncentracji- służą do:
*badania stopnia nierównomierności rozkładu ogólnej sumy wartości zmiennej pomiędzy poszczególne jednostki zbiorowości.
*analizy stopnia skupienia poszczególnych jednostek wokół średniej
Charakterystyki opisowe
- Pozwalają w sposób syntetyczny określić właściwości badanych rozkładów i dokonać porównania różnych zbiorowości.
Wyróżnia się porównania:
a) porównanie dwóch różnych zbiorowości- pod względem tej samej cechy badania (np. struktura zgonów wg wieku mężczyzn i kobiet)
b)porównanie dotyczące jednej zbiorowości dwóch różnych cechy ( struktura urodzeń dzieci wg. kolejności urodzenia i wieku matek)