Statystyka opisowa
Statystyka z demografią
WYKŁAD
dr Kamila Piasecka
Program zajęć:
Podstawowe pojęcia związane ze statystyką (m.in.
statystyka, populacja, próba, cecha statystyczna);
Prezentacja danych statystycznych – rodzaje szeregów
statystycznych(szczegółowe, rozdzielcze punktowe i
przedziałowe);
Parametry struktury zbiorowości (Miary przeciętne
klasyczne i pozycyjne, miary zmienności, miary asymetrii);
Metody analizy współzależności zjawisk (korelacja i
regresja);
Analiza szeregów czasowych (indeksy dynamiki, liniowa
funkcja trendu);
Rozkłady zmiennych losowych.
Polecane książki
Ostasiewicz S., Rusnak Z.,
Siedlecka U.: Statystyka. Elementy
teorii i zadania. Wrocław: AE 1999.
Jóźwiak J., Podgórski J.: Statystyka
od podstaw. PWE 2002.
Sobczyk M.: Statystyka. PWN 2007
Istnieją
trzy
rodzaje
kłamstwa:
przepowiadanie pogody, statystyka i
komunikat dyplomatyczny." - Jean Rigaux
"Fakt jest zawsze głupi. Zresztą bierze je
diabeł i statystyka." - Friedrich Nietzsche
"Istnieją trzy rodzaje kłamstw: kłamstwa,
okropne
kłamstwa,
statystyki."-
Benjamin Disraeli
"Statystyka to matematyczny kamuflaż
błędu." - Georges Elgozy
Jaki masz umysł ???
Po co statystyka ???
Człowiek od zawsze otoczony jest różnymi
zjawiskami, i od zawsze też próbuje je poznać,
dowiedzieć się w jaki sposób funkcjonują, jakie
relacje między nimi zachodzą. Pozyskuje więc
w tym celu informacje, wypracowuję narzędzia
i metody poznania zjawiska. Nie ulega bowiem
wątpliwości, że aby coś powiedzieć o jakimś
zjawisku należy go uprzednio zbadać.
Z pomocą przychodzi tutaj
statystyka
, która
posiada w swoim dorobku wiele metod
pozyskiwania i prezentacji, a w szczególności
analizy danych.
Użycie statystyki do badania
zjawiska sprawia, że badanie staje się
statystyczne
, czyli oparte na sprawdzonych i
dopracowanych metodach.
Statystyka - pojęcia
Słowo
„statystyka”
pochodzi od łacińskiego słowa
„status”, które oznacza stan rzeczy, państwo. W
łacinie średniowiecznej słowa „status” używano dla
wyrażenia politycznego stanu rzeczy.
Statystyka jest dyscypliną naukową, zajmującą się
„konstrukcją metod liczbowego opisu i wnioskowania
o zjawiskach masowych”. Z takiej definicji wynika, że
należy wyróżnić tutaj dwa pojęcia: metodę i
zjawisko masowe.
Metoda statystyczna
to sposób badania
liczbowego określonych zbiorowości, za pomocą
odpowiednich narzędzi i procedur.
Zjawisko masowe
to takie zjawisko które
występuje często, dotyczy ono więc wystarczająco
dużej liczby jednostek.
Badanie statystyczne
Badanie statystyczne jest procesem złożonym,
obejmującym cały kompleks problemów, zagadnień i
procedur organizacyjnych, metodologicznych i
merytorycznych. Związane są one zarówno z
„produkcją” danych liczbowych
, jak i z ich
analizą
statystyczną
. Proces badania statystycznego
obejmuje więc
całokształt czynności badawczych,
prowadzących do poznania zjawiska masowego
z
wykorzystaniem odpowiednich metod statystycznych.
Obowiązująca ustawa o statystyce publicznej definiuje
badanie statystyczne jako „zbieranie, gromadzenie
i opracowywanie danych statystycznych oraz
ogłaszanie i udostępnianie wyników dokonanych
obliczeń, opracowań i analiz, w tym podstawowych
wielkości i wskaźników”.[
Etapy badania
statystycznego
Badanie statystyczne jest zatem szeregiem
czynności sprowadzających się do zebrania,
przetworzenia i analizy informacji na temat
zbiorowości statystycznej
z punktu widzenia
wybranych
cech statystycznych
, opisujących
jednostki należące do tej zbiorowości. Proces
badania statystycznego jest wieloetapowy, i
można wyróżnić w nim cztery zasadnicze etapy:
projektowanie (przygotowanie) badania
obserwacja statystyczna (empiryczna)
opracowanie materiału statystycznego
analiza statystyczna
Etap I: Projektowanie
badania statystycznego
1. Określenie celów badania
(zarówno ogólnych jak i
szczegółowych), co ma istotny wpływ na jakość
badania. Każde badanie musi być podporządkowane
konkretnemu celowi.
2. Sformułowania hipotez badawczych
, czyli
przypuszczeń o występowaniu, o wielkości danego
zjawiska, o stosunku do innych zjawisk lub zależności
pomiędzy zjawiskami.
3. Określenie zbiorowości statystycznej
(przedmiotu
badania) poprzez określenie cech poszczególnych
jednostek statystycznych pod względem:
• rzeczowym
(co stanowi przedmiot badań),
• przestrzennym
(gdzie przeprowadzane jest badanie -
miejsce badań),
• czasowym
(okres lub moment badań).
4. Wybór metody badania
(podjęcie decyzji czy
badanie będzie pełne czy częściowe, oraz jakie
techniki zostaną wykorzystane)
Badanie statystyczne
Zbiorowość statystyczna
(populacja) -
zbiór dowolnych
N
- elementów objętych
badaniem statystycznym.
Jednostki statystyczne
- elementy badanej
zbiorowości, tworzące liczebność populacji
(i=1,…..,N)
.
Cechy statystyczne
– poddane badaniu
właściwości jednostek statystycznych,
opisywane za pomocą liter końca alfabetu
X,
Y, Z
.
Próba
- wyodrębniona część zbiorowości
statystycznej o liczebności
n
.
Cechy statystycznie zmienne:
ilościowe jakościowe
(mierzalne i
niemierzalne)
skokowe ciągłe
Badania statystyczne:
pełne częściowe
spisy rejestracja bieżąca
sprawozdawczość
Statystyka opisowa -
definicje
Dziedzina statystyki, która zajmuje się opracowaniem
wyników pomiarów na podstawie
wylosowanych lub
dostępnych prób
, bez posługiwania się rachunkiem
prawdopodobieństwa.
Oznacza to, że dokonana analiza na podstawie wyników
z próby, odnosi się tylko i wyłącznie do jej elementów.
Badacz nie ma prawa wyciągać wniosków
dotyczących całej populacji generalnej.
Dopiero
wykorzystanie
metod
statystyki
matematycznej (wnioskowania statystycznego)
,
pozwala na uogólnianie wyników obliczonych na
podstawie próby na całą populację. Sposobami
losowania prób i ich wielkościami zajmuje się natomiast
metoda reprezentacyjna.
II etap: Obserwacja
statystyczna
Obserwacja statystyczna polega na ustalaniu wartości
cech wszystkich jednostek zbiorowości (badanie pełne) lub
próbie zbiorowości (badanie częściowe).
Zbiór danych zebranych podczas obserwacji tworzy
materiał statystyczny
. Informacje zgromadzone
specjalnie dla celów badania stanowią
materiał pierwotny
(np. dane pozyskane w czasie spisu powszechnego czy w
przypadku badania częściowego np. z ankiet). Natomiast
dane zebrane wcześniej z innych powodów, a wykorzystane
w badaniu statystycznym są określane mianem wtórnego
materiału statystycznego
(np. publikacje statystyczne).
[1]
Materiał statystyczny obciążony jest z reguły błędami, to też
musi być poddany
kontroli merytorycznej i formalnej
.
Kontrola umożliwia wyeliminowanie błędów w celu
uzyskanie jak najbardziej dokładnego obrazu badanej
rzeczywistości.
Etap III – opracowanie materiału
statystycznego
Opracowanie materiału statystycznego, obejmuje grupowanie i
zliczanie pozyskanych danych.
Grupowanie statystyczne
polega na podziale zbiorowości na grupy
jednostek podobnych względem siebie. Grupowanie prowadzi do
zbudowania
szeregu statystycznego
.
Rozróżnia się
grupowanie typologiczne i wariancyjne.
Grupowanie
typologiczne
polega na podziale niejednorodnej
zbiorowości z punktu widzenia cechy zmiennej na grupy jednorodne.
Odbywa się to na podstawie wariantów cech jakościowych.
Grupowanie
wariancyjne
oparte jest na cesze ilościowej i polega na
łączeniu jednostek o równych lub zbliżonych wartościach cech w klasy.
Jednolity system grupowania określany jest mianem klasyfikacji.
Ze względu na ilość cech, które będą stanowić kryterium podziału
zbiorowości rozróżnia się grupowanie proste (podział zbiorowości ze
względu na jedną cechę) oraz złożone (podział zbiorowości ze względu na
kilka cech równocześnie).
Grupowanie proste ma postać szeregu
statystycznego, określanego również jako rozkład empiryczny.
Etap IV – Analiza statystyczna i
wyciągnięcie wniosków
Opracowany materiał przedstawiony zostaje w
postaci szeregów statystycznych
, które również
mogą przyjąć formę
tablic i wykresów
.
Szereg statystyczny
to zbiór wartości liczbowych
badanej cechy uporządkowany według określonych
kryteriów.
Materiał pierwotny z reguły przedstawiony jest w postaci
indywidualnego szeregu wartości cech w postaci
szeregu szczegółowego
, który tworzą
uporządkowane (malejąco lub rosnąco) wartości
badanej cechy statystycznej.
Rodzaje szeregów
statystycznych
Szeregi statystyczne
Jeżeli badacz dysponuje wartościami
analizowanej cechy statystycznej X ,
dla każdego elementu, który znalazł się
w próbie, to mamy do czynienia z
szeregiem statystycznym
szczegółowym,
zapisywanym w
następujący sposób:
x
1
, x
2
, x
3
,...x
i
, gdzie i=1,2,…,n
Szereg szczegółowy-
przykład
X – liczba dzieci w wylosowanych 10-ciu
gospodarstwach domowych
n = 10
1, 2, 0, 3, 1, 3, 4, 0, 2, 1
Żeby dane stanowiły szereg statystyczny muszą być
posortowane od wartości najmniejszej do największej
!!!
0, 0, 1, 1, 1, 2, 2, 3, 3, 4
Szereg rozdzielczy
W sytuacji, gdy liczba danych dla szeregu
szczegółowego jest niewielka, nie ma problemu z
dokonaniem ich analizy. Przyjmuje się, że dane w
takiej postaci można pozostawić dla prób
wielkości do 10 elementów. Gdy próby są większe,
istotnym jest przedstawienie materiału
statystycznego w takiej formie by ułatwić jego
przeanalizowanie.
W tym celu dane zaprezentowane w postaci
szeregów szczegółowych, dla licznych prób,
przekształca się w formie szeregów
rozdzielczych punktowych lub rozdzielczych
w przedziałami klasowymi.
Szereg rozdzielczy punktowy
Szereg rozdzielczy jest inną formą zapisu szeregu
szczegółowego.
Szereg szczegółowy przekształca się szereg rozdzielczy
punktowy, w sytuacji gdy badacz ma do czynienia z liczną
próbą, a cecha, którą bada przyjmuje skokowe,
powtarzające się wartości.
Postać szeregu rozdzielczego punktowego jest
następująca:
x
1
, x
2
, x
3
,...x
j
, gdzie wartości cechy przyjmowane są
odpowiednio z liczebnościami n
1
, n
2
, n
3
,...n
j
,
gdzie j=1,2,…,k, a k oznacza liczbę klas w szeregu,
oraz n
1
+ n
2
+ n
3
+ n
j
= n lub
n
n
k
j
j
1
Przykład szeregu rozdzielczego
punktowego
X – liczba dzieci w 10 stu gospodarstwach
domowych
0, 0, 1, 1, 1, 2, 2, 3, 3, 4
Należy przekształcić szereg szczegółowy w szereg
rozdzielczy punktowy
k
x
j
n
j
w
j
w
j
x 100%
1
0
2
0,2
20,00%
2
1
3
0,3
30,00%
3
2
2
0,2
20,00%
4
3
2
0,2
20,00%
5
4
1
0,1
10,00%
x
x
10
1
100,00%
Szereg rozdzielczy z przedziałami
klasowymi
Szereg szczegółowy przekształca się szereg
rozdzielczy punktowy, w sytuacji gdy badacz
ma do czynienia z
liczną próbą
, a cecha, którą
jest
zmienną ciągłą
.
Zaznaczyć należy, że badacz może mieć do
czynienia z cechą
tzw. qasi ciągłą
. Cecha
taka, tak naprawdę jest cechą skokową,
jednakże z uwagi na fakt, że jej wartości się
często nie powtarzają oraz przyjmują wartości
z dużego zbioru liczb, wyniki badania dla
takiej cechy przekształcimy nie w szereg
rozdzielczy punktowy, a przedziałowy.
Szereg rozdzielczy z przedziałami
klasowymi
Szereg ten składa się z
k – klas
, dla których
należy określić
rozpiętość
, a następnie
przyporządkować
poszczególne wartości
zmiennej do danej klasy oraz wskazać jej
liczebność
.
Przykład:
Lp.
Dochody poszczególnych
gmin
W tabeli przedstawiono dochody za 2008 rok 30
losowo wybranych gmin. Wartość dochodów
posortowano i w ten sposób otrzymano szereg
szczegółowy. Należy przekształcić przedmiotowy
szereg szczegółowy w szereg rozdzielczy z
przedziałami klasowymi. W tym celu należy:
1.
Wyznaczyć liczbą klas poprzez skorzystanie ze
wzoru
k=n
. Zatem,
gdy n=20, to k=4 6, gdy
n=40, to k=6 8
. W naszym przypadku k=5,47 co
w przybliżeniu daje 6 klas.
2.
Następnie wyznacza się rozpiętość przedziału
klasowego poprzez skorzystanie ze wzoru:
3.
Na tej podstawie wyznacza się szereg rozdzielczy
przedziałowy, tworząc 6 klas, każda o rozpiętości
100 000 zł. Celem lepszego zobrazowania struktury
dochodów, przyjętą całkowitą wartość minimalną
dochodu w wysokości 50 000 zł.
4.
Po utworzeniu klas, należy przyporządkować
poszczególne dochody do danej klasy, wpisując ich
liczbę n
j
5.
Szereg rozdzielczy przedziałowy zawarto w
następnej tabeli.
1
51 000,00
2
53 070,00
3
88 572,00
4
97 000,00
5
102 000,00
6
104 083,64
7
128 837,61
8
140 141,45
9
145 593,55
10
151 857,06
11
173 749,58
12
190 899,62
13
191 287,83
14
193 370,00
15
238 336,06
16
241 628,72
17
255 987,14
18
278 660,20
19
305 504,02
20
350 992,28
21
382 219,52
22
401 554,51
23
457 600,00
24
477 615,70
25
478 764,27
26
499 000,00
27
521 287,53
28
542 555,00
29
564 138,09
30
616 394,00
k
Wartości
dochodu
(x
j
)
Liczba gmin, których
dochód mieści się w
danym przedziale
(n
j
)
w
j
w
j
x 100%
1
50 000 – 150
000
9
0,3000
30,00%
2
150 000 – 250
000
7
0,2333
23,33%
3
250 000 – 350
000
3
0,1000
10,00%
4
350 000 – 450
000
3
0,1000
10,00%
5
450 000 – 550
000
6
0,2000
20,00%
6
550 000 – 650
000
2
0,0667
6,67%
sum
a
x
30
1,00
100%