PODSTAWY STATYSTYKI
I
Statystyka - to nauka o ilościowych metodach badania prawidłowości zjawisk masowych.
Prawidłowości statystyczne - to takie, które można ujawnić w drodze obserwacji zjawisk masowych np. charakterystyki demograficzne 9średnia długość ludzkiego życia, średnia wzrostu, średnia wieku zawierania małżeństw).
Badania statystyczne - to ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej.
Przedmiot badań statystycznych - to zbiorowości statystyczne zwane też populacjami statystycznymi.
Zbiorowość statystyczna - to zbiór dowolnych elementów (osób, zjawisk i rzeczy) o podobnych lecz nie idealnych właściwościach, objętych badaniem statystycznym.
Cel badania/zbiorowość statystyczna/jednostka/zbieranie danych/grupujemy/przedstawiamy w formie tabelarycznej/wyliczamy
Cechy stałe: - co, gdzie, kiedy - tak opisujemy zbiorowość statystyczną np. ludzie bezrobotni zarejestrowani w Polsce, kradzieże w Opolu.
Jednostka statystyczna - element składowy populacji statystycznej podlegający bezpośredniej obserwacji lub pomiarowi (obiekt badania statystycznego).
Zbiorowość generalna - (populacja generalna) - wszystkie elementy będące przedmiotem badania, co do których chcemy formułować wnioski ogólne.
Zbiorowość próbna - to podzbiór populacji, generacji obejmujący część jej elementów, który został wybrany w określony sposób. Próba podlega badaniu statystycznemu, a wyniki uogólnia się (statystyka matematyczna) na zbiorowość generalną.
Aby wyniki uzyskane w procesie badania próby można było odnieść do zbiorowości generalnej próba może być reprezentatywna.
Jeśli próba wybrana jest w sposób losowy i jest dostatecznie liczna mówimy, że jest reprezentatywna. Oznacza to, że można z dużym prawdopodobieństwem złożyć, że struktura próby będzie zbliżona do struktury zbiorowości generalnej (metody doboru próby do badań).
Metody (rodzaje) - badań statystycznych:
Badania pełne (całkowite, wyczerpujące) - metoda bezpośrednia
Spis statystyczny np. spis ludności
Rejestracja bieżąca np. rejestr urodzeń
Badania częściowe (niepełne) - metoda bezpośrednia
Ankietowa (badanie ściśle okr. Instytucje
Monograficzne (badanie jednostki uznane za typowe, powszechnie występujące)
Reprezentacyjne (pobranie próby losowej)
Szacunki interpolacyjne i ekstrapolacyjne - metoda pośrednia
Badania ciągłe np. ewidencja urodzeń, zgonów
Badania okresowe - np. coroczne spisy rolne
Badania doraźne np. badania strat materialnych spowodowane pożarem
Szacunek statystyczny - ustalanie pewnych wielkości lub właściwości zbiorowości na podstawie zbiorowości znanej, pozostającej z nią w określonym związku. Czas przeznaczony na czytanie książek - liczba zakupionych książek.
Rodzaje cech statystycznych
Cecha statystyczna - właściwości jakimi charakteryzuje się jednostka statystyczna.
Cechy statystyczne dzielimy na:
Stałe - właściwości wspólne dla całej zbiorowości statystycznej, nie podlegają badaniu, decydują o zaliczeniu jednostki do określonej zbiorowości
Zmienne - właściwości różniące poszczególne jednostki zbiorowości statystyczne.
Do cech stałych zaliczamy -
Cechy rzeczowe - co lub kogo badamy
Cechy czasowe - kiedy badamy, w jakim okresie lub momencie czasu
Cechy przestrzenne - gdzie badamy
Cechy zmienne - podlegające badaniu statystycznemu. Dzielimy je na:
Niemierzalne - jakościowe, kwalitatywne - cechy określane słownie np. kolor oczu, płeć
Mierzalne - ilościowe, kwantytatywne - właściwości (inaczej zmienne) wyrażane w jednostkach fizycznych np. kg, cm, szt. Latach, jedn. Pieniężnych.
Wśród cech ilościowych wyróżniamy cechy:
Porządkowe - mierzą natężenie badanej właściwości przedstawionej w sposób opisowy - porządkują, badana zbiorowość statystyczna np. oceny studentów słowne i wyrażone liczbowo.
Skokowe (dyskretne) - przyjmują skończony lub przeliczany zbiór wartości na danej skali liczbowej, zazwyczaj jest to zbiór liczb całkowitych dodatnich tj. liczba studentów w grupie, liczba osób w rodzinie
Ciągłe - mogą przyjąć każdą wartość z określonego przedziału liczbowego, w zależności od dokładności dokonywanych pomiarów, ustala się liczbę miejsc po przecinku, które brane są pod uwagę np. wiek, wzrost, waga.
Cechy quasi ciągłe- to cechy skokowe traktowane jak ciągłe z powodu bardzo dużej skali wartości, jakie cechy te mogą przybierać np. płace z Polsce w 2006r.
Cechy mierzalne zwyczajowo oznaczone są dużymi literami X, Y, Z, a ich wartości małymi np. x, y, z.
PREZENTACJA MATERIAŁU STSTYSTYCZNEGO
Szereg statystyczny - zbiór wyników obserwacji jednostek statystycznych uporządkowanych wg określonej cechy.
Sposób grupowania cech zależy od:
Rodzaju badania: (przekrojowe) szereg rozdzielczy
(czasowe) - szereg czasowy
Rodzaju cechy statystycznej - rozdzielcze c cechą mierzalną i rozdzielcze z cechą niemierzalną np. geograficzne
Sposobu pomiaru - szeregi proste,, szeregi skumulowane
Liczby obserwacji - szeregi szczegółowe lub rozdzielcze.
RODZAJE SZEREGÓW STSTYSTYCZNYCH
Liczba psów w gospodarstwie domowym xi zmiennej |
Liczba gospodarstw domowych ni liczebność cząstkowa |
X1 0 |
10 |
X2 1 |
30 |
X3 2 |
15 |
X4 3 |
20 |
X5 4 |
25 |
N = 100
Szereg szczegółowy - to uporządkowany ciąg wartości badanej cechy statystycznej
Przykład 1
Urząd miasta Mysłowice poinformował, że w dniu 31.12,2006r. istniało 41 zakładów pracy zaliczanych do działu gospodarki narodowej „obrót towarowy”. Poziomu zatrudnienia na pełnych etatach w tych zakładach był następujący:
2 2 2 3 3 3 4 4 5 6 7 7 8
9 10 11 12 13 13 14 14 15 16 16 19 21
23 23 31 34 38 39 44 49 77 111 114 314 389 479 583
Jest to szereg szczegółowy poziomu zatrudnienia na pełnych etatach.
Szeregi rozdzielcze - przedstawiają strukturę badanej zbiorowości ze względu na określona cechę statystyczną (cechę zmięnną0
Zasady budowy szeregów rozdzielczych cech mierzalnych:
Dla cechy ciągłej buduje Si e szeregi rozdzielcze z przedziałami klasowymi.
Dla cechy skokowej buduje się szeregi rozdzielcze
Punktowe - gdy liczba wariantów badanej cechy jest niewielka
Z przedziałami klasowymi - gdy liczba wariantów badanej cechy jest duża
Przykład 2
Szereg rozdzielczy przedziałowy dla cechy skokowej skonstruowany na podstawie szeregu wyliczającego z przykładu pierwszego.
Liczba zatrudnionych Na pełnym etacie |
1-9 |
10-19 |
20-39 |
40-99 |
100-199 |
200 - 399 |
400 - 599 |
Liczba zakładów o danym zatrudnieniu |
14 |
11 |
7 |
3 |
2 |
2 |
2 |
Przykład 3
Szereg rozdzielczy punktowy cechy skokowej.
Tabela 2. liczba dzieci w małżeństwie
Liczba dzieci |
0 |
1 |
2 |
3 |
4 |
Liczba małżeństw |
8 |
20 |
35 |
10 |
5 |
Szereg rozdzielczy - podstawowym narzędziem analizy rozkładu badanej cechy statystycznej w zbiorowości statystycznej.
Szereg szczegółowy dla podanego przykładu wyglądałby następująco: 0000000(…) itd.
Wprowadzamy następujące oznaczenia:
xi - wariant cechy (i = 1, 2, 3, 4, 5)
ni - liczba jednostek zaobserwowanych o - i tym wariancie cechy
n - liczebność próby
k - liczna klas (wariantów cechy)
Przy czym: k
n = ∑
ł = 1ni
Tabela 3. Liczba dzieci w małżeństwie - szereg rozdzielczy, punktowy
Numery klas |
Liczba dzieci |
Liczba małżeństw |
i |
xi |
ni |
1 |
0 |
8 |
2 |
1 |
20 |
3 |
2 |
35 |
4 |
3 |
10 |
5 |
4 |
5 |
Rozkład empiryczny
wi - Wskaźnik struktury (część względna) wi = ni gdzie
n
ni - liczebność i-tej klasy
n - liczebność całej zbiorowości
i = 1,2, ….k
k
n = ∑ wi = 1 0 ≤ wi ≤ 1
ł = 1
tabela 4. liczba dzieci w małżeństwie - szereg rozdzielczy punktowy
Numer klasy |
Liczba dzieci |
Liczba małżeństw |
Wskaźnik struktury |
(i) |
(xi) |
(ni) |
(wi) |
1 |
0 |
8 |
0,10 |
2 |
1 |
20 |
0,26 |
3 |
2 |
35 |
0,45 |
4 |
3 |
10 |
0,13 |
5 |
4 |
5 |
0,06 |
suma |
78 |
1,00 |
Ile małżeństw ma nie więcej niż 2 dzieci = 28 itd.
Skumulowany wskaźnik struktury cum (wi)
Cum (wi) = cum (ni) gdzie
N
Cum (ni) - liczba jednostek, których cechy odpowiadają wartościom nie większym niż xi
Ł = 1, 2 …k
Tabela 5. Liczba dzieci w małżeństwie - skumulowany szereg rozdzielczy, punktowy dla liczebności i częstości.
Numer klasy |
Liczba dzieci |
Liczba małżeństw |
Wskaźnik str. |
Liczebność skumulowana |
Częstość skumulowana |
(i) |
(xi) |
(ni) |
(wi) |
Cum (ni0 |
Cum (wi) |
1 |
0 |
8 |
0,10 |
8 |
0,10 |
2 |
1 |
20 |
0,26 |
28 |
0,36 |
3 |
2 |
35 |
0,45 |
63 |
0,81 |
4 |
3 |
10 |
0,13 |
73 |
0,94 |
5 |
4 |
5 |
0,06 |
78 |
1,00 |
suma |
78 |
1,00 |
|
|
W 63 rodzinach było nie więcej niż dwoje dzieci tj. 81% badanych rodzin.
Dystrybuanta empiryczna nazywamy podporządkowanie kolejnym wartościom cechy statystycznej odpowiadającym im częściom skumulowanym.
II.
Czynności związane z budową szeregu rozdzielczego z przedziałami klasowymi.
Ustalenie liczby klas -k
Liczba klas w szeregu zależy od:
Liczby obserwacji - liczebności zbiorowości
Celu badania
Obszaru zmienności badanej cechy (tj. różnicy między max, a min wartości cechy)
Im większy obszar zmienności i liczniejszy zbiór tym więcej powinno być przedziałów.
Liczba przedziałów w szeregu rozdzielczym -przykład
Liczebność zbiorowości (n) |
k ≤5 log N |
k = 1 + 3,322 log N |
50 |
8,49485 |
6,474 |
100 |
10 |
7,444 |
200 |
11,50515 |
8,4139 |
500 |
13,4948 |
9,696 |
1000 |
15 |
10,666 |
Liczba klas w zależności od liczebności zbiorowości - k
Liczebność zbiorowości (n) |
Liczba klas |
40-60 |
6 - 8 |
60 - 100 |
7 - 10 |
100 - 200 |
9 - 12 |
200 - 500 |
12 - 17 |
2
K = √N
W przykładzie 1 liczebność zbiorowości to 41 zakładów, a zatem liczba klas od 6 do 8. Do dalszych obliczeń przyjmuje się k = 7.
ustalenie rozpiętości przedziałów
rozpiętość (szerokość, interwał, rozstęp przedziałowy) podziału klasowego to różnica pomiędzy górną (xig) i dolną (xid) granicą i tego przedziału klasowego. Rozpiętość przedziału oznaczamy przez (hi) przy czym hi = (xig - xid)
Przybliżona wartość interwału można wyznaczyć ze wzoru:
hi = X max - x min = r
k k
hi = X max - x min
1 + 3,222 log N
Hi - interwał przedziałowy
X max - największa wartość zaobserwowanej cechy
X min - najmniejsza wartość zaobserwowanej cechy
k - liczba przedziałów
N - liczebność zbiorowości
R - rozstęp
Do przykładu 1 wyznaczamy interwał przedziałowy w następujący sposób:
X max = 583 pracowników na pełnych etatach
X min = 2 pracowników na pełnych etatach
N = 41 przedsiębiorstw
k = 7 klas
hi = 583 - 2 = 581 = 83
7 7
Jeżeli wybieramy przybliżoną wartość hi to stosujemy przybliżenie z nadmiarem hi * k ≥R)
Wskaźnik gęstości liczebności (częstości) informuje nas ile jednostek zbiorowości (jaka ich część) przypada na jednostkę zmiennej w każdej klasie i wyraża się we wzorze:
9ni = ni gdzie i = 1,2, ….k
Hi
Ni - liczebność i-tej klasy
Hi - interwał i - tej klasy
Wi - wskaźnik struktury dla i - tej klasy Wskaźnik natężenia liczebności (częstości) określa jaka ilość jednostek zbiorowości (jaka ich część) przypada na jednakową rozpiętość przedziału klasowego
ni - liczebność i-tej klasy ni - interwał i-tej klasy
h min - interwał najmniejszy h max - interwał największy
Xid |
Ni |
Hi = (xig - xid) |
Gi = (ni/hi) |
Hi ni 8 H MIN / HI |
1-3 |
10 |
2 |
5 |
10 |
3-7 |
20 |
4 |
5 |
10 |
kredyt (mld zł0 |
liczba kredytów |
Interwał przedziałowy |
Wskaźnik gęstości liczebności |
Natężenie liczebności dla h min = 2 |
Inne sposoby ustalenia klas - przedziały otwarte
.
Przedziały otwarte - stosuje się je gdy w badanej zbiorowości występują wartości ekstremalne 9duże lub małe).
Otwarty dolny przedział np. do 4,4 - 8; 8 - 12 przedział pierwszy nie ma dolnej granicy.
Otwarty przedział górny np.: 5-10; 10-15; 15 i więcej ostatni przedział nie ma górnej granicy
Przedziały lewostronne domknięte < xid - xig> od ponad 2 do 4 włącznie, od ponad 4 do 6 włącznie.
Szeregi przestrzenne (geograficzne, terytorialne) przedstawiają rozmiar, wielkość, status jednostek samorządu terytorialnego 0gmin….0; części świata, rejonów gospodarczych.
Szeregi dynamiczne (czasowe, chronologiczne) prezentują rozwój zjawiska w czasie z uwzględnieniem ściśle określonego momentu np. 31 XII.
Wykresy popularyzacyjne (kołowe, słupkowe, bryłowe poza układem współrzędnych.
Wykresy strukturalno - opisujące rozkład cechy mierzalnej:
Histogram (wykres słupkowy
Diagram - wykres liniowy
Krzywe liczebności (częstości)
Histogram - to zbiór przylegających do siebie prostokątów.
Diagram - wielobok liczebności) - to łamana łącząca punkty o następujących współrzędnych.
Środki przedziałów klasowych oraz odp. Im liczebności (częstości) w przypadku równych rozpiętości przedziałów.
Środki przedziałów klasowych oraz odsp. im wskaźniki .,………… liczebności lub wskaźniki gęstości w przypadku nierównych rozpiętości przedziałów.
SZEREGI STATYSTYCZNE
SZCZEGÓŁOWE
ROZDZIELCZE
CZASOWE
MOMENTÓW
OKRESÓW
Z cechą niemierzalną (jakościową)
PUNKTOWE
z cecha mierzalną (ilościową)
PRZEDZIAŁOWE
INNE
GEOGRAFICZNE
SKUMULOWANE
PROSTE
SKUMULOWANE
PROSTE