Statystyka - geneza
Słowo Statystyka wywodzi się od łacińskiego słowa status co oznacza stan rzeczy lub państwo.
Po raz pierwszy słowo to zostało użyte w piśmiennictwie XVIII w. przez
G. Achenwalda do oznaczenia zbioru informacji o państwie. Z czasem obok informacji opisowych dotyczących państwa zaczęły pojawiać się dane liczbowe ujmowane tabelarycznie. Proces gromadzenia i prezentacji tabelarycznej zaczęto nazywać statystyką a ich autorów tabelarystami.
Do ukształtowania zakresu przedmiotu statystyki przyczynili się również
J. Graunt i W. Petty, przedstawiciele tzw. arytmetyków politycznych, którzy dostrzegali w statystyce metodę umożliwiającą wyodrębnienie spośród pozornie chaotycznych zjawisk masowych, pewnych prawidłowości
Do dalszego rozwoju statystyki przyczynili się również B. Pascal i P. Fermat, żyjący w XVII w, których uważa się za prekursorów teorii rachunku prawdopodobieństwa. Dzięki rachunkowi prawdopodobieństwa rozwinęła się statystyka matematyczna, której głównym celem jest wyodrębnianie i uogólnianie wyników otrzymanych z próby losowej na całą populację, z której ta próba pochodzi. Proces taki nazywa się wnioskowaniem statystycznym. Każde wnioskowanie musi być jednak poprzedzone wnikliwym i rzetelnym opisem losowych prób i cech statystycznych. Służyć temu mają deterministyczne metody opisowe określane mianem statystyki opisowej.
Obecnie pod pojęciem statystyki rozumie się naukę traktującą o ilościowych metodach badania zjawisk (procesów) masowych.
W potocznym słownictwie słowa statystyki używa się często do oznaczenia czynności polegających na prostym zbieraniu a następnie opracowywaniu danych liczbowych lub też określa ono zbiór informacji liczbowych (danych) dotyczących jakiegoś zjawiska.
Statystyka i jej metody znalazły szerokie zastosowanie w wielu dziedzinach wiedzy. Oprócz nauk społecznych znajduje także zastosowanie w antropologii, biologii, medycynie, geografii i innych.
Podstawowe pojęcia statystyczne
zbiorowość statystyczna (lub populacją, masą statystyczną lub zbiorowością generalną) i definiuje jako zbiór elementów (osób, przedmiotów, zdarzeń) podobnych lecz nie identycznych pod względem określonej cechy, poddanych badaniom statystycznym.
Elementy wchodzące w skład zbiorowości statystycznej nazywane są jednostkami statystycznymi a ich liczba liczebnością zbiorowości lub liczebnością całkowitą,
(generalną).
Jednostki statystyczne charakteryzują się pewnymi właściwościami określanymi mianem cech statystycznych. Cechy te mogą być stałe i zmienne. Cechy stałe pozwalają jednoznacznie określić jednostki statystyczne i zbiorowość statystyczną pod względem rzeczowym lub przedmiotowym (co?), terytorialnym (gdzie?) i czasowym (kiedy?). Cechy te nie podlegają badaniu, lecz pozwalają na przyporządkowanie jednostek do zbiorowości generalnej. Cechy zmienne natomiast, to te własności, ze względu na które różnią się jednostki statystyczne. W odróżnieniu od cech stałych podlegają one badaniu i decydują o zakresie prowadzonych badań.
Przykład
Zbiorowość statystyczną stanowią np. powiaty województwa małopolskiego na dzień 31 grudnia 2001 roku., badane ze względu na cechę stopę bezrobocia wyrażoną w procentach.
Cechy statystyczne
zmienna statystyczna - liczbowy obraz badanej cechy. Zmienne statystyczne podobnie jak cechy można podzielić na skokowe i ciągłe.
Metody badań statystycznych
badania pełne (wyczerpujące, całkowite, stuprocentowe)
badania niepełne (częściowe, wyrywkowe)
Techniki pozyskiwania informacji:
badania:
ankietowe
monograficzne
reprezentacyjne.
Etapy badań statystycznych:
Przygotowanie badania
Zebranie materiału statystycznego (obserwacja statystyczna)
Przygotowanie, opracowanie i prezentacja materiału statystycznego
Opis statystyczny badanego zjawiska lub wnioskowanie statystyczne
ad.1 (przygotowanie badań)
określenie celu i metody badania. Celem badania może być np. ustalenie siły i kierunku współzależności pomiędzy stażem a wydajnością pracy, zbadanie częstotliwości i przyczyn wypadów na pewnym odcinku drogi, ustalenie potencjalnej liczby osób zainteresowanych wyjazdem na wycieczkę do Francji itp. We wszystkich tych przypadkach należy zdecydować czy badanie będzie stuprocentowe czy częściowe.
określenie zbiorowości statystycznej i cech podlegających badaniu. Zbiorowość statystyczna jak i jednostki statystyczne - czyli przedmiot badania - powinny być dokładnie zdefiniowane pod względem rzeczowym, czasowym i przestrzennym. Np. w przypadku badania liczby klientów zainteresowanych wyjazdem do Francji zbiorowość statystyczną mogą tworzyć klienci biura podróży „Bermuda” w mieście X, którzy w okresie od 1.01.1998 - 31.12.2001 skorzystali z jego usług. Badaną cechą statystyczną (cechą jakościową) może być tutaj kraj, do którego klient biura podróży zdecydował się wyjechać.
definiowanie jednostki sprawozdawczej. Jednostką sprawozdawczą może być osoba fizyczna lub prawna, która dysponuje danymi źródłowymi potrzebnymi do badania. W pewnych sytuacjach jednostką sprawozdawczą może być sama jednostka statystyczna. W omawianym powyżej przykładzie jednostką sprawozdawczą może być biuro podróży „Bermuda”, jeżeli prowadzi ono bieżącą ewidencję obsługiwanych klientów lub klienci tego biura, w przypadku braku dokładnej ewidencji kierunków wyjazdów.
określenie harmonogramu i budżetu projektu badawczego. Punkt ten pozwala na sprawne przeprowadzenie i ukończenia zaplanowanych badań lub ewentualną korektę zakresu i terminów otrzymania wyników końcowych.
ad. 2 (obserwacja statystyczna)
Polega ona na przyporządkowaniu wartości liczbowych cechom ilościowym oraz wariantów słownych cechom jakościowym u wszystkich jednostek wchodzących w skład zbiorowości generalnej lub w skład próby. Przyporządkowanie wartości cechom odbywa się na drodze pomiaru lub zbierania informacji od jednostek sprawozdawczych.
Dane statystyczne mogą być obciążony pewnymi błędami zarówno o charakterze systematycznym jak i przypadkowym. Źródłem błędów systematycznych jest zwykle jednokierunkowa tendencja do zniekształcenia badanej rzeczywistości, co powoduje przy dużej liczbie powtórzeń znaczne zawyżenie lub zaniżenie końcowych rezultatów. Błędy o charakterze przypadkowym najczęściej są skutkiem niezamierzonych pomyłek osób zbierających informacje. Błędy przypadkowe w odróżnieniu od błędów systematycznych mają zwykle różny kierunek (zawyżający lub zaniżający badaną wartość rzeczywistą) a ich wpływ na zniekształcenie badania jest zwykle mniejszy niż błędu systematycznego.
Czynnikiem przeciwdziałającym błędom (systematycznym i przypadkowym) są kontrole formalne i merytoryczne. Kontrola formalna ma za zadanie sprawdzić kompletność, pełność i zupełność zebranego materiału, natomiast celem kontroli merytorycznej jest sprawdzenie materiału pod względem logicznym i arytmetycznym.
ad. 3 (przygotowanie, opracowanie i prezentacja materiału statystycznego)
W trakcie opracowywania materiału wyróżnia się min. tzw. grupowanie i zliczanie.
Grupowanie polega na wyodrębnieniu spośród całej badanej zbiorowości statystycznej określonych w miarę jednorodnych grup (części).
Biorąc za kryterium podziału cel, jakiemu ma służyć grupowanie, możemy podzielić je na tzw. typologiczne i wariancyjne. Grupowanie typologiczne opiera swój podział na wariantach cechy jakościowej (np. grupowanie ludności według wykształcenia na: podstawowe, zasadnicze zawodowe, średnie, wyższe). Grupowanie wariancyjne dotyczy zwykle cechy ilościowej. Przykładem, takiego grupowania może być podział pracowników określonej firmy ze względu na wielkość zarobków. Można wówczas wyróżnić przykładowe grupy (tzw. przedziały klasowe): (700; 900], (900; 1100], (1100; 1300], (1300; 1500], (1500; 1700], (1700; 1900], (1900; 2100] itd.
Po wyodrębnieniu grup w obrębie zbiorowości statystycznej następuje zliczanie danych przypadających na wyodrębnione grupy. Jeżeli zbiorowość nie jest zbyt liczna zliczanie odbywa się ręcznie, natomiast w przypadku zbiorowości licznych do zliczania stosuje się technikę komputerową.
przykład zapisu kreskowego ( w formie „pęczku” i „kwadratu z przekątną”) liczby 12 i 16.
liczba 12 IIII IIII II liczba 12
liczba 16 IIII IIII IIII I liczba 16
Prezentacja materiału statystycznego - szeregi statystyczne
Rodzaje szeregów statystycznych:
szereg szczegółowy
szereg szczegółowy nieuporządkowany (pierwotny)
szereg szczegółowy uporządkowany (pozycyjny)
szereg rozdzielczy (strukturalny)
szereg rozdzielczy (strukturalny) cechy jakościowej
szereg rozdzielczy (strukturalny) cechy ilościowej
szereg rozdzielczy punktowy
szereg rozdzielczy przedziałowy
szereg przestrzenny (geograficzny)
szereg czasowy (dynamiczny)
szereg czasowy (dynamiczny) momentów
szereg czasowy (dynamiczny) okresów
szereg szczegółowy nieuporządkowany
Przykład 1. Rodzaj (system) ukończonych studiów przez 20 absolwentów „Szkoły Bussinesu” w roku akademickim 1999/2000. Podczas zapisu wykorzystano następujące
skróty: dz - studia dzienne, zao - studia zaoczne, ekster - studia eksternistyczne
dz |
dz |
zao |
dz |
wie |
dz |
zao |
ekster |
wie |
dz |
ekster |
zao |
dz |
dz |
ekster |
zao |
dz |
zao |
dz |
dz |
źródło: dane umowne
szereg szczegółowy uporządkowany
porządkowanie alfabetyczne:
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
system studiów |
dz |
dz |
dz |
dz |
dz |
dz |
dz |
dz |
dz |
dz |
i |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
system studiów |
ekster |
ekster |
ekster |
wie |
wie |
zao |
zao |
zao |
zao |
zao |
szereg rozdzielczy (strukturalny) cechy jakościowej
Struktura systemu studiów 20 absolwentów „Szkoły Bussinesu”
System studiów |
Zliczanie danych metodą kreskową |
Liczba studentów (fi) |
Liczba studentów w % |
dzienne zaoczne wieczorowe eksternistyczne |
II III |
10 5 2 3 |
50% 25% 10% 15% |
Razem |
XXX |
20 |
100% |
Źródło: Obliczenia własne
Prezentacja graficzna
Struktura systemu studiów 20 absolwentów „Szkoły Bussinesu”
Źródło: Opracowanie własne
Procentowa struktura systemu studiów 20 absolwentów „Szkoły Bussinesu”
Źródło: Opracowanie własne
Przykład 2.
Liczba punktów otrzymanych ze sprawdzianu przeprowadzonego dnia 22.11.2002 w 3 grupach kierunku Towaroznawstwa
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
punkty |
23 |
19 |
16 |
10 |
22 |
18 |
24 |
24 |
8 |
15 |
i |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
punkty |
20 |
18 |
29 |
13 |
29 |
20 |
9 |
28 |
15 |
17 |
i |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
punkty |
25 |
10 |
25 |
26 |
28 |
17 |
29 |
21 |
20 |
23 |
i |
31 |
32 |
33 |
34 |
35 |
36 |
37 |
38 |
39 |
40 |
punkty |
29 |
18 |
23 |
22 |
24 |
19 |
22 |
15 |
26 |
22 |
i |
41 |
42 |
43 |
44 |
45 |
46 |
47 |
48 |
49 |
50 |
punkty |
23 |
15 |
25 |
16 |
17 |
27 |
29 |
20 |
30 |
24 |
i |
51 |
52 |
53 |
54 |
55 |
56 |
57 |
58 |
59 |
60 |
punkty |
28 |
23 |
17 |
23 |
22 |
13 |
29 |
27 |
9 |
18 |
i |
61 |
62 |
63 |
64 |
|
|
|
|
|
|
punkty |
26 |
23 |
29 |
15 |
|
|
|
|
|
|
Źródło: badania własne
ad przykład 2
Szereg szczegółowy uporządkowany
Liczba punktów otrzymanych ze sprawdzianu przeprowadzonego dnia 22.11.2002 w 3 grupach kierunku Towaroznawstwa zestawiona w szeregu szczegółowym uporządkowanym (pozycyjnym)
ii |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
i |
9 |
17 |
59 |
4 |
22 |
14 |
56 |
10 |
19 |
38 |
punkty |
8 |
9 |
9 |
10 |
10 |
13 |
13 |
15 |
15 |
15 |
ii |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
i |
42 |
64 |
3 |
44 |
20 |
26 |
45 |
53 |
6 |
12 |
punkty |
15 |
15 |
16 |
16 |
17 |
17 |
17 |
17 |
18 |
18 |
ii |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
i |
32 |
60 |
2 |
36 |
11 |
16 |
29 |
48 |
28 |
5 |
punkty |
18 |
18 |
19 |
19 |
20 |
20 |
20 |
20 |
21 |
22 |
ii |
31 |
32 |
33 |
34 |
35 |
36 |
37 |
38 |
39 |
40 |
i |
34 |
37 |
40 |
55 |
1 |
30 |
33 |
41 |
52 |
54 |
punkty |
22 |
22 |
22 |
22 |
23 |
23 |
23 |
23 |
23 |
23 |
ii |
41 |
42 |
43 |
44 |
45 |
46 |
47 |
48 |
49 |
50 |
i |
62 |
7 |
8 |
35 |
50 |
21 |
23 |
43 |
24 |
39 |
punkty |
23 |
24 |
24 |
24 |
24 |
25 |
25 |
25 |
26 |
26 |
ii |
51 |
52 |
53 |
54 |
55 |
56 |
57 |
58 |
59 |
60 |
i |
61 |
46 |
58 |
18 |
25 |
51 |
13 |
15 |
27 |
31 |
punkty |
26 |
27 |
27 |
28 |
28 |
28 |
29 |
29 |
29 |
29 |
ii |
61 |
62 |
63 |
64 |
|
|
|
|
|
|
i |
47 |
57 |
63 |
49 |
|
|
|
|
|
|
punkty |
29 |
29 |
29 |
30 |
|
|
|
|
|
|
Źródło: Opracowanie własne
szereg rozdzielczy punktowy
j |
liczba punktów xj |
Zliczanie danych metodą kreskową |
Liczba studentów (fj) którzy otrzymali xi punktów |
Liczebność względna (frakcja) vj
|
vj [%] |
1 |
8 |
I |
1 |
0,0156 |
1,5625% |
2 |
9 |
II |
2 |
0,0313 |
3,1250% |
3 |
10 |
II |
2 |
0,0313 |
3,1250% |
4 |
13 |
II |
2 |
0,0313 |
3,1250% |
5 |
15 |
|
5 |
0,0781 |
7,8125% |
6 |
16 |
II |
2 |
0,0313 |
3,1250% |
7 |
17 |
IIII |
4 |
0,0625 |
6,2500% |
8 |
18 |
IIII |
4 |
0,0625 |
6,2500% |
9 |
19 |
II |
2 |
0,0313 |
3,1250% |
10 |
20 |
IIII |
4 |
0,0625 |
6,2500% |
11 |
21 |
I |
1 |
0,0156 |
1,5625% |
12 |
22 |
|
5 |
0,0781 |
7,8125% |
13 |
23 |
|
7 |
0,1094 |
10,9375% |
14 |
24 |
IIII |
4 |
0,0625 |
6,2500% |
15 |
25 |
III |
3 |
0,0469 |
4,6875% |
16 |
26 |
III |
3 |
0,0469 |
4,6875% |
17 |
27 |
II |
2 |
0,0313 |
3,1250% |
18 |
28 |
III |
3 |
0,0469 |
4,6875% |
19 |
29 |
|
7 |
0,1094 |
10,9375% |
20 |
30 |
I |
1 |
0,0156 |
1,5625% |
suma |
xxx |
64 |
1,0000 |
100% |
Źródło: Obliczenia własne
Tworzenie szeregu rozdzielczego przedziałowego oraz jego graficzna prezentacja
Ustalanie liczby przedziałów klasowych oraz ich rozpiętości
liczba klas k
.
i jednocześnie
.
k = 1+3,3lg1064 = 6,96 ≈ 7.
.
długość przedziału (rozpiętość):
.
Ponieważ 3,142857 jest wartością, która może utrudniać dalsze obliczenia, zdecydowano się dokonać korekty kresów zmienności i założono że: x'min= 4 i x'max = 32.
Nowa długość przedziałów klasowych
Inne sposoby ustalania liczby klas k w zależności od liczby obserwacji N:
N |
k |
30 - 60 60 - 100 100 - 200 200 - 500 500 - 1500 |
6 - 8 7 - 10 9 - 12 11- 17 16 - 25 |
lub
N |
k |
50 100 5000 1000 10000 |
8 10 13 15 20 |
Struktura liczby punktów otrzymanych podczas sprawdzianu ze Statystyki
( xd.i ; |
xg.i ] |
środek przedziału xo |
Liczba studentów (fj) którzy otrzymali - więcej niż xd.i lecz najwyżej xg.i - punktów |
Częstość względna (vj) |
(4 ; |
8] |
6 |
1 |
0,0156 |
(8 ; |
12] |
10 |
4 |
0,0625 |
(12 ; |
16] |
14 |
9 |
0,1406 |
(16 ; |
20] |
18 |
14 |
0,2188 |
(20 ; |
24] |
22 |
17 |
0,2656 |
(24 ; |
28] |
26 |
11 |
0,1719 |
(28 ; |
32] |
30 |
8 |
0,1250 |
suma |
xxx |
64 |
1,0000 |
Źródło: Obliczenia własne
Histogram oraz wielobok liczebności przedstawiający liczbę dni fi, w których przyjęto (xdi - xgi ] pacjentów
Źródło: Powyższa tablica
Tworzenie szeregu kumulacyjnego
Tworzenie szeregu kumulacyjnego
( xd.i ; |
xg.i ] |
Liczba studentów (fj) którzy otrzymali - więcej niż xd.i lecz najwyżej xg.i - punktów |
Częstość względna (vj) |
obliczenia pomocnicze |
fjskum |
vjskum |
(4 ; |
8] |
1 |
0,0156 |
1 |
1 |
0,0156 |
(8 ; |
12] |
4 |
0,0625 |
1+4 |
5 |
0,0781 |
(12 ; |
16] |
9 |
0,1406 |
1+4+9 |
14 |
0,2188 |
(16 ; |
20] |
14 |
0,2188 |
1+4+9+14 |
28 |
0,4375 |
(20 ; |
24] |
17 |
0,2656 |
1+4+9+14+17 |
45 |
0,7031 |
(24 ; |
28] |
11 |
0,1719 |
1+4+9+14+17+11 |
56 |
0,8750 |
(28 ; |
32] |
8 |
0,1250 |
1+4+9+14+17+11+8 |
64 |
1,0000 |
suma |
64 |
1,0000 |
xxx |
xxx |
xxx |
Źródło: Obliczenia własne
Graficzna prezentacja szeregu skumulowanego
Źródło: powyższa tablica
Szereg przestrzenny (geograficzny) - przykład prezentacji graficznej
Szeregi dynamiczne (czasowe) i ich graficzna prezentacja
szereg czasowy momentów
Kurs akcji spółki giełdowej Agora S.A.
|
Data |
kurs otwarcia |
kurs maks. |
kurs min. |
Kurs zamknięcia |
Volumen |
1 |
01-01-02 |
86,00 |
87,80 |
85,00 |
86,40 |
15703 |
2 |
01-01-03 |
86,00 |
86,50 |
83,70 |
85,00 |
21728 |
3 |
01-01-04 |
87,50 |
88,40 |
86,40 |
87,50 |
75531 |
4 |
01-01-05 |
87,80 |
87,80 |
83,70 |
83,70 |
27642 |
5 |
01-01-08 |
84,00 |
84,00 |
80,00 |
80,40 |
79528 |
6 |
01-01-09 |
81,60 |
82,10 |
80,00 |
82,10 |
69720 |
7 |
01-01-10 |
82,00 |
82,00 |
78,50 |
79,00 |
57638 |
8 |
01-01-11 |
78,00 |
78,50 |
76,00 |
76,00 |
65340 |
9 |
01-01-12 |
77,50 |
78,50 |
76,80 |
77,60 |
77449 |
10 |
01-01-15 |
77,90 |
77,90 |
74,50 |
74,80 |
45683 |
Źródło: Penetrator
szereg czasowy okresów
Przychody budżetowe wynikające z prywatyzacji w latach 1992 - 2001
Rok |
Przychód w mld. zł. |
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 |
0,3 0,4 0,8 1,7 1,9 6,6 7,0 13,3 27,2 6,8 |
Źródło: Gazeta Wyborcza - Gospodarka, 12 września 2002.
Przychody budżetowe wynikające z prywatyzacji w latach 1992 - 2001
Opis lub wnioskowanie statystyczne
Ostatnim etapem badań statystycznych jest opis lub wnioskowanie statystyczne. Opis statystyczny odnosi się tylko do danej zbiorowości statystycznej, lub pochodzącej z niej próby. Ma on charakter sumaryczny i uogólniający. Opis taki posiłkuje się różnymi miarami, spośród których wyróżniają się miary położenia (średnie), zmienności, asymetrii i koncentracji oraz miary współzależności (współczynniki korelacji i funkcje regresji). Metody wykorzystywane do opisów statystycznych wchodzą w zakres statystyki opisowej.
W odróżnieniu od opisu statystycznego wnioskowanie statystyczne ma miejsce wówczas, gdy wykorzystując wiadomości zebrane w drodze badania reprezentatywnej próby próbujemy ekstrapolować wnioski na całą zbiorowość z której próba ta pochodzi. Działanie takie nazywa się wnioskowaniem statystycznym i opiera się w głównej mierze na rachunku prawdopodobieństwa, który stanowi jego teoretyczną podstawę.
Metody wnioskowania statystycznego zaliczane są do drugiego działu statystyki nazywanego statystyką matematyczną. Spośród metod matematyki statystycznej wyróżnia się najczęściej teorię estymacji oraz teorię weryfikacji hipotez statystycznych.
zob. np. Słownik wyrazów obcych po redakcją Jana Tokarskiego, PWN 1980
szerzej o kontroli materiału statystycznego zob. A. Komosa, J. Musiałkiewicz; Statystyka, Ekonomik 2001; s 35.
- 18 -
cechy statystyczne
cechy jakościowe (niemierzalne)
cechy ilościowe
(mierzalne)
cechy skokowe
(dyskretne)
cechy ciągłe
fj
4 8 12 16 20 24 28 32 klasy