Wykład 1
Wprowadzenie do przedmiotu statystyka
1.1.
Zarys historii
Istnieją świadectwa, że już w starożytności władcy gromadzili szczegółowe dane o ludności
i zasobach państwa. Już 2000 lat p.n.e. przeprowadzano w Chinach spisy ludności. Czwarta księga Starego Testamentu zawiera informacje o spisach ludności przeprowadzanych około 1500 r. p.n.e.
i instrukcje dla Mojżesza do spisu izraelskich wojowników. W VI w. p.n.e. urzędnicy rzymscy zwani cenzorami sporządzali w 5-letnich odstępach rejestr obywateli i ich własności w celach podatkowych i w celu wyznaczenia liczby mężczyzn zdolnych do służby wojskowej. W V w. p.n.e. Cezar August rozszerzył spis ludności na całe Imperium Rzymskie. Znane dzisiaj regularne spisy ludności zaczęły się dopiero w XVII wieku1.
U podstaw statystyki leży teoria rachunku prawdopodobieństwa wyjaśniająca mechanizmy
kształtowania się prawidłowości statystycznych poprzez obserwacje zjawisk występujących masowo
(wielokrotnie)2. Najstarszymi grami hazardowymi są gry w kości. Znane już były w starożytnym Egipcie
i Grecji. Pierwsze próby obliczenia, ile jest możliwych wyników w rzucie kilkoma kostkami napotyka się
w pracach z X i XI w. W 1654 roku francuski matematyk Blaise Pascal został poproszony
o rozstrzygnięcie dwóch problemów. Pierwszy dotyczył szans w pewnej grze w kości, zaś drugi wiązał
się z problemem podziału stawki między dwóch graczy, gdy grę trzeba przerwać. Pascal rozwiązał
oba problemy i napisał o nich do francuskiego matematyka i adwokata Fermata. Pierre de Fermat rozwiązał problemy inną metodą niż Pascal, co zapoczątkowało wymianę myśli na temat szans
w grach. Osiągnięte wyniki uznaje się za tak istotne, że rok 1654 został uznany za datę narodzin rachunku prawdopodobieństwa.
W roku 1812 francuski matematyk Pierre Simon de Laplace’a sformułował precyzyjną definicję
prawdopodobieństwa (w dziele „Analityczna teoria prawdopodobieństwa”). Laplace pisał „Teoria
prawdopodobieństwa polega na sprowadzeniu wszystkich zdarzeń tego samego rodzaju do pewnej
liczby przypadków jednakowo możliwych; są to przypadki, co do zajścia których w jednakowym
stopniu nic nie wiemy. Prawdopodobieństwo zdarzenia jest stosunkiem liczby przypadków
sprzyjających temu zdarzeniu do ogólnej liczby jednakowo możliwych przypadków”. Laplace zajmował
się również między innymi problemem ustalania składek ubezpieczeniowych i rent.
W XIX w. okazało się, że rachunek prawdopodobieństwa pomaga w zrozumieniu podstawowych
zasad fizyki. Wkrótce zaczęto go stosować również w genetyce, ekonomii, medycynie,
językoznawstwie, teorii informacji itd. Pojawiło się wiele prób „zmatematyzowania”, formalizacji rachunku prawdopodobieństwa. Za początek współczesnego rachunku prawdopodobieństwa
1 Por. H. G. Adamkiewicz, Statystyka. Zastosowania w ekonomii, Ośrodek Doradztwa i Doskonalenia Kadr Sp.
z o.o., Gdańsk 1996, s. 15-20.
2 Por. Encyklopedia szkolna. Matematyka, Wydawnictwa szkolne i pedagogiczne, Warszawa 1989; A. Luszniewicz, T. Słaby, Statystyka stosowana, Polskie Wydawnictwo Ekonomiczne, Warszawa 1997, s. 13-15
oraz M. Kałuszka, Rachunek prawdopodobień stwa i statystyka dla uczniów szkół ś rednich, Wydawnictwo Naukowo-Techniczne, Warszawa 1997, s. 17-18, 31, 80, 99-100, 115-116, 176-177.
dr Mirosława Szewczyk
1
Statystyka
przyjmuje się rok 1933, w którym to Andriej Kołmogorow wydał książkę „Podstawy rachunku
prawdopodobieństwa”.
Współczesna statystyka zajmuje się głównie procedurami wnioskowania statystycznego na bazie
szerokiego opisu. Przełom XIX i XX wieku oraz następne lata charakteryzowały się znaczącymi
odkryciami nowych procedur w dziedzinie statystyki. Do grona czołowych twórców statystyki zaliczani
są: Karl Pearson, Ronald Aylmer Fisher, amerykański matematyk polskiego pochodzenia Jerzy
Spława-Neyman oraz Abraham Wald, którzy zajmowali się teorią estymacji (szacowania) parametrów
oraz weryfikacji hipotez statystycznych. Spława-Neyman wraz z K. Pearsonem stworzyli teorię
testowania hipotez, która następnie została włączona do stworzonej przez Walda ogólnej teorii decyzji
statystycznych. Od Spławy-Neymana pochodzi również przyjęta powszechnie definicja doświadczenia
losowego.
1.2.
Podstawowe pojęcia
Statystyka jest nauką o metodach badania prawidłowości występujących w zbiorowościach,
opisującą te prawidłowości za pomocą liczb. W badaniach różnorodnych zbiorowości i zjawisk
znajdują zastosowanie metody opisu statystycznego i metody wnioskowania statystycznego.
Opis statystyczny jest liczbowym opisem badanych zbiorowości lub zjawisk i występuje w formie tabelarycznej, graficznej i parametrycznej. Szczególnie ważna jest parametryczna forma opisu
prawidłowości badanych zbiorowości, dokonywana za pomocą charakterystyk liczbowych, takich jak np. miary położenia, dyspersji i asymetrii. Wnioskowanie statystyczne polega na uogólnianiu
wniosków wynikających z badania i wykracza poza informacje wynikające ze zgromadzonych danych.
Przedmiotem badań statystycznych są określone zbiory jednostek, nazywane zbiorowościami
statystycznymi (lub inaczej populacjami). Jednostki powinny być ze sobą powiązane logicznie (tzn.
mie
3
ć przynajmniej jedną wspólną cechę statystyczną ) i jednocześnie nie powinny być identyczne
(tzn. różnić się przynajmniej jedną cechą statystyczna). Wyróżniamy przy tym populację generalną oraz populację próbną – próbę.
Populacja generalna to zbiór dowolnych elementów, nieidentycznych z punktu widzenia badanej
cechy. Może być skończonym lub nieskończonym zbiorem jednostek, które zamierzamy obserwować
empirycznie i analizować statystycznie. Próba, próbka to podzbiór populacji, podlegający
bezpośrednio badaniu ze względu na ustaloną cechę, w celu wyciągnięcia wniosków o kształtowaniu
się tej cechy w populacji.
Badać można wszystkie elementy populacji generalnej (badanie kompletne, całkowite,
wyczerpujące) albo tylko ich część (badanie częściowe). Badanie kompletne dostarcza pełnej
informacji o badanej cesze populacji generalnej. Często jednak jest niecelowe lub niewykonalne (np.
podczas badań niszczących), bywa również kosztowne i czasochłonne. Dlatego też zadaniem
3 Cechami statystycznymi (X1, X2,...) nazywamy przyjmowane w badaniu kryteria, umożliwiające łączenie jednostek (cechy stałe) w zbiorowość statystyczną lub ich podział (cechy zmienne) na podzbiorowości statystyczne.
dr Mirosława Szewczyk
2
Statystyka
statystyki jest wnioskowanie o właściwościach populacji na podstawie informacji zebranych podczas badania pewnego skończonego podzbioru (próby).
Wnioskowanie statystyczne polega na uogólnianiu wyników uzyskanych dla próby na całą
populację generalną z wykorzystaniem metod probabilistycznych. Reprezentatywność próby4 ma
zatem decydujące znaczenie dla jakości wyciągniętych wniosków.
Rys. 1. Zakres analizy statystycznej
Zbiorowość generalna; obserwacja
cech statystycznych oraz ich
rozkładów
Założenia i hipotezy badawcze
Zbiorowość próbna; obserwacja cech
statystycznych oraz ich rozkładów
Opisowa diagnostyka statystyczna
Wnioskowanie statystyczne
struktura korelacja dynamika
estymacja weryfikacja
Formułowanie ocen i wniosków
przeszłość przyszłość
Źródło: opracowanie własne na podstawie A. Luszniewicz, T. Słaby, Statystyka stosowana, PWE, Warszawa 1997, s. 25.
Cechy można podzielić na dwie zasadnicze grupy:
Cechy mierzalne (ilościowe, kwantytatywne), których warianty mogą przyjmować postać ciągłą lub skokową. Są to właściwości, które można zmierzyć i wyrazić za pomocą odpowiednich jednostek
(np. wagę – w kg, wielkość produkcji – w tys. szt). Realizacje cech ciągłych są wyrażane w danym przedziale ich zmienności poprzez dowolne liczby, podczas gdy realizacje cech skokowych są
wyrażane na ogół poprzez liczby całkowite.
4 Stopień w jakim próba reprezentuje populację generalną w celu uogólnienia na nią prawidłowości zaobserwowanych w próbie.
dr Mirosława Szewczyk
3
Statystyka
Cechy niemierzalne (jakościowe, kwalitatywne), których warianty (czyli realizacje opisowe) mogą przyjmować wyłącznie postać opisu słownego (np. płeć – kobieta, mężczyzna),
sprowadzonego niekiedy do postaci mierzalnej poprzez zastosowanie umownych skal numerycznych
(w tym także w postaci zmiennych zero-jedynkowych).
Tabela 1. Przykładowe zbiorowoś ci skoń czone i cechy statystyczne w badaniach zjawisk ekonomiczno-społecznych.
Cechy statystyczne
Zbiorowości
zmienne
statystyczne
stałe
ciągłe
skokowe
jakościowe
Firmy z
województwo
udziałem
Zysk netto
opolskie,
Zatrudnienie [osób]
Branża
kapitału
[tys. zł]
31.12.2005r.
zagranicznego
Liczba miast, liczba firm
Emisja
województwo
z udziałem kapitału
zanieczyszczeń
Zagrożenie
Powiaty
opolskie,
zagranicznego, liczba
powietrza
powodzią [tak/nie]
31.12.2005r.
indywidualnych
[tys. ton]
gospodarstw rolnych
Indywidualne
województwo
Liczba osób
Występujące o
Powierzchnia
gospodarstwa
opolskie,
pracujących w
dofinansowanie z
[ha]
rolne
31.12.2005r.
gospodarstwie
UE [tak/nie]
województwo
Miesięczne
Płeć, miejsce
Pracujący
opolskie,
wynagrodzenie
Liczba osób w rodzinie
zamieszkania
31.12.2005r.
[tys. zł]
Źródło: opracowanie własne na podstawie A. Luszniewicz, T. Słaby, Statystyka stosowana, PWE, Warszawa 1997, s. 22.
1.3.
Zbieranie materiału statystycznego
Badania naukowe sprowadzają się do prowadzenia obserwacji, a następnie interpretacji ich
wyników. Badanie statystyczne powinno być odpowiednio zaprojektowane. Proces planowania
badania powinien:
sprecyzować cel badania
zdefiniować zbiorowość statystyczną i jednostkę statystyczną
dokonać wyboru cech statystycznych
określić odpowiednią metodę badania statystycznego
podać źródła pozyskania danych: pierwotne (obserwacja, ankieta itp.) lub wtórne
(sprawozdawczość
przedsiębiorstw,
publikacje
Głównego
Urzędu
Statystycznego
dr Mirosława Szewczyk
4
Statystyka
i Wojewódzkich Urzędów Statystycznych, biuletyny agencji badań rynkowych lub badań opinii
publicznej itp.).
Jednostkami statystycznymi mogą być ludzie bądź rzeczy, których cechy badacz obserwuje,
opisuje i wyjaśnia. Badania przekrojowe są oparte na obserwacjach prowadzonych w jednym punkcie
w czasie (np. stopa bezrobocia w gminach województwa opolskiego, stan na 31.12.2005 r.).
W badaniach dynamicznych przeprowadza się obserwacje w różnych okresach (np. stopa bezrobocia
w województwie opolskim w kolejnych miesiącach 2005 r.).
Badania przechodzą od fazy przeprowadzenia obserwacji, przetwarzania danych, aż do opisania
wyników, analizy i określenia implikacji.
1.4.
Opracowanie i prezentacja materiału statystycznego
W wyniku obserwacji statystycznej otrzymujemy zbiór danych liczbowych, zwanych danymi
statystycznymi. Należy je uporządkować. Grupowanie materiału statystycznego polega na podziale niejednorodnej zbiorowości na możliwie jednorodne grupy według obranych kryteriów. Po dokonaniu segregacji materiału na grupy dokonuje się zliczania danych w poszczególnych grupach oraz
prezentacji opracowanego materiału w postaci szeregu statystycznego.
Szeregiem statystycznym nazywamy zbiór wyników obserwacji uporządkowanych według
określonych cech. Szeregiem szczegółowym nazywamy zbiór danych uporządkowany wyłącznie
według wartości badanej cechy. Szereg szczegółowy obejmuje wartości cechy występujące
u wszystkich jednostek badanej zbiorowości, uporządkowane rosnąco lub malejąco. Szereg
szczegółowy daje całkowity materiał statystyczny, jest on jednak mało przejrzysty, dlatego stosuje się
go zazwyczaj gdy liczba obserwacji jest stosunkowo niewielka lub gdy badaczowi zależy na dużej dokładności.
Szereg rozdzielczy stanowi zbiorowość statystyczna podzielona na klasy według określonej cechy
(jakościowej lub ilościowej) z podaniem liczebności każdej z wyodrębnionych klas. Jeżeli liczba
wariantów cechy jest niewielka, to zwykle buduje się szeregi rozdzielcze punktowe. Jeśli natomiast wariantów jest dużo, to wówczas buduje się szeregi rozdzielcze z przedziałami klasowymi.
Szeregi
statystyczne
mogą
przedstawiać
badaną
zbiorowość
w układzie
statycznym,
charakteryzując jej stan w ściśle określonym momencie (np. w określonym dniu) lub w układzie
dynamicznym (zmiany zjawisk w pewnym okresie opisują szeregi czasowe). Szeregi czasowe
powstają, gdy podstawą grupowania jest czas, a celem badania jest analiza zmian zjawiska w czasie
(np. stopa bezrobocia w Polsce w latach 2000-2005).
Oprócz tabelarycznej formy prezentacji zebranego materiału statystycznego (w postaci szeregów
statystycznych), często stosuje się prezentację graficzną w postaci wykresów. Poniżej zamieszczono
przykłady prezentacji materiału statystycznego.
dr Mirosława Szewczyk
5
Statystyka
Tabela 2. Przykład szeregu rozdzielczego przedziałowego – gospodarstwa rolne według grup
obszarowych uż ytków rolnych w Polsce w 2004 r.
Wyszczególnienie
O powierzchni użytków rolnych w ha
0-1
1-5
5-15
15-50
50 i więcej
Liczba gospodarstw
987 939
1 078 373
580 649
175 060
22 147
Źródło: Rocznik statystyczny rolnictwa i obszarów wiejskich, GUS, Warszawa 2005, s. 199.
Tabela 3. Przykład szeregu rozdzielczego punktowego – wyniki egzaminu ze statystyki (czerwiec 2005)
Ocena
ndst
dst
plus dst
db
plus db
bdb
Liczebność (liczba studentów)
20
20
25
30
15
10
Źródło: Opracowanie własne – dane umowne.
Rys. 2. Przykład wykresu kołowego i wykresu słupkowego – struktura gospodarstw rolnych według grup obszarowych uż ytków rolnych w Polsce w 2004 r.
15-50 ha 50 ha i więcej
6%
1%
5-15 ha
20%
0-1 ha
35%
1-5 ha
38%
1 200 000
twrs 1 000 000
ad
800 000
op
s
600 000
o g 400 000
a
bz
200 000
icL
0
0-1 ha
1-5 ha
5-15 ha
15-50 ha
50 ha i
więcej
Powierzchnia użytków rolnych
Źródło: Opracowanie własne na podstawie Rocznika statystycznego rolnictwa i obszarów wiejskich, GUS, Warszawa 2005, s. 199.
dr Mirosława Szewczyk
6
Statystyka
Rys. 3. Przykłady wykresów słupkowych – wyniki egzaminu ze statystyki (czerwiec 2005)
35
100%
30
bdb; 10
30
25
15
w 25
80%
tón
20
20
ed 20
w
db; 30
tu
15
tón
s
60%
15
e
a
d
b
10
z
tu
ic 10
ł s
25
L
ia
40%
z
5
dU
0
dst; 20
20%
ndst
dst
plus dst
db
plus db
bdb
ndst;
Ocena
20
0%
Źródło: Opracowanie własne – dane umowne.
Tabela 4. Przykład szeregu czasowego – pogłowie trzody chlewnej w Polsce w latach 1999-2005
(stan w koń cu lipca)
Lata
1999
2000
2001
2002
2003
2004
2005
Trzoda chlewna
18 537,6
17 122,0
17 105,6
18 628,9
18 605,3
16 987,9
18 112,4
[tys. sztuk]
Źródło: Uż ytkowanie gruntów, powierzchnia zasiewów i pogłowie zwierzą t gospodarskich w 2005 r. , GUS, Warszawa 2005, s. 97.
Rys. 4. Wykres szeregu czasowego - pogłowie trzody chlewnej w Polsce w latach 1999-2005.
20 000
tz
. s 15 000
sty
10 000
1999
2000
2001
2002
2003
2004
2005
Lata
Źródło: Opracowanie własne na podstawie Uż ytkowanie gruntów, powierzchnia zasiewów i pogłowie zwierzą t gospodarskich w 2005 r. , GUS, Warszawa 2005, s. 97.
dr Mirosława Szewczyk
7
Statystyka
Rys. 5. Przykład wykresu radarowego – porównanie plonów wybranych zbóż w Polsce i województwie opolskim w 2004 r. (w dt/ha).
rzepak i rzepik
75
50
kukurydza na ziarno
25
pszenica ozima
0
Polska
województwo opolskie
jęczmień ozimy
żyto
Źródło: Opracowanie własne na podstawie Wyniki produkcji roś linnej w 2004 r.. , GUS, Warszawa 2005, s. 20-33, 47.
1.5.
Zagadnienia i pytania kontrolne
Pytania kontrolne:
1. Wyjaśnij pojęcia: populacja generalna, populacja próbna. Wskaż przykłady.
2. Podaj kilka przykładowych cech mierzalnych oraz kilka cech niemierzalnych.
3. W dowolnym Roczniku statystycznym Głównego Urzędu Statystycznego wyszukaj znaki
umowne stosowane w tablicach statystycznych. Wyjaśnij ich znaczenie.
4. Jakie znasz rodzaje szeregów statystycznych?
5. Jakie są podstawowe formy prezentacji materiału statystycznego?
6. Wskazać najbardziej znane wtórne źródła pozyskania danych, na które powołują się
dziennikarze w dziennikach telewizyjnych.
7. W dowolnym Roczniku statystycznym Głównego Urzędu Statystycznego wyszukaj
przykłady szeregu rozdzielczego przedziałowego oraz szeregu czasowego. Znalezione
informacje przedstaw graficznie.
dr Mirosława Szewczyk
8
Statystyka
Problemy do dyskusji:
1. Wskaż przykłady zastosowań statystyki z jakimi spotykamy się na co dzień. Niech za ilustrację
zagadnienie posłużą następujące przykłady:
a. Dealerzy sprzętu AGD (np. pralek, lodówek, zmywarek,...) dokonują miedzy innymi
porównań zużycia wody, energii, głośności,...(analiza porównawcza).
b. Aby ustalić właściwy poziom stawek ubezpieczeniowych, towarzystwa ubezpieczeniowe
powinny
mieć
rozpoznanie
współzależności
wielu
zmiennych
(np.
wiek
–
wypadkowość, wykonywany zawód – wypadkowość). Użyteczne w tym przypadku mogą
być metody opisu i wnioskowania statystycznego z zakresu korelacji i regresji.
2. Zapoznaj się z przykładowymi badaniami prowadzonymi przez Główny Urząd Statystyczny
(np. na stronie GUS http://www.stat.gov.pl). Które z nich można uznać za całościowe, a które
za częściowe?
dr Mirosława Szewczyk
9
Statystyka