p09 w01

Wykład 1

Wprowadzenie do przedmiotu statystyka

1.1.

Zarys historii

Istnieją świadectwa, że już w starożytności władcy gromadzili szczegółowe dane o ludności

i zasobach państwa. Już 2000 lat p.n.e. przeprowadzano w Chinach spisy ludności. Czwarta księga Starego Testamentu zawiera informacje o spisach ludności przeprowadzanych około 1500 r. p.n.e.

i instrukcje dla Mojżesza do spisu izraelskich wojowników. W VI w. p.n.e. urzędnicy rzymscy zwani cenzorami sporządzali w 5-letnich odstępach rejestr obywateli i ich własności w celach podatkowych i w celu wyznaczenia liczby mężczyzn zdolnych do służby wojskowej. W V w. p.n.e. Cezar August rozszerzył spis ludności na całe Imperium Rzymskie. Znane dzisiaj regularne spisy ludności zaczęły się dopiero w XVII wieku1.

U podstaw statystyki leży teoria rachunku prawdopodobieństwa wyjaśniająca mechanizmy

kształtowania się prawidłowości statystycznych poprzez obserwacje zjawisk występujących masowo

(wielokrotnie)2. Najstarszymi grami hazardowymi są gry w kości. Znane już były w starożytnym Egipcie

i Grecji. Pierwsze próby obliczenia, ile jest możliwych wyników w rzucie kilkoma kostkami napotyka się

w pracach z X i XI w. W 1654 roku francuski matematyk Blaise Pascal został poproszony

o rozstrzygnięcie dwóch problemów. Pierwszy dotyczył szans w pewnej grze w kości, zaś drugi wiązał

się z problemem podziału stawki między dwóch graczy, gdy grę trzeba przerwać. Pascal rozwiązał

oba problemy i napisał o nich do francuskiego matematyka i adwokata Fermata. Pierre de Fermat rozwiązał problemy inną metodą niż Pascal, co zapoczątkowało wymianę myśli na temat szans

w grach. Osiągnięte wyniki uznaje się za tak istotne, że rok 1654 został uznany za datę narodzin rachunku prawdopodobieństwa.

W roku 1812 francuski matematyk Pierre Simon de Laplace’a sformułował precyzyjną definicję

prawdopodobieństwa (w dziele „Analityczna teoria prawdopodobieństwa”). Laplace pisał „Teoria

prawdopodobieństwa polega na sprowadzeniu wszystkich zdarzeń tego samego rodzaju do pewnej

liczby przypadków jednakowo możliwych; są to przypadki, co do zajścia których w jednakowym

stopniu nic nie wiemy. Prawdopodobieństwo zdarzenia jest stosunkiem liczby przypadków

sprzyjających temu zdarzeniu do ogólnej liczby jednakowo możliwych przypadków”. Laplace zajmował

się również między innymi problemem ustalania składek ubezpieczeniowych i rent.

W XIX w. okazało się, że rachunek prawdopodobieństwa pomaga w zrozumieniu podstawowych

zasad fizyki. Wkrótce zaczęto go stosować również w genetyce, ekonomii, medycynie,

językoznawstwie, teorii informacji itd. Pojawiło się wiele prób „zmatematyzowania”, formalizacji rachunku prawdopodobieństwa. Za początek współczesnego rachunku prawdopodobieństwa

1 Por. H. G. Adamkiewicz, Statystyka. Zastosowania w ekonomii, Ośrodek Doradztwa i Doskonalenia Kadr Sp.

z o.o., Gdańsk 1996, s. 15-20.

2 Por. Encyklopedia szkolna. Matematyka, Wydawnictwa szkolne i pedagogiczne, Warszawa 1989; A. Luszniewicz, T. Słaby, Statystyka stosowana, Polskie Wydawnictwo Ekonomiczne, Warszawa 1997, s. 13-15

oraz M. Kałuszka, Rachunek prawdopodobień stwa i statystyka dla uczniów szkół ś rednich, Wydawnictwo Naukowo-Techniczne, Warszawa 1997, s. 17-18, 31, 80, 99-100, 115-116, 176-177.

dr Mirosława Szewczyk

Statystyka

przyjmuje się rok 1933, w którym to Andriej Kołmogorow wydał książkę „Podstawy rachunku

prawdopodobieństwa”.

Współczesna statystyka zajmuje się głównie procedurami wnioskowania statystycznego na bazie

szerokiego opisu. Przełom XIX i XX wieku oraz następne lata charakteryzowały się znaczącymi

odkryciami nowych procedur w dziedzinie statystyki. Do grona czołowych twórców statystyki zaliczani

są: Karl Pearson, Ronald Aylmer Fisher, amerykański matematyk polskiego pochodzenia Jerzy

Spława-Neyman oraz Abraham Wald, którzy zajmowali się teorią estymacji (szacowania) parametrów

oraz weryfikacji hipotez statystycznych. Spława-Neyman wraz z K. Pearsonem stworzyli teorię

testowania hipotez, która następnie została włączona do stworzonej przez Walda ogólnej teorii decyzji

statystycznych. Od Spławy-Neymana pochodzi również przyjęta powszechnie definicja doświadczenia

losowego.

1.2.

Podstawowe pojęcia

Statystyka jest nauką o metodach badania prawidłowości występujących w zbiorowościach,

opisującą te prawidłowości za pomocą liczb. W badaniach różnorodnych zbiorowości i zjawisk

znajdują zastosowanie metody opisu statystycznego i metody wnioskowania statystycznego.

Opis statystyczny jest liczbowym opisem badanych zbiorowości lub zjawisk i występuje w formie tabelarycznej, graficznej i parametrycznej. Szczególnie ważna jest parametryczna forma opisu

prawidłowości badanych zbiorowości, dokonywana za pomocą charakterystyk liczbowych, takich jak np. miary położenia, dyspersji i asymetrii. Wnioskowanie statystyczne polega na uogólnianiu

wniosków wynikających z badania i wykracza poza informacje wynikające ze zgromadzonych danych.

Przedmiotem badań statystycznych są określone zbiory jednostek, nazywane zbiorowościami

statystycznymi (lub inaczej populacjami). Jednostki powinny być ze sobą powiązane logicznie (tzn.

mie

ć przynajmniej jedną wspólną cechę statystyczną ) i jednocześnie nie powinny być identyczne

(tzn. różnić się przynajmniej jedną cechą statystyczna). Wyróżniamy przy tym populację generalną oraz populację próbną – próbę.

Populacja generalna to zbiór dowolnych elementów, nieidentycznych z punktu widzenia badanej

cechy. Może być skończonym lub nieskończonym zbiorem jednostek, które zamierzamy obserwować

empirycznie i analizować statystycznie. Próba, próbka to podzbiór populacji, podlegający

bezpośrednio badaniu ze względu na ustaloną cechę, w celu wyciągnięcia wniosków o kształtowaniu

się tej cechy w populacji.

Badać można wszystkie elementy populacji generalnej (badanie kompletne, całkowite,

wyczerpujące) albo tylko ich część (badanie częściowe). Badanie kompletne dostarcza pełnej

informacji o badanej cesze populacji generalnej. Często jednak jest niecelowe lub niewykonalne (np.

podczas badań niszczących), bywa również kosztowne i czasochłonne. Dlatego też zadaniem

3 Cechami statystycznymi (X1, X2,...) nazywamy przyjmowane w badaniu kryteria, umożliwiające łączenie jednostek (cechy stałe) w zbiorowość statystyczną lub ich podział (cechy zmienne) na podzbiorowości statystyczne.

dr Mirosława Szewczyk

Statystyka

statystyki jest wnioskowanie o właściwościach populacji na podstawie informacji zebranych podczas badania pewnego skończonego podzbioru (próby).

Wnioskowanie statystyczne polega na uogólnianiu wyników uzyskanych dla próby na całą

populację generalną z wykorzystaniem metod probabilistycznych. Reprezentatywność próby4 ma

zatem decydujące znaczenie dla jakości wyciągniętych wniosków.

Rys. 1. Zakres analizy statystycznej

Zbiorowość generalna; obserwacja

cech statystycznych oraz ich

rozkładów

Założenia i hipotezy badawcze

Zbiorowość próbna; obserwacja cech

statystycznych oraz ich rozkładów

Opisowa diagnostyka statystyczna

Wnioskowanie statystyczne

struktura korelacja dynamika

estymacja weryfikacja

Formułowanie ocen i wniosków

przeszłość przyszłość

Źródło: opracowanie własne na podstawie A. Luszniewicz, T. Słaby, Statystyka stosowana, PWE, Warszawa 1997, s. 25.

Cechy można podzielić na dwie zasadnicze grupy:

Cechy mierzalne (ilościowe, kwantytatywne), których warianty mogą przyjmować postać ciągłą lub skokową. Są to właściwości, które można zmierzyć i wyrazić za pomocą odpowiednich jednostek

(np. wagę – w kg, wielkość produkcji – w tys. szt). Realizacje cech ciągłych są wyrażane w danym przedziale ich zmienności poprzez dowolne liczby, podczas gdy realizacje cech skokowych są

wyrażane na ogół poprzez liczby całkowite.

4 Stopień w jakim próba reprezentuje populację generalną w celu uogólnienia na nią prawidłowości zaobserwowanych w próbie.

dr Mirosława Szewczyk

Statystyka

Cechy niemierzalne (jakościowe, kwalitatywne), których warianty (czyli realizacje opisowe) mogą przyjmować wyłącznie postać opisu słownego (np. płeć – kobieta, mężczyzna),

sprowadzonego niekiedy do postaci mierzalnej poprzez zastosowanie umownych skal numerycznych

(w tym także w postaci zmiennych zero-jedynkowych).

Tabela 1. Przykładowe zbiorowoś ci skoń czone i cechy statystyczne w badaniach zjawisk ekonomiczno-społecznych.

Cechy statystyczne

Zbiorowości

zmienne

statystyczne

stałe

ciągłe

skokowe

jakościowe

Firmy z

województwo

udziałem

Zysk netto

opolskie,

Zatrudnienie [osób]

Branża

kapitału

[tys. zł]

31.12.2005r.

zagranicznego

Liczba miast, liczba firm

Emisja

województwo

z udziałem kapitału

zanieczyszczeń

Zagrożenie

Powiaty

opolskie,

zagranicznego, liczba

powietrza

powodzią [tak/nie]

31.12.2005r.

indywidualnych

[tys. ton]

gospodarstw rolnych

Indywidualne

województwo

Liczba osób

Występujące o

Powierzchnia

gospodarstwa

opolskie,

pracujących w

dofinansowanie z

[ha]

rolne

31.12.2005r.

gospodarstwie

UE [tak/nie]

województwo

Miesięczne

Płeć, miejsce

Pracujący

opolskie,

wynagrodzenie

Liczba osób w rodzinie

zamieszkania

31.12.2005r.

[tys. zł]

Źródło: opracowanie własne na podstawie A. Luszniewicz, T. Słaby, Statystyka stosowana, PWE, Warszawa 1997, s. 22.

1.3.

Zbieranie materiału statystycznego

Badania naukowe sprowadzają się do prowadzenia obserwacji, a następnie interpretacji ich

wyników. Badanie statystyczne powinno być odpowiednio zaprojektowane. Proces planowania

badania powinien:

sprecyzować cel badania

zdefiniować zbiorowość statystyczną i jednostkę statystyczną

dokonać wyboru cech statystycznych

określić odpowiednią metodę badania statystycznego

podać źródła pozyskania danych: pierwotne (obserwacja, ankieta itp.) lub wtórne

(sprawozdawczość

przedsiębiorstw,

publikacje

Głównego

Urzędu

Statystycznego

dr Mirosława Szewczyk

Statystyka

i Wojewódzkich Urzędów Statystycznych, biuletyny agencji badań rynkowych lub badań opinii

publicznej itp.).

Jednostkami statystycznymi mogą być ludzie bądź rzeczy, których cechy badacz obserwuje,

opisuje i wyjaśnia. Badania przekrojowe są oparte na obserwacjach prowadzonych w jednym punkcie

w czasie (np. stopa bezrobocia w gminach województwa opolskiego, stan na 31.12.2005 r.).

W badaniach dynamicznych przeprowadza się obserwacje w różnych okresach (np. stopa bezrobocia

w województwie opolskim w kolejnych miesiącach 2005 r.).

Badania przechodzą od fazy przeprowadzenia obserwacji, przetwarzania danych, aż do opisania

wyników, analizy i określenia implikacji.

1.4.

Opracowanie i prezentacja materiału statystycznego

W wyniku obserwacji statystycznej otrzymujemy zbiór danych liczbowych, zwanych danymi

statystycznymi. Należy je uporządkować. Grupowanie materiału statystycznego polega na podziale niejednorodnej zbiorowości na możliwie jednorodne grupy według obranych kryteriów. Po dokonaniu segregacji materiału na grupy dokonuje się zliczania danych w poszczególnych grupach oraz

prezentacji opracowanego materiału w postaci szeregu statystycznego.

Szeregiem statystycznym nazywamy zbiór wyników obserwacji uporządkowanych według

określonych cech. Szeregiem szczegółowym nazywamy zbiór danych uporządkowany wyłącznie

według wartości badanej cechy. Szereg szczegółowy obejmuje wartości cechy występujące

u wszystkich jednostek badanej zbiorowości, uporządkowane rosnąco lub malejąco. Szereg

szczegółowy daje całkowity materiał statystyczny, jest on jednak mało przejrzysty, dlatego stosuje się

go zazwyczaj gdy liczba obserwacji jest stosunkowo niewielka lub gdy badaczowi zależy na dużej dokładności.

Szereg rozdzielczy stanowi zbiorowość statystyczna podzielona na klasy według określonej cechy

(jakościowej lub ilościowej) z podaniem liczebności każdej z wyodrębnionych klas. Jeżeli liczba

wariantów cechy jest niewielka, to zwykle buduje się szeregi rozdzielcze punktowe. Jeśli natomiast wariantów jest dużo, to wówczas buduje się szeregi rozdzielcze z przedziałami klasowymi.

Szeregi

statystyczne

mogą

przedstawiać

badaną

zbiorowość

w układzie

statycznym,

charakteryzując jej stan w ściśle określonym momencie (np. w określonym dniu) lub w układzie

dynamicznym (zmiany zjawisk w pewnym okresie opisują szeregi czasowe). Szeregi czasowe

powstają, gdy podstawą grupowania jest czas, a celem badania jest analiza zmian zjawiska w czasie

(np. stopa bezrobocia w Polsce w latach 2000-2005).

Oprócz tabelarycznej formy prezentacji zebranego materiału statystycznego (w postaci szeregów

statystycznych), często stosuje się prezentację graficzną w postaci wykresów. Poniżej zamieszczono

przykłady prezentacji materiału statystycznego.

dr Mirosława Szewczyk

Statystyka

Tabela 2. Przykład szeregu rozdzielczego przedziałowego – gospodarstwa rolne według grup

obszarowych uż ytków rolnych w Polsce w 2004 r.

Wyszczególnienie

O powierzchni użytków rolnych w ha

0-1

1-5

5-15

15-50

50 i więcej

Liczba gospodarstw

987 939

1 078 373

580 649

175 060

22 147

Źródło: Rocznik statystyczny rolnictwa i obszarów wiejskich, GUS, Warszawa 2005, s. 199.

Tabela 3. Przykład szeregu rozdzielczego punktowego – wyniki egzaminu ze statystyki (czerwiec 2005)

Ocena

ndst

dst

plus dst

plus db

bdb

Liczebność (liczba studentów)

Źródło: Opracowanie własne – dane umowne.

Rys. 2. Przykład wykresu kołowego i wykresu słupkowego – struktura gospodarstw rolnych według grup obszarowych uż ytków rolnych w Polsce w 2004 r.

15-50 ha 50 ha i więcej

5-15 ha

20%

0-1 ha

35%

1-5 ha

38%

1 200 000

twrs 1 000 000

800 000

600 000

o g 400 000

200 000

icL

0-1 ha

1-5 ha

5-15 ha

15-50 ha

50 ha i

więcej

Powierzchnia użytków rolnych

Źródło: Opracowanie własne na podstawie Rocznika statystycznego rolnictwa i obszarów wiejskich, GUS, Warszawa 2005, s. 199.

dr Mirosława Szewczyk

Statystyka

Rys. 3. Przykłady wykresów słupkowych – wyniki egzaminu ze statystyki (czerwiec 2005)

100%

bdb; 10

w 25

80%

tón

ed 20

db; 30

tón

60%

ic 10

ł s

40%

dst; 20

20%

ndst

dst

plus dst

plus db

bdb

ndst;

Ocena

Źródło: Opracowanie własne – dane umowne.

Tabela 4. Przykład szeregu czasowego – pogłowie trzody chlewnej w Polsce w latach 1999-2005

(stan w koń cu lipca)

Lata

1999

2000

2001

2002

2003

2004

2005

Trzoda chlewna

18 537,6

17 122,0

17 105,6

18 628,9

18 605,3

16 987,9

18 112,4

[tys. sztuk]

Źródło: Uż ytkowanie gruntów, powierzchnia zasiewów i pogłowie zwierzą t gospodarskich w 2005 r. , GUS, Warszawa 2005, s. 97.

Rys. 4. Wykres szeregu czasowego - pogłowie trzody chlewnej w Polsce w latach 1999-2005.

20 000

. s 15 000

sty

10 000

1999

2000

2001

2002

2003

2004

2005

Lata

Źródło: Opracowanie własne na podstawie Uż ytkowanie gruntów, powierzchnia zasiewów i pogłowie zwierzą t gospodarskich w 2005 r. , GUS, Warszawa 2005, s. 97.

dr Mirosława Szewczyk

Statystyka

Rys. 5. Przykład wykresu radarowego – porównanie plonów wybranych zbóż w Polsce i województwie opolskim w 2004 r. (w dt/ha).

rzepak i rzepik

kukurydza na ziarno

pszenica ozima

Polska

województwo opolskie

jęczmień ozimy

żyto

Źródło: Opracowanie własne na podstawie Wyniki produkcji roś linnej w 2004 r.. , GUS, Warszawa 2005, s. 20-33, 47.

1.5.

Zagadnienia i pytania kontrolne

Pytania kontrolne:

1. Wyjaśnij pojęcia: populacja generalna, populacja próbna. Wskaż przykłady.

2. Podaj kilka przykładowych cech mierzalnych oraz kilka cech niemierzalnych.

3. W dowolnym Roczniku statystycznym Głównego Urzędu Statystycznego wyszukaj znaki

umowne stosowane w tablicach statystycznych. Wyjaśnij ich znaczenie.

4. Jakie znasz rodzaje szeregów statystycznych?

5. Jakie są podstawowe formy prezentacji materiału statystycznego?

6. Wskazać najbardziej znane wtórne źródła pozyskania danych, na które powołują się

dziennikarze w dziennikach telewizyjnych.

7. W dowolnym Roczniku statystycznym Głównego Urzędu Statystycznego wyszukaj

przykłady szeregu rozdzielczego przedziałowego oraz szeregu czasowego. Znalezione

informacje przedstaw graficznie.

dr Mirosława Szewczyk

Statystyka

Problemy do dyskusji:

1. Wskaż przykłady zastosowań statystyki z jakimi spotykamy się na co dzień. Niech za ilustrację

zagadnienie posłużą następujące przykłady:

a. Dealerzy sprzętu AGD (np. pralek, lodówek, zmywarek,...) dokonują miedzy innymi

porównań zużycia wody, energii, głośności,...(analiza porównawcza).

b. Aby ustalić właściwy poziom stawek ubezpieczeniowych, towarzystwa ubezpieczeniowe

powinny

mieć

rozpoznanie

współzależności

wielu

zmiennych

(np.

wiek

–

wypadkowość, wykonywany zawód – wypadkowość). Użyteczne w tym przypadku mogą

być metody opisu i wnioskowania statystycznego z zakresu korelacji i regresji.

2. Zapoznaj się z przykładowymi badaniami prowadzonymi przez Główny Urząd Statystyczny

(np. na stronie GUS http://www.stat.gov.pl). Które z nich można uznać za całościowe, a które

za częściowe?

dr Mirosława Szewczyk

Statystyka