Teoria badania
statystycznego oraz
pakiety statystyczne
Marcin Nestorowicz
STATYSTYKA
W erze globalnej, w której żyjemy
jesteśmy bez ustanie „bombardowani”
informacjami. Dzięki Internetowi mamy
do nich nieograniczony dostęp.
Trafną ocenę informacji umożliwia
właśnie statystyka. Statystyka to nauka
, której przedmiotem zainteresowania
są metody pozyskiwania i prezentacji,
a w szczególności analizy danych.
Historia statystyki
Początki statystyki wywodzą się z tradycji
dokonywania spisów powszechnych, a więc
ze zbierania informacji na temat ludności.
W Księdze Liczb znajdują się ślady
pierwszego takiego spisu.
Termin
„statystyka”
pochodzi
od
łacińskiego słowa status, czyli państwo. Po
raz pierwszy został użyty w piśmiennictwie
przez Gottfreida Achenwalla (1719-1772),
jako oznaczenie wiadomości o państwie.
Według arytmetyków politycznych m. in. John
Graunt (1620-1674) statystyka była metodą
wnioskowania na podstawie liczb, umożliwiającą
wykrycie
określonych
prawidłowości
spośród
pozornie chaotycznych zjawisk masowych. Do
połowy XIX wieku termin ten, oznaczał zbiór danych
o państwie przedstawionych w formie tabeli.
Rozwój statystyki zawdzięczany jest teorii
rachunku
prawdopodobieństwa,
zapoczątkowanej przez francuskich matematyków:
Blaise Pascal (1623-1662) i Pierre Fermat (1601-
1665) którzy zajmowali się analizą gier losowych.
Historia statystyki c.d.
STATYSTYKA OGOLNA
Statystyka opisowa jest ogólną charakterystyką istotnych właściwości
badanej zbiorowości (całej bądź częściej zbiorowości próbnej). Dzielona jest na
trzy działy:
• struktura zjawisk masowych, czyli badanie konkretnej zbiorowości, ze
względu na jedną cechę (np. płaca pracowników danego przedsiębiorstwa) ;
• zależności zjawisk masowych, czyli badanie konkretnej zbiorowości, ze
względu na dwie lub więcej cech (np. wydatki na reklamę produktu a wielkość
sprzedaży);
• dynamika zjawisk masowych, czyli badanie kształtowanie się określonego
zjawiska w czasie . Wykorzystywane są tutaj dane w postaci szeregów czasowych,
t. j. dane dotyczące jednego obiektu (np. przedsiębiorstwa) po czasie.
Metody statystyki opisowej dotyczą zbiorowości próbnej ( czyli tylko części
populacji generalnej). Wyniki otrzymane w próbie można przenieść na całą
populacje wówczas, gdy próba została pobrana z populacji generalnej w sposób
losowy. Uogólnienie takie z próby losowej na całą populacje nazywa się
wnioskowaniem statystycznym. Metodami statystycznymi niezbędnymi do
wnioskowania zajmuje się statystyka matematyczna. Powiązana jest z
rachunkiem prawdopodobieństwa, który umożliwia określenie z jakim
prawdopodobieństwem uzyskane wyniki z próby losowej można przenieść na
generalną populacje.
Rachunek prawdopodobieństwa łączy więc, statystykę opisową ze statystyką
matematyczną w spoistą całość, nazywaną statystyką ogólną.
Etapy badania
statystycznego
Badanie statystyczne złożone jest z określonych
czynności
zmierzających
do
ogólnej
charakterystyki istotnych właściwości badanej
zbiorowości. Wyróżniamy cztery etapy takiego
badania:
I. PRZYGOTOWANIE BADANIA.
II. OBSERWACJA STATYSTYCZNA.
III. OPRACOWANIE MATERIAŁU
STATYSTYCZNEGO.
IV. OPIS LUB WNIOSKOWANIE STATYSTYCZNE.
Etapy badania statystycznego
W pierwszym etapie badania określa się cel
badania, definiuje się zbiorowość i jednostki
statystyczne, dokonuje się wyboru cech
statystycznych oraz wyboru metod badawczych.
I. PRZYGOTOWANIE
BADANIA.
Zbiorowość statystyczna (populacja, masa statystyczna)
jest to zbiór dowolnych elementów objętym badaniem
statystycznym. Zbiorowość składająca się ze wszystkich
elementów danego rodzaju nazywa się populacją generalną,
cześć tej zbiorowości wydzieloną w sposób losowy bądź
nielosowy – próbą.
Jednostka statystyczna jest to poszczególny element
badanej zbiorowości.
Cechy statystyczne – właściwości jednostki badanej
zbiorowości :
cechy stałe – określają jednostki pod względem
rzeczowym,
czasowym i przestrzennym, są więc wspólne
wszystkim
jednostkom badanej zbiorowości i nie
podlegają badaniu;
Etapy badania statystycznego
I. PRZYGOTOWANIE BADANIA
c.d..
cechy zmienne – właściwości , którymi różnią się poszczególne
jednostki statystyczne, podlegają one badaniu:
cechy jakościowe (niemierzalne) – nie można ich zmierzyć,
lecz jedynie
określić słownie ( np. płeć) ;
cechy ilościowe (mierzalne) – dadzą się wyrazić za pomocą
liczb o
różnych miarach (np. wiek – w latach):
cechy quasi-ilościowe (porządkowe) - określają
natężenie
badanej
właściwości w opisowy sposób,
porządkując zbiorowość
( np. oceny studentów z
egzaminu);
cechy skokowe - cechy , których wartość da się
wyrazić
określonymi
liczbami
zmieniającymi
się
skokami, bez wartości
pośrednich z przedziału liczb
całkowitych nieujemnych(np.
liczba studentów na
wykładzie);
cechy ciągłe – cechy, które mogą przyjmować w danym
przedziale wszystkie wartości rzeczywiste, liczba
miejsc po
przecinku zależy od dokładności pomiaru (np.
wzrost).
Etapy badania statystycznego
I. PRZYGOTOWANIE BADANIA
c.d..
Badanie pełne obejmuje wszystkie jednostki populacji
generalnej. Do tej grupy zalicza się spisy i rejestracje bieżące
(systematyczne notowanie określonych faktów).
Badania częściowe stosowane jest, wówczas gdy
zbiorowość jest zbyt liczna lub badanie ma charakter niszczący
( np. badanie jakości produktu):
¨ badanie ankietowe – gromadzenie informacji o zbiorowości
za pomocą ankiety;
¨ badanie monograficzne – badanie jednej jednostki
statystycznej lub niewielkiej ich liczby z różnych punktów
widzenia (np. jednej, lub kilku gmin);
¨ metoda reprezentacyjna – badanie częściowe oparte na
wynikach próby losowej z populacji generalnej.
Szacunki polegają na ustaleniu właściwości lub wielkości
zbiorowości nieznanej na podstawie populacji znanej i
pozostającej z nią w określonych związkach:
¨ rachunek interpolacyjny – szacowanie nieznanych wartości
cech na podstawie znanych wartości wcześniejszych i
późniejszych;
¨ rachunek ekstrapolacyjny – szacowanie wartości
wykraczających poza przedział wartości znanych.
Etapy badania statystycznego
II. OBSERWACJA
STATYSTYCZNA.
Etap drugi badania statystycznego sprowadza się do ustalenia
wartości cech ilościowych lub jakościowych, dla wszystkich
jednostek populacji generalnej, lub jej próby. Uzyskany w wyniku
obserwacji zbiór danych nazywamy materiałem statystycznym.
Materiał pierwotny jest to zbiór danych gromadzonych do
celów badawczych. Materiał wtórny to zbiór danych
gromadzony
z
innych
powodów,
który
jest
wtórnie
wykorzystywany do celów badania.
Dane zebrane w wyniku obserwacji tworzą surowy materiał
statystyczny, który poddawany jest kontroli.
III. OPRACOWANIE MATERIAŁU
STATYSTYCZNEGO.
Etap trzeci polega na uporządkowaniu surowego materiału
statystycznego. Grupowanie – wyodrębnienie jednorodnych grup
z większej niejednorodnej zbiorowości. Grupowanie typologiczne
przeprowadzane jest na podstawie wariantów cech jakościowych.
Grupowanie wariancyjne oparte jest na cechach ilościowych.
Etapy badania statystycznego
III. OPRACOWANIE MATERIAŁU
STATYSTYCZNEGO c.d.
Z grupowaniem związane jest zliczanie danych, a więc
określanie liczb jednostek w grupach i w całej populacji. Tak
opracowany materiał statystyczny może być zaprezentowany w
formie szeregów statystycznych, tablic i wykresów.
Zbiór wyników obserwacji sklasyfikowanych według pewnej
cechy
to
szereg
statystyczny.
Szereg
szczegółowy
nieuporządkowany tworzą wartości badanej cechy rejestrowane
zgodnie z kolejnością obserwowania. Porządkując wartości
rosnąco lub malejąco, uzyskuje się szereg szczegółowy
uporządkowany.
Szereg rozdzielczy to uporządkowany i pogrupowany
materiał statystyczny. Poszczególnym wariantom cech ilościowym
lub jakościowym przyporządkowane są odpowiadające im
liczebności. Szereg rozdzielczy punktowy buduje się
przeważnie
dla
cechy
skokowej.
Szereg
rozdzielczy
przedziałowy złożony jest przedziałów klasowych, ich granice
mogą być one domknięte lub otwarte. Rozpiętość przedziału
(interwał), jest różnicą między górną i dolną granicą klasy.
Szeregi szczegółowe i rozdzielcze charakteryzują stan badanej
zbiorowości w określonym momencie (np. w danym miesiącu).
Przedstawiają więc populacje w układzie statycznym i służą do
analizy jej struktury.
Etapy badania statystycznego
III. OPRACOWANIE MATERIAŁU
STATYSTYCZNEGO c.d.
Szeregi przestrzenne – przedstawiają rozmieszczenie
wielkości statystycznych według podziału administracyjnego
(gmina, powiat, województwo), krajów, regionów geograficznych.
Szeregi
dynamiczne
(czasowe,
chronologiczne)
-
przedstawiają rozwój zjawiska w czasie. Szeregi czasowe
momentów prezentują zjawisko w ściśle określonym momencie,
zaś szeregi czasowe okresów w ściśle określonym przedziale
czasowym.
Tablica statystyczna – prezentowane są w niej dane
statystyczne, uporządkowane według określonych kryteriów.
Zawiera jeden szereg, lub łączy w jedną całość dwa lub więcej
szeregów statystycznych.
Wykres statystyczny – graficzna forma danych i narzędzie
prezentacji oraz analizy ogólnych informacji statystycznych.
Histogram to wykres przedstawiający zbiór prostokątów ,
których podstawy wyznaczone są na osi odciętych , poprzez
rozpiętości poszczególnych przedziałów, a wysokości określone
na
osi
rzędnych
poprzez
liczebności
odpowiadające
poszczególnym przedziałom. Diagram to wykres otrzymywany w
wyniku połączenia punktów o współrzędnych będących środkami
przedziałów i odpowiadających im liczebnościom.
SZEREGI STATYSTYCZNE
szczegółowe (wyliczające)
RODZAJE SZEREGÓW
CZASOWYCH
Etapy badania statystycznego
IV.OPIS LUB WNIOSKOWANIE STATYSTYCZNY.
Opis
statystyczny
dotyczy
tylko
danej
zbiorowości generalnej lub próbnej, wnioskowanie
statystyczne zachodzi wówczas kiedy badanie jest
reprezentacyjne i jego wyniki są uogólniane na całą
populacje generalną, której pobrana została próbka.
Opis statystyczny ma sumaryczny charakter ,
odnosi się więc do całej zbiorowości. Dokonywany
jest za pomocą odpowiednich miar ( np. średnia
arytmetyczna,
odchylenie
standardowe,
współczynnik korelacji). Metody wykorzystywane
w opisie statystycznym wchodzą w skład statystyki
opisowej.
Metody wnioskowania statystycznego wchodzą w
zakres statystyki matematycznej, która jest nauką o
metodach wnioskowania na podstawie wyników
pobranych w próbie o właściwościach populacji
generalnej, z której została wylosowana.
Do przeprowadzenia
badania
statystycznego
można skutecznie
użyć pakietów
statystycznych
OPROGRAMOWANIE
STATYSTYCZNE
NSCC 2007
NSCC Statiscal And Power Analysis Software jest
amerykańskim przedsiębiorstwem, założonym w 1981
roku. Dostarcza oprogramowanie statystyczne dla
przemysłu komputerowego.
NSCC 2007 to komercyjny pakiet statystyczny,
zawiera również oprogramowanie graficzne. Posiada
zbiór ponad 200 procedur do analizy i wizualizacji
danych m. in.: analiza szeregów, ocena masy, kontrola
jakości. Pakiet pozwala na dokładną i wszechstronną
analizę danych.
Cena wersji komercyjnej i edukacyjnej programu NSCC
2007 Deluxe Suite wynosi 1 449.95 $. Dostępna jest na
NCSS
2007
posiada
duży
zbiór
narzędzi
do
analizy
i
wizualizacji
danych.
OPROGRAMOWANIE
STATYSTYCZNE
System SPSS
System SPSS jest komercyjnym pakietem
statystycznym,
rozwijanym
od
1968
roku.
Przeznaczony jest do analizy i wizualizacji danych
oraz wyników . Program wykorzystuje architekturę
klient – serwer. Posiada budowę modułową, bazowym
modułem jest SPSS Base (zawiera podstawowe
procedury
statystyczne).
W
zależności
od
wymaganego
stopnia
zaawansowania
narzędzi
analitycznych dołączane są odpowiednie moduły do
bazowego. Praca z SPSS może być prowadzona z
oknami dialogowymi i kreatorami graficznymi lub za
pomocą języka poleceń.
W roku 2008 wydany został SPSS Statistics 17.0,
dostępny jest na systemy operacyjne: Windows,
Linux/ UNIX i Mac.
OPROGRAMOWANIE
STATYSTYCZNE
System SAS (Statistical Analysis System)
SAS to system przetwarzania informacji,
rozwijany przez SAS Institute od 1974 roku.
Zbudowany jest z modułów, przeznaczonych do
analizy dużych zbirów danych. Modułem
podstawowym jest Base SAS. Moduły SAS/STAT
odpowiada
za
zaawansowaną
analizę
statystyczną, zaś SAS/INSIGHT za interakcyjną
analizę statystyczną.
W Akademickim Centrum Komputerowym
Cyfronet AGH w Krakowie zainstalowana jest na
klastrze IBM Blade Center HS21 ( komputer
dużej mocy obliczeniowej) wersja 9.1.3 systemu
SAS.
W marcu 2008 roku została wydana wersja
9.2 systemu SAS.
OPROGRAMOWANIE
STATYSTYCZNE
STATA (Data Analysis and Statistical Softwer)
Program STATA rozwijany jest przez Statacorp od
1985 roku. Zakres możliwości programu obejmuje:
zarządzanie danymi, analizę statystyczną, symulacje
oraz programowanie statystyczne i macierzowe.
Praca na nim wykonywana jest za pomocą wiersza
poleceń. 11 sierpnia 2008 roku wydana została
wersja 10.1.
MATLAB
MATLAB
to
uniwersalne
środowisko
programowe do obliczeń naukowo – technicznych i
wizualizacji. MATLAB łączy analizę numeryczną,
obliczenia macierzowe, przetwarzanie sygnałów i
grafikę w łatwe do użycia środowisko.
OPROGRAMOWANIE
STATYSTYCZNE
MATLAB c.d.
MATLAB może poszerzyć swoje
możliwości
poprzez
dodanie
bibliotek. Biblioteka Statistics
Toolbox –zawiera rozszerzenia
statystyczne.
W ACK Cyfronet AGH na
komputerze dużej mocy Sun Fire
6800 saturn oraz klastrze IBM
Blade
Center
mars
jest
zainstalowane
oprogramowanie
MATLAB.
Sun Fire 6800 „saturn”
Dane:
system operacyjny – Solaris 10;
-12 procesorów Ultra Sparc III z zegarem 90Mhz;
-pamięć operacyjną 12 GB;
-pamięć dyskowa 1TB + 120GB.
DZIĘKUJE
ZA
UWAGE