STATYSTYKA OPISOWA
PRZEDMIOT I PODSTAWOWE POJĘCIA STATYSTYKI
znaczenie pierwotne status czyli państwo; nauka państwoznawstwa tj. nauka zajmująca się opisem procesów zachodzących w państwie
znaczenie współczesne zbiór danych; jako proces gromadzenia informacji (czynnościowe znaczenie terminu); parametr statystyczny czyli liczba syntetycznie opisująca badaną zbiorowość
STATYSTYKA to nauka traktująca o metodach ilościowych badania prawidłowości zjawisk masowych (zbiorowości)
ZBIOROWOŚĆ STATYSTYCZNA - zbiór dowolnych elementów podobnych pod względem określonych cech (ale nie identycznych) i poddanych badaniu statystycznemu;
Przedmiotem zainteresowania statystyki mogą być zbiorowości:
ludzi,
zwierząt lub roślin,
rzeczy,
faktów, zdarzeń.
KLASYFIKACJA ZBIOROWOŚCI STATYSTYCZNYCH
I) ze względu na ich liczebność wyodrębnia się zbiorowości:
a) skończenie liczne, składające się ze skończonej, przeliczalnej liczby jednostek statystycznych,
b) nieskończenie liczne, tworzone przez nieskończoną liczbę jednostek statystycznych;
II) ze względu na przyjęty zakres czasowy badania dokonuje się podziału zbiorowości na:
a) statyczne, gdy wszystkie jednostki statystyczne są badane według stanu na ten sam moment czasowy,
b) dynamiczne, gdy zbiorowość jest charakteryzowana ze względu na określoną cechę w pewnym przedziale czasowym,
III) ze względu na liczbę cech niezbędnych dla ich opisu wyróżnia się zbiorowości:
a) proste (jednorodne), które są opisywane niewielką liczbą cech (1 - 2),
b) złożone (niejednorodne), dla opisu których wykorzystuje się liczny zbiór cech,
Każda zbiorowość składa się z JEDNOSTEK STATYSTYCZNYCH - każda pojedyncza jednostka podlegająca badaniu;
Zbiorowości badane są ze względu na wybrane właściwości interesujące badacza tj. ze względu na CECHY STATYSTYCZNE - właściwości których odmiany lub wartości wyróżniają jednostki wchodzące w skład zbiorowości statystycznej
KLASYFIKACJE CECH STATYSTYCZNYCH
z punktu widzenia sposobu zapisu wartości cechy wyróżnia się:
a) cechy opisowe (określane również jako werbalne, niemierzalne, jakościowe), których realizacje są wyrażane na skali nominalnej lub porządkowej
b) cechy liczbowe (zwane również ilościowymi, mierzalnymi), których wartości są mierzone na skalach interwałowej bądź ilorazowej (np. waga, wiek, temperatura);
według możliwości ich pomiaru fizycznego:
a) cechy mierzalne, czyli takie których wartości są wynikiem pomiaru fizycznego i wyrażone są w określonych jednostkach miary,
b) cechy pośrednio mierzalne, tzn. cechy których wartości wyrażone są liczbowo, ale liczby te są jedynie wynikiem oceny (przyporządkowane są odpowiednim wyrażeniom słownym),
c) cechy niemierzalne, czyli cechy których wartości są wyrażane słownie,
ze względu na liczebność zbioru wartości cechy wyróżnia się:
a) cechy stałe, dla których zbiór wartości jest jednoelementowy; innymi słowy każdemu obiektowi badanej zbiorowości przypisywana jest ta sama wartość cechy. Niekiedy wśród nich wyróżnia się dodatkowo cechy stałe rzeczowe, czasowe i przestrzenne umożliwiające precyzyjne zdefiniowanie jednostki i zbiorowości statystycznej dla określonego badania. Cechy te odpowiadają zakresowi rzeczowemu, czasowemu i przestrzennemu badania.
b) cechy zmienne, dla których zbiór wartości jest co najmniej dwuelementowy. Cechy te stanowią przedmiot badań statystycznych.
Wśród cech zmiennych dokonuje się zwykle dalszego ich podziału i wyróżnia się dodatkowo:
1) dla cech opisowych:
a) cechy dwuwariantowe (zero-jedynkowe),
b) cechy wielowariantowe,
2) dla cech liczbowych:
a) cechy skokowe (dyskretne); posiadają one przeliczalny zbiór wartości zawierający się w zbiorze liczb naturalnych (liczby całkowite nieujemne),
b) cechy ciągłe, których zbiór wartości jest nieprzeliczalny i należy do zbioru liczb rzeczywistych; wartości takiej cechy są nieskończenie podzielne i mogą być wyrażane z dowolnie dużą dokładnością,
ETAPY BADANIA STATYSTYCZNEGO
I - programowanie badania statystycznego,
II - gromadzenie danych,
III - opis statystyczny,
IV - wnioskowanie statystyczne.
PROGRAMOWANIE BADANIA STATYSTYCZNEGO
problem badawczy, czyli sformułowanie celu badania,
zakres rzeczowy badania, czyli sprecyzowanie jednostki i zbiorowości statystycznej w proponowanym badaniu,
zakres czasowy badania, czyli przyjęcie momentu czasowego bądź przedziału czasowego dla badania,
zakres przestrzenny badania, czyli sprecyzowanie obszaru, z którego wywodzi się badana zbiorowość,
cechy statystyczne, ze względu na które będzie dokonana charakterystyka zbiorowości bądź zjawiska,
metodę badania zbiorowości bądź zjawiska, czyli wybór jednej z dwóch metod, tj. badania całkowitego lub częściowego,
sposób gromadzenia informacji gwarantujący uzyskanie danych o najwyższym stopniu wiarygodności,
treść formularza badawczego; czynność szczególnie istotna w przypadku badań ankietowych.
GROMADZENIE DANYCH
etap o zasadniczym znaczeniu,
„jakość” zebranych danych decyduje o „jakości” i prawidłowości formułowanych wniosków,
kończy się kontrolą merytoryczną zgromadzonego materiału
OPIS STATYSTYCZNY
opracowanie i analiza zgromadzonego materiału statystycznego,
Opis: parametryczny, graficzny, tabelaryczny
Opis: struktury zbiorowości, współzależności wybranych cech, dynamiki badanego zjawiska
WNIOSKOWANIE STATYSTYCZNE
Odbywa się przy wykorzystaniu odpowiednich metod statystycznych,
Zadaniem jest wnioskowanie o prawidłowościach występujących w zbiorowości całkowitej na podstawie wyników badań stwierdzonych w badanej próbie statystycznej
METODY OPISU ZBIOROWOŚCI STATYSTYCZNEJ
opis tabelaryczny- materiał surowy,
szereg statystyczny,
szereg szczegółowy,
szereg rozdzielczy:
- punktowy,
- z przedziałami klasowymi.
opis graficzny,
opis parametryczny-stanowi jeden z najczęściej wykorzystywanych sposobów opisu rozkładu cechy statystycznej głównie z uwagi na jego syntetyczną i skróconą postać; ta forma opisu wykorzystuje parametry statystyczne tj. charakterystyki liczbowe opisujące rozkład wartości badanej cechy w szeregu statystycznym (polega na wyznaczeniu wartości miar, które są liczbami i służą do syntetycznego opisu struktury zbiorowości statystycznej).
OPIS PARAMETRYCZNY MOŻE OBEJMOWAĆ
określenie średniego poziomu zbioru wartości cechy, czyli wybór pojedynczej wartości cechy reprezentującej cały zbiór analizowanych wartości; ma tu zastosowanie grupa parametrów zwanych miarami średnimi i położenia,
określenie poziomu zróżnicowania (zmienności) analizowanego zbioru wartości cechy, do czego wykorzystywane są parametry zmienności (rozproszenia),
określenie poziomu odchylenia analizowanego rozkładu wartości cechy od rozkładu symetrycznego; badanie tej własności dokonywane jest przy pomocy miar skośności,
określenie poziomu skupienia bądź nierównomierności rozłożenia wartości cechy mierzone przy pomocy miar koncentracji.
MIARY ŚREDNIE
Wykorzystywane są do opisu przeciętnego poziomu analizowanego zbioru wartości cechy; miary te wskazują wartości najlepiej charakteryzujące wszystkie realizacje występujące w szeregu statystycznym i na ogół możliwe jest nadanie im odpowiedniej treści, dzielą się na miary:
klasyczne,
pozycyjne.
średnie klasyczne
a) śr. arytmetyczna
b) śr. geometryczna
c) śr. harmoniczna
d) śr. kwadratowa
średnie pozycyjne
a) mediana (wartość środkowa)
b) kwartyle (kwartyl 1 i kwartyl 3)
c) dominanta (modalna)
średnia arytmetyczna- definiowana jest jako suma wartości cechy mierzalnej podzielonej przez liczbę jednostek skończonej zbiorowości statystycznej; inaczej: iloraz sumy wszystkich wartości cechy i liczebności tego zbioru
szereg szczegółowy
szereg rozdzielczy punktowy
szereg rozdzielczy z przedziałami klasowymi
WYBRANE WŁASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
jako parametr klasyczny ustalana jest na podstawie wszystkich wartości cechy, a więc posiada wysoką wartość poznawczą,
suma ważona odchyleń poszczególnych wartości cechy od ich średniej arytmetycznej wynosi zawsze zero, co wynika z faktu, że średnia ta pełni rolę „środka ciężkości” analizowanego zbioru wartości cechy. Własność tę można zapisać relacją:
ważona suma kwadratów odchyleń poszczególnych wartości cechy od ich średniej arytmetycznej jest najmniejsza z możliwych, co można zapisać następującą zależnością:
jeśli w szeregu rozdzielczym wszystkie wagi (wi ) - w szczególnym przypadku będą to liczebności (ni ) bądź częstości (fi ) - pomnożymy (bądź podzielimy) przez ten sam czynnik q, to średnia arytmetyczna wartości cechy z nowym systemem wag ( vi), gdzie:
vi=wi*q lub vi=wi/q
będzie identyczna jak średnia liczona według pierwotnych wag (wi ). Można to ująć w następującej relacji:
Wynika to z faktu, że wartość średniej arytmetycznej nie zależy od absolutnych wielkości wag, lecz od proporcji występujących między nimi,
jeśli wszystkie wartości cechy X podzielimy (bądź pomnożymy) przez tę samą wielkość q to średnia arytmetyczna tak zmienionych wartości cechy będzie q-krotnie mniejsza (lub q-krotnie większa) od średniej pierwotnych wartości cechy. Własność tę można zapisać następującymi relacjami:
mediana (wartość środkowa, kwartyl drugi)-wartość cechy dzieląca badaną zbiorowość na dwie równe części w ten sposób, że połowa jednostek cechy przyjmuje wartości niższe lub równe i połowa jednostek cechy przyjmuje wartości wyższe lub równe medianie
właściwości mediany
nie zależy od wartości krańcowych,
możemy ją wyznaczać nawet wtedy, gdy nie wszystkie obserwacje są dokładnie znane,
uzyskana wielkość jest wartością przybliżoną,
dokładność obliczeń mediany zależy od rozpiętości przedziałów klasowych
kwartyl 1 (dolny) - wartość cechy dzieląca badaną zbiorowość na dwie części w ten sposób, że 25% jednostek cechy przyjmuje wartości niższe lub równe a 75% jednostek cechy przyjmuje wartości wyższe lub równe kwartylowi pierwszemu
kwartyl 3 (górny) - wartość cechy dzieląca badaną zbiorowość na dwie części w ten sposób, że 75% jednostek cechy przyjmuje wartości niższe lub równe a 25% jednostek cechy przyjmuje wartości wyższe lub równe kwartylowi trzeciemu
graficzne wyznaczanie mediany, kwartyla 1, kwartyla 3
diagram
dominanta (modalna, wartość najczęstsza) - jest to taka wartość zmiennej, która w danym szeregu statystycznym występuje najczęściej
Uwagi o wyznaczaniu dominanty:
jest tylko jedna wartość dominująca w szeregu statystycznym tzn. gdy rozkład jest jednomodalny, w szeregu symetrycznym dominanta jest równa średniej arytmetycznej,
przedział, w którym występuje dominanta oraz dwa sąsiadujące z nim przedziały muszą mieć jednakową rozpiętość. W szeregach o różnej rozpiętości wysoka liczebność w przedziale może być spowodowana szerszą rozpiętością w stosunku do innych,
szereg musi być umiarkowany (skośność umiarkowana)- jeśli w szeregu rozdzielczym z przedziałami klasowymi modalna występuje w skrajnych przedziałach - rozkład cechy jest skrajnie asymetryczny wówczas modalnej w zasadzie nie wyznacza się analitycznie.
miary zmienności (rozproszenia, dyspersji) - służą do pomiaru poziomu zróżnicowania wartości cechy w badanej zbiorowościdzielą się na dwie grupy:
bezwzględne, czyli wyrażone w jednostkach fizycznych:
obszar zmienności (rozstęp)
odchylenie ćwiartkowe
odchylenie przeciętne
odchylenie standardowe
wariancja
względne, czyli nie wyrażone w jednostkach fizycznych, ale często w wartościach procentowych
współczynniki zmienności
obszar zmienności (rozstęp) - miara prosta i łatwa do obliczeń, wadą jest to, że jego wartość zależy jedynie od dwóch skrajnych jednostek zbiorowości, miara ta nie daje dokładnych informacji jak dalece między sobą różnią się pozostałe jednostki zbiorowości, jest to miara pozycyjna
odchylenie ćwiartkowe - mierzy poziom zróżnicowania tylko części jednostek, a mianowicie pozostałej po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych, miara pozycyjna
zaleta: pozbawiona wpływu jednostek „nietypowych” dla badanej zbiorowości, wartości „nietypowe” znajdują się bowiem albo poniżej pierwszego kwartyla albo powyżej kwartyla trzeciego
wada: problem z nadaniem treści merytorycznej
wariancja - średnia kwadratów odchyleń poszczególnych wartości cechy od ich średniej arytmetycznej
mankament: miano nie jest naturalnym dla badanej cechy wynika z potęgowania odchyleń wartości cechy od średniej arytmetycznej np. kg2, h2, zł2
Właściwości:
jako klasyczna miara zmienności liczona jest w oparciu o wszystkie wartości cechy, a warunkiem jej wyznaczenia jest znajomość średniej arytmetycznej w stosunku do której jest obliczana,
przyjmuje tylko wartości nieujemne; wartość zerową osiąga w przypadku cechy stałej (wówczas wszystkie wartości cechy są identyczne),
jeśli w szeregu rozdzielczym wszystkie wagi - wi (w szczególnym przypadku ni lub fi ) pomnożymy bądź podzielimy przez tę samą wielkość q, to wariancja liczona przy tak zmienionym systemie wag będzie identyczna jak wariancja pierwotna; własność tę można wyrazić w sposób następujący:
jeśli wszystkie wartości cechy pomnożymy bądź podzielimy przez tę samą wielkość q, to wariancja tak zmienionych wartości cechy będzie q2 razy większa w przypadku mnożenia lub q2 razy mniejsza w przypadku dzielenia od wariancji pierwotnych wartości cechy; własność tę wyrażają poniższe równości:
jeśli do wszystkich wartości cechy dodamy lub od wszystkich wartości cechy odejmiemy tę samą wielkość q, to wariancja tak zmienionych wartości cechy będzie identyczna jak wariancja pierwotnych wartości cechy; wyraża to poniższy zapis:
wariancja stanowi różnicę między średnią arytmetyczną kwadratów wartości cechy a kwadratem średniej arytmetycznej wartości tej cechy:
odchylenie standardowe - określa o ile wszystkie jednostki badanej cechy różnią się od średniej arytmetycznej badanej zbiorowości; najczęściej wykorzystywana miara zmienności
TYPOWY OBSZAR ZMIENNOŚCI
Ustalenie średniej arytmetycznej i odchylenia standardowego pozwala na określenie typowego obszaru zmienności dla badanej cechy .Obszar ten zawiera się w przedziale:
odchylenie przeciętne - średna bezwzględnych odchyleń poszczególnych wartości cechy od ich średniej arytmetycznej
współczynniki zmienności
<0;100>
0-33,3% mała
33,4-66,6% średnia
66,7-100% duża
BADANIE SKOŚNOŚCI
Xi (szt) |
ni |
|
Xi (szt) |
ni |
5 |
1 |
|
5 |
2 |
10 |
7 |
|
10 |
5 |
15 |
5 |
|
15 |
5 |
20 |
5 |
|
20 |
7 |
25 |
2 |
|
25 |
1 |
skośność (asymetria) określa się jako brak symetrii w rozłożeniu wartości cechy względem ich średniej arytmetycznej, co jest równoznaczne z niesymetrycznym rozłożeniem jednostek statystycznych
RÓŻNICA MIĘDZY WARTOŚCIĄ ŚREDNIĄ I DOMINANTĄ- pozwala na stwierdzenia faktu występowania zjawiska asymetrii bądź jej braku i ewentualnego określenia jej kierunku
jeśli
zjawisko skośności nie występuje; rozkład jest symetryczny, tzn. występuje jednakowa liczba jednostek statystycznych poniżej i powyżej średniej arytmetycznej,
jeśli
rozkład jest asymetryczny; występuje skośność prawostronna, tzn. w zbiorowości dominują jednostki o wartościach cechy niższych od średniej,
jeśli
rozkład jest asymetryczny; występuje skośność lewostronna, tzn. w zbiorowości dominują jednostki o wartościach cechy wyższych od średniej.
Badanie skośności oznacza określenie jej rodzaju i poziomu odchylenia badanej cechy od rozkłady symetrycznego
miary skośności:
współczynniki skośności
trzeci moment centralny standaryzowany
współczynniki skośności
właściwości:
miara niemianowana
unormowana w przedziale
<-1,1>, skrajnie <-2,2>,
ws=1 całkowita asymetria dodatnia,
ws=-1 całkowita asymetria ujemna,
ws=0 brak asymetrii
0-0,33 mała
0,34-0,66 średnia
0,67-1 duża
trzeci moment centralny standaryzowany
trzeci moment centralny m3(x)
Miary koncentracji
dwie interpretacje koncentracji:
skupienie wartości cechy wokół średniej arytmetycznej,
nierównomierny rozkład globalnego funduszu wartości cechy wśród jednostek statystycznych badanej zbiorowości.
czwarty moment centralny standaryzowany
czwarty moment centralny m4(x)
skupienie (koncentracja) wartości cechy wokół średniej
współczynnik koncentracji Lorenza