STATYSTYKA
Statystyka
– nauka o gromadzeniu, porządkowaniu, prezentacji i
interpretacji danych w celu podejmowania decyzji
a) opisowa
– wstępna analiza danych, bez wykorzystywania metod rachunku
prawdopodobieństwa
b) matematyczna –
wnioskowanie statystyczne, tzn. uogólnianie wniosków z próby na
populację.
Populacja – zbiorowość
generalna – zbiór elementów (jednostek statystycznych), których
dotyczy badanie statystyczne
Cecha statystyczna – właściwość elementów zbiorowości generalnej, która jest interesująca z punktu widzenia badania; dzielone są na cechy stałe (wspólne dla wszystkich jednostek) oraz cechy zmienne (czyli te cechy, którym poszczególne jednostki się różnią).
Rozkład
cechy – przyporządkowanie wartościom cechy liczby ich
wystąpień (ile razy dana cecha występuje)
WSTĘPNA
ANALIZA DANYCH
1. porządkowanie –
konstrukcja szeregów statystycznych
2. prezentacja
graficzna – wykres, histogram etc.
3. opis
danych za pomocą mierników statystyki opisowej (miary
położenia, zmienności, asymetrii)
Ad.
1
Szereg statystyczny – uporządkowany
zbiór wyników obserwacji jednostek wg pewnej cechy.
a) szereg
szczegółowy prosty – materiał statystyczny uporządkowany
jest wyłącznie wg wartości badanej cechy, zazwyczaj uporządkowanej
rosnąco; dobry wtedy, gdy jest mało wartości.
b) szereg
rozdzielczy – wyniki uporządkowane są wg wariantów
badanej cechy; określają one strukturę badanej cechy
&
punktowy – budowane dla cechy skokowej (tylko te cechy
mierzalne, których wartości są liczbami całkowitymi)
&
przedziałowy – przedziały i liczebności
Ad.
3
Miary statystyki opisowej:
a)
położenia – służą do wskazania centrum rozkładu,
wartości typowych i średnich (np. średnia arytmetyczna, średnia
harmoniczna, średnia geometryczna, dominanta (modalna/moda),
kwantyle.
b) zmienności – służą do opisania
jak bardzo różnią się cechy między sobą (np. rozstęp,
wariancja, odchylenie standardowe, odchylenie przeciętne,
współczynnik zmienności)
c) asymetrii –
pozwala na określenie, gdzie znajduje się większość badanych
jednostek – powyżej czy poniżej wartości średniej (np. wskaźnik
asymetrii, współczynnik asymetrii)
A. średnia
arytmetyczna – suma wartości zmiennej populacji podzielonej przez
liczbę wszystkich jednostek
B. średnia
geometryczna – pierwiastek n-tego stopnia z iloczynu n wartości
zmiennej
C. średnia harmoniczna –
odwrotność średniej arytmetycznej z odwrotności wartości
zmiennych
D. mediana – wartość średnia
E.
dominanta – wartość najczęstsza
F.
kwantyle – wartości cechy, które dzielą zbiorowość na
określone części pod względem liczby jednostek. Wyróżnia się
kwartyle, decyle i centyle.
kwartyl – rzędu 1, 2 i 3;
kwartyl pierwszy dzieli zbiorowość tak, że 25% wartości ma
wartości niższe niż wartość kwartylu pierwszego, a 75% wyższe;
kwartyl drugi – inaczej mediana (po 50% wyższych i niższych
wartości od wartości kwartylu drugiego); kwartyl trzeci – 75%
populacji ma wartości niższe, a 25% wyższe od wartości kwartylu
trzeciego
- decyl – dzieli zbiorowość na 10 części pod
względem liczebności; np. decyl trzeci oznacza, że 0,3 zbiorowości
ma wartości niższe, a 0,7 wyższe niż wartość decyla trzeciego
- centyl – dzieli zbiorowość na 100 części pod względem
liczebności
G. rozstęp – różnica między wartością największą a najmniejszą zmiennej występującej w populacji
H.odchylenie
przeciętne – określa o ile wszystkie jednostki róźnią się
średnio ze względu na wartość od średniej arytmetycznej tej
zmiennej i jest średnią arytmetyczną modułów odchyleń wartości
cechy od jej średnie arytmetycznej.
I.
wariancja – średnia arytmetyczna z kwadratów odchyleń
poszczególnych wartości cechy od średniej arytmetycznej całej
zbiorowości; jako suma kwadratów dzielona przez liczbę dodatnią
jest zawsze liczbą nieujemną. Im bardziej zróżnicowana jest
zbiorowość, tym wyższa jest wartość wariancji. NIE INTERPRETUJE
SIĘ JEJ!!!
J.
odchylenie standardowe – pierwiastek kwadratowy z wariancji;
określa o ile wszystkie jednostki danej zbiorowości różnią się
średnio od średniej arytmetycznej zmiennej.
K.
współczynnik zmienności – iloraz bezwzględnej miary dyspersji i
odpowiednich wartości średnich; wyrażony w procentach, informują
o sile dyspersji
L.
współczynnik asymetrii
ROZKŁAD
NORMALNY
– rozkład Gaussa. Jest bardzo popularny
w
naturze. Jeśli jakaś wielkość jest sumą lub średnią bardzo
wielu drobnych losowych czynników, to niezależnie od rozkładu
każdego z tych czynników, jej rozkład będzie zbliżony do
normalnego, stąd można go bardzo często zaobserwować w danych.
Ponadto rozkład normalny ma interesujące właściwości
matematyczne, dzięki którym oparte na nim metody statystyczne są
dość proste obliczeniowo.
Przykładami rozkładu normalnego występującego w naturze jest
rozkład inteligencji, wzrostu, błędów pomiaru, natężenia
światła