PODSTAWOWE POJĘCIA STATYSTYCZNE:
Przedmiotem badań statystycznych są określone zbiorowości osób rzeczy i zjawisk.
Zbiorowość statystyczna[n] (populacja lub masa statystyczna)– zbiór dowolnych elementów objętych badaniem statystycznym.
Jednostki statystyczne– poszczególne elementy składowe badanej populacji.
Cechy statystyczne- są to właściwości jednostek wchodzących w skład badanej zbiorowości. Cechy te można podzielić na: cechy stałe i cechy zmienne.
Cechy stałe [ Xst]– określają jednostki pod względem rzeczowym (co?), czasowym (kiedy?) oraz przestrzennym (gdzie?). Cechy stałe są wspólne dla wszystkich jednostek w badanej zbiorowości. Nie podlegają one badaniu, a tylko decydują o zaliczeniu jednostek do danej zbiorowości.
Badaniom statystycznym podlegają jedynie ich cechy zmienne.
Cechy zmienne [Xzm]– są to właściwości którymi różnią się poszczególne jednostki statystyczne. Cechy te określane są jako zmienna losowa. W każdym badaniu statystycznym liczba cech zmiennych jest większa od jednej.
Cechy zmienne dzielimy na:
*jakościowe (niemierzalne)– nie można ich zmierzyć a określa się je tylko słownie (np. pochodzenie społeczne, płeć, kolor wlosów itp.). Można je wyrazić w różnych miarach np. w cm, latach, w złotych itp.,
*ilościowe (mierzalne)- można podzielić na:
-zmienne skokowe są to takie cechy, których wartości można wyrazić jedynie w liczbach zmieniających się skokami np.: liczba studentów w grupie, czy liczna pokoi zamieszkanych w domu. Cechy skokowe, które przyjmują bardzo duże wartości nazywane są cechami quasi (niby, prawie) ciągłymi np.: zarobki pracowników wyrażane w groszach,
-zmienne ciągłe mogą przyjmować każdą wartość z określonego przedziału liczbowego. Takimi zmiennymi są wiek, wzrost, waga. W praktyce ten podział cech na ciągłe i skokowe nie zawsze jest ostry, ponieważ pomiary dokonujemy z określoną dokładnością ( np.: do 1 miejsca po przecinku).
Zbiorowością statystyczną [n]– nazywamy taki zbiór jednostek, który podlega obserwacji statystycznej i który charakteryzuje się takimi samymi wariantami przynajmniej jednej cechy stałej oraz różnymi wariantami przynajmniej jednej cechy zmiennej.
Cechy charakteryzujące poszczególne jednostki zbiorowości mogą mieć różne warianty (rodzaje). Np.: cecha jakościowa, płeć może mieć dwa warianty: kobieta i mężczyzna. Mówimy wówczas o dwudzielnym (dychotomicznym) podziale. W takich przypadkach wariantom cechy przyporządkowuje się wartości 0 i 1, gdzie 1 oznacza występowanie cennego wariantu u cechy, a 0 jego brak. Taką cechę określa się mianem zmiennej zero – jedynkowej.
Biorąc pod uwagę liczbę cech poddanych badaniu zbiorowości statystyczne można podzielić na:
*jednowymiarowe (jednocechowe),
*wielowymiarowe (wielocechowe).
Pomiar: W procesie pomiaru określana jest wielkość (nasilenie) badanej zmiennej. Polega on na podporządkowaniu cechom statystycznym ustalonych symboli, którymi mogą być liczby, litery alfabetu, kolory, formy geometryczne itp.
W statystyce cechom statystycznym najczęściej podporządkowuje się liczby, które powinny wiernie odzwierciedlać mierzoną zmienność np. : cieżar [g], długość [m], czas [s] itp. jest to pomiar bezpośredni.
W statystyce wyróżnia się różne poziomy pomiarów, którym odpowiadają skale pomiarowe:
1.Niemetryczne (jakościowe):
*nominalna,
*porządkowa (rangowa).
2.Metryczne (ilościowe):
*przedziałowa (interwałowa),
*stosunkowa.
Skala nominalna- stanowi najmniej precyzyjny sposób pomiaru. Liczby pełnią tu tylko rolę umownych symboli służących do identyfikacji jednostek w celu ich klasyfikacji do określonych grup. Jedyną operacją matematyczna jest zaliczenie jednostek w obrębie grupy i obliczanie np. proporcji, odsetek itp. Przykładami liczb nominalnych są grupy krwi, numery telefonów, numery pokoi hotelowych itp.
Skala porządkowa (rangowa)- ma wszystkie cechy skali nominalnej a dodatkowo pozwala na podporządkowanie jednostek w obrębie grupy pod względem natężenia badanej cechy. Używa się tu więc stwierdzeń typu: większy niż, mniejszy niż. W skali tej liczby, zwane rangami, wyznaczają kolejność występowania jednostek, a nie określają odległość między nimi.
Podporządkowanie jednostek wg badanej cechy przy wykorzystaniu rang może być uporządkowaniem słabym lub mocnym.
Uporządkowanie jest słabe, jeżeli występują relacje między jednostkami typu: mniejszy bądź równy i większy bądź równy.
W skali porządkowej (rangowej) określone są:
*klasy owoców i warzyw
*klasy mleka,
*klasy jaj,
*9-stopniowa skala Richtera,
*stopnie wojskowe,
*miejsca na zawodach,
*wykształcenie,
*preferencje konsumentów itp.
SKALA PRZEDZIAŁOWA (interwałowa)– zachowuje wszystkie właściwości skali porządkowej, a dodatkowo umożliwia określenie odległości (dystansu) między jednostkami.Jednakowymi różnicom między stopniami właściwości badanych jednostek odpowiadają tu jednakowe różnice między przyporządkowanymi im liczbami. W skali przedziałowej punkt zerowy jest ustalony arbitralnie– brak jest zera absolutnego.
Skala stosunkowa (ilorazowa)- ma właściwości trzech poprzednich skal, a jej cechą charakterystyczną jest posiadanie naturalnego punktu zerowego. Punkt ten oznacza brak (fizyczny poziom zerowy) danej cechy. Umożliwia to dokonanie wszystkich operacji matematycznych.
W skali stosunkowej mierzy się: wiek, dochody, wielkość sprzedaży, długość, ciężar, wielkość zanieczyszczeń itp.
Wszystkie cztery skale mają kumulatywny charakter tzn. charakteryzują się narastającym stopniem dokładności pomiaru. Każda skala jest mocniejsza od poprzedniej. Zawiera wszystkie własności poprzedniej oraz dodatkowe.
Rodzaje badań statystycznych:
Wyróżnia się trzy metody badań statystycznych:
1.badania pełne (całkowite)– obejmujące wszystkie jednostki danej zbiorowości statystycznej,
2.badania niepełne (częściowe)– obejmujące niektóre jednostki zbiorowości statystycznej,
3.szacunki interpolacyjne i ekstrapolacyjne.
Badania zarówno pełne jak i częściowe mogą być:
*ciągłe (ewidencja urodzeń, ewidencja pracowników w firmie),
*okresowe (podejmowane w ścisłych odstępach czasowych– co 10 lat powszechne spisy ludności),
*doraźne (podejmowane w sytuacjach szczególnych straty materialne spowodowane klęskami, epidemią grypy itp.).
Badania pełne:
*spis statystyczny(doraźny lub okresowy obejmujący wszystkie jednostki zbiorowości statystycznej),
*rejestracja bieżąca (systematyczne notowanie określonych faktów będących przedmiotem badań– ruch wędrówkowy ludności.
Badania częściowe:
*ankietowe (informacje zbierane są za pomocą ankiet rozesłanych do określonych osób, czy instytucji),
*monograficzne ( szczegółowy opis i analiza wybranej jednostki statystycznej, wybranej jako typowa dla danej zbiorowości),
*reprezentacyjna– jest częściowym badaniem statystycznym opartym na próbie pobranej ze zbiorowości w sposób losowy. Jest to najbardziej prawidłowa forma badania statystycznego.
Zastosowanie rachunku prawdopodobieństwa przy przenoszeniu wyników z losowej próby na całą zbiorowość umożliwia określenie wielkości popełnianego błędu, czego nie dają metody ankietowa i monograficzna.
W sytuacji gdy niemożliwe jest zastosowanie badania bezpośredniego (pełnego lub częściowego) przeprowadza się wówczas szacunek statystyczny. Polega ona na ustaleniu wielkości lub właściwości nieznanej zbiorowości na podstawie zbiorowości znanej i pozostającej z nią w określonym związku.
Metody szacunku statystycznego:
*interpolacja (rachunek interpolacyjny)– polega na oszacowaniu znanych wartości sąsiednich (wcześniejszych lub późniejszych),
*ekstrapolacja (rachunek ekstrapolacyjny)– polega na szacowaniu wartości wykraczających poza przedział wartości znanych.
Mogą mieć charakter liniowy lub nieliniowy.
Interpolacja i ekstrapolacja liniowa opiera się na założeniu proporcjonalnego rozkładu wartości cechy pomiędzy liczebności lub jednostki czasu.
ORGANIZACJA BADAŃ STATYSTYCZNYCH:
W badaniu statystycznym wyróżnia się następujące etapy:
-przygotowanie (programowanie) badania,
-obserwację statystyczną,
-opracowanie i prezentację materiału statystycznego,
-opis lub wnioskowanie statystyczne.
I ETAP- przygotowania badania statystycznego: Obejmuje czynności przygotowawcze:
*ustalenie celu i metody badania,
*określenie zbiorowości statystycznej i cech podlegających badaniu,
*zdefiniowanie jednostki statystycznej i sprawozdawczej.
Zbiorowość i jednostka statystyczna są ściśle określone pod względem:
*rzeczowym (co?), *czasowym (kiedy?), *przestrzennym (gdzie?).
Jednostkami sprawozdawczymi są te jednostki, które posiadają odpowiednie źródła informacji niezbędnych w badaniu (firmy, instytucje itp.).
II ETAP- przygotowania badania statystycznego:
Jest to obserwacja polegająca na:
*ustaleniu wartości cech ilościowych,
*lub odmian cech jakościowych wszystkich jednostek tworzących zbiorowość statystyczną.
Może to odbywać się za pomocą:
*bezpośredniego pomiaru,
*zbierania informacji od jednostek sprawozdawczych.
Zbiór danych uzyskany w wyniku obserwacji nazywamy materiałem statystycznym.
Natomiast jeżeli dane są gromadzone specjalnie do celów badania statystycznego jest to materiał pierwotny (np. dane zbierane przy spisie powszechnym).
Jeżeli dane gromadzone są z innych powodów, a tylko wykorzystane do badań statystycznych- jest to materiał wtórny (np. dane o podatnikach itp.).
Zebrane materiały statystyczne tworzą tzw. surowy materiał statystyczny, który zwykle obciążony jest pewnymi błędami.
Błędy dzielimy na:
*systematyczne- zniekształcenie tendencyjne (zawyżone lub zaniżone dane sumaryczne w stosunku do rzeczywistości),
*przypadkowe- nieumyślne (wynikające z nieuwagi, niedbalstwa lub niewiedzy).
III ETAP- przygotowania badania statystycznego:
Opracowanie materiału statystycznego, które dzieli się na:
*grupowanie,
*zliczanie.
Grupowanie– polega na wyodrębnianiu jednorodnych cech (lub względnie jednorodnych) w ramach większej zbiorowości np. grupowanie według płci, stanu cywilnego itp.
Jednostki zaliczane do tej samej grupy nie powinny być zbyt zróżnicowane pod względem badanej cechy i liczba grup nie powinna być zbyt duża.
Jednolity system grupowania nazywa się klasyfikacją np.: podział jednostek chorobowych w służbie zdrowia lub wyodrębnianie na Wydziale poszczególnych kierunków kształcenia.
Grupowanie można podzielić na:
*proste- względem 1 cechy (np. podział studentów ze względu na płeć),
*złożone- względem kilku cech (np. podział studentów ze względu na przynależność do grup administracyjnych oraz średnią ocen),
lub na:
*typologiczne- wyodrębnia jednorodne grupy na podstawie wariantów cech jakościowych (podział ludzi aktywnych zawodowo według grup społeczno-ekonomicznych– pracujących na pełnym etacie w spółdzielniach rolniczych),
*wariancyjne- opiera się na cechach ilościowych (np. podział studentów jednego rocznika według miesiąca urodzenia).
Szereg statystyczny- jest to uporządkowany zbiór wyników obserwacji według pewnej cechy. Służy do prezentowania materiału statystycznego, może być przedstawiony w postaci tablicy i wykresu.
Szeregmoże być:
*nieuporządkowany (wartości lub cechy jednostek spisane są według kolejności badania),
*uporządkowany (te same wartości lub cechy uporządkowane są w określony sposób– według malejących lub rosnących wartości).
Klasyfikacja szeregów statystycznych:
Szeregi statystyczne:
1.szczegółowe (wyliczające),
2.rozdzielcze (strukturalne):
a)cech mierzalnych:
*punktowe,
*przedziałowe (klasowe),
b)cech niemierzalnych,
3.przestrzenne (geograficzne),
4.czasowe (dynamiczne):
a)momentów,
b)okresów.
Szereg szczegółowy– prezentuje materiał statystyczny uporządkowany wyłącznie według wartości badanej cechy (malejące lub rosnące). Najczęściej zmienne podawane są w kolejności od najmniejszego do największego.
Szereg rozdzielczy- zbiór wartości liczbowych uporządkowanych według wariantów badanej cechy mierzalnej lub niemierzalnej, przy czym poszczególnym wariantom zmiennej przyporządkowane są odpowiadające im liczebności. Ten rodzaj szeregu określa strukturę badanej zbiorowości.
Tworząc szeregi rozdzielcze na podstawie cechy mierzalnej, jej warianty określamy punktowo lub przedziałowo.
Szeregi rozdzielcze punktowe buduje się dla cechy skokowej.
Szeregi rozdzielcze przedziałowe – planuje się na początku badania statystycznego (bez uniwersalnych zaleceń statystycznych). Szereg ten powinien być tak zbudowany, aby klasyfikacja danych przeprowadzana była w sposób:
*rozłączny (poszczególne przedziały nie mogą zachodzić na siebie),
*wyczerpujący (klasy powinny obejmować wszystkie jednostki badanej zbiorowości).
Liczba przedziałów (klas) zależy od:
*liczebności zbiorowości,
*zmienności badanej cechy.
Zbyt mała liczba klas powoduje zbytnie skondensowanie materiału statystycznego (zaciera się prawidłowość rozkładu zmiennej). Natomiast zbyt duża liczba klas daje nadmierną szczegółowość, co utrudnia analizę i wyciąganie wniosków.
Podaje się też wzory do wyliczania orientacyjnej liczebności klas w zależności od liczebności zbiorowości: k=1+3,322 log n; k- liczba klas, n- liczebność zbiorowości.
Rozpiętość przedziału zwana jest długością, interwałem lub rozstępem przedziałowym.
Jest to różnica między górną i dolną granicą klasy. Jest ona uwarunkowana obszarem zmienności badanej cechy, a tym samym liczbą ustalonych klas.
Przybliżoną wielkość interwału można wyliczyć: i=xmax–xmin /k lub i=xmax–xmin/1+3,322logn; i- interwał przedziałowy, k- liczba klas, xmax- największa wartość cechy, xmin- najmniejsza wartość cechy.
Seregi przestrzenne (geograficzne lub terytorialne)– przedstawiają rozmieszczenie wielkości statystycznych według jednostek administracyjnych np.: województw, państw, części świata.
Seregi dynamiczne (czasowe – chronologiczne)– prezentują rozwój zjawisk w czasie, przy czym może być uwzględniony ściśle określony moment np.:
*1 października każdego roku (szeregi masowe momentów),
*pewien przedział czasowy- lata czy miesiące (szeregi czasowe okresowe).
IV ETAP- przygotowania badania statystycznego:
Może być w formie:
*opisu statystycznego,
*lub wnioskowania statystycznego.
Opis statyczny- dotyczy tylko danej zbiorowości generalnej lub próby (niekoniecznie losowej).
Ma charakter sumaryczny- nie odnosi się do poszczególnych jednostek ale do całej zbiorowości.
Opis statystyczny dokonuje się za pomocą odpowiednich miar:
*średnia arytmetyczna,
*odchylenie standardowe,
*współczynnik korelacji.
Wnioskowanie statystyczne- ma miejsce wówczas gdy badanie jest reprezentatywne (próba losowa) i jego wyniki są uogólnione na całą populację, z której została pobrana próba.
Możliwości uogólnienia wyników z próby losowej na całą populację daje rachunek prawdopodobieństwa.
Metody wnioskowania statystycznego wchodzą w zakres statystyki matematycznej.
Po obliczeniu charakterystyk liczbowych można przystąpić do analizy:
*struktury (estymacja przedziałowa– przedziały ufności),
*współzależności zjawisk masowych (korelacje, regresje, Chi-kwadrat),
*dynamiki zjawisk losowych (szeregi dynamiczne, indeksy zespołowe).
Celem badania statystycznego jest realizacja jednego lub kilku wymienionych zadań:
*poznanie rozkładu zbiorowości pod względem wybranej lub wybranych cech (analiza struktury),
*ocena rodzajów związków występujących między cechami (analiza współzależności),
*poznanie zmian zbiorowości w czasie (analiza dynamiki).
Niezależnie od celu badania statystycznego, całość prac związanych z jego realizacją można podzielić na cztery etapy:
1.przygotowanie (programowanie) badania,
2.obserwację statystyczną,
3.opracowanie i prezentację materiału statystycznego,
4.opis lub wnioskowanie statystyczne.
Statystyka opisowa:
Podstawowa analiza danych powinna doprowadzić do zwięzłego przedstawienia ogólnej charakterystyki istotnych właściwości badanej zbiorowości.
Liczby dające taki sumaryczny opis zbiorowości nazywamy parametrami statystycznymi.
Parametry tak charakteryzują zbiorowość , że porównywanie różnych zbiorowości statystycznych można sprowadzić do ich porównań.
Podstawowe zadania tych parametrów opisowych to:
1.określenie przeciętnego rozmiaru i rozmieszczenia wartości zmiennej,
2.określenie granic obszaru zmienności wartości zmiennej,
3.określenie skupienia i spłaszczenia ( w stosunku do kształtu krzywej rozkładu normalnego) oraz stopnia zmiany od idealnej symetrii.
Rozkładem empirycznym jednej zmiennej nazywamy podporządkowanie kolejnym wartościom zmiennej (x) odpowiadających im liczebności (n).
Rozkład odzwierciedla więc strukturę badanej zbiorowości z punku widzenia określonej cechy.
Rozkłady empiryczne ustalane są na podstawie konkretnych obserwacji. Od rodzaju rozkładów empirycznych zależy dobór odpowiednich statystyk służących do opisu zbiorowości.
Rodzaje rozkładów empirycznych:
Rozkłady empiryczne:
1.cechy skokowej:
a)wilomodalne,
b)jednomodalne:
*symetryczne:
-normalne,
-leptokurtyczne (spłaszczony),
-platokurtyczne (wysmókły),
*umiarkowanie symetryczne:
-prawoskośne,
-lewoskośne,
*skrajnie symetryczne:
-prawoskośne,
-lewoskośne,
2.cechy ciągłej:
a)jednomodalne:
*symetryczne:
-normalne,
-leptokurtyczne (spłaszczony),
-platokurtyczne (wysmukły),
*umiarkowanie symetryczne:
-prawoskośne,
-lewoskośne,
*skrajnie symetryczne:
-prawoskośne,
-lewoskośne,
b)wielomodalne.
Rozkład jednomodalny- jest to rozkład w którym krzywa liczebności (dla cechy ciągłej) lub diagram ( dla cechy skokowej) ma jedno maksimum.
Rozkład symetryczny jednomodalny- w nim liczebności odpowiadające wartościom zmiennej rozkładają się symetrycznie wokół liczebności największej.
Rozkłady empiryczne o charakterze symetrycznym występują rzadko. Częściej spotykamy się z rozkładami zbliżonymi do symetrycznych (asymetrycznych).
Rozkład asymetryczny- w nim liczebności mogą się skupiać wokół niskich bądź wysokich wartości cechy. Rozkłady asymetryczne mogą być:
*umiarkowanie asymetryczne,
*skrajnie asymetryczne.
Rozkład asymetryczny prawostronny (prawoskośny)- dużo jednostek posiada stosunkowo niskie wartości cechy, a niewiele jednostek ma wysokie wartości.
Rozkład asymetryczny lewostronny (lewoskośny)- stosunkowo niewiele jednostek posiada niskie wartości cechy, natomiast liczne występują jednostki o ich wysokich wartościach.
Rozkłady w których prawie wszystkie jednostki mają niskie lub wysokie wartości cechy nazywamy rozkładami skrajnie asymetrycznymi.
Są to rozkłady jednostronne względem wartości cechy o maximum liczebności.
Niektóre cechy statystyczne mogą mieć rozkład będący niejako kompozycją dwóch rozkładów asymetrycznych. Określa się je mianem rozkładów U lub rozkładów siodłowych.
Rozkłady bimodalne- są to rozkłady o wyraźnie zarysowanych dwóch punktach skupienia obserwacji. Rozkłady mające więcej niż dwa maksima lokalne nazywamy wielomodalnymi.
Rozkłady symetryczne i umiarkowanie asymetryczne charakteryzują zbiorowości jednorodne ze względu na badaną cechę.
Rozkłady asymetryczne, wielomodalne i siodłowe dotyczą zbiorowości, w których cechy są znacznie zróżnicowane.
W teorii statystyki wypracowano wiele charakterystyk opisowych za pomocą których można przeprowadzić analizę struktury zjawisk masowych czyli analizę właściwości różnych rozkładów.
Do charakterystyk najczęściej wykorzystywanych przy opisie struktury zbiorowości należą miary.
Najczęściej wykorzystywane miary:
*miary średnie (zw. miary położenia lub przeciętne lub miary poziomu zmienności)- służą do określania tej wartości zmiennej opisanej przez rozkład, wokół której skupiają się wszystkie pozostałe wartości zmiennej,
*miary rozproszenia ( zmienności, zróżnicowania, dyspersji)- służą do badania stopnia zróżnicowania wartości zmiennej,
*miary asymetrii (skośności)- służące do badania kierunku zróżnicowania wartości zmiennej,
*miary koncentracji- służą do:
-badania stopnia nierównomierności rozkładu ogólnej sumy wartości zmiennej pomiędzy poszczególne jednostki zbiorowości,
-analizy stopnia skupienia poszczególnych jednostek wokół średniej.
Charakterystyki opisowe:
Pozwalają w sposób syntetyczny określić właściwości badanych rozkładów i dokonać porównania różnych zbiorowości.
Wyróżnia się porównania:
*porównanie dwóch różnych zbiorowościpod względem tej samej cechy badania (np. struktura zgonów wg wieku mężczyzn i kobiet),
*porównanie dotyczące jednej zbiorowości dwóch różnych cechy ( struktura urodzeń dzieci wg kolejności urodzenia i wieku matek).
Miary średnie:
Miary położenia:
1.średnie klasyczne:
*średnia arytmetyczna,
*średnia harmoniczna,
*średnia geometryczna,
2.modalna,
3.kwartyle (dzielą zbiorowość na 4 części),
4.kwintyle (na 5 części),
5.decyle (na 10 części),
6.centyle,
7.percentyle (ma 100 części).
Średnia arytmetyczna- jest to suma wartości zmiennej wszystkich jednostek badań zbiorowości podzieloną przez liczbę wszystkich jednostek.
Średnią arytmetyczną definiujemy następującym wzorem:
Średnia arytmetyczna jest najlepszą miarą charakteryzującą rozkład cechy i dlatego jest miarą najczęściej używaną.
Często w praktyce (gdy pewnym pomiarom trzeba nadać większe znaczenie) oblicza się średnią arytmetyczną ważoną według wzoru:
; Wi- wagi.
Wagami są liczebności odpowiadające poszczególnym wariantom.
Oprócz średniej arytmetycznej można również wyróżnić inne rodzaje klasycznych miar tendencji centralnej w tym między innymi średnią geometryczną i średnią harmoniczną.Określa się je wzorami:
Średnia harmoniczna:
Średnia geometryczna:
Średnia geometryczna znajduje zastosowanie przy badaniu średniego tempa zmian.
Średnia harmoniczna- stosuje się ją, kiedy wartości zmiennej podane są w jednostkach względnych, np.: km/h, osób/km.
Modalna [Mo]- jest to wartość cechy, która w rozkładzie empirycznym występuje najczęściej. W szeregach szczegółowych i rozdzielczych tej wartości cechy odpowiada największa liczebność.
xo- dolna granica przedziału, w którym występuje modalna,
nm- liczebność przedziału modalnej,
nm-1- liczebność klasy poprzedzającej przedział modalnej,
nm+1- liczebność klasy następującej po przedziale modalnej,
km- rozpiętość przedziału klasowego modalnej.
Kwantyle- są to wartości cechy badanej zbiorowości, które dzielą się na określone części pod względem liczby jednostek. Części te mogą być równe lub pozostawać do siebie w określonych proporcjach.
Do najczęściej używanych kwantyli zaliczamy:
1.kwartyle:
*pierwszy, zwany dolnym,
*drugi, zwany miediany lub wartości środkowej,
*trzeci, zwany górnym.
2.Decyle- dzielą zbiorowość na 10 części pod względem liczebności.
3.Centyle (percentyle)= dzielą zbiorowość na 100 części pod względem liczebności.
Miary zmienne są to zjawiska masowo uwarunkowane działaniem:
*przyczyn głównych (wywołujących zmienność statystyczną),
*przyczyn ubocznych (wywołujących zmienność przypadkową).
Liczbowy rozmiar badanego zjawiska masowego może być zatem rozłożony na dwa składniki, będące rezultatami zmienności systematycznej i przypadkowej.
Przybliżonym miernikiem składnika systematycznego zbiorowości statystycznej są miary średnie.
Odchylenia poszczególnych wartości jednostek od wartości średnich powstają pod wpływem przyczyn przypadkowych.
Do pomiaru tych odchyleń wykorzystuje się miary zmienności (zróżnicowania, dyspersji, rozproszenia), które informują o zmienności badanej cechy.
Dyspersją nazywamy zróżnicowanie jednostek zbiorowości statystycznej ze względu na wartość badanej cechy.
Miary zmienności:
*bezwzględne (absolutne),
*względne (relatywne).
Do bezwzględnych miar zróżnicowania zalicza się:
*obszar zmienności,
*wariancję,
*odchylenie standardowe,
*odchylenie przeciętne,
*odchylenie ćwiartkowe.
Odchylenie przeciętne– określa o ile wszystkie jednostki danej zbiorowości różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej.
Odchylenie przeciętne jest średnią arytmetyczną bezwzględnych wartości (modułów) odchyleń wartości cechy od jej średniej arytmetycznej.
Odchylenie przeciętne wylicza się ze wzorów:
Dla szeregu wyliczającego:
Dla szeregu rozdzielczego punktowego:
Dla szeregu rozdzielczego przedziałowego:
N- ogólna liczebność danej zbiorowości,
k- liczna grup, na jaką podzielono badaną populację,
xi- średnia i-tej grupy,
n- liczebność grupy.
Wariancja- to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości.
Oblicza się ją w następujący sposób:
Dla szeregu wyliczającego:
Dla szeregu rozdzielczego punktowego:
Dla szeregu rozdzielczego przedziałowego:
Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji, czyli:
Odchylenie standardowe określa, o ile wszystkie jednostki badanej zbiorowości różnią się średnio ze względu na wartość badanej zmiennej od średniej arytmetycznej tej zmiennej. Z zależności między wariancją a odchyleniem standardowym wynika, że zawsze gdy chcemy obliczyć odchylenie standardowe, etapem pośrednim jest wyliczenie wariancji.
Odchylenie standardowe można wykorzystać do konstrukcji typowego obszaru zmienności badanej cechy. W obszarze tym mieści się około 2/3 wszystkich jednostek badanej zbiorowości statystycznej, gdyż jest on zawarty w granicach dwóch odchyleń standardowych.
Typowy obszar zmienności określa wzór:
Z odchyleniem standardowym wiąże się tzw. reguła trzech sigm. W myśl tej reguły wystąpienie obserwacji o wartości cechy spoza przedziału jest mało prawdopodobne.
Według tej reguły blisko trzecia część wszystkich obserwacji wartości zmiennej rózni się od średniej arytmetycznej o więcej niż +/- s, około jedna na 20 obserwacji przekracza tę średnią o wielkość +/-2s, a tylko jedna na 370 obserwacji przkracza średnią arytmetyczną o +/-3s.
Dlatego też w analizie dyspersji powszechnie stosuje się względną miarę zróżnicowania–współczynnik zmienności.
Współczynnik zmienności jest ilorazem bezwzględnej miary dyspersji do odpowiednich wartości średnich. Współczynnik zmienności wyrażamy w procentach.
Współczynniki zmienności informują o sile dyspersji. Duże ich wartości liczbowe świadczą o niejednorodności zbiorowości.
Można wyliczyć współczynniki zmienności kilkoma metodami:
*klasyczne:
*klasyczne:
*pozycyjne:
*pozycyjne:
Rachunek prawdopodobieństwa:
Rachunek prawdopodobieństwa zajmuje sie badaniem zdarzeń, które zależą od przypadku,
czyli tak zwanych zdarzeń losowych (np. wyniki rzutu monetą, kostką do gry). Wynik doświadczenia nazywamy zdarzeniem elementarnym (ω). Zbiór wszystkich zdarzeń elementarnych oznaczamy symbolem Ω. Jeśli Ω jest zbiorem skończonym, to każdy podzbiór zbioru nazywamy zdarzeniem losowym. W rachunku prawdopodobieństwa zbiór Ω nazywamy zdarzeniem pewnym, a zbiór ϕ nazywamy zdarzeniem niemożliwym.
Różnicą zdarzeń A i B (A-B, A/B) nazywamy zdarzenie oznaczone A-B, które składa się z tych wszystkich zdarzeń elementarnych, które należą do A i nie należą do B.
Czyli polegające na zajściu zdarzenia A i nie zajściu zdarzenia B.
Sumą lub alternatywą zdarzeń A i B (A∪B) nazywamy zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które należą do A lub do B.
Czyli polegające na zajściu przynajmniej jednego z tych zdarzeń.
Koniunkcją lub iloczynem zdarzeń A i B (A∩B) nazywamy zdarzenie złożone z tych wszystkich zdarzeń elementarnych, które należą do A i do B.
Czyli polegające na tym, że zawiera te i tylko te zdarzenia elementarne, które sprzyjają jednocześnie zdarzeniu A i B.
Jeżeli iloczyn zdarzeń A i B tworzy zbiór pusty (zdarzenie niemożliwe) to zdarzenia A i B nazywamy wykluczającymi się (wyłączającymi).
Zdarzeniem przeciwstawnym do zdarzenia A nazywamy zdarzenie oznaczane symbolem A’, do którego należą wszystkie zdarzenia elementarne nie należące do A.
Czyli A jest zdarzeniem dowolnym.
Mówimy, że zdarzenie A pociąga za sobą (implikuje) zdarzenie B (lub B jest następstwem zdarzenia A). Wszystkie zdarzenia elementarne wchodzące w skład zdarzenia A wchodzą tez w skład zdarzenia B.
Czyli każde zdarzenie elementarne sprzyjające zdarzeniu A sprzyja zdarzeniu B.
WYKRESY EULERA:
Przestrzeń zdarzeń elementarnych symbolizuje kwadrat, a zdarzenia A i B koła w tym kwadracie.
Prawdopodobieństwo- funkcja przyporządkowująca zdarzeniom liczbę P : A→P( A) , gdzie A ⊆ Ω
spełniająca następujące aksjomaty (warunki):
1. P( A) ≥ 0
2. P(Ω) = 1
3 dla każdego ciągu zdarzeń rozłącznych (tzn. wykluczających sie)
A1, A2,… zachodzi
$$P(\bigcup_{i = 1}^{\infty}{A_{i})\ = \sum_{i = 1}^{\infty}{P(A_{i})}}$$
Kombinacja bez powtórzeń: Ze zbioru A= {a, b, c, d} można utworzyć cztery 3-elementowe kombinacje bez powtórzeń: abc, abd, acd, bcd.
Więc liczba k-elementowych kombinacji bez powtórzeń dla zbioru n-elementowego określa się wzorem:
Ckn = (nk) = n!/ k!(n-k)!; gdzie: n!- jest iloczynem kolejnych liczb naturalnych na 1 do n, tzn. n!= 1*2*3...(n-1)*n.
Prawdopodobieństwo warunkowe zajścia zdarzenia B pod warunkiem , że zaszło zdarzenie A (zakładamy, że P(A)>0)
$$P\left( B \middle| A \right) = \frac{P(B \cap A)}{P(A)}$$
Zdarzenia niezależne- A i B są niezależne, jeśli P(A∩B) = P(A)×P(B) .
Prawdopodobieństwo całkowite:
Załóżmy, że zdarzenia Ai (i =1,…,m) spełniaja następujące 3 warunki:
1. Ai∪Α2 ∪... ∪Αm = Ω
2. Ai ∩Aj =∅ dla każdej pary (i, j), i ≠ j i, j =1,…,m
3. P(Ai) > 0 dla każdego i.
Wówczas dla każdego zdarzenia B mamy
P(B)=P(B|A1) x P(A1)+…+ P(B|Am) x P(Am)=$\sum_{i = 1}^{m}{P(}$B|Ai) x P(Ai)
WZÓR BAYESA: Przy założeniach jak powyżej, mamy
P(Ai| B)=$\frac{P\left( B \middle| Ai \right)P(Ai)\ }{P(B)}$
Próba losowa : ciąg zmiennych losowych o rozkładzie takim jak rozkład populacji.
Próbę otrzymaną w drodze doboru losowego nazywamy próbą losową (statystyczną próbą losową),a proces jej pobierania – losowaniem. Konkretny model postępowania prowadzący do do wyboru losowego nazywamy schematem losowania.
Podstawowe schematy losowania to:
Losowanie indywidualne – gdy losuje się pojedyncze elementy z danej populacji generalnej.
Losowanie grupowe (zespołowe) polega na tworzeniu zespołów, składających się z jednostek badania, a następnie losowaniu pewnej ich liczby według ustalonej zasady. Próbę statystyczną w losowaniu zespołowym tworzą wszystkie jednostki ze wszystkich wylosowanych zespołów (grup).
losowanie nieograniczone ze zwracaniem (zwane inaczej niezależnym lub zwrotnym ) – to takie, w którym losujemy kolejno jednostkę po jednostce za każdym razem tej samej populacji generalnej i przy tych samych prawdopodobieństwach wyboru. Ta sama jednostka może być tu wylosowana wielokrotnie, gdyż po jej pierwszym wylosowaniu zostaje ponownie włączona w skład populacji.
losowanie nieograniczone bez zwracania ( inaczej określane jako zależne ) jednostka raz wylosowana do próby nie bierze udziału w dalszym losowaniu, gdyż nie jest zwracana do danej populacji generalnej. W miarę losowania kolejnych jednostek do próby prawdopodobieństwo dostania się do elementów próby zmienia się.
losowanie ograniczone: losowanie warstwowe i systematyczne.
-Warstwowe: przed przystąpieniem do losowania populację dzielimy na pewną liczbę rozłącznych i wewnętrznie jednorodnych warstw. Każda jednostka populacji należy więc do jednej i tylko jednej warstwy. Próbę stanowią jednostki wylosowane ze wszystkich warstw.
-Losowanie systematyczne: po uporządkowaniu jednostek do próby włączamy co k-ty element populacji, poczynając od losowo wybranego j-tego elementu. K długość przedziału losowania (iloraz liczebności populacji i zakładanej liczebności próby)
Losowanie indywidulane, niezależne (zwrotne) nazywamy losowaniem prostym, a otrzymaną próbę określamy mianem próby prostej.
Rozkład statystyki z próby jest rozkładem prawdopodobieństwa wszystkich możliwych wartości, jaka ta statystyka może przyjąć, jeżeli obliczamy je na podstawie badania losowych prób o tych samych rozmiarach, pobranych z określonej populacji.
-Rozkład dokładny – statystyki U nazywamy jej rozkład prawdopodobieństwa wyznaczony dla dowolnej liczby naturalnej n, będącej liczebnością próby.
-Rozkład graniczny statystyki U -taki rozkład prawdopodobieńtwa tej statystyki, który otrzymuje się prz założeniu nieograniczenie dużej próby.
Rozkład średniej z próby ,, to rozkład prawdopodobieństwa wszystkich wartości , jakie może przybrać losowa zmienna , gdy próba o liczebności n jest pobierana z określonej populacji .
Teoria estymacji – dział statystyki, zajmujący się wyznaczaniem parametrów rozkładu populacji statystycznej za pomocą badania próby statystycznej.
Estymacja to dział wnioskowania statystycznego będący zbiorem metod pozwalających na uogólnianie wyników badania próby losowej na nieznaną postać i parametry rozkładu zmiennej losowej całej populacji oraz szacowanie błędów wynikających z tego uogólnienia. Wyrażenie nieznana postać jest kluczem do odróżnienia estymacji od drugiego działu wnioskowania statystycznego, jakim jest weryfikacja hipotez statystycznych, w którym najpierw stawiamy przypuszczenia na temat rozkładu, a następnie sprawdzamy ich poprawność.
W zależności od szukanej cechy rozkładu można podzielić metody estymacji na dwie grupy:
Estymacja parametryczna - metody znajdowania nieznanych wartości parametrów rozkładu
Estymacja punktowa
Estymacja przedziałowa
Estymacja nieparametryczna - metody znajdowania postaci rozkładu populacji
Hipoteza statystyczna to dowolne przypuszczenie dotyczące rozkładu populacji - postaci funkcyjnej lub wartości parametru rozkładu. Proces sprawdzenia prawdziwości tego przypuszczenia na podstawie wyników próby losowej to weryfikacja hipotez statystycznych.
Formułowanie hipotezy statystycznej rozpoczyna się zabranianiem informacji na temat populacji i jej możliwego rozkładu. Dzięki temu możliwe jest zbudowanie zbioru hipotez dopuszczalnych Ω, czyli zbioru rozkładów, które mogą charakteryzować badaną populację. Hipoteza statystyczna to każdy podzbiór zbioru hipotez dopuszczalnych.
Hipotezy statystyczne można podzielić na:
parametryczne - hipoteza dotyczy wartości parametru rozkładu
nieparametryczne - hipoteza dotyczy postaci funkcyjnej rozkładu
Według innego kryterium podział przebiega następująco:
proste - hipoteza jednoznacznie określa rozkład danej populacji, czyli odpowiadający jej podzbiór zbioru Ω zawiera jeden element (rozkład)
złożone - hipoteza określa całą grupę rozkładów, zaś odpowiadający jej podzbiór zbioru Ω zawiera więcej niż jeden element
alternatywna - przyjmujemy ją kiedy odrzucamy hipotezę zerową
Przy weryfikacji hipotez statystycznych można podjąć poprawną decyzję lub można popełnić jeden z dwóch błędów:
Błąd I rodzaju (α) - Jeśli hipoteza zerowa w rzeczywistości jest prawdziwa ( choć tego nie wiemy ) , ale na podstawie wyników hipotezę tę odrzucamy, to popełniamy błąd I rodzaju .
Błąd II rodzaju (β) - Jeśli hipoteza zerowa w rzeczywistości jest fałszywa ( choć tego nie wiemy ), ale na podstawie wyników z próby nie mamy podstaw do jej odrzucenia ( co w praktyce oznacza jej akceptację , czyli przyjęcie ) to wówczas popełniamy błąd II rodzaju.
Obszar krytyczny testu lub zbiór krytyczny - w statystyce zbiór wartości rozkładu funkcji testowej w teście statystycznym, których wystąpienie, przy założeniu prawdziwości hipotezy zerowej(H0), jest wystarczająco mało prawdopodobne, żeby (empiryczna) realizacja zmiennej losowej mieszcząca się w obszarze krytycznym pozwalała na odrzucenie tej hipotezy.
W statystyce wielkość obszaru krytycznego określamy zazwyczaj parametrem α i nazywamy poziomem istotności. Oznacza on prawdopodobieństwo wylosowania zmiennej losowej z tego przedziału, pod warunkiem prawdziwości hipotezy zerowej, np. obszar krytyczny α=0,05 oznacza 5% szansy na uzyskanie statystyki z tego przedziału przy założeniu hipotezy zerowej. Wartości brzegowe obszaru krytycznego nazywamy wartościami krytycznymi. Obszar krytyczny oznaczany jest symbolem C.