Istota terminu statystyka:
zestawienie liczbowe prezentowane w sposób uporządkowany, stanowiące precyzyjne źródło informacji o stanach i procesach społecznych, gospodarczych, politycznych, itp.,
przykład: rocznik statystyczny,
nauka zajmująca się metodami badania zjawisk masowych,
przykładowe parametry - miesięczny dochód, powierzchnia mieszkania, stan zdrowia (parametry te w odniesieniu do konkretnej rodziny nie byłyby przedmiotem zainteresowania statystyki, jeśli dotyczą większej społeczności statystycznej wtedy zajmuje się nimi statystyka),
Historia statystyki:
badania arytmetyków politycznych:
przedstawiciele:
J. Graunt (1620-1674),
W. Petty (1623-1687),
rozumienie statystyki jako metody wnioskowania na podstawie danych liczbowych umożliwiającej wykrywanie prawidłowości wśród pozornie chaotycznych zjawisk masowych,
badania państwowoznawcze:
nazwa statystyka wywodzi się z łaciny (od słowa status oznaczającego państwo),
przedstawiciel - G.Achenwall (1719-1772),
pierwszy raz użył terminu „statystyka” w piśmie, w znaczeniu zbioru szeroko ujmowanych wiadomości o państwie,
z powodu przewagi danych liczbowych, w ramach tego nurtu wykształcił się tabularyzm:
jest to metoda pojmowania danych liczbowych w formie tabel,
przedstawiciele:
J.K. Kirgiłow - pierwszy opis tabelaryczny Rosji,
J.P. Anchersen - pierwszy opis tabelaryczny Danii,
dalszy rozwój statystyki jest związany z powstaniem matematycznej teorii rachunku prawdopodobieństwa:
twórcy:
B. Pascal (1623-1662),
P. Fermat (1601-1665),
Działy statystyki:
|
STATYSTYKA |
|
|||||
|
|
|
|
|
|||
OPISOWA |
|
MATEMATYCZNA (INDUKCYJNA) |
|||||
|
|
|
|||||
|
|
|
|
|
|||
znawczych,
|
|
uwaga: nie ma wnioskowania bez opisu, |
Zastosowanie statystyki:
skuteczne i precyzyjne narzędzie ilościowego opisu i analizy zjawisk w warunkach przyrodniczych, humanistycznych i społecznych,
Pojęcia podstawowe związane ze statystyką:
zbiorowość statystyczna (populacja/masa statystyczna) - zbiór dowolnych elementów objęty badaniem statystycznym,
elementy te musza mieć podobne, ale nie identyczne cechy,
przykłady:
zbiór krzeseł kinowych nie nadaje się na zbiorowość statystyczną, ponieważ wynik dla jednego elementu będzie identyczny dla całej populacji,
zbiorowość ludzka np. rodzina, może być przedmiotem badania statystycznego ponieważ jej elementy różnią się od siebie,
jednostka statystyczna (jednostka badania lub obserwacji) - element składowy badanej zbiorowości,
cechy statystyczne:
|
CECHY STATYSTYCZNE |
|
|
|
|||
|
|
|
|
|
|
|
|
CECHY STAŁE |
|
CECHY ZMIENNE |
|
||||
|
|
|
|
|
|
||
|
|
JAKOŚCIOWE (NIEMIERZALNE) |
|
ILOŚCIOWE (MIERZALNE) |
|
||
|
|
|
|
|
|
||
|
|
|
SKOKOWE |
|
CIĄGŁE |
cechy stałe - charakterystyka zbiorowości:
rzeczowa - co badamy?
przestrzenna - gdzie są badane obiekty?
czasowa - kiedy dokonuje się badania?
cechy zmienne - właściwości, którymi różnią się poszczególne jednostki statystyczne podlegające badaniu (np. różnice w ilości),
cechy jakościowe (niemierzalne) - cechy, których nie można wyrazić liczbowo (np. pochodzenie społeczne, wykształcenie),
cechy ilościowe (mierzalne) - cechy, które można wyrazić liczbowo w odpowiednich jednostkach miary (np. waga - kg, wzrost - cm),
cechy skokowe - cechy, których wartości mogą się wyrażać jedynie liczbami zmieniającymi się skokami bez wartości pośrednich - liczby całkowite (np. ilość studentów w grupie),
cechy ciągłe - cechy, które mogą przyjmować każdą wartość z określonego przedziału liczbowego - liczby rzeczywiste (np. wzrost, wiek),
uwaga: podział na cechy skokowe i ciągłe nie zawsze jest ostry ponieważ:
każdy pomiar ma skończona dokładność, dlatego cechy ciągłe mogą być traktowane jako skokowe,
można zwiększać wartość pomiaru, dlatego cechy skokowe mogą być traktowane jak ciągłe,
warianty (rodzaje cech) - np. płeć, wzrost, wiek, itp., - jest nieskończenie wiele wariantów,
jednostka sprawozdawcza - osoba fizyczna lub prawna (przedsiębiorstwo, organizacja społeczna) posiadająca źródła danych niezbędnych w badaniu,
Podział badań statystycznych:
ze względu na metody
pełne - obejmują wszystkie jednostki danej zbiorowości,
spis statystyczny - np. powszechny spis ludności,
rejestracja bieżąca - systematyczne notowanie określonych faktów będących przedmiotem badania (np. ewidencja urodzeń, zgonów),
niepełne (częściowe) - przeprowadzane jest gdy zbiorowość statystyczna jest zbyt liczna (czas, koszty), badanie może mieć charakter niszczący lub gdy chodzi jedynie o wyniki orientacyjne,
ankietowe - rozsyłanie ankiet do ściśle określonych osób,
monograficzne - szczegółowy i precyzyjny opis ściśle wybranej jednostki,
reprezentacyjne - badanie oparte na próbie pobranej losowo z całej zbiorowości (najbardziej poprawne badanie częściowe),
szacowanie statystyczne - ustalenie właściwości nieznanej zbiorowości na podstawie właściwości wspólnej dla niej i dla innej poznanej już zbiorowości,
interpolacyjne - szacowanie nieznanych wartości cechy na podstawie znanych wartości wcześniejszych i późniejszych,
ekstrapolacyjne - szacowanie nieznanych wartości cechy w momencie wykraczającym poza czasowy przedział wyznaczony przez wartości znane,
PRZYKŁAD:
dane: średnia liczba zatrudnionych w przedsiębiorstwie X:
1989 - 5000 osób
1999 - 8200 osób
szukane: średnia liczba osób zatrudnionych w roku 1992 (interpolacja) i 2000 (ekstrapolacja) przy założeniu liniowości (proporcjonalność rozkładu cechy w czasie - stała zmiana wartości cechy przy zmianie czasu),
8200-5000=3200 - wzrost zatrudnienia w latach 1989-99
3200 osób - tyle przybyło przez 10 lat
przyrost roczny: 320
1992 rok - 5000+3lata∙320=5960
2000 rok - 8200+320=8520
dane: liczba ludności w województwie Z:
31.12.1993 - 100 000 osób
31.12.1995 - 104 040 osób
szukane: liczba ludności w 2013 roku (ekstrapolacja) przy założeniu nieliniowości (ekstrapolacja wykładnicza - w kolejnych jednostkach czasu zmiany wartości cechy są coraz większe),
coraz większy (nieproporcjonalny) wzrost wartości cechy w jednakowych odcinkach czasu
L0 - początkowa liczba ludności,
Ln - liczba ludności po n latach,
p - roczna stopa przyrostu ludności,
L1 - liczba ludności po 1 roku od L0
L1 = L0+L0p = L0(1+p)
L2 = L1+L1p = L1(1+p) = L0(1+p)2
Ln = Ln-1+ Ln-1p = Ln-1(1+p) |
} |
= L0(1+p)n |
L0(1+p)n-1 |
|
|
Ln = L0(1+p)n-1
Ln/L0 = (1+p)n /n√
n√Ln/L0 = (1+p)
p = n√Ln/L0 -1
L0 = 100 000, po 2 latach L2 = 104 040
p = 2√104 040/100 000 -1
p = 102/100 -1
p = 0,02
rok 2013-rok 1993 = 20 lat
L20 = L0(1+p)20
L20 = 100 000(1+0,02)20
L20 = 100 000(1,02)20
L20 = 100 000 ∙ 1,4859473
L20 ≈ 148594,73
ze względu na częstotliwość
ciągłe - systematyczna i nieprzerwana obserwacja i analiza zjawisk zmieniających się w czasie (np. ewidencja urodzeń i zgonów),
okresowe - podejmowane w pewnych zazwyczaj ściśle określonych odstępach czasu (np. coroczne spisy rolne),
doraźne - przeprowadzane w szczególnych okolicznościach spowodowanych nieprzewidzianymi przyczynami (np. szacowanie strat po katastrofie),
Etapy badania statystycznego:
|
|
BADANIE STATYSTYCZNE |
|
|
|
|||||||||||
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||
PRZYGOTOWANIE (PROGRAMOWANIE) |
|
|
|
|
|
ZEBRANIE WYNIKÓW PODSUMOWANIE |
|
|||||||||
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
OBSERWACJA STATYSTYCZNA |
|
|
|
|
|
|
ANALIZA |
||||||||
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
OPIS |
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
PRZETWARZANIE MATERIAŁU |
|
WNIOSKOWANIE |
|
||||||||||
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
OPRACOWANIE |
|
|
PREZENTACJA |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||
GRUPOWANIE |
|
ZLICZANIE |
|
|
|
|
|
przygotowanie:
cel: czego chcemy się dowiedzieć?,
jednostka/zbiorowość statystyczna:
cechy stałe,
cechy zmienne,
jednostka sprawozdawcza,
metoda badania,
obserwacja statystyczna - zbieranie danych, przeprowadzanie badania (np. rozsyłanie ankiet), ustalenie wariantów cech zmiennych,
materiał statystyczny - zbiór danych uzyskany w trakcie obserwacji,
pierwotny - dokładny, bez zbędnych elementów (np. informacje uzyskane bezpośrednio od pacjenta na temat jego dolegliwości)anymi przyczynami (np.4444444444444444444444444444444444444444444444444,
wtórny - zbierane nie pod kątem konkretnego badania statystycznego (np. dane z karty choroby pacjenta), dane„z drugiej ręki”
błędy:
systematyczne - wynikające z jednokierunkowej tendencji do zniekształcania rzeczywistości (fałszowanie danych statystycznych),
przypadkowe błędy - nieumyślne, wynikające z nieuwagi,
kontrola:
formalna (ilościowa) - sprawdzenie kompletności materiału statystycznego (czy wypełniono wszystkie rubryki),
merytoryczna:
logiczna - czy określone dane są we właściwej rubryce (np. czy nie wpisano liczby papierosów wypalanych na dobę zamiast okresu palenia),
arytmetyczna - porównanie sumy uzyskanych danych liczbowych z liczbami w innych niezależnych źródłach (np. szpitalnych sprawozdaniach zbiorczych)
przetwarzanie materiału statystycznego:
opracowanie:
grupowanie - wyodrębnianie jednorodnych (tj. o zbliżonych cechach zmiennych) elementów badanego zbioru jednostek prowadzące do uzyskania informacji o właściwościach tego zbioru; rodzaje grupowania ze względu na:
liczbę cech:
grupowanie proste - jedna cecha (u nas np. typy stosowanej używki),
grupowanie złożone - kilka cech wzajemnie powiązanych i uzupełniających się (u nas np. typ używki i okres jej stosowania),
rodzaj cech:
grupowanie typologiczne - na podstawie cech jakościowych (np. typ schorzenia lub używki),
grupowanie wariancyjne - grupowanie na podstawie cech ilościowych (np. liczba papierosów na dobę),
uwaga:
zalecenie ogólne:
i) jednostki z jednej grupy nie powinny się zbytnio różnić względem badanej cechy ilościowej,
ii) grup nie powinno być zbyt wiele,
zliczanie - sumowanie danych (często związane z grupowaniem) np. chcemy określić liczbę badanych ze schorzeniem trwającym nie dłużej niż 5 lat,
przykładowa procedura:
liczymy jednostki ze schorzeniem trwającym dokładnie 1, 2, 3, 4 i 5 lat oddzielnie,
sumujemy 5 uzyskanych wyników,
prezentacja - dane statystyczne prezentujemy w postaci tzw. szeregów statystycznych (szereg statystyczny tj. zbiór wyników obserwacji jednostek pod względem pewnej cechy),
|
|
|
SZEREGI STATYSTYCZNE |
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
SZCZEGÓŁOWE (WYLICZAJĄCE) |
|
ROZDZIELCZE (STRUKTURALNE) |
|
|
|
PRZESTRZENNE (GEOGRAFICZNE, TERYTORIALNE) |
|
CZASOWE (DYNAMICZNE, CHRONOLOGICZNE) |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
CECH MIERZALNYCH |
|
CECH NIEMIERZALNYCH |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
MOMENTÓW |
|
OKRESÓW |
|||||||||
PUNKTOWE |
|
PRZEDZIAŁOWE |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
szczegółowe - przedstawienie materiału statystycznego jedynie względem wariantu badanej cechy w każdym z jednostkowych przypadków (np. wypisanie wraz z powtórzeniami liczb lat trwania schorzenia występujących w badaniu:
1, 5, 8, 4, 1, 4, 3, 4, 5, 4 - w sposób nieuporządkowany, według kolejności badania jednostek,
1, 1, 3, 4, 4, 4, 4, 5, 5, 8 - w sposób uporządkowany /rosnąco lub malejąco/ w przypadku cechy mierzalnej),
rozdzielcze - przedstawienie materiału statystycznego według wariantów badanej cechy z przyporządkowaniem liczebności:
punktowe mierzalne,
czas trwania schorzenia (lata) x |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
liczba jednostek y |
2 |
0 |
1 |
4 |
2 |
0 |
1 |
rozdzielcze przedziałowe,
czas trwania schorzenia (lata) x |
<1-3) |
<3-5) |
<5-7) |
<7-9) |
liczba jednostek y |
2 |
5 |
2 |
1 |
rozdzielcze niemierzalne:
rodzaj schorzenia |
A |
B |
C |
D |
liczba jednostek chorych |
50 |
70 |
30 |
10 |
przestrzenne przedstawienie rozmieszczenia danych statystycznych według:
jednostek administracyjnych ( gminy województwa),
części świata,
regionów gospodarczych itp.,,osnąco lub malejąco)jednostek)cznegoztałcania rzeczywistości (fałszowanie danych statystycznych),
6666666666666666666666666666
dzielnica Warszawy |
Bielany |
Mokotów |
Bemowo |
liczba jednostek chorych |
70 |
60 |
20 |
czasowe - przedstawienie rozwoju zjawiska w czasie, z uwzględnieniem:
momentów - ściśle określonego momentu w czasie,
1.01. danego roku |
1950 |
1951 |
1952 |
liczba jednostek chorych |
100 |
120 |
200 |
wyk
okresów - pewnego przedziału czasu,
lata |
<1950-1955) |
<1955-1960) |
<1960-1965) |
liczba nowych zachorowań |
80 |
40 |
60 |
wyk
zebranie wyników:
opis statystyczny - sumaryczna charakteryzacja dotycząca wyłącznie zbiorowości jednostek bezpośrednio poddanej badaniu (określenie wielkości tj. np. średnia arytmetyczna, odchylenie standardowe, współczynnik korelacji) - statystyka opisowa,
wnioskowanie - uogólnianie wyników uzyskanych bezpośrednio dla próby losowej na całą populacje z której ta próba pochodzi z wykorzystaniem rachunku prawdopodobieństwa - statystyka matematyczna (porównaj badanie niepełne reprezentacyjne),
analiza statystyczna - proces badawczy prowadzący do jednoznacznego i zwięzłego scharakteryzowania badanego zjawiska, wyciągnięcia wniosków merytorycznych, dokonania uogólnień i porównań, wykrycia prawidłowości związanych z badanym zjawiskiem,
Opisowa analiza struktury zjawisk masowych.
typy rozkładów empirycznych jednej zmiennej mierzalnej,
pojęcia podstawowe:
częstość względna lub wskaźnik struktury - stosunek (ułamkowy lub procentowy) liczby jednostek posiadających określoną wartość lub wariant cechy do liczby wszystkich jednostek poddanych badaniu,
PRZYKŁAD:
n0 = 30 liczba jednostek posiadających wartość x0
N = 70 liczba wszystkich jednostek poddanych badaniu
w = n0/N = 30/70 = 3/7 - częstość zmienna w postaci ułamkowej dla wartości x0 cechy
wp = w ∙100% - częstość względna w postaci procentowej dla wartości x0 cechy
wp = 3/7 ∙ 100% ≈ 42,8571….%
rozkład empiryczny (cechy) zmiennej - przyporządkowanie kolejnym wartościom lub wariantom (cechy) zmiennej xi odpowiadających im liczb lub częstości zmiennych wi (lub wpi)jednostek posiadających daną wartość lub wariant xi,
PRZYKŁAD: