dr A. Czech
I.
WPROWADZENIE DO BADAŃ STATYSTYCZNYCH
Statystyka – nauka traktująca o specyficznych metodach ilościowych dostosowanych do
badania zjawisk masowych (np. urodzenia, konsumpcja, wzrost gospodarczy, rozwój
społeczno-gospodarczy, itd.)
Cel statystyki – pozyskiwanie oraz przedstawianie danych w postaci ułatwiającej ich ocenę i
analizę oraz identyfikacja prawidłowości i ilościowe ich wyrażanie.
1.
Statystyka opisowa – zawiera metody i procedury gromadzenia, opracowywania i
prezentacji danych statystycznych (cel – zwięzły opis statystyczny)
Jeżeli zgromadzone dane dotyczą tylko części badanej zbiorowości sam opis statystyczny
bywa niewystarczający !!!!
2.
Statystyka matematyczna – pozwala na uogólnienie wyników wypływających z
obserwacji części zbiorowości
dr A. Czech
2
Populacja generalna – zbiór wszystkich elementów danego typu będący przedmiotem
badania w stosunku, do których chcemy sformułować wnioski ogólne, np. studenci
wydziałów zarządzania, mieszkańcy Białegostoku, klienci Biedronki, itd.
Próba – podzbiór populacji generalnej obejmujący część jej elementów np. studenci
Wydziału Zarządzania PB. Próba podlega badaniu statystycznemu a wyniki są uogólniane na
zbiorowość generalną.
Elementy próby – wartości uporządkowane najczęściej od najmniejszej do największej
n
x
x
x
,...,
,
2
1
, gdzie n – liczba obserwacji w próbie
Jednostka statystyczna (badania, obserwacji) – poszczególne elementy składowe badanej
zbiorowości statystycznej np. osoba, gospodarstwo domowe, itp.
Badanie statystyczne – ogół prac mający na celu poznanie struktury określonej zbiorowości
1.
Badanie całkowite (wyczerpujące) – obserwacji podlegają wszystkie elementy
zbiorowości generalnej
2.
Badanie częściowe – obserwacji podlega tylko część zbiorowości generalnej - próba
dr A. Czech
3
Dane
1.
Pierwotne – uzyskiwane drogą bezpośredniej obserwacji - ankieta, wywiad, eksperyment
(w naukach społecznych możliwość przeprowadzania eksperymentu jest bardzo
ograniczona)
2.
Wtórne – dane pierwotne poddane obróbce statystycznej np. dane zamieszczone w
rocznikach statystycznych, bazach danych, itp.
Cechy (zmienne) statystyczne – właściwości statystyczne różniące poszczególne jednostki
obserwacji np. wiek, wzrost, cena, itp, oznaczane dużą literą np. X
1.
Cechy niemierzalne (jakościowe) – są zwykle określane słownie (np. płeć, stan cywilny,
opinia konsumenta, itp.)
2.
Cechy mierzalne (ilościowe) – właściwości jednostek statystycznych, które można
zmierzyć i wyrazić za pomocą odpowiednich jednostek np. waga w kilogramach, wzrost
w centymetrach, ilość wyprodukowanego towaru w sztukach, itp.
•
skokowa (dyskretna) – przyjmują skończony lub przeliczalny zbiór wartości
najczęściej wyrażany za pomocą liczb całkowitych, np. liczba studentów, sztuki
wadliwego towaru, itd.
•
ciągła – mogą przyjąć każdą wartość z określonego przedziału liczbowego, np.:
wzrost, waga, itd.
dr A. Czech
4
W statystyce dane liczbowe powstają w wyniku pomiarów dokonywanych z
wykorzystaniem następujących skal pomiarowych:
1.
Nominalna (relacja: równe lub różne) – pomiar to grupowanie jednostek w klasy, którym
przypisuje się nazwy lub liczby, np.: grupy krwi (A, B, 0, AB), studenci według rodzajów
studiów (ekonomiczne, medyczne itd.).
2.
Porządkowa inaczej rangowa - (relacja: większe lub mniejsze) – pomiar to grupowanie
jednostek w klasy uporządkowane ze względu na stopień natężenia badanej cechy, którym
przypisuje się nazwy lub liczby. Określają one kolejność występowania jednostek, ale nie
określają odległości między nimi, np.: stopnie wojskowe, uporządkowanie województw
według poziomu rozwoju społeczno-gospodarczego, itp.
3.
Przedziałowa inaczej interwałowa - (relacja: większe o tyle) – uporządkowany zbiór wartości
cechy składa się z liczb rzeczywistych. W skalach tego typu zero jest umowne, np. skala
Celsjusza cz Fahrenheita.
4.
Ilorazowa inaczej stosunkowa - (relacja: tyle razy większe) – ma własności trzech
poprzednich skal i posiada naturalny punkt zerowy, co oznacza brak danej cechy. Możliwe
jest porównywanie za pomocą względnych charakterystyk - jeden obiekt jest dwa razy cięższy
od drugiego.
dr A. Czech
5
Materiał liczbowy, otrzymany w wyniku przeprowadzonej obserwacji statystycznej
(pomiaru) należy odpowiednio usystematyzować i pogrupować w postaci tzw. szeregu
statystycznego !!!
Szereg statystyczny (podstawowe narzędzie analizy rozkładu cech) – ciąg wielkości
(obserwacji) uporządkowany według określonych kryteriów
Rodzaje szeregów statystycznych: szczegółowy, rozdzielczy i czasowy.
1.
Szereg szczegółowy – uporządkowany ciąg wartości badanej cechy statystycznej
(dysponujemy n indywidualnymi obserwacji danej cechy).
Porządkowanie szeregu: rosnąco -
n
x
x
x
≤
≤
≤
...
2
1
lub malejąco -
n
x
x
x
≥
≥
≥
...
2
1
np. ceny towaru w 5-ciu sklepach (w zł)
{
}
103
,
102
,
100
,
98
,
97
=
X
, n=5
2.
Szereg rozdzielczy – zbiorowość statystyczna podzielona na części (klasy) według
określonej cechy jakościowej lub ilościowej z podaniem liczebności lub częstości każdej
z wyodrębnionych klas.
Rodzaje szeregów rozdzielczych: punktowy i przedziałowy
dr A. Czech
6
a) punktowy – cechy mierzalne skokowe (niewielka liczba wariantów cechy)
Numer
klasy
i
Wariant
cechy
i
x
Liczba
obserwacji
i
n
Wskaźnik
struktury
(częstość)
i
w
Liczebność
skumulowana
isk
n
Skumulowany wskaźnik struktury
(częstość skumulowana)
isk
w
k
M
2
1
k
x
x
x
M
2
1
k
n
n
n
M
2
1
k
w
w
w
M
2
1
ksk
sk
sk
n
n
n
M
2
1
ksk
sk
sk
w
w
w
M
2
1
Szereg prosty
Szereg skumulowany
k – liczba klas
n
k
≈
(czasami podział naturalny np. oceny studenta)
i
x
- wariant cechy dla i-tego obiektu, i=1,2,...,n,
i
n
- liczba jednostek o i-tej wartości cechy,
∑
=
+
+
+
=
=
k
i
k
i
n
n
n
n
n
1
2
1
...
- liczebność próby,
n
n
w
i
i
=
- wskaźnik struktury (częstość), gdzie:
∑
=
=
k
i
i
w
1
1
,
1
0
≤
≤
i
w
n
n
w
isk
isk
=
- skumulowany wskaźnik struktury (częstość skumulowana) oznacza liczbę
jednostek, których cechy odpowiadają wartościom nie większym niż
i
x
dr A. Czech
7
0,05
0,2
0,35
0,2
0,1
0,1
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
2
3
3,5
4
4,5
5
c
z
ę
s
to
ś
ć
w
zg
l
ę
d
n
a
Oceny
Rozkład empiryczny cz
ę
sto
ś
ci ocen
Przykład: Oceny z matematyki (100 studentów)
Klasy
i
Ocena
studenta
i
x
Liczba studentów
i
n
i
w
isk
n
isk
w
1
2
3
4
5
6
2
3
3,5
4
4,5
5
5
20
35
20
10
10
0,05
0,20
0,35
0,20
0,10
0,10
5
25
60
80
90
100
0,05
0,25
0,60
0,80
0,90
1
100
1
i
w
i
x
dr A. Czech
8
Dystrybuanta empiryczna
isk
w
i
x
b) przedziałowy – cechy mierzalne ciągłe (skokowe - znacząca ilości obserwacji)
k
R
k
x
x
h
=
−
≈
min
max
- rozpiętość (szerokość) przedziału (wybór z nadmiarem)
max
x
-
maksymalna wartość cechy,
min
x
- minimalna wartość cechy,
R
- rozstęp (różnica między maksymalną i minimalną wartością cechy).
dr A. Czech
9
Numer
klasy
Przedziały
klasowe
Liczba obserwacji
i
n
Wskaźnik struktury
(częstość)
i
w
Liczebność
skumulowana
isk
n
Częstość skumulowana
isk
w
k
M
2
1
k
k
x
x
x
x
x
x
−
−
−
−
1
2
1
1
0
M
k
n
n
n
M
2
1
k
w
w
w
M
2
1
ksk
sk
sk
n
n
n
M
2
1
ksk
sk
sk
w
w
w
M
2
1
Szereg prosty
Szereg skumulowany
Przedziały klasowe cecha ciągła (patrz tabela)
Przedziały klasowe cecha skokowa:
1
0
x
x
−
,
3
2
x
x
−
, ...,
k
k
x
x
−
−
1
Przykład Wydatki 50-ciu gospodarstw domowych na zakup paliwa (dane miesięczne)
7
50
≈
=
k
i Przedziały
i
x
Gosp. dom.
i
n
i
w
isk
n
isk
w
1
2
3
4
5
6
7
100-200
200-300
300-400
400-500
500-600
600-700
700-800
2
4
8
20
10
4
2
0,04
0,08
0,16
0,40
0,20
0,08
0,04
2
6
14
34
44
48
50
0,04
0,12
0,28
0,68
0,88
0,96
1
Suma
50
1
dr A. Czech
10
0,04
0,08
0,16
0,4
0,2
0,08
0,04
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
100-200
200-300
300-400
400-500
500-600
600-700
700-800
Histogram
cz
ę
sto
ść
Wielobok cz
ę
sto
ś
ci (diagram)
i
w
i
x
Diagram – połączenie prostą punktów o współrzędnych (
i
i
w
x ,
•
)
2
1
0
i
i
i
x
x
x
+
=
•
-środek i-tego przedziału klasowego i=1,2,...,k
i
x
1
- górna granica i-tego przedziału klasowego,
i
x
0
- dolana granica i-tego przedziału klasowego
Zamiast histogramu i diagramu częstości można również stosować histogram i diagram
liczebności !!!
dr A. Czech
11
Dystrybuanta empiryczna
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
100
200
300
400
500
600
700
800
isk
w
i
x