Grupowanie
polega na wyodrębnieniu jednorodnych lub
względnie jednorodnych części w ramach
większej i zróżnicowanej zbiorowości
statystycznej,
Zadaniem grupowania
jest przejście od informacji o właściwościach
poszczególnych jednostek do informacji o
właściwościach całej zbiorowości.
Z punktu widzenia celu, jakiemu ma służyć
dzielimy je na:
-
typologiczne -
wyodrębnianie grup jednorodnych
różnych jakościowo (np. według cech terytorialnych,
czasowych, rzeczowych)
- wariacyjne -
mające na celu uporządkowanie
badanej zbiorowości i poznanie jej struktury, które
polega na łączeniu w klasy jednostek statystycznych
o odpowiednich wartościach cech statystycznych.
Zliczanie
czynność ściśle związana z grupowaniem
(ręczne, elektroniczne).
Szereg statystyczny
jest to zbiór wyników obserwacji
uporządkowanych według określonych cech
(kryteriów), których miernikiem są zmienne.
Inaczej mówiąc, szeregiem statystycznym
nazywamy ciąg liczbowy monotoniczny,
ograniczony z góry i z dołu (tj. taki, którego
wyrazy występują tylko w pewnym przedziale
wartości).
Najczęściej wyróżnia się dwa kryteria podziału
szeregów:
kryterium formalne -
związane z budową
szeregu, na podstawie którego możemy
wyodrębnić: szeregi szczegółowe, szeregi
rozdzielcze i szeregi skumulowane,
kryterium merytoryczne -
wynikające z typu
badanej cechy zbiorowości, według którego
wyróżnia się: szeregi czasowe i szeregi
przestrzenne.
Sposób grupowania cech zależy od:
rodzaju badania ,
rodzaju cechy statystycznej,
sposobu pomiaru,
liczby obserwacji .
Szereg szczegółowy
uporządkowany ciąg wartości badanej cechy
statystycznej, stosowany, gdy przedmiotem
badania jest niewielka liczba jednostek, np.
zmienna X
przyjmuje wartości: x
1
, x
2
, ..., x
n
,
wartości cechy porządkujemy rosnąco: x
1
x
2
...
x
n
lub malejąco x
1
≥ x
2
≥ ... ≥x
n
.
Szereg rozdzielczy
stanowi zbiorowość statystyczną, podzieloną na
części (klasy) według określonej cechy jakościowej
lub ilościowej z podaniem liczebności lub częstości
każdej z wyodrębnionych klas.
Szeregi rozdzielcze mogą dotyczyć zarówno cechy
jakościowej, jak i ilościowej. Charakteryzują one
strukturę danej zbiorowości stąd nazywane są
czasem szeregami strukturalnymi.
Szeregi Statystyczne
szczegółowe
rozdzielcze
czasowe
z cecha mierzalną
(ilościowe)
z cechą niemierzalną
(jakościowe)
punktowe
przedziałowe
geograficzne
inne
momentów
okresów
proste
skumulowane
proste
skumulowane
ANALIZA STRUKTURY ZJAWISK MASOWYCH
Rozkład empiryczny- zestawienie wyników w postaci
szeregu rozdzielczego z cechą mierzalną.
Rozkład empiryczny odzwierciedla strukturę badanej
zbiorowości z punktu widzenia określonej cechy
statystycznej
Szereg czasowy
szereg czasowy -
powstaje gdy podstawą
grupowania jest zmiana badanego zjawiska w
czasie:
-
szereg czasowy okresów - zawiera informację o
rozmiarach zjawiska w krótszych lub dłuższych
okresach.
-
szereg czasowy momentów - ujmuje wielkość
zjawiska w danym momencie, najczęściej na
początku lub końcu np. miesiąca.
W przykładzie mamy następujące szeregi:
„Wypadki” - szereg okresów (łączna liczba
wypadków w każdym roku)
„Pojazdy” - szereg momentów (w każdym roku
stan na 31.XII)
t
(okres lub
moment)
rok
Pojazdy
stan na 31.XII
[tys.]
Wypadki
w roku
1
1995
11186
56904
2
1996
11766
57911
3
1997
12284
66586
4
1998
12709
61855
5
1999
13169
55106
6
2000
14106
57331
7
2001
14724
53799
razem
409492
Podstawowe oznaczenia, podstawowe wielkości
n -
liczebność próby (zbiorowości próbnej),
x
i
- wariant cechy statystycznej (i = 1, 2 , ... , n),
n
i
- liczba jednostek o i-tym wariancie
cechy,
k -
liczba klas (wariantów cechy),
przy czym:
k
i
i
n
n
1
Przykład szeregu szczegółowego
Dokonano pomiaru wzrostu (w cm) 12
studentów z jednej grupy ćwiczeniowej i
otrzymano następujące wyniki:
165, 166, 166, 167, 170, 170, 171, 172, 173,
175, 177, 181.
Szereg rozdzielczy otrzymujemy wówczas gdy zbiorowość statystyczną podzielimy
na klasy według określonej cechy (jakościowej lub ilościowej) i podamy liczebność
każdej z tych klas.
W pewnym zakładzie przeprowadzono badanie grupy
krwi. Wybrano losowo 50 osób. Wyniki zostały
przedstawione w szeregu rozdzielczym punktowym
GRUPA KRWI
x
i
LICZEBNOŚĆ n
i
A
7
B
3
AB
10
0
30
Badano czas reakcji
organizmu osób cierpiących
na pewne schorzenie po
zażyciu nowego leku.
Zbiorowość statystyczną
stanowiło 150 pacjentów
leczonych w szpitalu.
Mierzono czas (w min) od
podania jednorazowej dawki
leku do momentu wystąpienia
pewnego objawu. Zebrane
wyniki przedstawiono w
postaci obok podanego
szeregu rozdzielczego.
Czas reakcji w min
Liczba osób
3-7
3
8-12
4
13-17
15
18-22
24
23-27
70
28-32
22
33-37
7
38-42
5
RAZEM
150
Wskaźnik struktury
W określaniu rozkładu empirycznego zamiast
liczebności n
i
stosuje się częstości względne
(zwane wskaźnikiem struktury) określone
wzorem:
Przy czym:
k
i
n
n
i
i
...
,
2
,
1
,
1
0
,
1
1
i
k
i
i
Szeregi rozdzielcze skumulowane
Uzyskuje się poprzez przyporządkowanie
kolejnym wariantom cechy odpowiadających
im liczebności (częstości ) skumulowanych.
Szereg rozdzielczy skumulowany wg
wieku badanych
NUMER
KLASY
i
WIEK
x
i
LICZEBNOŚĆ
SKUMULOWANA
n
isk
CZĘSTOŚĆ
SKUMULOWANA
ω
i
1
7
189
0,29
2
8
246
0,38
3
9
397
0,62
4
10
505
0,79
5
11
558
0,88
6
12
638
1
Dystrybuanta empiryczna
To przyporządkowanie kolejnym wartościom
cechy statystycznej (zmiennej)
odpowiadających im częstości
skumulowanych (względnie liczebności
skumulowanych)
Przykład 1
W wybranej grupie studentów przeprowadzono
kolokwium z matematyki.
Studenci otrzymali następujące oceny: 2, 5, 3, 4,
3+, 4, 3, 4+, 3+ , 3+, 5, 4, 3+, 4+, 3+, 3+, 3, 2, 3,
3+, 3, 4, 3+, 4, 3+, 4, 3, 4+, 4+, 3+.
Opracowanie materiału statystycznego
Zbiorowość (populacja) generalna: …………………..
Zbiorowość próbna (próba): …………………………….
Cecha statystyczna:
………………………………………….
Liczebność próby n: …….
Liczba wariantów cechy k: …….
Warianty cechy x
i
:
…………………………
Szereg szczegółowy:
2; 2; 3; 3; 3; 3; 3; 3; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 4;
4; 4; 4; 4; 4; 4,5; 4,5; 4,5; 4,5; 5; 5;
Opracowanie materiału statystycznego
Zbiorowość (populacja) generalna: studenci
Zbiorowość próbna (próba): wybrana grupa studentów
Cecha statystyczna: ocena z kolokwium z matematyki
Studenci badani są pod względem ocen otrzymanych z kolokwium z
matematyki, "ocena z matematyki" jest cechą mierzalną skokową.
Liczebność próby n: 30
Liczba wariantów cechy k: 6
Warianty cechy x
i
: 2, 3, 3,5, 4, 4,5, 5
Szereg szczegółowy:
2; 2; 3; 3; 3; 3; 3; 3; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 4; 4; 4;
4; 4; 4; 4,5; 4,5; 4,5; 4,5; 5; 5;
Szereg rozdzielczy punktowy:
Numer wariantu
(klasy)
I
Wariant cechy
x
i
Liczebność
wariantu
n
i
1
2
3
4
5
6
liczebność próby n
Szereg rozdzielczy punktowy:
Numer wariantu
i
Wariant cechy
x
i
Liczebność
wariantu
n
i
1
2
2
2
3
6
3
3,5
10
4
4
6
5
4,5
4
6
5
2
liczebność próby n
30
W przypadku gdy wariantów jest dużo
budujemy szeregi rozdzielcze z
przedziałami klasowymi.
Tworzenie szeregów rozdzielczych z
przedziałami klasowymi-etapy:
-ustalenie liczby klas
-
określenie wielkości przedziałów klasowych
-
przyporządkowywanie danych przedziałom
klasowym
-
zliczanie liczby jednostek w każdej klasie
Ustalanie liczby klas
Liczby klas w zależności od liczebności badanej zbiorowości
Liczba obserwacji
n
Liczba zalecanych klas
k
40-60
60-100
100-200
200-500
6-8
7-10
9-12
11-17
Wzory na obliczanie niezbędnej liczby
klas
n
k
Rozpiętość przedziału klasowego
Różnicę pomiędzy górną x
1i
i dolną x
0i
granica i-
tego przedziału klasowego
nazywamy rozpiętością (szerokością)
przedziału klasowego i oznaczamy przez h
i
Wzór na ustalenie rozpiętości przedziałów
klasowych
gdzie:
nazywa się
rozstępem
, a k
oznacza liczbę klas
.
Ustalanie granic poszczególnych klas
Jako dolną granicę najczęściej przyjmuje się
najmniejszą wartość cechy lub bliskiej tej
wartości, czyli:
Przy cechach ciągłych górne granice klas
poprzednich powinny być dolnymi granicami
klas następnych, aby nie było pomiędzy
przedziałami luk ponadto trzeba ustalić, do
której klasy zaliczyć wartości graniczne.
Przykład
Struktura województw wg liczby gmin– dla cechy
skokowej
Szereg szczegółowy:
17, 30, 32, 37, 37, 39, 40, 40, 40, 40, 41, 41, 42, 42,
43, 43, 43, 44, 45,46, 46, 47, 47, 47, 48, 48, 49, 51,
54, 54, 55, 55, 55, 56, 57, 57, 58, 58,58, 59, 59, 62,
63, 63, 65, 69, 74, 78, 91.
ROZWIĄZANIE
R =
h =
początek pierwszego przedziału klasowego
x
01
= x
min
=
(przyjmujemy, że rozpiętość przedziałów klasowych
jest taka sama dla wszystkich klas)
ROZWIĄZANIE
R = 91
– 17 = 74,
h = 74/7 = 10,57 = 11
początek pierwszego przedziału klasowego
x
01
= x
min
= 17
(przyjmujemy, że rozpiętość przedziałów klasowych
jest taka sama dla wszystkich klas)
Rozkład empiryczny i dystrybuanta empiryczna –
Struktura województw wg liczby gmin
Numer
klasy
Liczba
gmin
Liczba
województw
Wskaźnik
struktury
Liczebność
skumulowana
Skumulowany
wskaźnik
struktury
i
x
i
n
i
ω
i
n
isk
ω
isk
1
17 - 27
1
0,02
1
0,02
2
28 - 38
4
0,08
5
0,10
3
39 - 49
22
0,45
27
0,55
4
50 - 60
14
0,29
41
0,84
5
61 - 71
5
0,10
46
0,94
6
72 - 82
2
0,04
48
0,98
7
83 - 93
1
0,02
49
1,00
n =
49
Przykład
Struktura badanej zbiorowości dzieci w wieku 7 lat według masy
ciała
Szereg szczegółowy:
16,17,17,18,18,18,18,18,19,19,19,19,20,20,20,20,20,20,20,20,2
0,20,21,21,21,21,21,21,21,21,22,22,22,22,22,22,22,
22,22,22,22,22,23,23,23,23,23,23,23,23,23,23,23,23,23,23,23,2
4,24,24,24,24,24,24, 24,24,24,24,24,24,24,24,24,24,
24,24,24,24,24,25,25,25,25,25,26,26,26,26,26,26,26,27,27,27,2
7,27,2727,28,28,28,28,28,29,29,29,29,29,29,29,2930,30,30,30,
30,30,30,31,31,31,31,31,31,32,32,32,32,33,33,34,34,34,35,35,3
5,35,35,37,40,47.
ROZWIĄZANIE
R = 47-16=31,
h = 31/12=2,58=3
początek pierwszego przedziału klasowego
x
01
= x
min
= 16
(przyjmujemy, że rozpiętość przedziałów klasowych
jest taka sama dla wszystkich klas)
12
144
k
Rozkład empiryczny i dystrybuanta empiryczna –
Struktura dzieci w wieku 7 lat wg masy ciała
Numer
klasy
Dolna
granica
klasy
Górna
granica
klasy
n
i
ω
i
n
isk
ω
isk
1
16
18
8
0,056
8
0,056
2
19
21
22
0,153
30
0,208
3
22
24
52
0,361
82
0,569
4
25
27
19
0,132
101
0,701
5
28
30
20
0,139
121
0,840
6
31
33
12
0,083
133
0,924
7
34
36
8
0,056
141
0,979
8
37
39
1
0,007
142
0,986
9
40
42
1
0,007
143
0,993
10
43
45
0
0,000
143
0,993
11
46
48
1
0,007
144
1,000
144
Dysrybuanta empiryczna
0
20
40
60
80
100
120
140
160
18
21
24
27
30
33
36
39
42
45
48
16
19
22
25
28
31
34
37
40
43
46
Li
cz
ebn
oś
ć
prz
edz
ia
łów
ETAP CZWARTY - POLEGA NA:
opisie statystycznym - dotyczy tylko danej
zbiorowości generalnej lub próby
niekoniecznie losowej,
lub wnioskowaniu statystycznym - kiedy
badanie jest reprezentacyjne (próba losowa)
i jego wyniki są uogólniane na całą populację
generalną.
Podstawą wnioskowania
statystycznego są empiryczne wyniki
badania reprezentacyjnego (wyniki
losowo wybranej próby)
Charakterystyki obliczane z próby losowej
nazywamy statystykami
(np. średnia
arytmetyczna z próby, odchylenie
standardowe z próby)
Te same parametry obliczone z populacji
generalnej noszą nazwę parametrów
W badaniu, opartym na metodzie reprezentatywnej,
badaniu podlega jedynie jej losowo wybrana część,
parametry są szacowane na podstawie wyniku z
próby.
Wartości tych parametrów zależą od
wyników próby losowej
Jeżeli próba jest reprezentatywna, to
statystyki są dobrymi estymatorami
parametrów populacji generalnej.
Wraz ze wzrostem liczebności próby wartość
estymatorów zbliża się do prawdziwych
wartości parametrów
PREZENTACJA GRAFICZNA
MATERIAŁU STATYSTYCZNEGO
Pogrupowany i uporządkowany materiał
statystyczny prezentuje się za pomocą tablic
statystycznych prostych i kombinowanych
oraz odpowiednich wykresów.
Wykres
jest graficzną formą rejestracji danych oraz
narzędziem prezentacji i analizy
uogólnionych informacji statystycznych.
Wykresy ujmują zjawiska w sposób
syntetyczny w związku z tym zawierają mniej
szczegółów niż tablice (należy je traktować
jako uzupełnienie tablic statystycznych)
Budowa wykresu
Każdy wykres powinien posiadać:
Tytuł
Źródło danych, na podstawie których został
sporządzony
Legendę, czyli wyjaśnienie zastosowanych
symboli, barw oraz przyjętych skal.
W grafice statystycznej wyróżnia się
następujące rodzaje wykresów:
Liniowe-
prezentacja za pomocą linii lub
odcinków
Powierzchniowe
– prezentacja za pomocą
figur płaskich (wykresy słupkowe, kołowe)
Pasmowe
Punktowe
Mapowe- kartogramy
Kombinowane oraz specjalne
WYKRESY STATYSTYCZNE:
LINIOWY
Ceny akcji spółki Kęty
0,00
20,00
40,00
60,00
80,00
100,00
120,00
140,00
160,00
1k
w
2k
w
3k
w
4k
w
1k
w
2k
w
3k
w
4k
w
1k
w
2k
w
3k
w
4k
w
1k
w
2k
w
3k
w
4k
w
1k
w
2k
w
3k
w
4k
w
2000
2001
2002
2003
2004
kwartały
ce
na
WYKRESY STATYSTYCZNE:
SŁUPKOWY
Przychody ze sprzedaży
434
481
576
768
1130
0
200
400
600
800
1000
1200
2000
2001
2002
2003
2004
lata
wartość
(mln PLN)
WYKRESY STATYSTYCZNE:
KOŁOWY
Udziały w rynku
27%
33%
15%
25%
Spółka A
Spólka B
Spółka C
Spółka D
WYKRESY STATYSTYCZNE:
PUNKTOWY
Przychody ze sprzedaży
434
481
576
768
1130
0
200
400
600
800
1000
1200
1999
2000
2001
2002
2003
2004
2005
lata
wartość
(mln PLN)
WYKRESY STATYSTYCZNE:
WARTSTWOWY
Przychody ze sprzedaży
434
481
576
768
1130
0
200
400
600
800
1000
1200
2000
2001
2002
2003
2004
lata
wartość
(mln PLN)
WYKRESY STATYSTYCZNE:
BRYŁOWY
434
481
576
768
1130
0
200
400
600
800
1000
1200
wartość
(mln PLN)
2000
2001
2002
2003
2004
lata
Przychody ze sprzedaży
WYKRESY STATYSTYCZNE:
PIERŚCIENIOWY
Przychody ze sprzedaży
434
481
576
768
1130
Mapowe - kartogramy
Kombinowane oraz specjalne
Wykresy opisujące rozkład cechy mierzalnej
w prostokątnym układzie współrzędnych to:
histogramy (wykresy słupkowe) - zbór przylegających
prostokątów, których podstawy, równe rozpiętości
przedziałów klasowych - znajdują się na osi
odciętych, a wysokości są określone na osi
rzędnych przez liczebności (częstości)
odpowiadające poszczególnym przedziałom
klasowym lub przez gęstości liczebności
(częstości) w przypadku nierównych przedziałów
klasowych.
2.
diagramy, wykresy liniowe (wielobok liczebności) - jest
łamaną, powstałą przez połączenie punków, których
współrzędnymi są środki przedziałów klasowych i
odpowiadające im liczebności (częstości lub gęstości).
3.
krzywe liczebności (częstości) dla cechy ciągłej - gęsta
siatka punktów wyznaczająca wielobok liczebności.
Tablice statystyczne
Prezentują dane statystyczne
uporządkowane według określonego
kryterium
Stanowią główną formę prezentacji danych
liczbowych, dlatego powinny spełniać
określone wymogi dotyczące formalnej
budowy oraz merytorycznej spoistości
Budowa tablicy
Każda tablica powinna zawierać:
a)
Część opisową
-
Tytuł
-
Nazwy wierszy (boczek), nazwy kolumn (główka)
-
Źródła danych
-
Ewentualnie inne uwagi wyjaśniające (np. legenda
użytych znaków graficznych)
b)
Część liczbową – tabelę właściwą
Obowiązuje zasada bezwzględnego wypełniania
wszystkich kolumn i wierszy tablicy.
Jeżeli wszystkie pola nie mogą być wypełnione znakami, to w polskiej praktyce
statystycznej stosuje się następujące znaki umowne:
- (kreska)
Zjawisko nie występuje
0 (zero)
Zjawisko występuje, ale w
jednostkach mniejszych niż pół
jednostki miary przyjętej w tablicy
· (kropka)
Zupełny brak informacji lub brak
informacji wiarygodnych
x (krzyżyk)
Wypełnienie pozycji ze względu na
układ tablicy jest niemożliwe lub
niecelowe
W tym
Nie podaje się wszystkich
składników sumy
Podział tablic
Proste
– struktura lub dynamika jednej zbiorowości
statystycznej ze względu na jedną cechę (ilościową
lub jakościową), Tablica prosta może być
utożsamiana z szeregiem statystycznym.
Złożone – opis badanej zbiorowości według kilku
cech, lub opis kilku zbiorowości ze względu na jedną
cechę. Tego rodzaju tablice prezentują zespół
szeregów statystycznych, a stopień ich złożoności
zależy od liczby badanych cech lub zbiorowości.
Przykład tablicy wielodzielczej
Z populacji mężczyzn urodzonych w 1970 r.
wybrano losowo grupę złożoną z 90 osób i
określono ich wagę i wzrost. Wagę mierzono z
dokładnością do 0,1 kg, a wzrost 0,1 cm.
Otrzymane wyniki zaprezentowano w poniższej
tabeli dwudzielczej.
Waga
Wzrost
Granice klas
Granice
klas
161,8-
165,2
165,3-
168,6
168,7-
172
172,1-
175,4
175,5-
178,8
178,9-
182,2
182,3-
185,6
49-54
4
2
1
1
-
-
1
54,1-59
2
9
2
-
-
2
-
59,1-64
2
4
8
3
1
-
-
64,1-69
-
-
4
9
5
1
3
69,1-74
1
1
-
-
2
9
5
74,1-79
-
1
1
-
-
-
3
79,1-84
-
-
-
1
-
1
1