SKALA INTERWAŁOWA: ROZKŁAD LICZEBNOŚCI I PREZENTACJA GRAFICZNA
W rozdziale tym zajmiemy się metodami opracowywania danych bardzo zbliżonych do tych, które omawialiśmy w rozdziale poprzednim. Będziemy grupowali dane uzyskane przez pomiar interwałowy w kategorie, porządkowali te kategorie i wykorzystywali je do sporządzenia całościowego obrazu rozkładu przypadków. W ten sposób sprowadzimy informacje o bardzo dużej liczbie przypadków do prostej postaci umożliwiającej graficzną prezentację rozkładu pomiarów. Stwierdzimy następnie, że pogrupowanie danych może też istotnie uprościć pewne obliczenia. W dalszych dwóch rozdziałach omówimy możliwości jeszcze znaczniejszej redukcji danych — takiej, by kilka liczb mogło scharakteryzować wartość typową i stopień jednorodności.
4.1. ROZKŁAD LICZEBNOŚCI: GRUPOWANIE DANYCH
W poprzednim rozdziale nie podejmowaliśmy raczej decyzji związanych z opracowaniem danych. Wynikało to stąd, że klasy były z góry określone i należało tylko znaleźć liczbę przypadków mieszczących się w każdej z nich, a następnie wystandaryzować ją ze względu na liczebność całej grupy obliczając proporcję, odsetek lub stosunek. Opracowując w analogiczny sposób dane interwałowe musimy jednak zdecydować, jakimi kategoriami będziemy się posługiwali. Skala interwałowa jest zwykle ciągła, a luki między sąsiednimi pomiarami zdarzają się rzadko. Dlatego podział skali interwałowej na kategorie może być zupełnie arbitralny. Będziemy musieli zdecydować, ile wprowadzić kategorii i gdzie przeprowadzić granice między nimi. Niestety, nie ma prostych reguł postępowania w tej sytuacji, a decyzja zależy od celu, któremu klasyfikacja ma służyć. Dla ilustracji tego zagadnienia posłużymy się konkretnym przykładem. Poniższe dane dotyczą frekwencji wyborczej (w procentach uprawnionych do głosowania) w 93 obwodach wyborczych pewnego miasta:
39,2 |
11,6 |
36,3 |
26,3 |
37,1 |
15,3 |
27,3 |
23,5 |
13,3 |
28,1 |
26,3 |
27,1 |
35,1 |
23,0 |
26,1 |
31,0 |
36,3 |
27,3 |
22,8 |
33,4 |
25,6 |
21,6 |
46,8 |
7,1 |
16,8 |
26,9 |
46,6 |
44,3 |
58,1 |
33,1 |
13,4 |
27,8 |
33,4 |
22,1 |
42,7 |
33,0 |
36,3 |
20,7 |
9,3 |
26,3 |
29,9 |
39,4 |
5,3 |
24,3 |
17,8 |
18,2 |
37,1 |
21,6 |
17,5 |
12,3 |
23,6 |
37,2 |
37,1 |
25,1 |
27,1 |
28,8 |
27,8 |
33,6 |
26,5 |
28,3 |
26,9 |
24,8 |
41,0 |
33,6 |
19,3 |
43,7 |
28,2 |
19,9 |
83,6 |
47,1 |
4,8 |
9,7 |
39,5 |
32,3 |
22,4 |
15,1 |
26,3 |
26,1 |
29,2 |
14,3 |
14,6 |
21,6 |
37,9 |
37,1 |
24,9 |
10,0 |
20,7 |
11,8 |
22,9 |
36,0 |
46,1 |
21,5 |
13,3 | ||||||
W |
ten sposób prezentowane |
dane |
surowe |
w żaden |
sposób |
nie dają |
obrazu całości. Gdy będzie ich więcej, jeszcze trudniej zorientować się w obrazie całości. Przypuśćmy, że chcemy porównać wybrane miasto z jakimś innym pod względem frekwencji wyborczej. Przyjrzenie się danym wykazuje, że większość pomiarów waha się między 20% i 40%, chociaż jest też jeden wynik wyjątkowo wysoki. Trudno jednak wyrobić sobie pogląd na rozkład całości.
Liczba i wielkość przedziałów. Grupując bliskie sobie pomiary w kategorie można zobrazować rozkład zbioru pomiarów. Stajemy jednak od razu przed pytaniami: ile przedziałów należy wprowadzić i jakiej wielkości powinny one być? Żadna szczególna szerokość lub umiejscowienie przedziału nie jest lepsze niż inne. Dla wygody wybierzemy więc jako szerokość przedziału 5, 10 lub 20, ale nie np. 4, 16. Podobnie granicami przedziałów klasowych będą okrągłe liczby, np. 5,0 lub 10,0. Jeśli mamy wątpliwości, ile przedziałów klasowych należy wprowadzić, należy trzymać się zasady wprowadzania możliwie dużej ich liczby. Później bowiem zawsze można te wąskie przedziały pogrupować i uzyskać mniejszą liczbę przedziałów szerokich. Postępowanie odwrotne nie jest zaś możliwe, chyba że przeprowadzimy klasyfikację od nowa. Dlatego w tabeli 4.1 pogrupowaliśmy dane w przedziały o szerokości 5 jednostek.
45