W tabeli 4.1 widzimy, że rozkład jest nieco „postrzępiony”. Być może różnice między sąsiednimi kategoriami dałoby się wyjaśnić wahaniami losowymi. Rozkład byłby bardziej gładki, gdyby pomiarów było więcej. W dalszych rozdziałach zapoznamy się z uzasadnieniem tego jak dotąd intuicyjnego sądu. Na razie niech nam wystarczy stwierdzenie, że w praktyce zwykle tak bywa. Dysponujemy tu 93 pomiarami i nie możemy zwiększyć tej liczby. W tej sytuacji jedynym sposobem wygładzenia rozkładu jest zastosowanie szerszych przedziałów klasowych. Otrzymujemy więc tabelę 4.2, w której szerokość przedziału klasowego wynosi 10.
Tabela 4.1. Rozkład liczebności; szerokość przedziału — 5 jednostek
Przedział (% głosujących wśród uprawnionych) |
Liczebność, / (liczba obwodów) |
Przedział (% głosujących wśród uprawnionych) |
Liczebność, / (liczba obwodów) |
0,0- 4,9 |
1 |
45,0-49,9 |
4 |
5,0- 9,9 |
4 |
50,0-54,9 |
0 |
10,0-14,9 |
9 |
55,0-59,9 |
I |
15,0-19,9 |
8 |
60,0-64,9 |
0 |
20,0-24,9 |
16 |
65,0-69,9 |
0 |
25,0-29,9 |
23 |
70,0-74,9 |
0 |
30,0-34,9 |
8 |
75,0-79,9 |
0 |
35,0-39,9 |
14 |
80,0-84,9 |
1 |
40,0-44,9 |
4 |
93 |
Tabela 4.2. Rozkład liczebności; szerokość przedziału — 10 jednostek
Przedział (% głosujących wśród uprawnionych) |
Liczebność, / (liczba obwodów) |
0,0- 9,9 |
5 |
10,0-19,9 |
17 |
20,0-29,9 |
39 |
30,0-39,9 |
22 |
40,0-49,9 |
8 |
50,0-59,9 |
1 |
60,0-69,9 |
0 |
70,0-79,9 |
0 |
80,0-89,9 |
1 |
Przyjmując szerokość przedziału klasowego równą 20 otrzymujemy tabelę 4.3.
Tabela 4.3. Rozkład liczebności; szerokość przedziału — 20 jednostek
Przedział (% głosujących wśród uprawnionych) |
Liczebność, / (liczba obwodów) |
0,0-19,9 |
22 |
20,0-39,9 |
61 |
40,0-59,9 |
9 |
60,0-79,9 |
0 |
80,0-99,9 |
1 |
93 |
Okazuje się, że zaczynamy zatracać większość początkowych informacji. Wiemy już tylko, że blisko 2/3 pomiarów leży w granicach między 20,0% a 40,0%, nie wiemy jednak, w którym miejscu tego przedziału grupuje się największa liczba pomiarów. Musimy wybrać kompromis między wielką liczbą przedziałów klasowych, zbytnią szczegółowością i nieregular-nością rozkładu, a małą liczbą przedziałów klasowych i związaną z tym stratą informacji. Przy okazji widzimy, że opracowywanie danych zawsze wiąże się z pewną stratą informacji. Z drugiej zaś strony prezentowanie wszystkich informacji oznacza podawanie zbyt wielkiej liczby szczegółów, co raczej zaciemnia obraz niż go rozjaśnia.
Istnieją wzory matematyczne pozwalające obliczyć optymalną liczbę przedziałów klasowych. Wydaje się jednak, że dają one wrażenie ścisłości tam, gdzie najlepszym przewodnikiem jest zdrowy rozsądek i znajomość celu, któremu kategoryzacja ma służyć. Niezależnie od liczby przypadków i gładkości otrzymanego rozkładu warto przyjąć zasadę, że szerokość przedziału klasowego nie powinna być większa od takiej maksymalnej różnicy między pomiarami, którą skłonni bylibyśmy zaniedbać. Różnicę 5 dolarów możemy zaniedbać badając ceny domów, ale nie możemy jej uznać za niewielką przy analizowaniu cen koszul. Przedział klasowy powinien więc zawierać te i tylko te pomiary, które praktycznie możemy uznać za równe.
Następny problem: co zrobić z pomiarem 83,6% ? Nawet przy szerokości przedziału klasowego równej 10 jednostkom, dwa przedziały między tym
47