do 2900 dolarów, nie znamy jednak dokładnego rozkładu zarobków tej grupy badanych. Aby obliczyć średnią lub medianę z danych pogrupowanych musimy wprowadzić pewne założenia upraszczające, dotyczące rozkładu pomiarów wewnątrz kategorii. Przy obliczania średniej zakładamy, że wszystkie pomiary należące do danej kategorii grupują się w środku przedziału klasowego. Obliczając i medianę;? zakładamy, że wszystkie pomiary należące do danej kategorii są w niej rozłożone równomiernie. Uproszczenia te prowadzą oczywiście do pewnych niedokładności. Obliczając średnią lub medianę z danych pogrupowanych nie otrzymamy tych samych dokładnie wyników, co przy obliczaniu ich z danych surowych. Jeśli pomiarów jest dużo, niedokładność ta będzie niewielka, a oszczędność czasu znaczna. Oczywiście, im węższe są przedziały klasowe, tym mniej informacji tracimy grupując dane i tym mniejsza jest niedokładność. Jeśli na przykład 17 osób zarabia od 2000 do 2900 dolarów, a 26 osób zarabia od 3000 do 3900 dolarów i obliczając średnią przyjmujemy, że 17 osób znajduje się dokładnie w środku pierwszego przedziału, a 26 osób — w środku drugiego, to popełniamy mniejszą cmyłkę niż przyjmując, że 17+26 = 43 osoby znajdują się dokładnie w środku przedziału 2000 - 3900 dolarów. Uproszczenie to daje największe niedokładności na krańcach rozkładu, gdyż tam zwykle istnieje asymetria rozkładu w kierunku jego środka. Jeśli na przykład w najniższym przedziale klasowym znajduje się 17 osób, to zwykle są one skupione w górnej połowie tego przedziału. Z reguły jednak liczba przypadków w przedziałach skrajnych jest niewielka w porównaniu z całkowitą liczbą przypadków, a więc niewielka jest też i niedokładność1.
Obliczając średnią z danych pogrupowanych traktujemy więc wszystkie pomiary należące do danego przedziału jako równe środkowi tego przedziału. Możemy też uznać, że pomiary w ramach przedziału są rozłożone równomiernie; łatwo można sprawdzić, że w efekcie wyniki będą identyczne gdyż wartość średnia grupy pomiarów równo rozłożonych wewnątrz przedziału klasowego równa jest środkowi tego przedziału. Ponieważ wszystkie przypadki z danego przedziału mają tę samą wartość, możemy pomnożyć ich liczbę przez wartość środka przedziału, zamiast dodawać kolejno wszystkie pomiary. Mnożymy na przykład 26 przypadków przez 3450 dolarów, a iloczyn 26x3450 da ten sam rezultat, co dodanie 26 pomiarów o wartości 3450 każdy. Postępujemy tak kolejno dla wszystkich przedziałów; dodajemy iloczyny i dzielimy tę sumę przez całkowitą liczbę przypadków. W ten sposób otrzymujemy średnią arytmetyczną. Wzór na średnią obliczaną z danych pogrupowanych ma postać:
(5J)
gdzie fi —liczba przypadków w i-tej kategorii m, — środek i-tego przedziału klasowego k —liczba przedziałów klasowych.
W tabeli 5.1. zamieszczamy przykład liczbowy. Wszystkie przedziały klasowe mają tu równą szerokość. Nie jest to zresztą istotne, jeśli prawidłowo obliczamy środki przedziałów klasowych. Konieczne natomiast jest, by przedziały skrajne były zamknięte. Przypuśćmy, że najwyższy przedział określamy jako „7000 i więcej”. Jaką liczbę przyjmiemy za środek tego przedziału? Nie mamy żadnych podstaw do jakiejkolwiek decyzji, jeśli nie wrócimy do danych surowych. Czasem warto to zrobić, gdyż przedziały skrajne zawierają zwykle niewiele przypadków. Obliczamy wówczas średnią arytmetyczną wszystkich przypadków mieszczących się w skrajnej kategorii i przyjmujemy tę liczbę za środek otwartego przedziału klasowego. Jeśli powrót do danych surowych nie jest możliwy, musimy wartość tę jakoś
Tabela S.l. Obliczanie średniej z danych pogrupowanych — metoda zwykła
Określone granice przedziałów |
Dokładne granice przedziałów |
Punkty środkowe przedziałów (m) |
fi |
fum |
a 2000-2900 |
1950-2950 |
2450 |
17 |
41 650 |
3000-3900 |
2950-3950 |
3450 |
26 |
89 700 |
4000-4900 |
3950-4950 |
4450 |
38 |
169 100 |
5000-5900 |
4950-5950 |
5450 |
51 |
277 950 |
6000-6900 |
5950-6950 |
6450 |
36 |
232 200 |
7000-7900 |
6950-7950 |
7450 |
21 |
156 450 |
Razem |
189 |
967 050 |
5 — Statystyka dla socjologów 65
Łatwo widać, że w opisanym przykładzie zaniżamy wartość średniej. Przyjmujemy bowiem, że pomiary są skupione w środku przedziału, lub (co jest równoważne), że są rozłożone symetrycznie w stosunku do środka przedziału, a tymczasem w rzeczywistości skupiają się one głównie w górnej połowie przedziału. Zauważmy jednak, że z analogicznych przyczyn zawyżamy wartość średniej obliczając najwyższy przedział, gdzie większość pomiarów grupuje się w jego dolnej połowie. Niedokładności te redukują się więc częściowo; tym bardziej, im bardziej symetryczny jest rozkład. [Przyp. tłum.].