i 19,995. Gdyby przedział określono jako 10-19, to dokładnymi granicami byłyby liczby 9,5 i 19,5.
Czasem zaokrąglanie przeprowadza się nietypowo — np. przy pomiarze wieku w latach ukończonych. Zawsze jednak pomiar można jednoznacznie zaklasyfikować. Osoba kończąca jutro 20 lat życia, dziś ma jeszcze 19 lat. W takim przypadku jest oczywiste, że dokładnymi granicami przedziału 15-19 lat ukończonych są liczby 15 i 20. Rozróżnienie granic określonych
1 dokładnych może wydawać się rozszczepianiem włosa na czworo. W następnych rozdziałach zobaczymy jednak, że w obliczeniach musimy posługiwać się dokładnymi granicami przedziałów klasowych chociaż przy prezentacji danych w postaci rozkładu liczebności zwykle się ich nie precyzuje.
Dane ciągłe i dyskretne. Posługiwaliśmy się tutaj danymi ciągłymi w tym sensie, że teoretycznie każda liczba mogła być wynikiem pomiaru frekwencji wyborczej, jeśli tylko pomiar jest wystarczająco dokładny, a okrąg wyborczy wystarczająco duży. Wynik 17,4531% jest więc równie prawdopodobny, co 17,0000%. Pewne zmienne są jednak dyskretne, co oznacza, że nie wszystkie liczby mogą być ich wartościami. Kobieta może mieć 0, 1,
2 lub nawet 17 dzieci, ale nie może mieć 2,31 dziecka. Teoretycznie zmiennymi dyskretnymi są też dochód i liczba ludności, gdyż nie można zarabiać 3219,5618 dolara, a miasto nie może mieć 43635,7 ludności. Dane empiryczne podaje się często w postaci dyskretnej, a wynika to z ograniczeń dokładności narzędzi pomiarowych i z konieczności zaokrąglania. W wielu przypadkach jednak możemy sobie wówczas przynajmniej wyobrazić zmienną ciągłą. W rozdziale o krzywej normalnej dowiemy się, że matematycy często posługują się rozkładami teoretycznymi zakładającymi ciągłość mierzonej zmiennej.
W przypadku niektórych zmiennych łatwo wyobrazić sobie, że są one ciągłe, chociaż w rzeczywistości istnieją bardzo małe, niepodzielne jednostki — np. najmniejszą jednostką dochodu jest cent, liczby ludności — 1 osoba. Ale gdy zmienną jest liczba dzieci w rodzinie ? Zakładanie ciągłości tej zmiennej byłoby znaczną nieprawidłowością. Prezentując rozkład liczby dzieci nie określamy przedziałów klasowych np. tak: 0,5-2,4 i 2,5-4,4. Przyjmujemy raczej przedziały 0-2, 3-4, itd., a żadna niejednoznaczność związana z lukami między granicami sąsiednich przedziałów w tym przypadku nie istnieje. Zobaczymy jednak, że przy pewnych wyliczeniach bardzo użyteczne ze względów pragmatycznych jest traktowanie tej zmiennej jako ciągłej, a danych jako pokrywających cały przedział klasowy. Na przykład matkę mającą 1 dziecko będziemy traktowali jako osobę o liczbie dzieci między 0,5 i 1,5. W większości przypadków otrzymamy przy tym te same wyniki, co przy przestrzeganiu dyskretności zmiennej. Taki kompromis z rzeczywistością bywa czasem konieczny, gdy chcemy wykorzystywać pewne modele skonstruowane przez matematyków. Nie nastręczy to żadnych trudności, jeśli tylko będziemy zdawali sobie sprawę z własnego postępowania.
4.2. KUMULATYWNY ROZKŁAD CZĘSTOŚCI
Czasem wygodniej jest prezentować dane w nieco innej postaci. Nie podajemy wówczas liczby przypadków w danym przedziale klasowym, lecz liczbę przypadków w tym przedziale i we wszystkich niższych (lub wyższych). Dane, które tu omawiamy, nie zawierają żadnego obwodu o frekwencji mniejszej od 0%, obejmują 5 obwodów o frekwencji mniejszej od 9,95%, 22 obwody o frekwencji mniejszej niż 19,55%, a wszystkie 93 obwody mają frekwencję mniejszą niż 89,95%. Kumulatywne rozkłady częstości dla tych danych przedstawiamy w tabeli 4.4. Zauważmy, że
Tabela 4.4. Rozkłady liczebności skumulowanej
Liczba przypadków poniżej |
Liczebność skumulowana, F |
Odsetek |
Liczba przypadków powyżej |
Liczebność skumulowana, F |
Odsetek |
0,0 |
0 |
0,0 |
0,0 |
93 |
100,0 |
9,95 |
5 |
5,4 |
9,95 |
88 |
94,6 |
19,95 |
22 |
23,7 |
19,95 |
71 |
76,3 |
29,95 |
61 |
65,6 |
29,95 |
32 |
34,4 |
39,95 |
83 |
89,2 |
39,95 |
10 |
10,8 |
49,95 |
91 |
97,8 |
49,95 |
2 |
2,2 |
59,95 |
92 |
98,9 |
59,95 |
1 |
1,1 |
69,95 |
92 |
98,9 |
69,95 |
1 |
1,1 |
79,95 |
92 |
98,9 |
79,95 |
1 |
1,1 |
89,95 |
93 |
100,0 |
89,95 |
0 |
0,0 |
można kumulować liczebności w górę, podając liczbę przypadków znajdujących się poniżej pewnej granicy, lub w dół, podając liczbę przypadków znajdujących się powyżej pewnej granicy. Liczebności skumulowane
4* 51