Ważne pojęcia przy planowaniu badań
naukowych i dalszej obróbce
statystycznej
1. Zbiorowość statystyczna i jej rodzaje
2. Badanie pełne i częściowe
3. Próba reprezentatywna – sposoby doboru grup
4. Jednostka statystyczna i jej cechy
•
Cechy jakościowe
•
Cechy ilościowe (cechy skokowe i ciągłe)
•
Cechy quasi-ilościowe
5. Pomiar i jego 4 skale
6. Szereg statystyczny i jego rodzaje
Etapy badania statystycznego
Przygotowanie badania
Zbiorowość statystyczna
to zbiór dowolnych elementów
(osób, obserwacji lub przedmiotów) podobnych pod względem
określonych cech (lecz nie identycznych) objętych badaniem
statystycznym.
Rozróżniamy dwa rodzaje zbiorowości:
Zbiorowość generalna (populacja)
– jest to zbiór
dowolnych elementów (osób, obserwacji, zdarzeń) nie
identycznych z punktu widzenia badanej cechy, obejmujący
wszystkie elementy będące przedmiotem badań, co, do
których chcemy sformułować wnioski ogólne.
Zbiorowość próbna (próbka)
jest to podzbiór zbiorowości
generalnej, obejmująca część jej elementów – wybranych w
określony sposób.
Podstawową cząstkę zbiorowości statystycznej nazywamy
jednostką statystyczną
– jest to pojedynczy element
zbiorowości np. pracownik, student, firma itp.
Cechami statystycznymi nazywamy właściwości,
których odmiany lub wartości wyróżniają jednostki
wchodzące w skład zbiorowości.
Cechy stałe nie podlegają badaniu, ponieważ są
wspólne dla wszystkich jednostek zbiorowości i
określają te jednostki pod względem rzeczowym,
czasowym i przestrzennym. Służą zatem do
zakwalifikowania jednostek do określonej
zbiorowości.
Cechy zmienne podlegają badaniu, ponieważ są to
właściwości, którymi różnią się poszczególne
jednostki statystyczne. Cechy te dzielą się na
ilościowe i jakościowe.
Cechy jakościowe
(niemierzalne) – to takie, które nie mogą
być w sposób jednoznaczny i oczywisty scharakteryzowane
przy pomocy liczb (nie dadzą się zmierzyć) a jedynie
stwierdzić istnienie lub nieistnienie danego wariantu cechy u
poszczególnych jednostek. Zliczając liczbę jednostek wg
danego wariantu cechy, można otrzymać klasyfikację
dwudzielną
(dychotomiczną)
oraz
wielodzielną
(politomiczną). Do tych cech zaliczamy np. płeć, grupę krwi,
kolor włosów, wykształcenie, przeżycie, szczepiony/nie
szczepiony przeciw ospie itp.
Cechy ilościowe
(mierzalne) to takie, które dadzą się
wyrazić za pomocą jednostek miary w pewnej skali.
Przykładowo cechami mierzalnymi są wzrost (w cm), waga
(w kg), poziom hemoglobiny we krwi, wiek w latach itp.
Wśród cech mierzalnych wyróżniamy 3 podgrupy: cechy
ciągle, cechy skokowe (dyskretne) i quasi-ilościowe.
Cechy ciągłe
mogą przyjmować w danym przedziale
wszystkie wartości rzeczywiste, przy czym liczba miejsc po
przecinku zależy od dokładności pomiaru. Na przykład staż
pracy można mierzyć w latach, w latach i miesiącach, w
latach, miesiącach i dniach itd. Inne przykłady to wzrost,
ciężar ciała czy temperatura.
Przez
cechy skokowe (dyskretne)
rozumiemy takie cechy,
które można wyrazić za pomocą określonych zmieniających
się w sposób skokowy, bez wartości pośrednich (przyjmują
one wartości ze zbioru liczb nieujemnych). Na przykład ilość
łóżek w szpitalu, liczba białych krwinek, liczba dzieci w
rodzinie, liczba wad produktów, liczba wypadków w pracy.
Cechy quasi-ilościowe
określają natężenie badanej cechy w
sposób opisowy (a nie liczbowy), który jednak jest oparty na
cesze ilościowej, np. podział przedsiębiorstw na duże, średnie
i małe wiąże się z wielkością przedsiębiorstw mierzoną wg
liczby zatrudnionych czy wielkości produkcji.
Obserwacji można poddać zbiorowość generalną – jest to
badanie pełne
. Do tych badań zalicza się spisy i rejestracje
bieżącą.
Badanie częściowe
stosuje się wtedy, gdy zbiorowość jest
zbyt liczna lub gdy badanie ma charakter niszczący (np. w
statystycznej kontroli jakości). Badania te dzielimy na:
ankietowe, monograficzne i reprezentacyjne.
Metoda
reprezentacyjna
jest
częściowym
badaniem
statystycznym opartym na wynikach próby losowej pobranej z
populacji generalnej. Przydatność tej metody wynika z faktu,
że na podstawie wyników badania reprezentacyjnego można z
określonym prawdopodobieństwem wnioskować o nieznanej
populacji generalnej.
Próba reprezentatywna
,
tzn. taka próba aby z przyjętą
dokładnością opisywała strukturę zbiorowości generalnej.
Wybór reprezentatywnej grupy związany jest z dwoma
czynnikami:
- sposobem doboru grupy,
- liczebnością próby.
Mamy dwa sposoby doboru grupy:
wybór celowy
– gdy o natężeniu danego elementu do próby
decyduje badacz. Stopień reprezentatywności próby zależy
wyłącznie od jakości przeprowadzanej selekcji.
wybór losowy
– gdy każdy element zbiorowości ma
jednakową szanse znalezienia się w próbie z takim samym
prawdopodobieństwem. Struktura takiej zbiorowości jest
podobna do struktury całej zbiorowości generalnej. Jeżeli
próba jest losowa, to wraz ze wzrostem liczebności grupy
wzrasta stopień reprezentatywności.
Do wyboru losowego stosujemy dwie techniki losowania:
•I. Losowanie niezależne (zwrotne) – polegające na tym, że po
każdym losowaniu jednostka wraca do zbiorowości generalnej
(liczebność N jest stała)
•II. Losowanie zależne (bezzwrotne) – polegające na tym, że
po każdym losowaniu element nie bierze już udziału w
dalszym losowaniu.
Szacunki
polegają na ustaleniu wielkości lub właściwości
zbiorowości nieznanej na podstawie zbiorowości znanej i
pozostającej z nią w określonym związku. Wśród metod
szacunku
statystycznego
wyróżnia
się:
rachunek
interpolacyjny i ekstrapolacyjny.
Rachunek interpolacyjny
polega na szacowaniu nieznanych
wartości cechy na podstawie znanych wartości sąsiednich
(wcześniejszych i późniejszych).
Rachunek ekstrapolacyjny
polega na szacowaniu wartości
wykraczających poza przedział wartości znanych.
Pomiarem nazywamy czynność przyporządkowania liczb
przedmiotom lub wydarzeniom zgodnie z pewnym zbiorem
reguł.
Najczęściej wyróżnia się cztery skale pomiaru:
nominalną, porządkową, równomierną (przedziałową) i
ilorazową.
Skala nominalna
– dotyczy cech o charakterze
jakościowym. Skala ta nie mówi nam o celach badanych.
Podstawowa operacja pomiarowa jest tu identyfikacja
kategorii, do której należy zaliczyć wynik a to prowadzi do
podziału zbioru wyników na podzbiory rozłączne. Dla
przykładu: dzieląc grupę ludzi na 2 podgrupy: kobiet i
mężczyzn wykorzystujemy skala nominalną dla cechy
jakościowej – płeć.
Skala porządkowa
– wyznaczona jest przez relacje
porządkującą niektóre lub wszystkie elementy zbioru
wyników. Skala ta pociąga za sobą porządkowanie lub
uszeregowanie badanej zmiennej. Cechy, których natężenie
jest określone przez przymiotniki najlepiej mierzyć w skali
porządkowej. Każdemu ze stanów można przypisać też
liczbę według wzrostu natężenia. Proces ten nazywa się
rangowaniem. Dla przykładu badając wzrost osoby,
możemy użyć określeń „niski”, „średni”, „wysoki”. Mamy do
czynienia również ze skalą porządkową.
Skala ilorazowa
– charakteryzuje się wszystkimi
wymienionymi wyżej własnościami skali przedziałowej;
ponadto pomiary są wykonywane za pomocą tej skali
charakteryzują się stałymi stosunkami oraz bezwzględnym
zerem. Skale te określamy przez wybór stałej jednostki
miary, wskazanie zera bezwzględnego oraz wskazanie
relacji przyporządkowującej każdemu wynikowi obserwacji
liczbę z dokładnością do stałości ilorazu.
Skala równomierna (przedziałowa)
– spełnia własności
uporządkowania a ponadto zakłada, że porządkowany zbiór
wartości cech składa się z liczb rzeczywistych. Skale taka
określamy wskazując stałą jednostkę miary i relację
przyporządkowywującą każdemu wynikowi obserwacji liczbę
(z określoną dokładnością do przekształcenia liniowego).
Podstawowa operacja mierzenia jest tu identyfikacja wielkości
różnic między elementami zbiorów wyników. Zero w takiej
skali ustalone jest dowolnie. W skali tej mierzymy np. czas
kalendarzowy, temperaturę w skali Celsjusza .... . Skale te
wykorzystujemy dla cech ilościowych
.
Obserwacja statystyczna
Polega na ustaleniu wartości cech ilościowych lub odmian cech
jakościowych dla wszystkich jednostek zbiorowości lub jej
części, czyli próby (losowej lub nielosowej). Uzyskany zbiór
danych nazywamy materiałem statystycznym. Materiał ten
dzieli się na pierwotny i wtórny.
Materiał pierwotny
to zbiór danych gromadzonych dla celów
badania statystycznego np. dane zbierane podczas spisu
ludności.
Materiał wtórny
jest to zbiór danych gromadzonych z innych
powodów (np. kontroli finansowej, podatkowej itd.). Takim
materiałem są dane gromadzone w teczkach osobowych
pracowników firmy, dane osobowe studentów, dane o wielkości
sprzedaży rejestrowane przez sklepy.
Opracowanie i prezentacja materiału statystycznego
Porządkowanie surowego materiału statystycznego
obejmuje grupowanie i zliczanie.
Grupowanie
polega na wyodrębnianiu jednorodnych, pod
pewnymi względami, grup z większej, niejednorodnej
zbiorowości statystycznej. Ze względu na cel badania
grupowanie dzieli się na typologiczne i wariancyjne.
Grupowanie typologiczne
jest przeprowadzane na
podstawie wariantów cechy jakościowej, np. podział ludności
wg wykształcenia na wyższe, średnie, zasadnicze zawodowe,
podstawowe.
Grupowanie wariancyjne
opiera się na cesze
ilościowej, np. podział ludności wg wieku na grupy: 0-
14,015-19, 20-24, 25-29 lat itd.
Z grupowaniem materiału statystycznego ściśle
związane jest zliczanie danych, czyli określanie
liczby jednostek w poszczególnych grupach i w całej
zbiorowości. Opracowany materiał może być
zaprezentowany w formie szeregów statystycznych,
tablic lub wykresów.
Szeregiem statystycznym
nazywamy ciąg wielkości
statystycznych
wzrastający
lub
malejący,
pogrupowany według określonych kryteriów.
Szereg statystyczny najczęściej składa się z dwu
kolumn.
Jedna z nich podaje wielkość cechy lub czas, w
drugiej zaś mamy informacje o liczbie jednostek
przypadających na dana wartość lub o natężeniu
zjawisk występujących w czasie.
Rozróżniamy następujące szeregi statystyczne:
Szeregiem szczegółowym (indywidualny) nieuporządkowany
tworzą wartości badanej cechy rejestrowane zgodnie z kolejnością
obserwowania. W wyniku uporządkowania wg kryterium
rosnącego lub malejącego uzyskuje się
szereg szczegółowy
uporządkowany.
Przykład: wydatki (w zł) 10 gospodarstw
domowych
na
gazety
w
pewnym
miesiącu:
30,35,51,55,56,59,63,65,78,81.
Szereg czasowy
(dynamiczny, chronologiczny) otrzymujemy w
wyniku grupowania typologicznego i wariancyjnego, gdy
podstawą grupowania jest zmiana badanego zjawiska w czasie.
Przykład: liczba bezrobotnych w Polsce w latach 1998-2004.
Szereg przestrzenny
przedstawia rozmieszczenie wielkości
statystycznych wg jednostek administracyjnych (gmin, powiatów,
województw), krajów, części świata itd. Przykładami takich
szeregów są: informacje o stopie bezrobocia w poszczególnych
województwach w Polsce w 2004 r., dane o produkcie krajowym
brutto per capita w krajach Unii Europejskiej w 2003 r.
Szereg rozdzielczy
jest to uporządkowany i pogrupowany
materiał statystyczny w taki sposób, że poszczególnym
wariantom cechy ilościowej i jakościowej przyporządkowane są
odpowiadające im liczebności. Wyróżniamy szeregi rozdzielcze
punktowe
(proste i skumulowane) i
przedziałowe
(proste i
skumulowane).
Przykład
W pewnym zakładzie przeprowadzono badanie grupy krwi.
Wybrano losowo 50 osób. Wyniki badania przedstawiono w
postaci szeregu rozdzielczego punktowego.
Grupa krwi Liczba badanych
A 7
B
3
AB 10
O 30
Tworząc
szereg rozdzielczy przedziałowy
, należy określić
liczbę przedziałów klasowych, ich rozpiętość i sposób
określenia granic przedziałów w tym granicę dolną
pierwszego przedziału.
Praktyczne wskazówki:
1. Klasy obejmują wszystkie jednostki zbiorowości – żaden
element nie może zostać pominięty.
2. Liczba klas jest uzależniona od obszaru zmienności (różnica
między max. i min. wartością cechy) i od liczebności
zbiorowości – im większy obszar zmienności cechy i większa
liczebność, tym większa powinna być liczba przedziałów.
3. Eliminowanie klas (przedziałów) pustych (o zerowej
liczebności).
4. Wymóg by rozkład był jednomodalny (liczebności w
poszczególnych klasach stopniowo rosną aż do osiągnięcia
maksimum a następnie maleją).
5. Redukowanie klas o niewielkiej liczebności a także o
wyraźnie zaznaczonej liczebności (czyli jednakowo liczne
sąsiednie klasy).
6. Ustalanie jednakowych rozpiętości przedziałów.
Stosuje się zwykle od kilku do kilkunastu klas w zależności od tego,
jak liczny jest szereg statystyczny. Możemy zastosować regułę
Sturges’a – określającą liczbę tworzonych klas (
k
). Ta liczba
powinna być:
k ≈ 1 + log
2
(n),
gdzie n jest liczbą obserwacji
np. k = 1 + log
2
(113) = 8 klas
Inne reguły:
k 5 log n
k = 1 + 3,322 log n
Rozpiętość
h
przedziału jest obliczana wg wzoru: h = (Xmax –
Xmin)/k
Ustalanie granic przedziałowych
-Pierwszy przypadek dla cechy ciągłej
– górna granica danej
klasy jest dolna granicą klasy następnej, czyli 10-20, 20-30 itd.
Trzeba zaznaczyć czy granica przedziałów są domknięte czy
otwarte, tj. czy wariant 10-20 oznacza „od więcej niż 10 do 20
włącznie” czy „od 10 włącznie do mniej niż 20”
-Drugi przypadek
– górna granica danej klasy jest o jednostkę
niższa niż dolna granica klasy następnej, takie ustalanie granic
jest typowe dla cech skokowych.
Na przykład klasy 15-19 lat oznacza, że zalicza się tu też osoby,
które są w wieku 15-19,9 lat.
Przykład 1
Rozkład liczebności (szereg rozdzielczy) i częstości szeregu
statystycznego.
Badano masę ciała poczwarek mącznika w miligramach, z hodowli
prowadzonej na razowej mące w temperaturze 26
0
C. Otrzymano
następujące wyniki:
Jak z tabeli wynika masy ciała mieszczą się w zakresie 113 do 219
mg, czyli zakres obejmuje (219-113 = 106 jednostek). Podzielimy
ten zakres na 6 klas po 20 jednostek, poczynając od 110 mg.
Przykład 2
Badany był wzrost uczniów (szkoła średnia) Danych było dużo,
więc dzielimy badanych na grupy o różnicy wzrostu nie mniejszej
niż 5 cm. Dane są zamieszczone w tabeli.
Jeżeli uważamy, że nasz histogram jest za mało dokładny, czyli
przedziały klasowe są za duże, to możemy wziąć przedziały o
połowę mniejsze.
Gdybyśmy połączyli środki przedziałów i nieco wygładzili
otrzymaną linię, to w efekcie wykres w przybliżeniu dawałby
obraz wykresu rozkładu normalnego. Ważne jest jako wniosek,
że wzrost rozkłada się w dużej populacji prawie zgodnie z
rozkładem normalnym.
Obecnie klasy tworzy się jedynie w celu graficznego
przedstawienia rozkładu i ustalenia, czy jest on zgodny z
rozkładem teoretycznym, takim jak na przykład rozkład
normalny. Graficzny obraz rozkładu pozwala na ustalenia, czy
jest on symetryczny, czy skośny (asymetryczny), a jeśli skośny,
to, w którą stronę. Jeśli w rozkładzie są wyraźne dwa szczyty, to
można przypuszczać, że mamy do czynienia z próbą
niejednorodną.
Tablice statystyczne
wykorzystuje się do prezentacji
danych statystycznych. Mogą one zawierać jeden szereg
statystyczny lub łączyć w jedną całość dwa lub więcej
szeregów statystycznych. Każda tablica statystyczna powinna
spełniać określone wymogi formalnie dotyczące jej budowy,
takie jak: określenie tytułu ogólnego, tytułów kolumn i
wierszy, podanie źródeł danych statystycznych, ewentualnych
objaśnień.
Wykresy statystyczne
służą tym samym celom co szeregi i
tablice, tj. rejestracji danych, ich prezentacji i analizie. Do
najbardziej popularnych wykresów prezentujących szereg
rozdzielczy należą: histogram i diagram (wielobok
liczebności).
Histogram
to zbiór prostokątów, których podstawy
wyznaczone są na osi odciętych przez rozpiętość
poszczególnych przedziałów, a wysokości są określone na osi
rzędnych przez liczebności odpowiadających poszczególnym
przedziałom.
Diagram
otrzymuje się w wyniku połączenia punktów o
współrzędnych będących środkami przedziałów i
odpowiadających im liczebności.