background image

 

 

Ważne pojęcia przy planowaniu badań 

naukowych i dalszej obróbce 

statystycznej

1. Zbiorowość statystyczna i jej rodzaje

2. Badanie pełne i częściowe

3. Próba reprezentatywna – sposoby doboru grup

4. Jednostka statystyczna i jej cechy

Cechy jakościowe

Cechy ilościowe (cechy skokowe i ciągłe)

Cechy quasi-ilościowe

5. Pomiar i jego 4 skale

6. Szereg statystyczny i jego rodzaje

background image

 

 

Etapy badania statystycznego

Przygotowanie badania

Zbiorowość  statystyczna

  to  zbiór  dowolnych  elementów 

(osób, obserwacji lub przedmiotów) podobnych pod względem 
określonych  cech  (lecz  nie  identycznych)  objętych  badaniem 
statystycznym. 

Rozróżniamy dwa rodzaje zbiorowości: 

Zbiorowość  generalna  (populacja)

  –  jest  to  zbiór 

dowolnych  elementów  (osób,  obserwacji,  zdarzeń)  nie 
identycznych  z  punktu  widzenia  badanej  cechy,  obejmujący 
wszystkie  elementy  będące  przedmiotem  badań,  co,  do 
których chcemy sformułować wnioski ogólne. 

Zbiorowość  próbna  (próbka)

  jest  to  podzbiór  zbiorowości 

generalnej,  obejmująca  część  jej  elementów  –  wybranych  w 
określony sposób.

 

background image

 

 

Podstawową cząstkę zbiorowości statystycznej nazywamy 

jednostką statystyczną

 – jest to pojedynczy element 

zbiorowości np. pracownik, student, firma itp.

Cechami statystycznymi nazywamy właściwości, 
których odmiany lub wartości wyróżniają jednostki 
wchodzące w skład zbiorowości.

Cechy stałe nie podlegają badaniu, ponieważ są 
wspólne dla wszystkich jednostek zbiorowości i 
określają te jednostki pod względem rzeczowym, 
czasowym i przestrzennym. Służą zatem do 
zakwalifikowania jednostek do określonej 
zbiorowości.

Cechy zmienne podlegają badaniu, ponieważ są to 
właściwości, którymi różnią się poszczególne 
jednostki statystyczne. Cechy te dzielą się na 
ilościowe i jakościowe.

 

background image

 

 

Cechy jakościowe

 (niemierzalne) – to takie, które nie mogą 

być  w  sposób  jednoznaczny  i  oczywisty  scharakteryzowane 
przy  pomocy  liczb  (nie  dadzą  się  zmierzyć)  a  jedynie 
stwierdzić istnienie lub nieistnienie danego wariantu cechy u 
poszczególnych  jednostek.  Zliczając  liczbę  jednostek  wg 
danego  wariantu  cechy,  można  otrzymać  klasyfikację 
dwudzielną 

(dychotomiczną) 

oraz 

wielodzielną 

(politomiczną).  Do tych cech zaliczamy np. płeć, grupę krwi, 
kolor  włosów,  wykształcenie,  przeżycie,  szczepiony/nie 
szczepiony przeciw ospie itp.

 

Cechy  ilościowe

  (mierzalne)  to  takie,  które  dadzą  się 

wyrazić  za  pomocą  jednostek  miary  w  pewnej  skali. 
Przykładowo  cechami  mierzalnymi  są  wzrost  (w  cm),  waga 
(w kg), poziom hemoglobiny we krwi, wiek w latach itp. 

background image

 

 

Wśród  cech  mierzalnych  wyróżniamy  3  podgrupy:  cechy 
ciągle, cechy skokowe (dyskretne) i quasi-ilościowe.

 

Cechy  ciągłe

  mogą  przyjmować  w  danym  przedziale 

wszystkie  wartości  rzeczywiste,  przy  czym  liczba  miejsc  po 
przecinku  zależy  od  dokładności  pomiaru.  Na  przykład  staż 
pracy  można  mierzyć  w  latach,  w  latach  i  miesiącach,  w 
latach,  miesiącach  i  dniach  itd.  Inne  przykłady  to  wzrost, 
ciężar ciała czy temperatura. 

 Przez 

cechy  skokowe  (dyskretne)

  rozumiemy  takie  cechy, 

które  można  wyrazić  za  pomocą  określonych  zmieniających 
się  w  sposób  skokowy,  bez  wartości  pośrednich  (przyjmują 
one wartości ze zbioru liczb nieujemnych). Na przykład ilość 
łóżek  w  szpitalu,  liczba  białych  krwinek,  liczba  dzieci  w 
rodzinie, liczba wad produktów, liczba wypadków w pracy.

background image

 

 

Cechy  quasi-ilościowe

  określają  natężenie  badanej  cechy  w 

sposób  opisowy  (a  nie  liczbowy),  który  jednak  jest  oparty  na 
cesze ilościowej, np. podział przedsiębiorstw na duże, średnie 
i  małe  wiąże  się  z  wielkością  przedsiębiorstw  mierzoną  wg 
liczby zatrudnionych czy wielkości produkcji.

Obserwacji  można  poddać  zbiorowość  generalną  –  jest  to 

badanie  pełne

.  Do  tych  badań  zalicza  się  spisy  i  rejestracje 

bieżącą.

Badanie  częściowe 

stosuje  się  wtedy,  gdy  zbiorowość  jest 

zbyt  liczna  lub  gdy  badanie  ma  charakter  niszczący  (np.  w 
statystycznej  kontroli  jakości).  Badania  te  dzielimy  na: 
ankietowe, monograficzne i reprezentacyjne. 

Metoda 

reprezentacyjna 

jest 

częściowym 

badaniem 

statystycznym opartym na wynikach próby losowej pobranej z 
populacji  generalnej.  Przydatność  tej  metody  wynika  z  faktu, 
że na podstawie wyników badania reprezentacyjnego można z 
określonym  prawdopodobieństwem  wnioskować  o  nieznanej 
populacji generalnej.

background image

 

 

Próba reprezentatywna

tzn. taka próba aby z przyjętą 

dokładnością opisywała strukturę zbiorowości generalnej. 
Wybór reprezentatywnej grupy związany jest z dwoma 
czynnikami:
-         sposobem doboru grupy,
-         liczebnością próby.

Mamy dwa sposoby doboru grupy:
  

wybór celowy

 – gdy o natężeniu danego elementu do próby 

decyduje badacz. Stopień reprezentatywności próby zależy 
wyłącznie od jakości przeprowadzanej selekcji.
  

wybór losowy

 – gdy każdy element zbiorowości ma 

jednakową szanse znalezienia się w próbie z takim samym 
prawdopodobieństwem. Struktura takiej zbiorowości jest 
podobna do struktury całej zbiorowości generalnej. Jeżeli 
próba jest losowa, to wraz ze wzrostem liczebności grupy 
wzrasta stopień reprezentatywności.

background image

 

 

Do wyboru losowego stosujemy dwie techniki losowania:

•I. Losowanie niezależne (zwrotne) – polegające na tym, że po 
każdym losowaniu jednostka wraca do zbiorowości generalnej 
(liczebność N jest stała)

•II.  Losowanie  zależne  (bezzwrotne)  –  polegające  na  tym,  że 
po  każdym  losowaniu  element  nie  bierze  już  udziału  w 
dalszym losowaniu.

Szacunki

  polegają  na  ustaleniu  wielkości  lub  właściwości 

zbiorowości  nieznanej  na  podstawie  zbiorowości  znanej  i 
pozostającej  z  nią  w  określonym  związku.  Wśród  metod 
szacunku 

statystycznego 

wyróżnia 

się: 

rachunek 

interpolacyjny i ekstrapolacyjny. 

Rachunek  interpolacyjny

  polega  na  szacowaniu  nieznanych 

wartości  cechy  na  podstawie  znanych  wartości  sąsiednich 
(wcześniejszych i późniejszych). 

Rachunek  ekstrapolacyjny

  polega  na  szacowaniu  wartości 

wykraczających poza przedział wartości znanych.

background image

 

 

Pomiarem  nazywamy  czynność  przyporządkowania  liczb 
przedmiotom lub wydarzeniom zgodnie z pewnym zbiorem 
reguł. 

Najczęściej  wyróżnia  się  cztery  skale  pomiaru
nominalną,  porządkową,  równomierną  (przedziałową)  i 
ilorazową.

Skala  nominalna

  –  dotyczy  cech  o  charakterze 

jakościowym.  Skala  ta  nie  mówi  nam  o  celach  badanych. 
Podstawowa  operacja  pomiarowa  jest  tu  identyfikacja 
kategorii, do której należy zaliczyć wynik a to prowadzi do 
podziału  zbioru  wyników  na  podzbiory  rozłączne.  Dla 
przykładu:  dzieląc  grupę  ludzi  na  2  podgrupy:  kobiet  i 
mężczyzn  wykorzystujemy  skala  nominalną  dla  cechy 
jakościowej – płeć. 

 

background image

 

 

Skala  porządkowa

  –  wyznaczona  jest  przez  relacje 

porządkującą  niektóre  lub  wszystkie  elementy  zbioru 
wyników.  Skala  ta  pociąga  za  sobą  porządkowanie  lub 
uszeregowanie badanej zmiennej. Cechy, których natężenie 
jest  określone  przez  przymiotniki  najlepiej  mierzyć  w  skali 
porządkowej.  Każdemu  ze  stanów  można  przypisać  też 
liczbę  według  wzrostu  natężenia.  Proces  ten  nazywa  się 
rangowaniem.  Dla  przykładu  badając  wzrost  osoby, 
możemy użyć określeń „niski”, „średni”, „wysoki”. Mamy do 
czynienia również ze skalą porządkową.

Skala  ilorazowa

  –  charakteryzuje  się  wszystkimi 

wymienionymi  wyżej  własnościami  skali  przedziałowej; 
ponadto  pomiary  są  wykonywane  za  pomocą  tej  skali 
charakteryzują  się  stałymi  stosunkami  oraz  bezwzględnym 
zerem.  Skale  te  określamy  przez  wybór  stałej  jednostki 
miary,  wskazanie  zera  bezwzględnego  oraz  wskazanie 
relacji  przyporządkowującej  każdemu  wynikowi  obserwacji 
liczbę z dokładnością do stałości ilorazu. 

background image

 

 

Skala  równomierna  (przedziałowa)

  –  spełnia  własności 

uporządkowania  a  ponadto  zakłada,  że  porządkowany  zbiór 
wartości  cech  składa  się  z  liczb  rzeczywistych.  Skale  taka 
określamy  wskazując  stałą  jednostkę  miary  i  relację 
przyporządkowywującą  każdemu  wynikowi  obserwacji  liczbę 
(z  określoną  dokładnością  do  przekształcenia  liniowego). 
Podstawowa operacja mierzenia jest tu identyfikacja wielkości 
różnic  między  elementami  zbiorów  wyników.  Zero  w  takiej 
skali  ustalone  jest  dowolnie.  W  skali  tej  mierzymy  np.  czas 
kalendarzowy,  temperaturę  w  skali  Celsjusza  ....  .  Skale  te 
wykorzystujemy dla cech ilościowych

.

background image

 

 

Obserwacja statystyczna

Polega na ustaleniu wartości cech ilościowych lub odmian cech 
jakościowych dla wszystkich jednostek zbiorowości lub jej 
części, czyli próby (losowej lub nielosowej). Uzyskany zbiór 
danych nazywamy materiałem statystycznym. Materiał ten 
dzieli się na pierwotny i wtórny.

Materiał pierwotny 

to zbiór danych gromadzonych dla celów 

badania statystycznego np. dane zbierane podczas spisu 
ludności.

Materiał wtórny 

jest to zbiór danych gromadzonych z innych 

powodów (np. kontroli finansowej, podatkowej itd.). Takim 
materiałem są dane gromadzone w teczkach osobowych 
pracowników firmy, dane osobowe studentów, dane o wielkości 
sprzedaży rejestrowane przez sklepy.

Opracowanie i prezentacja materiału statystycznego

Porządkowanie surowego materiału statystycznego 
obejmuje grupowanie i zliczanie.

Grupowanie 

polega na wyodrębnianiu jednorodnych, pod 

pewnymi względami, grup z większej, niejednorodnej 
zbiorowości statystycznej. Ze względu na cel badania 
grupowanie dzieli się na typologiczne i wariancyjne.

background image

 

 

Grupowanie typologiczne

 

jest przeprowadzane na 

podstawie wariantów cechy jakościowej, np. podział ludności 
wg wykształcenia na wyższe, średnie, zasadnicze zawodowe, 
podstawowe.

Grupowanie wariancyjne

 

opiera się na cesze 

ilościowej, np. podział ludności wg wieku na grupy: 0-
14,015-19, 20-24, 25-29 lat itd.

Z grupowaniem materiału statystycznego ściśle 
związane jest zliczanie danych, czyli określanie 
liczby jednostek w poszczególnych grupach i w całej 
zbiorowości. Opracowany materiał może być 
zaprezentowany w formie szeregów statystycznych, 
tablic lub wykresów.

background image

 

 

Szeregiem  statystycznym

  nazywamy  ciąg  wielkości 

statystycznych 

wzrastający 

lub 

malejący, 

pogrupowany według określonych kryteriów. 

Szereg  statystyczny  najczęściej  składa  się  z  dwu 
kolumn
.

Jedna  z  nich  podaje  wielkość  cechy  lub  czas,  w 
drugiej  zaś  mamy  informacje  o  liczbie  jednostek 
przypadających  na  dana  wartość  lub  o  natężeniu 
zjawisk występujących w czasie. 

background image

 

 

Rozróżniamy następujące szeregi statystyczne:

Szeregiem szczegółowym (indywidualny) nieuporządkowany 

tworzą wartości badanej cechy rejestrowane zgodnie z kolejnością 
obserwowania.  W  wyniku  uporządkowania  wg  kryterium 
rosnącego  lub  malejącego  uzyskuje  się 

szereg  szczegółowy 

uporządkowany. 

Przykład:  wydatki  (w  zł)  10  gospodarstw 

domowych 

na 

gazety 

pewnym 

miesiącu: 

30,35,51,55,56,59,63,65,78,81.

Szereg  czasowy

  (dynamiczny,  chronologiczny)  otrzymujemy  w 

wyniku  grupowania  typologicznego  i  wariancyjnego,  gdy 
podstawą  grupowania  jest  zmiana  badanego  zjawiska  w  czasie. 
Przykład: liczba bezrobotnych w Polsce w latach 1998-2004.

Szereg przestrzenny

 przedstawia rozmieszczenie wielkości 

statystycznych wg jednostek administracyjnych (gmin, powiatów, 
województw), krajów, części świata itd. Przykładami takich 
szeregów są: informacje o stopie bezrobocia w poszczególnych 
województwach w Polsce w 2004 r., dane o produkcie krajowym 
brutto per capita w krajach Unii Europejskiej w 2003 r.

background image

 

 

Szereg  rozdzielczy

  jest  to  uporządkowany  i  pogrupowany 

materiał  statystyczny  w  taki  sposób,  że  poszczególnym 
wariantom  cechy  ilościowej  i  jakościowej  przyporządkowane  są 
odpowiadające  im  liczebności.  Wyróżniamy  szeregi  rozdzielcze 

punktowe

  (proste  i  skumulowane)  i 

przedziałowe

  (proste  i 

skumulowane).   

Przykład

W  pewnym  zakładzie  przeprowadzono  badanie  grupy  krwi. 
Wybrano losowo 50 osób. Wyniki badania przedstawiono w 
postaci szeregu rozdzielczego punktowego.

Grupa krwi           Liczba badanych

A                          7

B        

3

AB                      10 

  O                      30

background image

 

 

Tworząc 

szereg rozdzielczy przedziałowy

, należy określić 

liczbę przedziałów klasowych, ich rozpiętość i sposób 
określenia granic przedziałów w tym granicę dolną 
pierwszego przedziału.

Praktyczne wskazówki:

1. Klasy obejmują wszystkie jednostki zbiorowości – żaden 

element nie może zostać pominięty.

2. Liczba klas jest uzależniona od obszaru zmienności (różnica 

między max. i min. wartością cechy) i od liczebności 
zbiorowości – im większy obszar zmienności cechy i większa 
liczebność, tym większa powinna być liczba przedziałów.

3. Eliminowanie klas (przedziałów) pustych (o zerowej 

liczebności).

4. Wymóg by rozkład był jednomodalny (liczebności w 

poszczególnych klasach stopniowo rosną aż do osiągnięcia 
maksimum a następnie maleją).

5. Redukowanie klas o niewielkiej liczebności a także o 

wyraźnie zaznaczonej liczebności (czyli jednakowo liczne 
sąsiednie klasy).

6. Ustalanie jednakowych rozpiętości przedziałów.

background image

 

 

Stosuje się zwykle od kilku do kilkunastu klas w zależności od tego, 
jak liczny jest szereg statystyczny. Możemy zastosować regułę 
Sturges’a – określającą liczbę tworzonych klas (

k

). Ta liczba 

powinna być:

k ≈ 1 + log

2

 (n), 

gdzie n jest liczbą obserwacji

 np. k = 1 + log

(113) = 8 klas

Inne reguły:

 5 log n

k = 1 + 3,322 log n

Rozpiętość 

h

 przedziału jest obliczana wg wzoru: h = (Xmax – 

Xmin)/k

background image

 

 

Ustalanie granic przedziałowych

-Pierwszy przypadek dla cechy ciągłej

 – górna granica danej 

klasy jest dolna granicą klasy następnej, czyli 10-20, 20-30 itd. 
Trzeba zaznaczyć czy granica przedziałów są domknięte czy 
otwarte, tj. czy wariant 10-20 oznacza „od więcej niż 10 do 20 
włącznie” czy „od 10 włącznie do mniej niż 20”

-Drugi przypadek

 – górna granica danej klasy jest o jednostkę 

niższa niż dolna granica klasy następnej, takie ustalanie granic 
jest typowe dla cech skokowych. 

Na przykład klasy 15-19 lat oznacza, że zalicza się tu też osoby, 
które są w wieku 15-19,9 lat.

background image

 

 

Przykład 1

Rozkład liczebności (szereg rozdzielczy) i częstości szeregu 
statystycznego.

Badano masę ciała poczwarek mącznika w miligramach, z hodowli 
prowadzonej na razowej mące w temperaturze 26

0

C. Otrzymano 

następujące wyniki:

Jak z tabeli wynika masy ciała mieszczą się w zakresie 113 do 219 
mg, czyli zakres obejmuje (219-113 = 106 jednostek). Podzielimy 
ten zakres na 6 klas po 20 jednostek, poczynając od 110 mg.

background image

 

 

Przykład 2

Badany był wzrost uczniów (szkoła średnia) Danych było dużo, 
więc dzielimy badanych na grupy o różnicy wzrostu nie mniejszej 
niż 5 cm. Dane są zamieszczone w tabeli.

Jeżeli uważamy, że nasz histogram jest za mało dokładny, czyli 
przedziały klasowe są za duże, to możemy wziąć przedziały o 
połowę mniejsze. 

background image

 

 

Gdybyśmy połączyli środki przedziałów i nieco wygładzili 
otrzymaną linię, to w efekcie wykres w przybliżeniu dawałby 
obraz wykresu rozkładu normalnego. Ważne jest jako wniosek, 
że wzrost rozkłada się w dużej populacji prawie zgodnie z 
rozkładem normalnym.

 

 

Obecnie klasy tworzy się jedynie w celu graficznego 
przedstawienia rozkładu i ustalenia, czy jest on zgodny z 
rozkładem teoretycznym, takim jak na przykład rozkład 
normalny. Graficzny obraz rozkładu pozwala na ustalenia, czy 
jest on symetryczny, czy skośny (asymetryczny), a jeśli skośny, 
to, w którą stronę. Jeśli w rozkładzie są wyraźne dwa szczyty, to 
można przypuszczać, że mamy do czynienia z próbą 
niejednorodną.

background image

 

 

Tablice statystyczne

 

wykorzystuje się do prezentacji 

danych statystycznych. Mogą one zawierać jeden szereg 
statystyczny lub łączyć w jedną całość dwa lub więcej 
szeregów statystycznych. Każda tablica statystyczna powinna 
spełniać określone wymogi formalnie dotyczące jej budowy, 
takie jak: określenie tytułu ogólnego, tytułów kolumn i 
wierszy, podanie źródeł danych statystycznych, ewentualnych 
objaśnień. 

Wykresy statystyczne

 służą tym samym celom co szeregi i 

tablice, tj. rejestracji danych, ich prezentacji i analizie. Do 
najbardziej popularnych wykresów prezentujących szereg 
rozdzielczy należą: histogram i diagram (wielobok 
liczebności).

Histogram

 to zbiór prostokątów, których podstawy 

wyznaczone są na osi odciętych przez rozpiętość 
poszczególnych przedziałów, a wysokości są określone na osi 
rzędnych przez liczebności odpowiadających poszczególnym 
przedziałom.

Diagram

 otrzymuje się w wyniku połączenia punktów o 

współrzędnych będących środkami przedziałów i 
odpowiadających im liczebności.


Document Outline