Prezentacja programu PowerPoint

Ważne pojęcia przy planowaniu badań

naukowych i dalszej obróbce

statystycznej

1. Zbiorowość statystyczna i jej rodzaje

2. Badanie pełne i częściowe

3. Próba reprezentatywna – sposoby doboru grup

4. Jednostka statystyczna i jej cechy

•

Cechy jakościowe

•

Cechy ilościowe (cechy skokowe i ciągłe)

•

Cechy quasi-ilościowe

5. Pomiar i jego 4 skale

6. Szereg statystyczny i jego rodzaje

Etapy badania statystycznego

Przygotowanie badania

Zbiorowość statystyczna

to zbiór dowolnych elementów

(osób, obserwacji lub przedmiotów) podobnych pod względem
określonych cech (lecz nie identycznych) objętych badaniem
statystycznym.

Rozróżniamy dwa rodzaje zbiorowości:

Zbiorowość generalna (populacja)

– jest to zbiór

dowolnych  elementów  (osób,  obserwacji,  zdarzeń)  nie
identycznych  z  punktu  widzenia  badanej  cechy,  obejmujący
wszystkie  elementy  będące  przedmiotem  badań,  co,  do
których chcemy sformułować wnioski ogólne.

Zbiorowość próbna (próbka)

jest to podzbiór zbiorowości

generalnej, obejmująca część jej elementów – wybranych w
określony sposób.

Podstawową cząstkę zbiorowości statystycznej nazywamy

jednostką statystyczną

– jest to pojedynczy element

zbiorowości np. pracownik, student, firma itp.

Cechami statystycznymi nazywamy właściwości,
których odmiany lub wartości wyróżniają jednostki
wchodzące w skład zbiorowości.

Cechy stałe nie podlegają badaniu, ponieważ są
wspólne dla wszystkich jednostek zbiorowości i
określają te jednostki pod względem rzeczowym,
czasowym i przestrzennym. Służą zatem do
zakwalifikowania jednostek do określonej
zbiorowości.

Cechy zmienne podlegają badaniu, ponieważ są to
właściwości, którymi różnią się poszczególne
jednostki statystyczne. Cechy te dzielą się na
ilościowe i jakościowe.

Cechy jakościowe

(niemierzalne) – to takie, które nie mogą

być  w  sposób  jednoznaczny  i  oczywisty  scharakteryzowane
przy  pomocy  liczb  (nie  dadzą  się  zmierzyć)  a  jedynie
stwierdzić istnienie lub nieistnienie danego wariantu cechy u
poszczególnych  jednostek.  Zliczając  liczbę  jednostek  wg
danego  wariantu  cechy,  można  otrzymać  klasyfikację
dwudzielną

(dychotomiczną)

oraz

wielodzielną

(politomiczną). Do tych cech zaliczamy np. płeć, grupę krwi,
kolor włosów, wykształcenie, przeżycie, szczepiony/nie
szczepiony przeciw ospie itp.

Cechy ilościowe

(mierzalne) to takie, które dadzą się

wyrazić za pomocą jednostek miary w pewnej skali.
Przykładowo cechami mierzalnymi są wzrost (w cm), waga
(w kg), poziom hemoglobiny we krwi, wiek w latach itp.

Wśród cech mierzalnych wyróżniamy 3 podgrupy: cechy
ciągle, cechy skokowe (dyskretne) i quasi-ilościowe.

Cechy ciągłe

mogą przyjmować w danym przedziale

wszystkie  wartości  rzeczywiste,  przy  czym  liczba  miejsc  po
przecinku  zależy  od  dokładności  pomiaru.  Na  przykład  staż
pracy  można  mierzyć  w  latach,  w  latach  i  miesiącach,  w
latach,  miesiącach  i  dniach  itd.  Inne  przykłady  to  wzrost,
ciężar ciała czy temperatura.

Przez

cechy skokowe (dyskretne)

rozumiemy takie cechy,

które  można  wyrazić  za  pomocą  określonych  zmieniających
się  w  sposób  skokowy,  bez  wartości  pośrednich  (przyjmują
one wartości ze zbioru liczb nieujemnych). Na przykład ilość
łóżek  w  szpitalu,  liczba  białych  krwinek,  liczba  dzieci  w
rodzinie, liczba wad produktów, liczba wypadków w pracy.

Cechy quasi-ilościowe

określają natężenie badanej cechy w

sposób opisowy (a nie liczbowy), który jednak jest oparty na
cesze ilościowej, np. podział przedsiębiorstw na duże, średnie
i małe wiąże się z wielkością przedsiębiorstw mierzoną wg
liczby zatrudnionych czy wielkości produkcji.

Obserwacji można poddać zbiorowość generalną – jest to

badanie pełne

. Do tych badań zalicza się spisy i rejestracje

bieżącą.

Badanie częściowe

stosuje się wtedy, gdy zbiorowość jest

zbyt liczna lub gdy badanie ma charakter niszczący (np. w
statystycznej kontroli jakości). Badania te dzielimy na:
ankietowe, monograficzne i reprezentacyjne.

Metoda

reprezentacyjna

jest

częściowym

badaniem

statystycznym opartym na wynikach próby losowej pobranej z
populacji generalnej. Przydatność tej metody wynika z faktu,
że na podstawie wyników badania reprezentacyjnego można z
określonym prawdopodobieństwem wnioskować o nieznanej
populacji generalnej.

Próba reprezentatywna

tzn. taka próba aby z przyjętą

dokładnością opisywała strukturę zbiorowości generalnej.
Wybór reprezentatywnej grupy związany jest z dwoma
czynnikami:
- sposobem doboru grupy,
- liczebnością próby.

Mamy dwa sposoby doboru grupy:

wybór celowy

– gdy o natężeniu danego elementu do próby

decyduje badacz. Stopień reprezentatywności próby zależy
wyłącznie od jakości przeprowadzanej selekcji.

wybór losowy

– gdy każdy element zbiorowości ma

jednakową szanse znalezienia się w próbie z takim samym
prawdopodobieństwem. Struktura takiej zbiorowości jest
podobna do struktury całej zbiorowości generalnej. Jeżeli
próba jest losowa, to wraz ze wzrostem liczebności grupy
wzrasta stopień reprezentatywności.

Do wyboru losowego stosujemy dwie techniki losowania:

•I. Losowanie niezależne (zwrotne) – polegające na tym, że po
każdym losowaniu jednostka wraca do zbiorowości generalnej
(liczebność N jest stała)

•II. Losowanie zależne (bezzwrotne) – polegające na tym, że
po każdym losowaniu element nie bierze już udziału w
dalszym losowaniu.

Szacunki

polegają na ustaleniu wielkości lub właściwości

zbiorowości nieznanej na podstawie zbiorowości znanej i
pozostającej z nią w określonym związku. Wśród metod
szacunku

statystycznego

wyróżnia

się:

rachunek

interpolacyjny i ekstrapolacyjny.

Rachunek interpolacyjny

polega na szacowaniu nieznanych

wartości cechy na podstawie znanych wartości sąsiednich
(wcześniejszych i późniejszych).

Rachunek ekstrapolacyjny

polega na szacowaniu wartości

wykraczających poza przedział wartości znanych.

Pomiarem nazywamy czynność przyporządkowania liczb
przedmiotom lub wydarzeniom zgodnie z pewnym zbiorem
reguł.

Najczęściej wyróżnia się cztery skale pomiaru:
nominalną, porządkową, równomierną (przedziałową) i
ilorazową.

Skala nominalna

– dotyczy cech o charakterze

jakościowym.  Skala  ta  nie  mówi  nam  o  celach  badanych.
Podstawowa  operacja  pomiarowa  jest  tu  identyfikacja
kategorii, do której należy zaliczyć wynik a to prowadzi do
podziału  zbioru  wyników  na  podzbiory  rozłączne.  Dla
przykładu:  dzieląc  grupę  ludzi  na  2  podgrupy:  kobiet  i
mężczyzn  wykorzystujemy  skala  nominalną  dla  cechy
jakościowej – płeć.

Skala porządkowa

– wyznaczona jest przez relacje

porządkującą  niektóre  lub  wszystkie  elementy  zbioru
wyników.  Skala  ta  pociąga  za  sobą  porządkowanie  lub
uszeregowanie badanej zmiennej. Cechy, których natężenie
jest  określone  przez  przymiotniki  najlepiej  mierzyć  w  skali
porządkowej.  Każdemu  ze  stanów  można  przypisać  też
liczbę  według  wzrostu  natężenia.  Proces  ten  nazywa  się
rangowaniem.  Dla  przykładu  badając  wzrost  osoby,
możemy użyć określeń „niski”, „średni”, „wysoki”. Mamy do
czynienia również ze skalą porządkową.

Skala ilorazowa

– charakteryzuje się wszystkimi

wymienionymi  wyżej  własnościami  skali  przedziałowej;
ponadto  pomiary  są  wykonywane  za  pomocą  tej  skali
charakteryzują  się  stałymi  stosunkami  oraz  bezwzględnym
zerem.  Skale  te  określamy  przez  wybór  stałej  jednostki
miary,  wskazanie  zera  bezwzględnego  oraz  wskazanie
relacji  przyporządkowującej  każdemu  wynikowi  obserwacji
liczbę z dokładnością do stałości ilorazu.

Skala równomierna (przedziałowa)

– spełnia własności

uporządkowania  a  ponadto  zakłada,  że  porządkowany  zbiór
wartości  cech  składa  się  z  liczb  rzeczywistych.  Skale  taka
określamy  wskazując  stałą  jednostkę  miary  i  relację
przyporządkowywującą  każdemu  wynikowi  obserwacji  liczbę
(z  określoną  dokładnością  do  przekształcenia  liniowego).
Podstawowa operacja mierzenia jest tu identyfikacja wielkości
różnic  między  elementami  zbiorów  wyników.  Zero  w  takiej
skali  ustalone  jest  dowolnie.  W  skali  tej  mierzymy  np.  czas
kalendarzowy,  temperaturę  w  skali  Celsjusza  ....  .  Skale  te
wykorzystujemy dla cech ilościowych

Obserwacja statystyczna

Polega na ustaleniu wartości cech ilościowych lub odmian cech
jakościowych dla wszystkich jednostek zbiorowości lub jej
części, czyli próby (losowej lub nielosowej). Uzyskany zbiór
danych nazywamy materiałem statystycznym. Materiał ten
dzieli się na pierwotny i wtórny.

Materiał pierwotny

to zbiór danych gromadzonych dla celów

badania statystycznego np. dane zbierane podczas spisu
ludności.

Materiał wtórny

jest to zbiór danych gromadzonych z innych

powodów (np. kontroli finansowej, podatkowej itd.). Takim
materiałem są dane gromadzone w teczkach osobowych
pracowników firmy, dane osobowe studentów, dane o wielkości
sprzedaży rejestrowane przez sklepy.

Opracowanie i prezentacja materiału statystycznego

Porządkowanie surowego materiału statystycznego
obejmuje grupowanie i zliczanie.

Grupowanie

polega na wyodrębnianiu jednorodnych, pod

pewnymi względami, grup z większej, niejednorodnej
zbiorowości statystycznej. Ze względu na cel badania
grupowanie dzieli się na typologiczne i wariancyjne.

Grupowanie typologiczne

jest przeprowadzane na

podstawie wariantów cechy jakościowej, np. podział ludności
wg wykształcenia na wyższe, średnie, zasadnicze zawodowe,
podstawowe.

Grupowanie wariancyjne

opiera się na cesze

ilościowej, np. podział ludności wg wieku na grupy: 0-
14,015-19, 20-24, 25-29 lat itd.

Z grupowaniem materiału statystycznego ściśle
związane jest zliczanie danych, czyli określanie
liczby jednostek w poszczególnych grupach i w całej
zbiorowości. Opracowany materiał może być
zaprezentowany w formie szeregów statystycznych,
tablic lub wykresów.

Szeregiem statystycznym

nazywamy ciąg wielkości

statystycznych

wzrastający

lub

malejący,

pogrupowany według określonych kryteriów.

Szereg statystyczny najczęściej składa się z dwu
kolumn.

Jedna  z  nich  podaje  wielkość  cechy  lub  czas,  w
drugiej  zaś  mamy  informacje  o  liczbie  jednostek
przypadających  na  dana  wartość  lub  o  natężeniu
zjawisk występujących w czasie.

Rozróżniamy następujące szeregi statystyczne:

Szeregiem szczegółowym (indywidualny) nieuporządkowany

tworzą wartości badanej cechy rejestrowane zgodnie z kolejnością
obserwowania. W wyniku uporządkowania wg kryterium
rosnącego lub malejącego uzyskuje się

szereg szczegółowy

uporządkowany.

Przykład: wydatki (w zł) 10 gospodarstw

domowych

gazety

pewnym

miesiącu:

30,35,51,55,56,59,63,65,78,81.

Szereg czasowy

(dynamiczny, chronologiczny) otrzymujemy w

wyniku grupowania typologicznego i wariancyjnego, gdy
podstawą grupowania jest zmiana badanego zjawiska w czasie.
Przykład: liczba bezrobotnych w Polsce w latach 1998-2004.

Szereg przestrzenny

przedstawia rozmieszczenie wielkości

statystycznych wg jednostek administracyjnych (gmin, powiatów,
województw), krajów, części świata itd. Przykładami takich
szeregów są: informacje o stopie bezrobocia w poszczególnych
województwach w Polsce w 2004 r., dane o produkcie krajowym
brutto per capita w krajach Unii Europejskiej w 2003 r.

Szereg rozdzielczy

jest to uporządkowany i pogrupowany

materiał  statystyczny  w  taki  sposób,  że  poszczególnym
wariantom  cechy  ilościowej  i  jakościowej  przyporządkowane  są
odpowiadające  im  liczebności.  Wyróżniamy  szeregi  rozdzielcze

punktowe

(proste i skumulowane) i

przedziałowe

(proste i

skumulowane).

Przykład

W pewnym zakładzie przeprowadzono badanie grupy krwi.
Wybrano losowo 50 osób. Wyniki badania przedstawiono w
postaci szeregu rozdzielczego punktowego.

Grupa krwi Liczba badanych

A 7

AB 10

O 30

Tworząc

szereg rozdzielczy przedziałowy

, należy określić

liczbę przedziałów klasowych, ich rozpiętość i sposób
określenia granic przedziałów w tym granicę dolną
pierwszego przedziału.

Praktyczne wskazówki:

1. Klasy obejmują wszystkie jednostki zbiorowości – żaden

element nie może zostać pominięty.

2. Liczba klas jest uzależniona od obszaru zmienności (różnica

między max. i min. wartością cechy) i od liczebności
zbiorowości – im większy obszar zmienności cechy i większa
liczebność, tym większa powinna być liczba przedziałów.

3. Eliminowanie klas (przedziałów) pustych (o zerowej

liczebności).

4. Wymóg by rozkład był jednomodalny (liczebności w

poszczególnych klasach stopniowo rosną aż do osiągnięcia
maksimum a następnie maleją).

5. Redukowanie klas o niewielkiej liczebności a także o

wyraźnie zaznaczonej liczebności (czyli jednakowo liczne
sąsiednie klasy).

6. Ustalanie jednakowych rozpiętości przedziałów.

Stosuje się zwykle od kilku do kilkunastu klas w zależności od tego,
jak liczny jest szereg statystyczny. Możemy zastosować regułę
Sturges’a – określającą liczbę tworzonych klas (

). Ta liczba

powinna być:

k ≈ 1 + log

(n),

gdzie n jest liczbą obserwacji

np. k = 1 + log

(113) = 8 klas

Inne reguły:

k  5 log n

k = 1 + 3,322 log n

Rozpiętość

przedziału jest obliczana wg wzoru: h = (Xmax –

Xmin)/k

Ustalanie granic przedziałowych

-Pierwszy przypadek dla cechy ciągłej

– górna granica danej

klasy jest dolna granicą klasy następnej, czyli 10-20, 20-30 itd.
Trzeba zaznaczyć czy granica przedziałów są domknięte czy
otwarte, tj. czy wariant 10-20 oznacza „od więcej niż 10 do 20
włącznie” czy „od 10 włącznie do mniej niż 20”

-Drugi przypadek

– górna granica danej klasy jest o jednostkę

niższa niż dolna granica klasy następnej, takie ustalanie granic
jest typowe dla cech skokowych.

Na przykład klasy 15-19 lat oznacza, że zalicza się tu też osoby,
które są w wieku 15-19,9 lat.

Przykład 1

Rozkład liczebności (szereg rozdzielczy) i częstości szeregu
statystycznego.

Badano masę ciała poczwarek mącznika w miligramach, z hodowli
prowadzonej na razowej mące w temperaturze 26

C. Otrzymano

następujące wyniki:

Jak z tabeli wynika masy ciała mieszczą się w zakresie 113 do 219
mg, czyli zakres obejmuje (219-113 = 106 jednostek). Podzielimy
ten zakres na 6 klas po 20 jednostek, poczynając od 110 mg.

Przykład 2

Badany był wzrost uczniów (szkoła średnia) Danych było dużo,
więc dzielimy badanych na grupy o różnicy wzrostu nie mniejszej
niż 5 cm. Dane są zamieszczone w tabeli.

Jeżeli uważamy, że nasz histogram jest za mało dokładny, czyli
przedziały klasowe są za duże, to możemy wziąć przedziały o
połowę mniejsze.

Gdybyśmy połączyli środki przedziałów i nieco wygładzili
otrzymaną linię, to w efekcie wykres w przybliżeniu dawałby
obraz wykresu rozkładu normalnego. Ważne jest jako wniosek,
że wzrost rozkłada się w dużej populacji prawie zgodnie z
rozkładem normalnym.

Obecnie klasy tworzy się jedynie w celu graficznego
przedstawienia rozkładu i ustalenia, czy jest on zgodny z
rozkładem teoretycznym, takim jak na przykład rozkład
normalny. Graficzny obraz rozkładu pozwala na ustalenia, czy
jest on symetryczny, czy skośny (asymetryczny), a jeśli skośny,
to, w którą stronę. Jeśli w rozkładzie są wyraźne dwa szczyty, to
można przypuszczać, że mamy do czynienia z próbą
niejednorodną.

Tablice statystyczne

wykorzystuje się do prezentacji

danych statystycznych. Mogą one zawierać jeden szereg
statystyczny lub łączyć w jedną całość dwa lub więcej
szeregów statystycznych. Każda tablica statystyczna powinna
spełniać określone wymogi formalnie dotyczące jej budowy,
takie jak: określenie tytułu ogólnego, tytułów kolumn i
wierszy, podanie źródeł danych statystycznych, ewentualnych
objaśnień.

Wykresy statystyczne

służą tym samym celom co szeregi i

tablice, tj. rejestracji danych, ich prezentacji i analizie. Do
najbardziej popularnych wykresów prezentujących szereg
rozdzielczy należą: histogram i diagram (wielobok
liczebności).

Histogram

to zbiór prostokątów, których podstawy

wyznaczone są na osi odciętych przez rozpiętość
poszczególnych przedziałów, a wysokości są określone na osi
rzędnych przez liczebności odpowiadających poszczególnym
przedziałom.

Diagram

otrzymuje się w wyniku połączenia punktów o

współrzędnych będących środkami przedziałów i
odpowiadających im liczebności.

Document Outline