background image

Wprowadzenie do statystyki 

Jerzy Wołek

1

Wykład na temat

:

Studia stacjonarne  licencjackie 

III rok Biologii

background image

1. Wprowadzenie 

2

Zalecana literatura
• podstawowa:
W

OŁEK

J

ERZY

2006: Wprowadzenie do statystyki dla

biologów. Wydawnictwo Naukowe Akademii Pedagogicznej,

Kraków
S

TANISZ

A. 2006.

Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny. T. 1 & 2.

StatSoft,

Kraków

• uzupełniająca:
K

ENDALL

M.G. & B

UCKLAND

W.R. 1986.

Słownik terminów statystycznych. Państwowe Wydawnictwo Ekonomiczne,

Warszawa
R

ADHAKRISHNA

R

AO

C. 1994. Statystyka i prawda. Wydawnictwo Naukowe PWN Sp. z o.o., Warszawa

background image

Dlaczego znajomość statystyki jest ważna dla badacza?

• Statystyka – to nauka, która pozwala wydawać sądy o

całości

na

podstawie

części

tej

całości. Ta całość, o której wydajemy sąd, to

populacja

(zbiorowość)

statystyczna

, a

część, na podstawie której

wnioskujemy o populacji, to

próba

.

• Metody statystyczne pozwalają wykryć w zbiorze danych określone

prawidłowości

,

tj.

wzorce

zachowań, wzorce występowania

organizmów w przestrzeni i w czasie, wzorce występowania
pewnych zjawisk, np. fizycznych, chemicznych, biochemicznych,
fizjologicznych,

genetycznych,

cytologicznych

itp.,

w

ściśle

określonych warunkach, itd.

• Statystyka jest najbardziej uniwersalnym narzędziem badacza,

ponieważ jej metody mają zastosowanie zawsze, gdy

liczymy

i

mierzymy

(

podejście ilościowe

stosowane w metodzie naukowej

w naukach przyrodniczych).

3

background image

• Statystykę dzieli się, tradycyjnie, na dwa działy:

statystykę

opisową

i

wnioskowanie statystyczne

. Aby

móc właściwie

wykorzystywać metody statystyczne niezbędna jest znajomość
podstaw

rachunku

prawdopodobieństwa

– wykorzystywanych,

przede

wszystkim,

we

wnioskowaniu

statystycznym

– oraz

doświadczalnictwa

.

• Należy pamiętać, że

WSZYSTKIE

metody statystycznego

opisu

i

wnioskowania

oraz metody stosowane w

doświadczalnictwie

oparte

są na

ściśle określonych założeniach

,

które

powinny

być

spełnione

, by metody te w

ogóle mogły być stosowane.

Wiele

osób nie zdaje sobie z tego sprawy, dlatego prawdopodobnie

tak

często słyszymy, że

statystyka

kłamie

, czy

też, że za pomocą

statystyki

można wszystko udowodnić

.

Nie, nie wszystko! 

4

Przedmiot statystyki

background image

Badania 

naukowe można prowadzić stosując podejścia (strategie) 

jakościowe

lub 

ilościowe

. Podejścia te opierają się na 

różnych

podstawach 

teoretycznych. 

Podejście ilościowe opiera się na

filozofii pozytywistycznej

,

która zakłada, że:

świat istnieje

obiektywnie

;

poznanie

świata jest

obiektywne

;

bada

się tylko to, co można

zmierzyć

i

policzyć

;

przedmiotem badania

są tylko

fakty

(wyniki

pomiarów), przy czym nie mogą to

być pojedyncze fakty lecz ich

zbiory

;

w tych zbiorach danych poszukuje

się

prawidłowości statystycznych

,

które

– po zweryfikowaniu – mogą być wykorzystywane do celów prognostycznych;

rezultaty

badań ilościowych są

intersubiektywnie sprawdzalne

;

w badaniu

ilościowym, musi być ściśle określone

co

i

jak

będzie badane

.

5

Podejście ilościowe

background image

Podejście 

JAKOŚCIOWE

wykracza poza to, co obiektywne, mierzalne i 

policzalne

. W ramach tego podejścia podejmowana jest tematyka związana 

ocenami

wartościami

przeżyciami

. Zakłada ono, że:

brak jest dualnego

podziału na

poznającego

i

poznawany

świat;

przedmiotem badania jest

pojedynczy

przypadek

(

nie ich

zbiór!

)

– osoba,

instytucja, zjawisko kulturowe, grupa ludzi, stowarzyszenie itp.)

– ponieważ

zakłada się, że

każdy

przypadek

jest

wyjątkowy

,

niepowtarzalny

;

własna wiedza badacza i poznanie świata są subiektywne;

rezultaty

badań jakościowych

nie

są intersubiektywnie

sprawdzalne.

Podejście jakościowe stosuje się wtedy, gdy

:

chcemy

poznać, jak jawi się świat badanym jednostkom;

chcemy

poznać losy pojedynczych przypadków, np. osób (motywy ich

postępowania, podejmowanych decyzji, oceny sytuacji) lub dotrzeć w „głąb”
badanych zjawisk.

6

Podejście jakościowe

background image

7

Podejście jakościowe może się opierać się na teoretycznych podstawach

:

Fenomenologii

Hermeneutyki

Interakcjonizmu symbolicznego

Wspólne dla tych trzech teoretycznych podstaw jest

bezzałożeniowość

, tj.

rezygnacja z hipotez badawczych. W badaniach

jakościowych obowiązuje

dyrektywa

Idź i patrz!

” Hipotezy mogą pojawiać się w trakcie badania

jakościowego lub jako wynik tego badania i wtedy mogą być one punktem
wyjścia dla badań ilościowych.

Podejście

jakościowe

jest bardzo popularne w naukach humanistycznych (np.

socjologia,

psychologia,

pedagogika,

historia).

Podejście

ilościowe

stosowane jest

głównie w naukach przyrodniczych (np. biologia, chemia,

fizyka, biochemia, biofizyka).

Narzędzi przydatnych do analizy danych –

faktów zebranych za pomocą podejścia ilościowego dostarcza, m. in.,
statystyka.

Podejście jakościowe (cd.)

background image

8

2. Statystyka opisowa

background image

Populacja statystyczna

, to

zbiór elementów –

jednostek

statystycznych

,

wyróżnionych ze względu na jedną

charakterystykę –

cechę

, lub na wiele cech.

Liczebność

populacji oznaczamy

literą

N

.

Populacja może być: 
• jednowymiarowa – badana jest 

jedna

cecha;

• dwuwymiarowa – badane są 

dwie

cechy;

• Wielowymiarowa – badanych jest 

wiele

cech. 

9

Populacja statystyczna

background image

Populacja może być:

• nieskończona

– np. zbiorowość wszystkich

możliwych

wyników pomiarów temperatury (populacja teoretyczna);

• skończona

np.

zbiorowość

wszystkich

kobiet

zameldowanych

w Krakowie (populacja naturalna).

10

Populacja statystyczna (cd.)

background image

• Próba

, to

podzbiór

jednostek statystycznych

lub

ściślej mówiąc –

skończony zbiór wyników

pomiarów

wykonanych

na

jednostkach

statystycznych

tego

podzbioru.

Liczebność próby oznacza się literą

n

.

• Aby można było stosować metody statystycznego

wnioskowania o populacji na podstawie

próby, próba ta

musi

reprezentować

populację, z której została

pobrana. Taka

próba, to

próba reprezentatywna

.

Mówiąc krótko, „

próba reprezentatywna, to miniatura

populacji

”.

11

Próba

background image

Losowanie

Losowanie

jest

najłatwiejszym

sposobem

uzyskania

próby reprezentatywnej. Istnieje wiele

schematów losowania próby losowej.

Najprostszy z nich, to schemat

prowadzący do

uzyskania

prostej

próby losowej

. Jest to

zarazem

ważny schemat losowania, ponieważ

testy statystyczne i metody estymacji

opierają

się na założeniu, że:

z populacji pobrano prostą próbę losową

12

background image

Prosta próba losowa

Prostą próbę losową uzyskujemy wtedy, gdy:  
• losowanie

jednostek

statystycznych

do

próby

dokonywane

jest

z

całej

populacji

(losowanie

nieograniczone);

• każda jednostka ma jednakowe prawdopodobieństwo

dostania

się do próby (losowanie indywidualne);

• prawdopodobieństwo to nie zmienia się w trakcie

losowania.

13

background image

Prosta próba losowa (c.d.)

• Schematu

losowania

prostej

próby

nie

można

stosować w przypadku

populacji

nieskończonej

. Z

taką

populacją

mamy

do

czynienia

w

badaniach

eksperymentalnych

.

W tym przypadku,

mówiąc o populacji nieskończonej, mamy na myśli

wyniki

nieograniczonych w czasie i przestrzeni

pomiarów. W sensie, o

którym mowa, populacją nieskończoną mogą być np. wyniki pomiaru masy

ciała królików doświadczalnych, które żyły, żyją i żyć będą.

14

background image

Prosta próba losowa (c.d.)

W

badaniach eksperymentalnych

, za

próbę losową

prostą

przyjmuje

się więc takie wyniki pomiarów, które

uzyskano:

• w ściśle określonych warunkach, w których działają

czynniki

mające wpływ na jedną badaną zmienną lub

wiele badanych zmiennych;

• przy założeniu, że wszystkie zmienne losowe są

niezależne.

15

background image

Inne schematy losowania

Losowanie:

• warstwowe

– próba warstwowa

• zespołowe

(

jednostopniowe

wielostopniowe

)

– próba

zespołowa (gronowa)

Losowanie

bez zwracania

– losowanie

ze zwracaniem

.

W praktyce stosuje

się schemat losowania

bez zwracania

.

16

background image

Zmienna losowa vs zmienna losowa w 

sensie zwykłym (cecha statystyczna)

• Zmienna losowa

– zmienna, która może przyjmować każdą

wartość ze zbioru wszystkich możliwych wartości z określonym

prawdopodobieństwem.

• Zmienna w sensie zwykłym

(

cecha statystyczna

)

– zmienna,

która może przyjmować każdą wartość ze zbioru wszystkich

możliwych wartości, ale prawdopodobieństwo wystąpienia tej

wartości nie jest znane.

• UWAGA: wartości, które przyjmuje dana zmienna nazywamy

realizacjami

tej zmiennej.

17

background image

Cecha statystyczna

• niemierzalna

(jakościowa)

 To cecha,

której kategorii nie da się wyrazić za pomocą liczb, natomiast

można to uczynić słownie, np. kolor włosów, płeć, zawód,
wykształcenie, pochodzenie itp.

• mierzalna

(ilościowa): skokowa i ciągła 

 Zmienna

skokowa

(

dyskretna

)

– dane pochodzą z policzenia, więc

zmienna ta przybiera

wartości całkowite: 0, 3, 6, 11, itd., np. liczba

dzieci w rodzinie, liczba

uczniów w klasie, liczba płatków korony, liczba

krów na pastwisku, liczba chromosomów w komórce.

 Zmienna

ciągła

– dane pochodzą z pomiaru, więc zmienna ta przyjmuje

wartości należące do określonego przedziału skali ciągłej. W skali
ciągłej mierzymy czas, długość, masę, temperaturę, lata itp.

18

background image

Pomiar

• Dokładność

pomiaru

– gdy mamy do czynienia ze zmienną

ciągłą

,

każdy pomiar można wykonać z różną dokładnością. W efekcie,
liczba

możliwych wyników jest teoretycznie nieskończona i

nieprzeliczalna. Ale

UWAGA

: jest to

założenie idealne, ponieważ –

dla

różnej dokładności pomiaru – liczba możliwych wyników pomiaru

dla danego

przedziału skali będzie zawsze skończona choć różna.

• Błędy

pomiaru

Błędy systematyczne

Błędy grube

Błędy przypadkowe

19

background image

Skale pomiarowe

• Nominalna

– dla cech

niemierzalnych

(jakościowych) polega na

wyróżnieniu kategorii (klas) cechy jakościowej, np. dla cechy „płeć”

można wyróżnić dwie kategorie: samce i samice.

Tabela  1. 

Wyniki klasyfikacji próby osób (= 125)  ze względu na 

dwie 

cechy: kolor włosów i wzrost (skala nominalna)

Wzrost

Kolor włosów

Razem

blondyni

bruneci

rudzi

Niski

14

10

1

25

Średni

40

35

2

77

Wysoki

15

8

0

23

Razem

69

53

3

= 125

20

(za: Wołek 2006)

background image

Skale 

pomiarowe

• Porządkowa

– dla cech mierzalnych ciągłych polegający na (1)

ocenie

natężenia poziomu badanej cechy, (2)

uporządkowaniu

jednostek

według wzrostu/malenia natężenia poziomu tej cechy,

np.

uporządkowaniu uczniów według wzrostu, (3)

przypisaniu

uporządkowanym jednostkom numerów, czyli

rang

.

• Przedziałowa

– dla cech mierzalnych ciągłych;

arbitralny

początek

skali, np. pomiar temperatury w skali Celsjusza, kalendarz, skala
ocen.

• Ilorazowa

– dla cech mierzalnych ciągłych;

nie arbitralny

początek

skali, np. pomiar temperatury w skali Kelwina, pomiar masy,
wzrostu itp.

• Przekształcanie skal pomiarowych

polega na

przekształcaniu

wyników pomiaru uzyskanych za pomocą skal mocniejszych na
wyniki

pomiaru

właściwe

skalom

słabszym,

np.

pomiar

przedziałowo-ilorazowy możemy przekształcić na porządkowy lub
nominalny.

21

background image

Statystyki, parametry, estymatory

• Statystyka

– charakterystyka próby; statystyka zmienia

się od próby do próby jest więc

zmienną losową

.

Statystyki

określa się ogólnie jako miary statystyczne.

• Parametr

– charakterystyka populacji; parametr jest

wielkością

stałą

.

• Estymator

– statystyka, która służy do oceny nieznanej

wartości parametru. Proces oceny, to estymacja.
Estymacja

może być

punktowa

lub

przedziałowa

.

22

background image

Miary statystyczne

• Najczęściej stosowane

miary statystyczne

, to miary:

położenia

 rozproszenia,
 korelacji,
 asymetrii,
 kurtozy.

• UWAGA

:

Każda skala pomiaru ma „

swoje

”, specyficzne

miary statystyczne.

23

background image

Miary 

statystyczne

x

Tabela 2. 
Zestawienie 

niektórych miar 

statystycznych i ich symboli

24

Nazwa miary

Oznaczenie

dla próby 

(

statystyka

)

dla populacji 

(

parametr

)

Miary położenia 

kategoria modalna

p

m

ζ

m

wartość modalna 

mo

μo

wartość medialna 

me

μe

średnia arytmetyczna

μ

Miary rozproszenia

dyspersja względna klasyfikacji

h

χ

wariancja

s

2

σ

2

odchylenie standardowe

s

σ

Miary korelacji

współczynnik siły związku

r

p

ρ

p

współczynnik korelacji rang 
Spearmana

r

s

ρ

s

współczynnik  korelacji rang 
Kendalla 

r

k

(τ)

ρ

k

współczynnik konkordancji

r

w

ρ

w

stosunek korelacyjny

e

2

η

2

współczynnik korelacji 
liniowej Pearsona

r

ρ

(za: Wołek 2006)

background image

Miary statystyczne

Tabela 3.

Najczęściej stosowane miary statystyczne, specyficzne dla różnych skal 

pomiaru. 

Skala

Miary statystyczne 

położenia

rozproszenia

korelacji

nominalna

-kategoria modalna

-dyspersja względna     

klasyfikacji

-współczynniki siły związku

porządkowa

-obiekt medialny
-obiekty kwartylowe

-współczynniki korelacji rang
-współczynnik konkordancji

przedziałowa

pozycyjne

-wartość modalna
-wartość medialna
-wartości kwartylowe

bezwzględne

-rozstęp międzykwartylowy
-odchylenie kwartylowe

-stosunek korelacyjny
-współczynnik korelacji 

liniowej

-współczynnik korelacji        
cząstkowej i wielorakiej

klasyczne

-średnia arytmetyczna
-średnia arytmetyczna 

ważona

bezwzględne

-wariancja 
-odchylenie standardowe

ilorazowa

klasyczne

-średnia geometryczna 
-średnia harmoniczna

względne

-współczynnik zmienności

25

(za: Wołek 2006)

background image

Miary położenia

• Skala nominalna

– kategoria modalna

• Skala porządkowa

– obiekt medialny

• Skala przedziałowo-ilorazowa

 Miary pozycyjne

Wartość modalna

Wartość medialna

Wartości kwartylowe

 Miary klasyczne

Średnia arytmetyczna 

26

background image

Miary rozproszenia

• Skala nominalna

dyspersja względna klasyfikacji

• Skala porządkowa

do oceny rozproszenia wykorzystuje się 

obiekty kwartylowe: dolny (Q

1

) i górny (Q

3

)

• Skala przedziałowo-ilorazowa

 Miary pozycyjne

Rozstęp międzykwartylowy (Q

− Q

1

)

 Odchylenie kwartylowe

Pozycyjny współczynnik zmienności (miara względna) 

 Miary klasyczne

 Wariancja (s

2

)

 Odchylenie standardowe (s)

Współczynnik zmienności (miara względna)

27

background image

Miary korelacji

• Skala nominalna

– współczynniki siły związku

• Skala porządkowa

– współczynniki korelacji rang 

 Dla

dwu

skal

porządkowych

(

współczynnik

Kendalla

,

współczynnik Spearmana

)

 Dla

więcej

dwu

skal

porządkowych

(

współczynnik

konkordancji Kendalla

)

• Skala przedziałowo-ilorazowa

współczynnik korelacji liniowej Pearsona, r

współczynnik korelacji wielorakiej (wielokrotnej), R

współczynnik korelacji cząstkowej 

28

background image

Rozkłady empiryczne

Szereg statystyczny

• szczegółowy: 

wyniki 

nie są pogrupowane

nieuporządkowany:  5, 3, 7, 0, 10, 8, 2

uporządkowany:       0, 2, 3, 5, 7, 8, 10

• rozdzielczy

(rozkład liczebności): wyniki są pogrupowane

 typu punktowego

typu przedziałowego

• frekwencja

(f) vs 

frakcja

(w

29

background image

Przedział klasowy

• granica dolna / górna: 
• zamknięty (są obie granice); otwarty (nie ma dolnej lub 

górnej granicy)

• domykanie przedziałów klasowych

-

lewostronnie

domknięty:

x

0i

≤ x

i

x

1i

-

prawostronnie

domknięty:

x

0i

x

i

≤ x

1i

-

obustronnie

domknięty:

x

0i

≤ x

i

≤ x

1i

• środek przedziału klasowego:

30

Rozkłady 

empiryczne

rozdzielcze 

i

i

x

x

1

0

,

x

background image

Szeregi rozdzielcze

31

Wysokość źdźbeł w 

cm

(przedział klasowy)

Frekwencje

Frakcje

Środek  

przedziału

Kumulowane 

frekwencje

Kumulowane 

frakcje

32,5–47,5

1

0,01

40,0

1

0,01

47,5–62,5

5

0,05

55,0

6

0,06

62,5–77,5

7

0,07

70,0

13

0,13

77,5–92,5

15

0,15

85,0

28

0,28

92,5–107,5

30

0,30

100,0

58

0,58

107,5–122,5

25

0,25

115,0

83

0,83

122,5–137,5

10

0,10

130,0

93

0,93

137,5–152,5

5

0,05

145,0

98

0,98

152,5–167,5

2

0,02

160,0

100

1,00

R

AZEM

=100

1,00

x

cum

w

n

Liczba ziarn 

grochu w strąku

Frekwencje

Frakcje

Kumulowane 

frekwencje

Kumulowane 

frakcje

0

3

0,03

3

0,03

1

8

0,08

11

0,11

2

28

0,28

39

0,39

3

33

0,33

72

0,72

4

18

0,18

90

0,90

5

10

0,10

100

1,00

R

AZEM

= 100

1,00

f

n

f

w

cum

f

cum

w

n

Szereg rozdzielczy typu 

punktowego

(dla zmiennej skokowej)

Szereg rozdzielczy typu 

przedziałowego

(dla zmiennej ciągłej  i 

skokowej)

cum

f

x

n

f

w

f

(za: Wołek 2006)

background image

Graficzna prezentacja szeregu rozdzielczego typu 

przedziałowego

• histogram liczebności

– frekwencji lub frakcji

• wielobok liczebności 

– frekwencji lub frakcji (diagram)

32

(za: Wołek 2006)

background image

Graficzna prezentacja szeregu rozdzielczego typu 

przedziałowego (c.d.)

• histogram kumulowanych liczebności 

– frekwencji lub frakcji 

• wielobok kumulowanych liczebności 

– frekwencji lub frakcji

33

(za: Wołek 2006)

background image

Graficzna prezentacja szeregu rozdzielczego typu 

przedziałowego (c.d.)

34

• krzywa liczebności 

– frekwencji lub frakcji  

(za: Wołek 2006)

background image

Typy rozkładów liczebności

– rozkład 

asymetryczny 

prawostronny

– rozkład 

symetryczny 

– rozkład 

asymetryczny 

lewostronny

35

(za: Wołek 2006)

background image

Typy rozkładów liczebności

A, B, C 

– rozkłady asymetryczne; D, E – rozkłady symetryczne; 

A, B, D 

– rozkłady jednomodalne; F – rozkład dwumodalny; 

– rozkład wielomodalny; H – rozkład antymodalny

36

(za: Wołek 2006)

background image

Graficzna prezentacja danych

Wykres:

• liniowy, słupkowy, kołowy (cyklogram)  
• dwuwymiarowy, trójwymiarowy (przestrzenny)
• wykres pudełkowy 

37

background image

Graficzna prezentacja danych

Wykres liniowy

 PUNKTY vs. OCENY 

Średnie liczby punktów grupowane względem przedmiotowych ocen semetralnych

 Średnia 
 Min-Maks 

2

3

4

5

OCENY SEMETRALNE

20

22

24

26

28

30

32

34

36

38

PUNKTY U

ZYSK

ANE

 PRZEZ U

CZN

IÓW W

 TEŚCIE

OS

IĄG

NI

ĘĆ

38

(Opracowanie własne )

background image

Graficzna prezentacja danych

Wykres liniowy

 PUNKTY vs. OCENY 

PUNKTY = 13,250 + 4,6992 * OCENY

Wsp. korelacji = 0,95457

OCENY SEMETRALNE

PUNKTY UZ

YS

KA

NE

 PR

Z

EZ UC

ZNI

ÓW W 

TEŚCIE

OS

IĄG

NIĘĆ

 Regresja
 95% p.ufności

2

3

4

5

20

24

28

32

36

40

39

(Opracowanie własne )

background image

Graficzna prezentacja danych

Wykres

słupkowy

Wykres słupkowy

OCENA

19%

38%

21%

17%

6%

bardzo dobry

dobry

dostateczny

dopuszczający niedostateczny

0

2

4

6

8

10

12

14

16

18

20

L

ICZBA

 O

BS

ERWACJI

 (frekw

e

n

c

ja)

 

19%

38%

21%

17%

6%

40

(Opracowanie własne )

background image

Graficzna prezentacja danych

Wykres kołowy (cyklogram)

Wykres kołowy (cyklogram)

OCENA

bardzo dobry; 9; 19%

niedostateczny; 3; 6%

dopuszczający; 8; 17%

dostateczny; 10; 21%

dobry; 18; 38%

bardzo dobry; 9; 19%

niedostateczny; 3; 6%

dopuszczający; 8; 17%

dostateczny; 10; 21%

dobry; 18; 38%

41

(Opracowanie własne )

background image

Graficzna prezentacja danych

Wykres dwuwymiarowy 3W (przestrzenny)

Rozkład dwuwymiarowy 

PYTANIE NR 18: PODGRUPA vs. DZIECI

42

(Opracowanie własne )

background image

Graficzna prezentacja danych

Wykres ramkowy (pudełkowy)

Objaśnienia

• GWR

-

górna wartość ramki, np. 

średnia + 1.0*błąd standardowy lub  

kwartyl górny (= percentyl 75%)

• DWR

-

dolna wartość ramki, np. 

średnia – 1.0*błąd  standardowy lub 
kwartyl dolny (= percentyl 25%)

• H

= |GWR 

– DWR|

• współczynnik dla obserwacji 

odstających

wynosi 1,5

• współczynnik dla obserwacji 

ekstremalnych

wynosi 3,0 

43

(za: STATISTICA)

background image

Dziękuję za uwagę

44