Wprowadzenie do statystyki
Jerzy Wołek
1
Wykład na temat
:
Studia stacjonarne licencjackie
III rok Biologii
1. Wprowadzenie
2
Zalecana literatura
• podstawowa:
W
OŁEK
J
ERZY
2006: Wprowadzenie do statystyki dla
biologów. Wydawnictwo Naukowe Akademii Pedagogicznej,
Kraków
S
TANISZ
A. 2006.
Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny. T. 1 & 2.
StatSoft,
Kraków
• uzupełniająca:
K
ENDALL
M.G. & B
UCKLAND
W.R. 1986.
Słownik terminów statystycznych. Państwowe Wydawnictwo Ekonomiczne,
Warszawa
R
ADHAKRISHNA
R
AO
C. 1994. Statystyka i prawda. Wydawnictwo Naukowe PWN Sp. z o.o., Warszawa
Dlaczego znajomość statystyki jest ważna dla badacza?
• Statystyka – to nauka, która pozwala wydawać sądy o
całości
na
podstawie
części
tej
całości. Ta całość, o której wydajemy sąd, to
populacja
(zbiorowość)
statystyczna
, a
część, na podstawie której
wnioskujemy o populacji, to
próba
.
• Metody statystyczne pozwalają wykryć w zbiorze danych określone
prawidłowości
,
tj.
wzorce
zachowań, wzorce występowania
organizmów w przestrzeni i w czasie, wzorce występowania
pewnych zjawisk, np. fizycznych, chemicznych, biochemicznych,
fizjologicznych,
genetycznych,
cytologicznych
itp.,
w
ściśle
określonych warunkach, itd.
• Statystyka jest najbardziej uniwersalnym narzędziem badacza,
ponieważ jej metody mają zastosowanie zawsze, gdy
liczymy
i
mierzymy
(
podejście ilościowe
stosowane w metodzie naukowej
w naukach przyrodniczych).
3
• Statystykę dzieli się, tradycyjnie, na dwa działy:
statystykę
opisową
i
wnioskowanie statystyczne
. Aby
móc właściwie
wykorzystywać metody statystyczne niezbędna jest znajomość
podstaw
rachunku
prawdopodobieństwa
– wykorzystywanych,
przede
wszystkim,
we
wnioskowaniu
statystycznym
– oraz
doświadczalnictwa
.
• Należy pamiętać, że
WSZYSTKIE
metody statystycznego
opisu
i
wnioskowania
oraz metody stosowane w
doświadczalnictwie
oparte
są na
ściśle określonych założeniach
,
które
powinny
być
spełnione
, by metody te w
ogóle mogły być stosowane.
Wiele
osób nie zdaje sobie z tego sprawy, dlatego prawdopodobnie
tak
często słyszymy, że
statystyka
kłamie
, czy
też, że za pomocą
statystyki
można wszystko udowodnić
.
Nie, nie wszystko!
4
Przedmiot statystyki
Badania
naukowe można prowadzić stosując podejścia (strategie)
jakościowe
lub
ilościowe
. Podejścia te opierają się na
różnych
podstawach
teoretycznych.
Podejście ilościowe opiera się na
filozofii pozytywistycznej
,
która zakłada, że:
•
świat istnieje
obiektywnie
;
•
poznanie
świata jest
obiektywne
;
•
bada
się tylko to, co można
zmierzyć
i
policzyć
;
•
przedmiotem badania
są tylko
fakty
(wyniki
pomiarów), przy czym nie mogą to
być pojedyncze fakty lecz ich
zbiory
;
•
w tych zbiorach danych poszukuje
się
prawidłowości statystycznych
,
które
– po zweryfikowaniu – mogą być wykorzystywane do celów prognostycznych;
•
rezultaty
badań ilościowych są
intersubiektywnie sprawdzalne
;
•
w badaniu
ilościowym, musi być ściśle określone
co
i
jak
będzie badane
.
5
Podejście ilościowe
Podejście
JAKOŚCIOWE
wykracza poza to, co obiektywne, mierzalne i
policzalne
. W ramach tego podejścia podejmowana jest tematyka związana
z
ocenami
,
wartościami
,
przeżyciami
. Zakłada ono, że:
•
brak jest dualnego
podziału na
poznającego
i
poznawany
świat;
•
przedmiotem badania jest
pojedynczy
przypadek
(
nie ich
zbiór!
)
– osoba,
instytucja, zjawisko kulturowe, grupa ludzi, stowarzyszenie itp.)
– ponieważ
zakłada się, że
każdy
przypadek
jest
wyjątkowy
,
niepowtarzalny
;
•
własna wiedza badacza i poznanie świata są subiektywne;
•
rezultaty
badań jakościowych
nie
są intersubiektywnie
sprawdzalne.
Podejście jakościowe stosuje się wtedy, gdy
:
•
chcemy
poznać, jak jawi się świat badanym jednostkom;
•
chcemy
poznać losy pojedynczych przypadków, np. osób (motywy ich
postępowania, podejmowanych decyzji, oceny sytuacji) lub dotrzeć w „głąb”
badanych zjawisk.
6
Podejście jakościowe
7
Podejście jakościowe może się opierać się na teoretycznych podstawach
:
•
Fenomenologii
•
Hermeneutyki
•
Interakcjonizmu symbolicznego
Wspólne dla tych trzech teoretycznych podstaw jest
bezzałożeniowość
, tj.
rezygnacja z hipotez badawczych. W badaniach
jakościowych obowiązuje
dyrektywa
„
Idź i patrz!
” Hipotezy mogą pojawiać się w trakcie badania
jakościowego lub jako wynik tego badania i wtedy mogą być one punktem
wyjścia dla badań ilościowych.
Podejście
jakościowe
jest bardzo popularne w naukach humanistycznych (np.
socjologia,
psychologia,
pedagogika,
historia).
Podejście
ilościowe
stosowane jest
głównie w naukach przyrodniczych (np. biologia, chemia,
fizyka, biochemia, biofizyka).
Narzędzi przydatnych do analizy danych –
faktów zebranych za pomocą podejścia ilościowego dostarcza, m. in.,
statystyka.
Podejście jakościowe (cd.)
8
2. Statystyka opisowa
Populacja statystyczna
, to
zbiór elementów –
jednostek
statystycznych
,
wyróżnionych ze względu na jedną
charakterystykę –
cechę
, lub na wiele cech.
Liczebność
populacji oznaczamy
literą
N
.
Populacja może być:
• jednowymiarowa – badana jest
jedna
cecha;
• dwuwymiarowa – badane są
dwie
cechy;
• Wielowymiarowa – badanych jest
wiele
cech.
9
Populacja statystyczna
Populacja może być:
• nieskończona
– np. zbiorowość wszystkich
możliwych
wyników pomiarów temperatury (populacja teoretyczna);
• skończona
–
np.
zbiorowość
wszystkich
kobiet
zameldowanych
w Krakowie (populacja naturalna).
10
Populacja statystyczna (cd.)
• Próba
, to
podzbiór
jednostek statystycznych
lub
–
ściślej mówiąc –
skończony zbiór wyników
pomiarów
wykonanych
na
jednostkach
statystycznych
tego
podzbioru.
Liczebność próby oznacza się literą
n
.
• Aby można było stosować metody statystycznego
wnioskowania o populacji na podstawie
próby, próba ta
musi
reprezentować
populację, z której została
pobrana. Taka
próba, to
próba reprezentatywna
.
Mówiąc krótko, „
próba reprezentatywna, to miniatura
populacji
”.
11
Próba
Losowanie
Losowanie
jest
najłatwiejszym
sposobem
uzyskania
próby reprezentatywnej. Istnieje wiele
schematów losowania próby losowej.
Najprostszy z nich, to schemat
prowadzący do
uzyskania
prostej
próby losowej
. Jest to
zarazem
ważny schemat losowania, ponieważ
testy statystyczne i metody estymacji
opierają
się na założeniu, że:
z populacji pobrano prostą próbę losową
.
12
Prosta próba losowa
Prostą próbę losową uzyskujemy wtedy, gdy:
• losowanie
jednostek
statystycznych
do
próby
dokonywane
jest
z
całej
populacji
(losowanie
nieograniczone);
• każda jednostka ma jednakowe prawdopodobieństwo
dostania
się do próby (losowanie indywidualne);
• prawdopodobieństwo to nie zmienia się w trakcie
losowania.
13
Prosta próba losowa (c.d.)
• Schematu
losowania
prostej
próby
nie
można
stosować w przypadku
populacji
nieskończonej
. Z
taką
populacją
mamy
do
czynienia
w
badaniach
eksperymentalnych
.
•
W tym przypadku,
mówiąc o populacji nieskończonej, mamy na myśli
wyniki
nieograniczonych w czasie i przestrzeni
pomiarów. W sensie, o
którym mowa, populacją nieskończoną mogą być np. wyniki pomiaru masy
ciała królików doświadczalnych, które żyły, żyją i żyć będą.
14
Prosta próba losowa (c.d.)
W
badaniach eksperymentalnych
, za
próbę losową
prostą
przyjmuje
się więc takie wyniki pomiarów, które
uzyskano:
• w ściśle określonych warunkach, w których działają
czynniki
mające wpływ na jedną badaną zmienną lub
wiele badanych zmiennych;
• przy założeniu, że wszystkie zmienne losowe są
niezależne.
15
Inne schematy losowania
Losowanie:
• warstwowe
– próba warstwowa
• zespołowe
(
jednostopniowe
–
wielostopniowe
)
– próba
zespołowa (gronowa)
Losowanie
bez zwracania
– losowanie
ze zwracaniem
.
W praktyce stosuje
się schemat losowania
bez zwracania
.
16
Zmienna losowa vs zmienna losowa w
sensie zwykłym (cecha statystyczna)
• Zmienna losowa
– zmienna, która może przyjmować każdą
wartość ze zbioru wszystkich możliwych wartości z określonym
prawdopodobieństwem.
• Zmienna w sensie zwykłym
(
cecha statystyczna
)
– zmienna,
która może przyjmować każdą wartość ze zbioru wszystkich
możliwych wartości, ale prawdopodobieństwo wystąpienia tej
wartości nie jest znane.
• UWAGA: wartości, które przyjmuje dana zmienna nazywamy
realizacjami
tej zmiennej.
17
Cecha statystyczna
• niemierzalna
(jakościowa)
To cecha,
której kategorii nie da się wyrazić za pomocą liczb, natomiast
można to uczynić słownie, np. kolor włosów, płeć, zawód,
wykształcenie, pochodzenie itp.
• mierzalna
(ilościowa): skokowa i ciągła
Zmienna
skokowa
(
dyskretna
)
– dane pochodzą z policzenia, więc
zmienna ta przybiera
wartości całkowite: 0, 3, 6, 11, itd., np. liczba
dzieci w rodzinie, liczba
uczniów w klasie, liczba płatków korony, liczba
krów na pastwisku, liczba chromosomów w komórce.
Zmienna
ciągła
– dane pochodzą z pomiaru, więc zmienna ta przyjmuje
wartości należące do określonego przedziału skali ciągłej. W skali
ciągłej mierzymy czas, długość, masę, temperaturę, lata itp.
18
Pomiar
• Dokładność
pomiaru
– gdy mamy do czynienia ze zmienną
ciągłą
,
każdy pomiar można wykonać z różną dokładnością. W efekcie,
liczba
możliwych wyników jest teoretycznie nieskończona i
nieprzeliczalna. Ale
UWAGA
: jest to
założenie idealne, ponieważ –
dla
różnej dokładności pomiaru – liczba możliwych wyników pomiaru
dla danego
przedziału skali będzie zawsze skończona choć różna.
• Błędy
pomiaru
Błędy systematyczne
Błędy grube
Błędy przypadkowe
19
Skale pomiarowe
• Nominalna
– dla cech
niemierzalnych
(jakościowych) polega na
wyróżnieniu kategorii (klas) cechy jakościowej, np. dla cechy „płeć”
można wyróżnić dwie kategorie: samce i samice.
Tabela 1.
Wyniki klasyfikacji próby osób (n = 125) ze względu na
dwie
cechy: kolor włosów i wzrost (skala nominalna)
Wzrost
Kolor włosów
Razem
blondyni
bruneci
rudzi
Niski
14
10
1
25
Średni
40
35
2
77
Wysoki
15
8
0
23
Razem
69
53
3
n = 125
20
(za: Wołek 2006)
Skale
pomiarowe
• Porządkowa
– dla cech mierzalnych ciągłych polegający na (1)
ocenie
natężenia poziomu badanej cechy, (2)
uporządkowaniu
jednostek
według wzrostu/malenia natężenia poziomu tej cechy,
np.
uporządkowaniu uczniów według wzrostu, (3)
przypisaniu
uporządkowanym jednostkom numerów, czyli
rang
.
• Przedziałowa
– dla cech mierzalnych ciągłych;
arbitralny
początek
skali, np. pomiar temperatury w skali Celsjusza, kalendarz, skala
ocen.
• Ilorazowa
– dla cech mierzalnych ciągłych;
nie arbitralny
początek
skali, np. pomiar temperatury w skali Kelwina, pomiar masy,
wzrostu itp.
• Przekształcanie skal pomiarowych
polega na
przekształcaniu
wyników pomiaru uzyskanych za pomocą skal mocniejszych na
wyniki
pomiaru
właściwe
skalom
słabszym,
np.
pomiar
przedziałowo-ilorazowy możemy przekształcić na porządkowy lub
nominalny.
21
Statystyki, parametry, estymatory
• Statystyka
– charakterystyka próby; statystyka zmienia
się od próby do próby jest więc
zmienną losową
.
Statystyki
określa się ogólnie jako miary statystyczne.
• Parametr
– charakterystyka populacji; parametr jest
wielkością
stałą
.
• Estymator
– statystyka, która służy do oceny nieznanej
wartości parametru. Proces oceny, to estymacja.
Estymacja
może być
punktowa
lub
przedziałowa
.
22
Miary statystyczne
• Najczęściej stosowane
miary statystyczne
, to miary:
położenia
rozproszenia,
korelacji,
asymetrii,
kurtozy.
• UWAGA
:
Każda skala pomiaru ma „
swoje
”, specyficzne
miary statystyczne.
23
Miary
statystyczne
x
Tabela 2.
Zestawienie
niektórych miar
statystycznych i ich symboli
24
Nazwa miary
Oznaczenie
dla próby
(
statystyka
)
dla populacji
(
parametr
)
Miary położenia
kategoria modalna
p
m
ζ
m
wartość modalna
mo
μo
wartość medialna
me
μe
średnia arytmetyczna
μ
Miary rozproszenia
dyspersja względna klasyfikacji
h
χ
wariancja
s
2
σ
2
odchylenie standardowe
s
σ
Miary korelacji
współczynnik siły związku
r
p
ρ
p
współczynnik korelacji rang
Spearmana
r
s
ρ
s
współczynnik korelacji rang
Kendalla
r
k
(τ)
ρ
k
współczynnik konkordancji
r
w
ρ
w
stosunek korelacyjny
e
2
η
2
współczynnik korelacji
liniowej Pearsona
r
ρ
(za: Wołek 2006)
Miary statystyczne
Tabela 3.
Najczęściej stosowane miary statystyczne, specyficzne dla różnych skal
pomiaru.
Skala
Miary statystyczne
położenia
rozproszenia
korelacji
nominalna
-kategoria modalna
-dyspersja względna
klasyfikacji
-współczynniki siły związku
porządkowa
-obiekt medialny
-obiekty kwartylowe
-współczynniki korelacji rang
-współczynnik konkordancji
przedziałowa
pozycyjne
-wartość modalna
-wartość medialna
-wartości kwartylowe
bezwzględne
-rozstęp międzykwartylowy
-odchylenie kwartylowe
-stosunek korelacyjny
-współczynnik korelacji
liniowej
-współczynnik korelacji
cząstkowej i wielorakiej
klasyczne
-średnia arytmetyczna
-średnia arytmetyczna
ważona
bezwzględne
-wariancja
-odchylenie standardowe
ilorazowa
klasyczne
-średnia geometryczna
-średnia harmoniczna
względne
-współczynnik zmienności
25
(za: Wołek 2006)
Miary położenia
• Skala nominalna
– kategoria modalna
• Skala porządkowa
– obiekt medialny
• Skala przedziałowo-ilorazowa
Miary pozycyjne
Wartość modalna
Wartość medialna
Wartości kwartylowe
Miary klasyczne
Średnia arytmetyczna
26
Miary rozproszenia
• Skala nominalna
–
dyspersja względna klasyfikacji
• Skala porządkowa
–
do oceny rozproszenia wykorzystuje się
obiekty kwartylowe: dolny (Q
1
) i górny (Q
3
)
• Skala przedziałowo-ilorazowa
Miary pozycyjne
Rozstęp międzykwartylowy (Q
3
− Q
1
)
Odchylenie kwartylowe
Pozycyjny współczynnik zmienności (miara względna)
Miary klasyczne
Wariancja (s
2
)
Odchylenie standardowe (s)
Współczynnik zmienności (miara względna)
27
Miary korelacji
• Skala nominalna
– współczynniki siły związku
• Skala porządkowa
– współczynniki korelacji rang
Dla
dwu
skal
porządkowych
(
współczynnik
Kendalla
,
współczynnik Spearmana
)
Dla
więcej
iż
dwu
skal
porządkowych
(
współczynnik
konkordancji Kendalla
)
• Skala przedziałowo-ilorazowa
współczynnik korelacji liniowej Pearsona, r
współczynnik korelacji wielorakiej (wielokrotnej), R
współczynnik korelacji cząstkowej
28
Rozkłady empiryczne
Szereg statystyczny
• szczegółowy:
wyniki
nie są pogrupowane
nieuporządkowany: 5, 3, 7, 0, 10, 8, 2
uporządkowany: 0, 2, 3, 5, 7, 8, 10
• rozdzielczy
(rozkład liczebności): wyniki są pogrupowane
typu punktowego
typu przedziałowego
• frekwencja
(f) vs
frakcja
(w)
29
Przedział klasowy
• granica dolna / górna:
• zamknięty (są obie granice); otwarty (nie ma dolnej lub
górnej granicy)
• domykanie przedziałów klasowych
-
lewostronnie
domknięty:
x
0i
≤ x
i
< x
1i
-
prawostronnie
domknięty:
x
0i
< x
i
≤ x
1i
-
obustronnie
domknięty:
x
0i
≤ x
i
≤ x
1i
• środek przedziału klasowego:
30
Rozkłady
empiryczne
rozdzielcze
i
i
x
x
1
0
,
x
Szeregi rozdzielcze
31
Wysokość źdźbeł w
cm
(przedział klasowy)
Frekwencje
Frakcje
Środek
przedziału
Kumulowane
frekwencje
Kumulowane
frakcje
32,5–47,5
1
0,01
40,0
1
0,01
47,5–62,5
5
0,05
55,0
6
0,06
62,5–77,5
7
0,07
70,0
13
0,13
77,5–92,5
15
0,15
85,0
28
0,28
92,5–107,5
30
0,30
100,0
58
0,58
107,5–122,5
25
0,25
115,0
83
0,83
122,5–137,5
10
0,10
130,0
93
0,93
137,5–152,5
5
0,05
145,0
98
0,98
152,5–167,5
2
0,02
160,0
100
1,00
R
AZEM
=100
1,00
–
–
–
x
cum
w
n
Liczba ziarn
grochu w strąku
Frekwencje
Frakcje
Kumulowane
frekwencje
Kumulowane
frakcje
0
3
0,03
3
0,03
1
8
0,08
11
0,11
2
28
0,28
39
0,39
3
33
0,33
72
0,72
4
18
0,18
90
0,90
5
10
0,10
100
1,00
R
AZEM
= 100
1,00
–
–
f
n
f
w
cum
f
cum
w
n
Szereg rozdzielczy typu
punktowego
(dla zmiennej skokowej)
Szereg rozdzielczy typu
przedziałowego
(dla zmiennej ciągłej i
skokowej)
cum
f
x
n
f
w
f
(za: Wołek 2006)
Graficzna prezentacja szeregu rozdzielczego typu
przedziałowego
• histogram liczebności
– frekwencji lub frakcji
• wielobok liczebności
– frekwencji lub frakcji (diagram)
32
(za: Wołek 2006)
Graficzna prezentacja szeregu rozdzielczego typu
przedziałowego (c.d.)
• histogram kumulowanych liczebności
– frekwencji lub frakcji
• wielobok kumulowanych liczebności
– frekwencji lub frakcji
33
(za: Wołek 2006)
Graficzna prezentacja szeregu rozdzielczego typu
przedziałowego (c.d.)
34
• krzywa liczebności
– frekwencji lub frakcji
(za: Wołek 2006)
Typy rozkładów liczebności
A
– rozkład
asymetryczny
prawostronny
B
– rozkład
symetryczny
C
– rozkład
asymetryczny
lewostronny
35
(za: Wołek 2006)
Typy rozkładów liczebności
A, B, C
– rozkłady asymetryczne; D, E – rozkłady symetryczne;
A, B, D
– rozkłady jednomodalne; F – rozkład dwumodalny;
G
– rozkład wielomodalny; H – rozkład antymodalny
36
(za: Wołek 2006)
Graficzna prezentacja danych
Wykres:
• liniowy, słupkowy, kołowy (cyklogram)
• dwuwymiarowy, trójwymiarowy (przestrzenny)
• wykres pudełkowy
37
Graficzna prezentacja danych
Wykres liniowy
PUNKTY vs. OCENY
Średnie liczby punktów grupowane względem przedmiotowych ocen semetralnych
Średnia
Min-Maks
2
3
4
5
OCENY SEMETRALNE
20
22
24
26
28
30
32
34
36
38
PUNKTY U
ZYSK
ANE
PRZEZ U
CZN
IÓW W
TEŚCIE
OS
IĄG
NI
ĘĆ
38
(Opracowanie własne )
Graficzna prezentacja danych
Wykres liniowy
PUNKTY vs. OCENY
PUNKTY = 13,250 + 4,6992 * OCENY
Wsp. korelacji = 0,95457
OCENY SEMETRALNE
PUNKTY UZ
YS
KA
NE
PR
Z
EZ UC
ZNI
ÓW W
TEŚCIE
OS
IĄG
NIĘĆ
Regresja
95% p.ufności
2
3
4
5
20
24
28
32
36
40
39
(Opracowanie własne )
Graficzna prezentacja danych
Wykres
słupkowy
Wykres słupkowy
OCENA
19%
38%
21%
17%
6%
bardzo dobry
dobry
dostateczny
dopuszczający niedostateczny
0
2
4
6
8
10
12
14
16
18
20
L
ICZBA
O
BS
ERWACJI
(frekw
e
n
c
ja)
19%
38%
21%
17%
6%
40
(Opracowanie własne )
Graficzna prezentacja danych
Wykres kołowy (cyklogram)
Wykres kołowy (cyklogram)
OCENA
bardzo dobry; 9; 19%
niedostateczny; 3; 6%
dopuszczający; 8; 17%
dostateczny; 10; 21%
dobry; 18; 38%
bardzo dobry; 9; 19%
niedostateczny; 3; 6%
dopuszczający; 8; 17%
dostateczny; 10; 21%
dobry; 18; 38%
41
(Opracowanie własne )
Graficzna prezentacja danych
Wykres dwuwymiarowy 3W (przestrzenny)
Rozkład dwuwymiarowy
PYTANIE NR 18: PODGRUPA vs. DZIECI
42
(Opracowanie własne )
Graficzna prezentacja danych
Wykres ramkowy (pudełkowy)
Objaśnienia:
• GWR
-
górna wartość ramki, np.
średnia + 1.0*błąd standardowy lub
kwartyl górny (= percentyl 75%)
• DWR
-
dolna wartość ramki, np.
średnia – 1.0*błąd standardowy lub
kwartyl dolny (= percentyl 25%)
• H
= |GWR
– DWR|
• współczynnik dla obserwacji
odstających
wynosi 1,5
• współczynnik dla obserwacji
ekstremalnych
wynosi 3,0
43
(za: STATISTICA)
Dziękuję za uwagę
44