Rozkład liczby jaj w gniazdach dwóch gatunków
ptaków
0
2
4
6
8
1
2
3
3
4
5
6
7
8
0
2
4
6
8
1
2
3
3
4
5
6
7
8
N
N
liczba jaj
liczba jaj
Próbę (populację) charakteryzuje się
za pomocą następujących statystyk
(parametrów):
• Miary położenia
• centralne
- charakteryzują
przeciętny
poziom wartości
zmiennej
•
kwantyle
- wartości zmiennej,
które
dzielą uporządkowany
zbiór danych na
określone części
•
Miary (wskaźniki) rozproszenia
-
oceniają
rozrzut wartości
zmiennej
• klasyczne
• pozycyjne
• Miary zmienności
Modalna
(Moda) (M
0
)- wartość zmiennej, która występuje
najczęściej
CENTRALNE MIARY
POŁOŻENIA
0
20
40
60
80
100
1
2
3
4
5
6
Liczba plam na pokrywie pewnego gatunku chrząszcza
Rozkład jednomodalny
N
Modalna
0
20
40
60
80
100
1
2
3
4
5
6
3,5
N
• dla małych prób wyznaczenie mody jest często
problematyczne
• w praktyce ma bardzo ograniczone zastosowanie
Modalna
1
-
1
0
1
-
0
0
n
-
n
-
n
*
2
n
-
n
*
h
x
Mo
Dla szeregów rozdzielczych wartość modalną oblicza
się ze wzoru interpolacyjnego
x
0
- dolna granica przedziału mody (modalnego)
h - szerokość przedziału
n
0
- liczebność w przedziale mody
n
0+1
- liczebność przedziału następnego po modalnym
n
0-1
- liczebność przedziału poprzedzającego
Dla szeregów rozdzielczych (nawet gdy próba jest duża) jej
wartość jest uzależniona od przyjętego podziału na
klasy
Rozkłady wielomodalne
(świadczą o niejednorodności zbioru danych)
0
20
40
60
80
100
1
2
3
4
5
6
Liczba plam na pokrywie pewnego gatunku chrząszcza
Rozkład dwumodalny
(bimodalny)
0
20
40
60
80
100
1
2
3
4
5
6
Rozkład trójmodalny
(trimodalny)
CENTRALNE MIARY POŁOŻENIA
Średnia arytmetyczna
- suma wszystkich wartości
zmiennej
podzielona przez ich liczebność
•służy do oszacowania średniej populacji; wraz ze
wzrostem liczebności próby jej wartość jest coraz
bliższa średniej populacji
•ma zastosowanie do danych w skali interwałowej i
ilorazowej
•duży wpływ na jej wartość mają wartości skrajne
zmiennej, zwłaszcza przy małej liczebności próby
• obliczanie jej dla rozkładów znacznie odbiegających
od normalnego nie ma sensu
x
0
1
2
3
4
5
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
N
[mm]
Rozkład długości skrzydła pewnego gatunku motyla
2
5
,0
m
m
N=16
2
5
,6
m
m
N=17
0
20
40
60
80
100
120
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
N
[mm]
=27,4
x
Rozkład długości skrzydła pewnego gatunku motyla
Średnia arytmetyczna ważona
Stosuje się ją, gdy obliczamy średnią z już obliczonych
średnich i gdy nie są one równocenne, np.: różna
liczebność prób, różna powierzchnia badawcza z której
pobrano próby, różna dokładność pomiarów.
w
i
- tzw. waga. Może to być np.liczebność próby, powierzchnia lasu,
itp. Przy obliczaniu średniej z pomiarów mierzonych z różną
dokładnością wagi są odwrotnością kwadratów błędu.
n
i
1
i
i
n
i
1
i
i
i
w
w
x
*
w
x
Średnia arytmetyczna ważona
Należy obliczyć średnią pierśnicę sosen o określonym wieku,
rosnących w danym kompleksie leśnym
Osoba
mierząc
a
Średnia
[cm]
N
A
75,0
5
B
68,3
20
C
69,2
30
D
60,5
100
7
,
63
)
100
30
20
5
(
)
100
*
5
,
60
(
)
30
*
2
,
69
(
)
20
*
3
,
68
(
)
5
*
0
,
75
(
w
x
*
w
x
n
i
1
i
i
n
i
1
i
i
i
w
=68,
2
x
Wynik obliczenia średniej ze średnich uzyskanych przez
poszczególne osoby
Średnia arytmetyczna ważona
Należy obliczyć średnią pierśnicę sosen o określonym wieku,
rosnących w danym kompleksie leśnym
7
,
75
1
1
1
1
1
1
......
5
1
5
1
5
1
5
1
1
1
*
83
1
1
*
85
1
1
*
79
......
5
1
*
70
5
1
*
65
5
1
*
70
5
1
*
60
w
x
*
w
x
2
2
2
2
2
2
2
2
2
2
2
2
2
2
n
i
1
i
i
n
i
1
i
i
i
w
=72,
0
x
Wynik obliczenia średniej ze wszystkich
wyników
1) 60; 70; 65; 70; 55; 60; 80; 75; 75; 70 – dokładność 5 cm
2) 59; 71; 69; 82; 66; 78; 88; 79; 85; 83 – dokładność 1 cm
Dwie osoby otrzymały następujące wyniki w cm
Przy obliczaniu średniej z pomiarów mierzonych z różną dokładnością wagi są
odwrotnością kwadratów błędu.
średnia geometryczna
- stosuje się ją gdy wyniki
zmieniają się w przybliżeniu w postępie geometrycznym.
Np. obliczając średnią ze współczynników śmiertelności lub
przyrostu w szeregach czasowych.
n
n
3
2
1
G
x
*
...
*
x
*
x
*
x
X
średnia harmoniczna
-służy do obliczania tzw.
efektywnej wielkości populacji (genetyka populacyjna) lub
przy obliczaniu średniej wartości z pomiarów, które różnią
się od siebie o kilka rzędów wielkości.
n
i
1
i
i
H
x
1
n
x
• Można ją stosować do liczb dodatnich
• Pozwala nadać większe znaczenie mniejszym wartościom w zbiorze
danych
Obliczanie średniej geometrycznej ma sens tylko dla liczb
nieujemnych
Jeśli jeden z elementów jest równy 0, to średnia geometryczna też
równa się 0.
KWANTYLE
KWANTYLE
-
wartości, które dzielą zbiór danych na
części o jednakowej liczbie elementów.
Do najczęściej stosowanych należą:
•
Kwartyle
(wartości ćwiartkowe) - podział na 4 części
• mediana = drugi kwartyl (dzieli zbiór na 2 części)
•
Decyle
- podział na 10 części
•
Percentyle
(centyle) - podział na 100 części
Mają zastosowanie do danych w skali interwałowej,
ilorazowej i porządkowej
Obliczanie decyli ma sens gdy liczebność próby jest duża
(N100)
Mediana
(Me) – (drugi kwartyl) wartość środkowa, która
dzieli uporządkowany zbiór danych na dwie równe części.
Oznacza to, że tyle samo pomiarów znajduje się powyżej i
poniżej mediany. Gdy liczba pomiarów jest parzysta, to
oblicza się średnią z dwóch sąsiadujących, środkowych
elementów.
MEDIANA
•
na jej wartość nie mają wpływu wartości skrajne
• może być stosowana w przypadku rozkładów różnych od
normalnego
• może być stosowana do skali interwałowej, ilorazowej i
porządkowej
• żeby obliczyć medianę nie musimy dysponować wszystkimi
pomiarami - trzeba tylko znać ich pozycję w
uporządkowanym szeregu
np: 0, 1, 2, 5, 6, 7, 9 Me = 5
np: 0, 1, 2, 5, 6, 7, 9, 11 Me = 5,5
N
[mm]
0
1
2
3
4
5
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Rozkład długości skrzydła pewnego gatunku motyla
2
5
m
m
N=16
N=17
2
5
m
m
0
1
2
3
4
5
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
N
[mm]
2
5
,0
m
m
Me=
x
W rozkładach symetrycznych mediana równa się średniej arytmetycznej
0
20
40
60
80
100
120
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Me=33,5
N
[mm]
=32,5
x
Mediana i średnia arytmetyczna w rozkładach skośnych
o
o
o
F
2
N
*
n
h
x
Me
x
0
- dolna granica przedziału mediany
h - szerokość przedziału
n
0
- liczebność w przedziale mediany
N - liczebność próby
F
0
- liczebność skumulowana przedziału poprzedniego
Jeśli występują rangi wiązane, lub gdy dane
pogrupowane są w szereg przedziałowy, to do
obliczenia mediany zaleca się stosować wzór
interpolacyjny
MEDIANA
OBLICZANIE MEDIANY DLA DANYCH CIĄGŁYCH
• Gdy liczba pomiarów jest nieparzysta, to medianę
stanowi wartość środkowego elementu szeregu.
• Gdy liczba pomiarów jest parzysta, to oblicza się średnią
z dwóch sąsiadujących, środkowych elementów.
• Jeśli dane pogrupowane są w szereg przedziałowy, to
medianę stanowi środek przedziału, w którym ona się
znajduje.
MEDIANA
OBLICZANIE MEDIANY DLA DANYCH NIECIĄGŁYCH
Liczba
dni
N
1-4
32
5-9
16
10-13
2
14-17
2
Me=2,5
N=52
Dane nieciągłe
Ciężar
nasiona
[g]
N
1-4
32
5-9
16
10-13
2
14-17
2
Me=3,3
N=52
Dane ciągłe
Mediana ma też zastosowanie przy analizie zjawisk
fenologicznych do obliczania środkowej (przeciętnej) daty
np. przelotu, pojawu, kwitnienia itp.
data
1 V 2 V 3 V 4 V 5 V 6 V
7 V
8 V 9 V 10 V 11 V 12 V 13 V 14 V 15 V
liczebność
1
4 15 22 19 30
32
30
29
14
10
3
1
1
1
szereg
skumulowany
1
5 20 42 61 91
123
153 182 196 206 209 210 211 212
szereg
procentowy
skumulowany
0
2
9 20 29 43
58
72
86
92
97
99
99 100 100
Liczba osobników pewnego gatunku rośliny zakwitających w kolejnych dniach
0
5
10
15
20
25
30
35
1 V
2 V
3 V
4 V
5 V
6 V
7 V
8 V
9 V 10 V 11 V 12 V 13 V 14 V 15 V
N
drugi kwartyl (Q
2
) = mediana
Pierwszy kwartyl
(Q
1
) - 25% elementów zbioru ma wartości nie
większe, a 75% nie mniejsze od tego elementu.
Trzeci kwartyl
(Q
3
) - 75% elementów zbioru ma wartości nie
większe, a 25% nie mniejsze od tego elementu.
KWARTYLE
-3
-2
-1
0
1
2
3
0,0
0,1
0,2
0,3
0,4
0,5
0,6
25%
25%
25%
25%
wartości, które dzielą uporządkowany zbiór danych na
cztery równe części
WYZNACZANIE PIERWSZEGO I
TRZECIEGO KWARTYLA
A: 1, 2, 4, 5, 8, 12, 13, 18, 22 (N=9)
B: 1, 2, 4, 5, 8, 12, 13, 18, 22,
25 (N=10)
4
X
Q
)
1
n
(
1
1
)
1
n
(
3
Q
X
Q
wynik zaokrągla się do najbliższej liczby
będącej wielokrotnością 0,5
(13+18)/2=
25,5
X
(8)
=
18
OBLICZANIE KWARTYLI DLA DANYCH NIECIĄGŁYCH
)
5
,
2
(
)
1
9
(
1
4
X
X
Q
(2+4)/2=
3
)
5
,
7
(
)
5
,
2
(
)
1
9
(
1
X
X
X
Q
)
3
(
)
75
,
2
(
)
1
10
(
1
4
X
X
X
Q
(2+4)/2=
3
)
8
(
)
3
(
)
1
10
(
1
X
X
X
Q
Jeśli występują rangi wiązane, lub gdy dane pogrupowane są w
szereg przedziałowy, to do obliczenia kwartyli zaleca się stosować
wzór interpolacyjny
o
o
o
1
F
4
N
*
n
h
x
Q
o
o
o
3
F
4
3N
*
n
h
x
Q
x
0
- dolna granica przedziału pierwszego lub trzeciego
kwartyla
h - szerokość przedziału
n
0
- liczebność przedziału pierwszego lub trzeciego
kwartyla
N - liczebność próby
F
0
- liczebność skumulowana przedziału poprzedniego
OBLICZANIE KWARTYLI DLA DANYCH CIĄGŁYCH
WYZNACZANIE PIERWSZEGO I
TRZECIEGO KWARTYLA
WYZNACZANIE PIERWSZEGO I
TRZECIEGO KWARTYLA
Liczba
dni
N
2
2
3
32
4
16
5
2
Ciężar
nasiona
[g]
N
2
2
3
32
4
16
5
2
Me=3
N=52
Dane nieciągłe
Me=3,3
N=52
Dane ciągłe
Q
1
=3
Q
3
=4
Q
1
=2,8
Q
3
=3,7
MIARY ROZPROSZENIA
Rozkład liczby nasion w strąkach pewnej rośliny
0
2
4
6
1
2
3
3
4
5
6
7
8
9
N
N
0
2
4
6
8
10
1 2 3 3 4 5 6 7 8 9
Rozstęp
- różnica między największą i najmniejszą
wartością w zbiorze danych
Określają go tylko dwie skrajne wartości, a pozostałe
pomiary nie mają wpływu na jego wartość
Częściej podaje się zamiast niego zakres od 5% do 95%
wszystkich wartości wokół średniej arytmetycznej (lub
mediany)
Rozstęp międzykwartylarny
(międzykwartylowy)
(kwartylny) (odchylenie ćwiartkowe)
- różnica miedzy
trzecim i pierwszym kwartylem.
Jest to część zbioru danych zawierająca 50% wszystkich
wartości wokół średniej arytmetycznej (lub mediany)
Me
Q
3
Q
1
Rozstęp
Odchylenie ćwiartkowe
Odchylenie standardowe i wariancja
1. Obliczyć średnią arytmetyczną
2. Odjąć od każdego elementu szeregu średnią - otrzymuje się
odchylenia od
średniej
3. Podnosimy każdą wartość odchylenia od średniej do kwadratu i
sumujemy je otrzymując sumę kwadratów odchyleń
4. Obliczamy wariancję
2
1
1
2
n
x
x
s
n
i
i
Odchylenie standardowe wyrażone jest w tych samych jednostkach,
co średnia arytmetyczna
.
Informuje o ile średnio poszczególne pomiary różnią się od średniej,
czyli jaki jest błąd bezwzględny pojedynczego wyniku.
Jest najważniejszą miarą rozrzutu danych wokół średniej
5. Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji
Współczynnik zmienności
• Dotyczy tylko skali ilorazowej
• Wynik często mnoży się przez 100 aby wyrazić go w procentach
• Umożliwia porównanie zmienności szeregów statystycznych
różniących się
znacznie wartością średniej
x
s
V
W przypadku małych prób stosuje się zmodyfikowany wzór
x
s
*
n
*
4
1
1
V
Wskaźnik różnorodności biologicznej
Dla danych w skali nominalnej
WSKAŹNIK RÓŻNORODNOŚCI SHANNON-
WIENERA
(wskaźnik Shanon-Weavera)
log - logarytm o podstawie dziesiętnej ale może być dowolny
logarytm, ponieważ można przeliczać wartości logarytmów o różnej
podstawie:
n
)
f
log(
*
f
)
n
log(
*
n
'
H
k
i
1
i
k - liczba kategorii; f - liczba obserwacji w danej kategorii
Wartości do przeliczania logarytmów o różnej podstawie
Podstawa 2 (log
2
) Podstawa e (ln) Podstawa 10 (log)
Podstawa 2 (log
2
)
1,0000
1,4427
3,3219
Podstawa e (ln)
0,6931
1,0000
2,3026
Podstawa 10 (log)
0,3010
0,4343
1,0000
Przeliczanie z:
Przeliczanie na:
max
'
H
'
H
'
J
Wskaźnik jednorodności
(J’)
odnosi
obserwowaną różnorodność do maksymalnej
możliwej różnorodności:
Teoretyczna, maksymalna
różnorodność
)
k
log(
'
H
max
•
Jeśli na 20 drzew aż 19 to brzozy, mówimy o bardzo niskiej
zmienności
(różnorodności)
• Jeśli na 20 drzew odnotowaliśmy po 5 brzóz, grabów, klonów i
buków,
mówimy o bardzo wysokiej zmienności
(różnorodności)
wartość współczynnika różnorodności zależy od liczby kategorii (gatunków)
PRZYKŁAD:
H’=0,68
(k=5)
H’=0,68
(k=10)
H’max= log 5 = 0,6989 = 0,70
H’max= log
10 = 1,00
J’ = 0,97
J’=0,68
PODSUMOWANIE
M ia r y p o ło ż e n ia
Ś r e d n ia a r y tm e ty c z n a
M e d ia n a
( k w a n t y le )
M o d a ln a
S k a l a i n te r w a ło w a
Ś r e d n ia a r y tm e t y c z n a
M e d ia n a
( k w a n ty le )
M o d a ln a
S k a l a i l o r a z o w a
M e d ia n a
( k w a n ty le )
M o d a ln a
S k a l a p o r z ą d k o w a
S k a l a n o m i n a l n a
•
Rozkład jednomodalny i względnie symetryczny -
średnia arytmetyczna
• Rozkład jednomodalny i niesymetryczny -
mediana
• Rozkład wielomodalny -
wartości modalne
Do skali porządkowej nie stosuje się wzorów interpolacyjnych
PODSUMOWANIE
M ia r y r o z p r o s z e n ia i z m ie n n o ś c i
O d c h y le n ie
s t a n d a r d o w e
R o z s t ę p y
S k a l a i n te r w a ło w a
W s p ó łc z y n n ik
z m ie n n o ś c i
O d c h y le n ie
s t a n d a r d o w e
R o z s tę p y
S k a l a i l o r a z o w a
R o z s t ę p y
S k a l a p o r z ą d k o w a
W s k a ź n ik
r ó ż n o r o d n o ś c i
S k a l a n o m i n a l n a
•
Średnia arytmetyczna ------
Odchylenie standardowe
•
Mediana ------------------------
Odchylenie ćwiartkowe
MIARA SKOŚNOŚCI (SYMETRII) ROZKŁADU
średnia arytmetyczna = 3,0
odchylenie standardowe = 1,11
N
N
N
MIARA SKOŚNOŚCI (SYMETRII) ROZKŁADU
Współczynnik skośności (asymetrii) rozkładu
• gdy jest równy 0 – rozkład idealnie symetryczny
(A)
• gdy jest dodatni – rozkład prawoskośny
(B)
• gdy jest ujemny – rozkład lewoskośny
(C)
(A)
(B)
(C)
MIARA KONCENTRACJI (SPŁASZCZENIA) ROZKŁADU
Kurtoza
• gdy jest równa 0 – rozkład normalny (mezokurtyczny)
(A)
• gdy jest dodatnia – rozkład wysmukły (leptokurtyczny)
(B)
• gdy jest ujemna – rozkład spłaszczony (platykurtyczny)
(C)
(A
)
(B
)
(C)
Wykres ramkowy
(wykres „pudełko z wąsami”)
10
20
12
14
16
18
[kg]
10
20
12
14
16
18
[kg]
x
+ s
- s
max
min
max
min
Me
Q3
Q1
Dla średniej arytmetycznej
Dla mediany
Skośność = 1,30
Rozkład prawoskośny
Rozkład symetryczny
Skośność = 0,11
Wykres ramkowy