Wykład 1: Wstępne
przetwarzanie danych
Biometria i
biostatystyka
Literatura
Koronacki J., Mielniczuk J.:
Statystyka dla studentów
kierunków technicznych i
przyrodniczych. WNT, Warszawa
2001
Greń J: Statystyka matematyczna –
modele i zadania. PWN Warszawa
Program kursu
1.
Wstępne przetwarzanie danych
2.
Prezentacja danych
3.
Zmienne losowe i ich rozkłady
4.
Podstawy wnioskowania statystycznego
5.
Testy parametryczne
6.
Test 1
7.
Testy zgodności dopasowania
8.
Wnioskowanie o proporcjach
9.
Nieparametryczne metody statystyczne
10.
Analiza zależności
11.
Test 2
Nauka zajmująca się badaniem zmienności
populacji organizmów. Wyniki pomiarów
biometrycznych po opracowaniu metodami
statystyki matematycznej wykorzystywane
są, między innymi w antropologii, fizjologii,
genetyce, hodowli, medycynie, paleontologii.
Biometria
Biometria to również technika dokonywania
pomiarów istot żywych. W najnowszych
zastosowaniach ukierunkowana jest na
metody automatycznego rozpoznawania ludzi
na podstawie ich cech fizycznych. Przykładem
urządzeń do pomiarów biometrycznych na
podstawie których można identyfikować
konkretne osoby jest system rozpoznawania
tęczówki oka rejestrujący obraz tęczówki oka.
Biometria
www.wikipedia.pl
Statystyka – cóż to jest?
Naukowa analiza
danych opisujących
naturalną zmienność.
Naukowa analiza:
Zbieranie danych dokonywane jest z
uwzględnieniem ogólnie akceptowanych
kryteriów przeprowadzania
eksperymentów naukowych.
Prezentacja danych oraz wyników analiz
musi być przeprowadzana obiektywnie,
zgodnie z zasadami ‘kodu etycznego
naukowca’.
„Liczby nigdy nie kłamią, wszystkiemu
winni są statystycy”
Dane
Statystyka to analiza zjawisk, które
dotyczą populacji lub grupy
osobników; opiera się na analizie
zbioru informacji, a nie pojedynczego
pomiaru. Oznacza to, że nie będzie
nas interesować pojedynczy osobnik.
Dane stanowią pomiary bądź
zliczenia.
Naturalna zmienność:
Analizować będziemy jedynie takie
zdarzenia, które w naturze nie
podlegają bezpośrednie naszej kontroli
(np. liczba ziaren grochu w strąku).
Czasami dopuszczalne jest częściowe
kontrolowanie czynników przez badacza
(np. mierząc krzywą cukrową u osób z
podejrzeniem cukrzycy podaje się im
wcześniej odpowiednią dawkę cukru).
Podstawowym celem analizy
statystycznej jest wnioskowanie o
cechach dużej grupy osobników na
podstawie informacji uzyskanej z
relatywnie małolicznej grupy badanej.
Takie podejście wymaga
sprecyzowania pojęć populacji i próbki.
Podstawowe definicje
Dane składają się z pojedynczych
obserwacji
, które są pomiarami
dokonanymi na pojedynczej
jednostce.
Jeśli mierzymy wzrost u 100 osób,
wówczas wzrost każdej z osób stanowi
pojedynczą obserwację.
Podstawowe definicje
Próba
jest zbiorem pojedynczych
obserwacji wybranych z
zastosowaniem specyficznych
kryteriów selekcji.
Zebranych 100 pomiarów wzrostu
stanowi próbę.
Podstawowe definicje
Cecha, którą mierzymy w
pojedynczych obserwacjach
nazywana jest
zmienną
.
Więcej niż jedna zmienna może być
mierzona u pojedynczej jednostki.
Możemy mierzyć u każdej z osób jej wzrost
oraz np. masę ciała i wiek.
Podstawowe definicje
Populacja
to całość pojedynczych
obserwacji, o których przeprowadzane
jest wnioskowanie statystyczne,
istniejąca gdziekolwiek na świecie,
albo przynajmniej w dokładnie
zdefiniowanym w dziedzinie czasu i
przestrzeniu obszarze próbkowania.
Przykładowo:
1. Wszyscy ludzie w wieku 18-25 lat
2. Wszyscy ludzie w wieku 18-25 w
Gliwicach
Trochę więcej o zmiennych
...
Możemy zatem powiedzieć, że zmienna
to cecha, która zmienia się u osobników
w jakiś określony sposób.
Cecha, która nie jest różnorodna nie
podlega zainteresowaniu statystyków.
Trochę więcej o zmiennych
...
Stałocieplność u ssaków nie jest
zmienną ponieważ wszystkie one
są stałocieplne.
Temperatura ciała poszczególnych
ssaków może być zmienną.
Trochę więcej o zmiennych
...
Zmienne
Zmienne
pomiarowe
Zmienn
e
rangow
e
Atrybut
y
Zmienne
ciągłe
Zmienne
dyskretne
Zmienne pomiarowe
(mierzalne)
Zmienne pomiarowe
to takie,
których różne wartości mogą być
uporządkowane numerycznie .
Mogą być wyrażone w skali
ilorazowej bądź przedziałowej.
Zmienne pomiarowe
Są dwie najważniejsze cechy
skali
ilorazowej
:
W całym zakresie skali jest ustalona, niezmienna
jednostka.
Zdefiniowany jest punkt zerowy, który ma
znaczenie fizyczne.
Cóż to oznacza?
Stała jednostka
:
Przykładowo, różnica wzrostu pomiędzy
osobąmi o wzrostach 166 cm i 167 cm
jst taka sama jak różnica pomiędzy
osobami 180 cm i 181 cm
.
Punkt zerowy
:
Pozwala na określenie stosunku dwóch
pomiarów. Możemy zatem powiedzieć, że 90
cm to połowa 180 cm.
Zmienne pomiarowe
Niektóre skale spełniają warunek stałej
jednostki, ale nie posiadają zera
fizycznego. Takie skale nazywamy
skalami przedziałowymi
.
Książkowym przykładem są skale temperatury: Celsius (ºC)
i Fahrenheit (ºF). Różnica temperatur pomiędzy 20ºC a
25ºC jest taka sama w sensie energetycznym jak różnica
pomiędzy 5ºC 10ºC. Jednak nie można powiedzieć, że
temperatura 40ºC jest dwukrotnością temperatury 20ºC;
punkt zerowy został zdefiniowany arbitralnie. (Takiego
problemu nie ma w przypadku stosowania skali Kelvina)
Zmienne pomiarowe
Niektóre skale, często stosowane w
biologii i medycynie, to skale
przedziałowe zwane
skalami
cyklicznymi.
Pora dnia, pora roku to przykłady takich skal. Okres
czasu pomiędzy 14:00 a 15:30 jest taki sam jak
pomiędzy 8:00 a 9:30. Nie możemy nic powiedzieć
o stosunku pór dnia.
Zmienne pomiarowe
Występują dwa typy zmiennych pomiarowych:
Zmienne ciągłe
teoretycznie przyjmujące
nieskończoną liczbę wartości pomiędzy dwoma
ustalonymi wielkościami.
Zmienne dyskretne
to zmienne, które
przyjmują wartości ze ściśle określonego,
skończonego zbioru wartości dopuszczalnych.
Ciągłe versus dyskretne
Ciągłe:
długość (cm, in), waga (mg, lb), powierzchnia
(sq cm, sq ft), objętość (ml, qt), prędkość
(cm/sec, mph, mg/min), czas trwania (hr, yr),
kąt (grad, rad), temperatura (º), procenty
Dyskretne:
Liczność (liści, fragmentów, zębów), liczba
potomków, liczba białych krwinek w 1mm
3
krwi, liczba żyraf u wodopoju, liczba jajeczek
złożonych przez konika polnego
Zmienne rangowe
Niektóre zmienne nie mogą być
dokładnie zmierzone, ale można
uporządkować ich poziomy rosnąco
lub malejąco. O takich danych mówi
się, że są przedstawione w
skali
porządkowej (rangowej)
, opisującej
bardziej relacje aniżeli ilościowe
różnice .
Zmienne rangowe
Wyrażając jakąś zmienną w skali rangowej,
jako ciąg wielkości 1, 2, 3, 4, 5 nie
zakładamy, iż różnica pomiędzy rangami 1 i
2 jest taka sama (bądź proporcjonalna do)
jak różnica pomiędzy rangami 2 i 3.
Zmienne przedstawione w skali porządkowej
wnoszą znaczniej mniej informacji aniżeli
zmienne w skali ilorazowej bądź
przedziałowej.
Atrybuty
Zmienne, które nie mogą być
zmierzone, a jedynie wyrażone są
jakościowo nazywa się
atrybutami
a
skalę, w której są wyrażone nazywamy
skalą nominalną
(od słowa „name”).
Atrybuty to przykładowo takie cechy
jak: żywy/martwy, prawo-/leworęczny,
mężczyzna/kobieta, kolor oczu (zielony,
niebieski, szary, brązowy), kolor
włosów (czarne, brązowe, blond czy
rude)
.
Wstępne przetwarzanie
danych
Kiedy dane zostały już zebrane w
konkretnym eksperymencie badawczym,
powinne być najpierw przedstawione w
postaci, która jest użyteczna dla
dalszych obliczeń i interpretacji.
W pierwszym kroku najczęściej wykreśla
się
wykresy częstościowe
oraz wyznacza
się tzw.
statystyki opisowe
.
Wykresy częstościowe
Ilościowe
Są to reprezentacje graficzne realizacji
zmiennych pomiarowych, zarówno
ciągłych jak i dyskretnych, oraz
zmiennych rangowych.
Jakościowe
Dotyczą tylko zmiennych typu atrybut.
Przykład
U 462 dzieci z terenu Górnego Śląska
została rozpoznana cukrzyca typu 1 na
przestrzeni lat 1989-1996.
Zebrano następujące dane:
Płeć dziecka (chłopiec/dziewczynka)
Numer kolejny dziecka w rodzinie
Rok urodzenia
Waga urodzeniowa
Przykład 1 – Płeć
251
207
0
50
100
150
200
250
300
Female
Male
N
o
of
c
as
es
54.8
45.2
Female
Male
Można przedstawić dane w postaci zliczeń bądź
procentów
Przykład 2 – numer
dziecka
165
54
7
5
1
223
0
50
100
150
200
250
1st
2nd
3rd
4th
5th
6th
Child number in a family
N
o
of
c
as
es
165
67
223
0
50
100
150
200
250
1st
2nd
3rd or later
Child number in a family
N
o
of
c
as
es
Czasami zachodzi potrzeba przekodowania
danych
Zmienna dyskretna
Zmienna rangowa
Przykład 3 – rok urodzenia
1315
30
43
29
52
4144
36
25252525
2021
1311
5 4 2 1
6
0
10
20
30
40
50
60
Birth year
N
o
of
c
as
es
102
137
86
66
29
8
34
0
20
40
60
80
100
120
140
160
75-77 78-80 81-83 84-86 87-89 90-92 93-96
Birth year
N
o
of
c
as
es
Grupowanie klas często pozwala uzyskać
bardziej spójny i regularny kształt wykresu.
Statystyki opisowe
Istnieje potrzeba zwięzłego podsumowania
danych w takiej postaci, która pozwoli na
ocenę i łatwą prezentację ich własności.
Wykresy częstościowe są taką formą.
Jednakże potrzebujemy również opisu w
formie liczb, które pozwoliłyby na zwięzły i
dokładny ilościowy opis własności
obserwowanego rozkładu częstości.
Nazywamy je
statystykami opisowymi
.
Statystyki opisowe
Definiuje się dwie podstawowe grupy
statystyk opisowych:
Statystyki położenia
(miary centralnej
tendencji) – określają położenie próbki w
przestrzeni reprezentującej analizowaną
zmienną losową.
Statystyki rozrzutu
(miary zmienności) –
oceniają rozrzut pomiarów wokół środka
dystrybucji.
Statystyki położenia
Średnia arytmetyczna
Najszerzej używaną statystyką
położenia jest
średnia arytmetyczna
,
powszechnie nazywana średnią.
Każdy pomiar (realizacja zmiennej
losowej) wchodzący w skład próby
oznaczamy jako x
i
. Indeks i jest liczbą
całkowitą przyjmującą wartości od 1
do N – całkowitej liczby osobników w
próbie.
Średnia arytmetyczna
Średnia arytmetyczna najczęściej oznaczana jest jako
N
x
x
N
i
i
1
x
Przykład 4
Zmierzono wzrost losowo
wybranych dziewięciolatków. Jaka
jest średnia z próby?
X=[114, 123.3, 116.7, 129.0, 118,
124.6, 123.1, 117.4, 111, 121.7,
124.5, 130.5]
N=12
15
.
121
12
5
.
130
7
.
116
3
.
123
114
x
Przykład 5
Strukturę zarobków w pewnej
firmie przedstawia tabela.
Ile wynosi średnia pensja?
Pensja
Liczba
osób
(1000;2000]
10
(2000; 4000]
25
(4000; 6000]
12
(6000;8000]
8
(8000;10000]
4
(10000;20000]
2
2
4
25
10
15000
2
3000
25
1500
10
w
x
4459
x
Średnia ważona
Często występuje potrzeba wyznaczenia
wartości średniej średnich bądź innych
statystyk, których wiarygodność jest
różna z powodu np. różnych liczności
próbek. W takim przypadku trzeba
wyznaczyć
średnią ważoną
.
N
i
i
N
i
i
i
w
w
x
w
x
1
1
Przykład 6
Dokonano pomiaru stężenia pewnego
związku w ściekach nieoczyszczonych.
Próbki pobrano i przebadano w trzech
laboratoriach, zbierając za każdym razem
ich inna liczbę. Jakie jest średnie stężenie
tej substancji w ściekach?
W tym przypadku trzy wartości średnie
wyznaczono na podstawie trzech prób o
różnych licznościach, ich średnia ważona
wynosi zatem:
Średnie
stężenie
[%]
Liczność
próby
3.85
12
5.21
25
4.70
8
76
.
4
8
25
12
70
.
4
8
21
.
5
25
85
.
3
12
w
x
i różni się od standardowej średniej
arytmetycznej
59
.
4
3
70
.
4
21
.
5
85
.
3
x
Średnia geometryczna
Często dokonuje się transformacji
zmiennej losowej wyliczając logarytmy
ich wartości. Jeśli wyliczymy średnią
arytmetyczną pomiarów po
transformacji i dokonamy transformacji
odwrotnej, to uzyskana liczba będzie
inna niż średnia arytmetyczna danych w
surowej postaci. Nazywa się ją
średnią
geometryczną
.
Średnia geometryczna
Korzystając z własności funkcji
logarytmicznej możemy tę wielkość
przedstawić jako:
N
x
x
N
i
i
GM
1
log
log
N
N
i
i
GM
i
i
i
i
GM
x
x
x
x
N
N
x
N
x
x
N
1
1
log
log
1
log
log
log
Średnia harmoniczna
Odwrotność średniej arytmetycznej
odwrotności pomiarów nazywana
jest
średnią harmoniczną
i
oznaczana jest najczęściej
symbolem H
N
i
i
H
N
i
i
H
x
N
x
x
N
x
1
1
1
1
1
1
1
1
Mediana
Mediana
M definiowana jest jako taka
wartość zmiennej (po uporządkowaniu
danych w szereg rosnący), że taka
sama liczba pomiarów jest od niej
większa i mniejsza.
Jeśli liczność próbki jest liczbą
nieparzystą, wówczas
2
/
)
1
(
N
X
M
Mediana
Gdy N jest liczbą parzystą wtedy
wyrażenie (N+1)/2 nie jest liczbą
całkowitą – nie ma po prostu liczby
środkowej. Miast niej są dwie liczby
najbliższe środka, a mediana jest
wyznaczana jako średnia z nich:
2
/
)
(
1
2
2
N
N
X
X
M
Obliczanie mediany
1.
Uporządkuj wszystkie pomiary
rosnąco
2.
Jeśli n (liczba pomiarów) jest
nieparzyste, M to środkowy
pomiar na liście
3.
Jeśli n jest parzyste, M jest średnią
dwóch środkowych pomiarów
Przykład 7
Znajdź medianę liczby mil na galon
benzyny samochodów klasy kabriolet
Uporządkuj dane w rosnącym
porządku
13 13 16 19 21 21 23 23 24 26
26 27 27 27 28 28 30 30 68
•
Nieparzyste n, więc mediana jest
środkiem listy, czyli 26
Mediana
Kiedy wyniki obserwacji się
powtarzają, mogą się pojawić
problemy w szukaniu mediany.
Obliczanie mediany jest
trudniejsze, ponieważ wiele
wartości leży w tym samym
przedziale (klasie) co mediana i
mają to samo oznaczenie klasy.
Przykład 8
Dane są w formie rozkładu
częstości z powodu dużej
ilości obserwacji w
doświadczeniu
Mediana dla zestawionej
tabeli jest (n+1)/2 wartością.
Tutaj n=9465 więc szukamy
4733-ciej obserwacji.
4733-ci wynik jest w klasie
107.5, czyli gdzieś między
103.5 a 115.5. Ta klasa
zawiera 2240 wyników, a
wynik 4733 jest 4733-
3049=1684-tym wynikiem w
klasie.
Klasa
wagowa
Liczność f
Dystrybuanta F
59.5
2
2
67.5
6
8
75.5
39
47
83.5
385
432
91.5
888
1320
99.5
1729
3049
107.5
2240
5289
115.5
2007
7296
123.5
1233
8529
131.5
641
9170
139.5
201
9371
147.5
74
9445
155.5
14
9459
163.5
5
9464
171.5
1
9465
Przykład 8
Przykład 8
Przyjmując rozkład
równomierny w klasie,
wartość nr 4733 będzie w:
całego przedziału klasy lub w
75.18% odległości między
dolną a górną granicą
przedziału.
Ponieważ przedział każdej
klasy to 8 oz, wartość
mediany to 0.7518 x 8.0 =
6.014 oz powyżej dolnej
granicy klasy (103.5 oz); czyli
mediana wag noworodków
wynosi 103.5 + 6.014 =
109.514
oz.
Klasa
Liczność f
Dystrybuanty F
59.5
2
2
67.5
6
8
75.5
39
47
83.5
385
432
91.5
888
1320
99.5
1729
3049
107.5
2240
5289
115.5
2007
7296
123.5
1233
8529
131.5
641
9170
139.5
201
9371
147.5
74
9445
155.5
14
9459
163.5
5
9464
171.5
1
9465
7518
.
0
2240
1684
Kwartyle
Mediana to tylko jedna z rodziny statystyk
porządkowych, dzielących wyniki na
części. Dzieli zbiór na dwie równoliczne
części.
Z kolei
kwartyle
to punkty w 25%, 50%, i
75% zbioru – które dzielą rozkład na
pierwszą, drugą, trzecią i czwartą ćwiartkę.
Są zwykle opisywane symbolami Q
1
(dolny
kwartyl), M (mediana), Q
3
(górny kwartyl).
Kwartyle
Dolnym kwartylem
próby nazywamy
medianę podpróby, składającej się ze
wszystkich elementów próby o
wartościach mniejszych od mediany całej
próby.
Górnym kwartylem
próby nazywamy
medianę podpróby, składającej się ze
wszystkich elementów próby o
wartościach większych od mediany całej
próby.
Kwartyle
Przykład 9
Dane: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
Dane uporządkowane: 6, 7,
15
, 36, 39,
40
, 41, 42,
43
, 47, 49
Q
1
=15; Q
2
=M=40; Q
3
=43
Przykład 10
Dane uporządkowane: 7, 15, 36, 39, 40, 41
Q
1
=15; Q
2
=M=37.5; Q
3
=40
Przykład 11
Dane uporządkowane: 1 2 3 4
Q
1
=1.5; Q
2
=M=2.5; Q
3
=3.5
Inne statystyki
porządkowe
Istnieją także kwintyle, decyle i
percentyle, dzieląc rozkład na
odpowienio 5, 10, i 100 równych
części.
Ogólny termin dla tych wszystkich
to
kwantyle
.
Moda
Modę
zazwyczaj definiuje się jako pomiar
występujący najczęściej w analizowanym
zbiorze danych. Jednakże czasami lepiej
zdefiniować ją jako pomiar o istotnie
większej koncentracji/częstości
występowania od pozostałych.
W niektórych przypadkach może
występować więcej niż jeden punkt
koncentracji.
Przykład 12
Załóżmy, iż próba składa się z następujących
pomiarów: 6, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10,
11, 12, 12, 12, 12, 12, 12, 13, 13, i 14 mm.
0
1
2
3
4
5
6
7
N
o
o
f
in
d
iv
id
u
a
ls
6
7
8
9 10 11 12 13 14
length [mm]
Główna moda
Moda oboczna
Rozkład dwumodalny
Uwagi
Uwagi
Średnia arytmetyczna jest najczęściej
stosowaną statystyką położenia, jednak
jest bardzo wrażliwa na wartości odstające
(istotnie różne od pozostałych), podczas
gdy mediana i moda są nań odporne.
W przypadku symetrycznego i
jednomodalnego rozkładu zmiennej
losowej średnia arytmetyczna, mediana i
moda są sobie równe.
Statystyki rozrzutu
Zakres
Zakres
jest miarą, która ukazuje
zmienność/rozrzut pomiarów zmiennej.
i
N
i
i
N
i
x
x
Zakres
,...,
1
,...,
1
min
max
Jest silnie wrażliwy na pojedyncze
wielkości odstające i z tego
powodu może być traktowany
jedynie jako zgrubna ocena
zmienności pomiarów.
Przedział
międzykwartylowy
Odległość pomiędzy Q
1
a Q
3
, pierwszym
i trzecim kwartylem (inaczej 25-tym i
75-tym percentylem) jest nazywana
przedziałem międzykwartylowym
albo
odchyleniem kwartylowym.
1
3
Q
Q
IQR
Średnie odchylenie
Ponieważ średnia jest użyteczną miarą
położenia, wielkość mierząca odchyłki od
średniej wyrażać będzie zmienność
pomiarów w próbie.
Suma wartości absolutnych odchyłek od
wartości średniej podzielona przez liczność
próby N daje w wyniku statystykę
nazywaną
średnim odchyleniem (AD)
N
x
x
AD
N
i
i
1
Wariancja
Alternatywnym sposobem pomiaru odchyleń
od wartości średniej jest posługiwanie się
kwadratem odległości a nie wartością
absolutną. Ich suma jest bardzo ważną
wielkością w statystyce, nazywaną
sumą
kwadratów
(SS).
Wariancja
jest średnią
kwadratów odchyleń.
1
1
1
1
2
1
2
1
2
N
x
N
x
N
x
x
Var
N
i
N
i
i
i
N
i
i
Odchylenie standardowe
Odchylenie standardowe
jest dodatnim
pierwiastkiem wariancji; dzięki temu
wyrażany jest w oryginalnych
jednostkach zmiennej losowej.
1
1
2
N
x
x
s
N
i
i
Przykład 13
Współczynnik zmienności
Zarówno wariancja jak i odchylenie
standardowe przyjmują wartości ściśle
zależne od poziomu pomiarów.
Słonie mają uszy, których wielkość jest
około stukrotnie większa od uszu myszy.
Tym samym odchylenie standardowe będzie
(zakładając podobną zmienność osobniczą
w grupie słoni i myszy) liczbowo stukrotnie
większe w grupie słoni w odniesieniu do
myszy. A ich wariancja będzie 100
2
razy
większa.
Współczynnik zmienności
Współczynnik zmienności (CV)
wyraża
zmienność pomiarów w ramach próbki
odniesioną do średniej arytmetycznej
próbki
%
100
x
s
CV
Wskaźniki różnorodności
Dla zmiennych wyrażanych w skali
nominalnej (atrybuty) nie istnieje
pojęcie średniej czy mediany, które
byłoby odniesieniem dla pomiaru
rozrzutu. Możemy jednak przenieść
ideę różnorodności dla dystrybucji
obserwacji w ramach
poszczególnych kategorii.
Wskaźniki różnorodności
Najczęściej stosowanym wskaźnikiem
różnorodności jest entropia
Shannona-
Wienera
definiowana jako:
gdzie k jest liczbą kategorii,
natomiast f
i
jest częścią
obserwacji zakwalifikowanych do
kategorii i.
k
i
i
i
f
f
H
1
log
Wskaźniki różnorodności
Jeśli N jest licznością próby, a n
i
liczbą obserwacji dla kategorii i, to
N
n
f
i
i
więc
N
n
n
N
N
H
k
i
i
i
1
log
log
Przykład 14 – Płeć
2990
.
0
458
)
207
log
207
251
log
251
(
458
log
458
H
Wskaźniki różnorodności
Maksymalną entropię obserwujemy dla
przypadku gdy
k
N
n
i
~
wówczas
k
N
k
N
N
N
N
N
k
N
k
N
k
N
N
N
k
N
k
N
N
N
N
n
n
N
N
H
k
i
k
i
i
i
log
log
log
log
log
log
log
log
~
log
~
log
1
1
max
Wskaźniki różnorodności
Możemy zatem wyrazić
obserwowaną entropię jako część
maksymalnej możliwej – nazywa
się ją wówczas
relatywnym
wskaźnikiem różnorodności
.
max
H
H
J
Przykład 14 cd
9933
.
0
2
log
2990
.
0
max
H
H
J
Przykład 15
65
45
12
51
0
10
20
30
40
50
60
70
Black
Brown
Blonde
Red
Hair color - Italian
N
o
of
c
as
es
34
169
15
11
0
20
40
60
80
100
120
140
160
180
Black
Brown
Blonde
Red
Hair color - Swedish
N
o
of
c
as
es
5486
.
0
H
60
.
0
J
9112
.
0
J
3612
.
0
H