Wyklad 1 Wstepne przetwarzania danych

background image

Wykład 1: Wstępne

przetwarzanie danych

Biometria i

biostatystyka

background image

Literatura

Koronacki J., Mielniczuk J.:
Statystyka dla studentów
kierunków technicznych i
przyrodniczych.
WNT, Warszawa
2001

Greń J: Statystyka matematyczna –
modele i zadania.
PWN Warszawa

background image

Program kursu

1.

Wstępne przetwarzanie danych

2.

Prezentacja danych

3.

Zmienne losowe i ich rozkłady

4.

Podstawy wnioskowania statystycznego

5.

Testy parametryczne

6.

Test 1

7.

Testy zgodności dopasowania

8.

Wnioskowanie o proporcjach

9.

Nieparametryczne metody statystyczne

10.

Analiza zależności

11.

Test 2

background image

Nauka zajmująca się badaniem zmienności
populacji organizmów. Wyniki pomiarów
biometrycznych po opracowaniu metodami
statystyki matematycznej wykorzystywane
są, między innymi w antropologii, fizjologii,
genetyce, hodowli, medycynie, paleontologii.

Biometria

background image

Biometria to również technika dokonywania

pomiarów istot żywych. W najnowszych

zastosowaniach ukierunkowana jest na

metody automatycznego rozpoznawania ludzi

na podstawie ich cech fizycznych. Przykładem

urządzeń do pomiarów biometrycznych na

podstawie których można identyfikować

konkretne osoby jest system rozpoznawania

tęczówki oka rejestrujący obraz tęczówki oka.

Biometria

www.wikipedia.pl

background image

Statystyka – cóż to jest?

Naukowa analiza
danych opisujących
naturalną zmienność.

background image

Naukowa analiza:

Zbieranie danych dokonywane jest z
uwzględnieniem ogólnie akceptowanych
kryteriów przeprowadzania
eksperymentów naukowych.

Prezentacja danych oraz wyników analiz
musi być przeprowadzana obiektywnie,
zgodnie z zasadami ‘kodu etycznego
naukowca’.

„Liczby nigdy nie kłamią, wszystkiemu

winni są statystycy”

background image

Dane

Statystyka to analiza zjawisk, które
dotyczą populacji lub grupy
osobników; opiera się na analizie
zbioru informacji, a nie pojedynczego
pomiaru. Oznacza to, że nie będzie
nas interesować pojedynczy osobnik.

Dane stanowią pomiary bądź
zliczenia.

background image

Naturalna zmienność:

Analizować będziemy jedynie takie
zdarzenia, które w naturze nie
podlegają bezpośrednie naszej kontroli
(np. liczba ziaren grochu w strąku).

Czasami dopuszczalne jest częściowe
kontrolowanie czynników przez badacza
(np. mierząc krzywą cukrową u osób z
podejrzeniem cukrzycy podaje się im
wcześniej odpowiednią dawkę cukru).

background image

Podstawowym celem analizy
statystycznej jest wnioskowanie o
cechach dużej grupy osobników na
podstawie informacji uzyskanej z
relatywnie małolicznej grupy badanej.

Takie podejście wymaga
sprecyzowania pojęć populacji i próbki.

background image

Podstawowe definicje

Dane składają się z pojedynczych

obserwacji

, które są pomiarami

dokonanymi na pojedynczej
jednostce.

Jeśli mierzymy wzrost u 100 osób,
wówczas wzrost każdej z osób stanowi
pojedynczą obserwację.

background image

Podstawowe definicje

Próba

jest zbiorem pojedynczych

obserwacji wybranych z
zastosowaniem specyficznych
kryteriów selekcji.

Zebranych 100 pomiarów wzrostu

stanowi próbę.

background image

Podstawowe definicje

Cecha, którą mierzymy w
pojedynczych obserwacjach
nazywana jest

zmienną

.

Więcej niż jedna zmienna może być
mierzona u pojedynczej jednostki.

Możemy mierzyć u każdej z osób jej wzrost
oraz np. masę ciała i wiek.

background image

Podstawowe definicje

Populacja

to całość pojedynczych

obserwacji, o których przeprowadzane
jest wnioskowanie statystyczne,
istniejąca gdziekolwiek na świecie,
albo przynajmniej w dokładnie
zdefiniowanym w dziedzinie czasu i
przestrzeniu obszarze próbkowania.

Przykładowo:

1. Wszyscy ludzie w wieku 18-25 lat

2. Wszyscy ludzie w wieku 18-25 w

Gliwicach

background image

Trochę więcej o zmiennych
...

Możemy zatem powiedzieć, że zmienna
to cecha, która zmienia się u osobników
w jakiś określony sposób.

Cecha, która nie jest różnorodna nie
podlega zainteresowaniu statystyków.

background image

Trochę więcej o zmiennych
...

Stałocieplność u ssaków nie jest
zmienną ponieważ wszystkie one
są stałocieplne.
Temperatura ciała poszczególnych
ssaków może być zmienną.

background image

Trochę więcej o zmiennych
...

Zmienne

Zmienne

pomiarowe

Zmienn

e

rangow

e

Atrybut

y

Zmienne

ciągłe

Zmienne

dyskretne

background image

Zmienne pomiarowe
(mierzalne)

Zmienne pomiarowe

to takie,

których różne wartości mogą być
uporządkowane numerycznie .

Mogą być wyrażone w skali
ilorazowej bądź przedziałowej.

background image

Zmienne pomiarowe

Są dwie najważniejsze cechy

skali

ilorazowej

:

W całym zakresie skali jest ustalona, niezmienna
jednostka.

Zdefiniowany jest punkt zerowy, który ma
znaczenie fizyczne.

background image

Cóż to oznacza?

Stała jednostka

:

Przykładowo, różnica wzrostu pomiędzy
osobąmi o wzrostach 166 cm i 167 cm
jst taka sama jak różnica pomiędzy
osobami 180 cm i 181 cm

.

Punkt zerowy

:

Pozwala na określenie stosunku dwóch
pomiarów. Możemy zatem powiedzieć, że 90
cm to połowa 180 cm.

background image

Zmienne pomiarowe

Niektóre skale spełniają warunek stałej

jednostki, ale nie posiadają zera

fizycznego. Takie skale nazywamy

skalami przedziałowymi

.

Książkowym przykładem są skale temperatury: Celsius (ºC)

i Fahrenheit (ºF). Różnica temperatur pomiędzy 20ºC a

25ºC jest taka sama w sensie energetycznym jak różnica

pomiędzy 5ºC 10ºC. Jednak nie można powiedzieć, że

temperatura 40ºC jest dwukrotnością temperatury 20ºC;

punkt zerowy został zdefiniowany arbitralnie. (Takiego

problemu nie ma w przypadku stosowania skali Kelvina)

background image

Zmienne pomiarowe

Niektóre skale, często stosowane w
biologii i medycynie, to skale
przedziałowe zwane

skalami

cyklicznymi.

Pora dnia, pora roku to przykłady takich skal. Okres
czasu pomiędzy 14:00 a 15:30 jest taki sam jak
pomiędzy 8:00 a 9:30. Nie możemy nic powiedzieć
o stosunku pór dnia.

background image

Zmienne pomiarowe

Występują dwa typy zmiennych pomiarowych:

Zmienne ciągłe

teoretycznie przyjmujące

nieskończoną liczbę wartości pomiędzy dwoma

ustalonymi wielkościami.

Zmienne dyskretne

to zmienne, które

przyjmują wartości ze ściśle określonego,

skończonego zbioru wartości dopuszczalnych.

background image

Ciągłe versus dyskretne

Ciągłe:

długość (cm, in), waga (mg, lb), powierzchnia

(sq cm, sq ft), objętość (ml, qt), prędkość

(cm/sec, mph, mg/min), czas trwania (hr, yr),

kąt (grad, rad), temperatura (º), procenty

Dyskretne:

Liczność (liści, fragmentów, zębów), liczba

potomków, liczba białych krwinek w 1mm

3

krwi, liczba żyraf u wodopoju, liczba jajeczek

złożonych przez konika polnego

background image

Zmienne rangowe

Niektóre zmienne nie mogą być
dokładnie zmierzone, ale można
uporządkować ich poziomy rosnąco
lub malejąco. O takich danych mówi
się, że są przedstawione w

skali

porządkowej (rangowej)

, opisującej

bardziej relacje aniżeli ilościowe
różnice .

background image

Zmienne rangowe

Wyrażając jakąś zmienną w skali rangowej,
jako ciąg wielkości 1, 2, 3, 4, 5 nie
zakładamy, iż różnica pomiędzy rangami 1 i
2 jest taka sama (bądź proporcjonalna do)
jak różnica pomiędzy rangami 2 i 3.

Zmienne przedstawione w skali porządkowej
wnoszą znaczniej mniej informacji aniżeli
zmienne w skali ilorazowej bądź
przedziałowej.

background image

Atrybuty

Zmienne, które nie mogą być

zmierzone, a jedynie wyrażone są

jakościowo nazywa się

atrybutami

a

skalę, w której są wyrażone nazywamy

skalą nominalną

(od słowa „name”).

Atrybuty to przykładowo takie cechy

jak: żywy/martwy, prawo-/leworęczny,

mężczyzna/kobieta, kolor oczu (zielony,

niebieski, szary, brązowy), kolor

włosów (czarne, brązowe, blond czy

rude)

.

background image

Wstępne przetwarzanie
danych

Kiedy dane zostały już zebrane w

konkretnym eksperymencie badawczym,
powinne być najpierw przedstawione w
postaci, która jest użyteczna dla
dalszych obliczeń i interpretacji.

W pierwszym kroku najczęściej wykreśla

się

wykresy częstościowe

oraz wyznacza

się tzw.

statystyki opisowe

.

background image

Wykresy częstościowe

Ilościowe

Są to reprezentacje graficzne realizacji

zmiennych pomiarowych, zarówno

ciągłych jak i dyskretnych, oraz

zmiennych rangowych.

Jakościowe

Dotyczą tylko zmiennych typu atrybut.

background image

Przykład

U 462 dzieci z terenu Górnego Śląska

została rozpoznana cukrzyca typu 1 na
przestrzeni lat 1989-1996.

Zebrano następujące dane:

Płeć dziecka (chłopiec/dziewczynka)

Numer kolejny dziecka w rodzinie

Rok urodzenia

Waga urodzeniowa

background image

Przykład 1 – Płeć

251

207

0

50

100

150

200

250

300

Female

Male

N

o

of

c

as

es

54.8

45.2

Female
Male

Można przedstawić dane w postaci zliczeń bądź
procentów

background image

Przykład 2 – numer
dziecka

165

54

7

5

1

223

0

50

100

150

200

250

1st

2nd

3rd

4th

5th

6th

Child number in a family

N

o

of

c

as

es

165

67

223

0

50

100

150

200

250

1st

2nd

3rd or later

Child number in a family

N

o

of

c

as

es

Czasami zachodzi potrzeba przekodowania

danych

Zmienna dyskretna

Zmienna rangowa

background image

Przykład 3 – rok urodzenia

1315

30

43

29

52

4144

36

25252525

2021

1311

5 4 2 1

6

0

10

20

30

40

50

60

Birth year

N

o

of

c

as

es

102

137

86

66

29

8

34

0

20

40

60

80

100

120

140

160

75-77 78-80 81-83 84-86 87-89 90-92 93-96

Birth year

N

o

of

c

as

es

Grupowanie klas często pozwala uzyskać

bardziej spójny i regularny kształt wykresu.

background image

Statystyki opisowe

Istnieje potrzeba zwięzłego podsumowania
danych w takiej postaci, która pozwoli na
ocenę i łatwą prezentację ich własności.
Wykresy częstościowe są taką formą.
Jednakże potrzebujemy również opisu w
formie liczb, które pozwoliłyby na zwięzły i
dokładny ilościowy opis własności
obserwowanego rozkładu częstości.
Nazywamy je

statystykami opisowymi

.

background image

Statystyki opisowe

Definiuje się dwie podstawowe grupy

statystyk opisowych:

Statystyki położenia

(miary centralnej

tendencji) – określają położenie próbki w
przestrzeni reprezentującej analizowaną
zmienną losową.

Statystyki rozrzutu

(miary zmienności) –

oceniają rozrzut pomiarów wokół środka
dystrybucji.

background image

Statystyki położenia

background image

Średnia arytmetyczna

Najszerzej używaną statystyką
położenia jest

średnia arytmetyczna

,

powszechnie nazywana średnią.

Każdy pomiar (realizacja zmiennej
losowej) wchodzący w skład próby
oznaczamy jako x

i

. Indeks i jest liczbą

całkowitą przyjmującą wartości od 1
do N – całkowitej liczby osobników w
próbie.

background image

Średnia arytmetyczna

Średnia arytmetyczna najczęściej oznaczana jest jako

N

x

x

N

i

i

1

x

background image

Przykład 4

Zmierzono wzrost losowo
wybranych dziewięciolatków. Jaka
jest średnia z próby?

X=[114, 123.3, 116.7, 129.0, 118,
124.6, 123.1, 117.4, 111, 121.7,
124.5, 130.5]

N=12

15

.

121

12

5

.

130

7

.

116

3

.

123

114

x

background image

Przykład 5

Strukturę zarobków w pewnej

firmie przedstawia tabela.

Ile wynosi średnia pensja?

Pensja

Liczba

osób

(1000;2000]

10

(2000; 4000]

25

(4000; 6000]

12

(6000;8000]

8

(8000;10000]

4

(10000;20000]

2

2

4

25

10

15000

2

3000

25

1500

10

w

x

4459

x

background image

Średnia ważona

Często występuje potrzeba wyznaczenia
wartości średniej średnich bądź innych
statystyk, których wiarygodność jest
różna z powodu np. różnych liczności
próbek. W takim przypadku trzeba
wyznaczyć

średnią ważoną

.

N

i

i

N

i

i

i

w

w

x

w

x

1

1

background image

Przykład 6

Dokonano pomiaru stężenia pewnego

związku w ściekach nieoczyszczonych.
Próbki pobrano i przebadano w trzech
laboratoriach, zbierając za każdym razem
ich inna liczbę. Jakie jest średnie stężenie
tej substancji w ściekach?

W tym przypadku trzy wartości średnie

wyznaczono na podstawie trzech prób o
różnych licznościach, ich średnia ważona
wynosi zatem:

Średnie

stężenie

[%]

Liczność

próby

3.85

12

5.21

25

4.70

8

76

.

4

8

25

12

70

.

4

8

21

.

5

25

85

.

3

12

w

x

i różni się od standardowej średniej
arytmetycznej

59

.

4

3

70

.

4

21

.

5

85

.

3

x

background image

Średnia geometryczna

Często dokonuje się transformacji
zmiennej losowej wyliczając logarytmy
ich wartości. Jeśli wyliczymy średnią
arytmetyczną pomiarów po
transformacji i dokonamy transformacji
odwrotnej, to uzyskana liczba będzie
inna niż średnia arytmetyczna danych w
surowej postaci. Nazywa się ją

średnią

geometryczną

.

background image

Średnia geometryczna

Korzystając z własności funkcji

logarytmicznej możemy tę wielkość

przedstawić jako:

N

x

x

N

i

i

GM

1

log

log

N

N

i

i

GM

i

i

i

i

GM

x

x

x

x

N

N

x

N

x

x

N

1

1

log

log

1

log

log

log

background image

Średnia harmoniczna

Odwrotność średniej arytmetycznej
odwrotności pomiarów nazywana
jest

średnią harmoniczną

i

oznaczana jest najczęściej
symbolem H

N

i

i

H

N

i

i

H

x

N

x

x

N

x

1

1

1

1

1

1

1

1

background image

Mediana

Mediana

M definiowana jest jako taka

wartość zmiennej (po uporządkowaniu
danych w szereg rosnący), że taka
sama liczba pomiarów jest od niej
większa i mniejsza.

Jeśli liczność próbki jest liczbą
nieparzystą, wówczas

2

/

)

1

( 

N

X

M

background image

Mediana

Gdy N jest liczbą parzystą wtedy
wyrażenie (N+1)/2 nie jest liczbą
całkowitą – nie ma po prostu liczby
środkowej. Miast niej są dwie liczby
najbliższe środka, a mediana jest
wyznaczana jako średnia z nich:

2

/

)

(

1

2

2

N

N

X

X

M

background image

Obliczanie mediany

1.

Uporządkuj wszystkie pomiary
rosnąco

2.

Jeśli n (liczba pomiarów) jest
nieparzyste, M to środkowy
pomiar na liście

3.

Jeśli n jest parzyste, M jest średnią
dwóch środkowych pomiarów

background image

Przykład 7

Znajdź medianę liczby mil na galon
benzyny samochodów klasy kabriolet

Uporządkuj dane w rosnącym
porządku

13 13 16 19 21 21 23 23 24 26
26 27 27 27 28 28 30 30 68

Nieparzyste n, więc mediana jest
środkiem listy, czyli 26

background image

Mediana

Kiedy wyniki obserwacji się
powtarzają, mogą się pojawić
problemy w szukaniu mediany.
Obliczanie mediany jest
trudniejsze, ponieważ wiele
wartości leży w tym samym
przedziale (klasie) co mediana i
mają to samo oznaczenie klasy.

background image

Przykład 8

Dane są w formie rozkładu
częstości z powodu dużej
ilości obserwacji w
doświadczeniu

Mediana dla zestawionej
tabeli jest (n+1)/2 wartością.
Tutaj n=9465 więc szukamy
4733-ciej obserwacji.

4733-ci wynik jest w klasie
107.5, czyli gdzieś między
103.5 a 115.5. Ta klasa
zawiera 2240 wyników, a
wynik 4733 jest 4733-
3049=1684-tym wynikiem w
klasie.

Klasa

wagowa

Liczność f

Dystrybuanta F

59.5

2

2

67.5

6

8

75.5

39

47

83.5

385

432

91.5

888

1320

99.5

1729

3049

107.5

2240

5289

115.5

2007

7296

123.5

1233

8529

131.5

641

9170

139.5

201

9371

147.5

74

9445

155.5

14

9459

163.5

5

9464

171.5

1

9465

background image

Przykład 8

background image

Przykład 8

Przyjmując rozkład
równomierny w klasie,
wartość nr 4733 będzie w:

całego przedziału klasy lub w
75.18% odległości między
dolną a górną granicą
przedziału.

Ponieważ przedział każdej
klasy to 8 oz, wartość
mediany to 0.7518 x 8.0 =
6.014 oz powyżej dolnej
granicy klasy (103.5 oz); czyli
mediana wag noworodków
wynosi 103.5 + 6.014 =

109.514

oz.

Klasa

Liczność f

Dystrybuanty F

59.5

2

2

67.5

6

8

75.5

39

47

83.5

385

432

91.5

888

1320

99.5

1729

3049

107.5

2240

5289

115.5

2007

7296

123.5

1233

8529

131.5

641

9170

139.5

201

9371

147.5

74

9445

155.5

14

9459

163.5

5

9464

171.5

1

9465

7518

.

0

2240

1684

background image

Kwartyle

Mediana to tylko jedna z rodziny statystyk
porządkowych, dzielących wyniki na
części. Dzieli zbiór na dwie równoliczne
części.

Z kolei

kwartyle

to punkty w 25%, 50%, i

75% zbioru – które dzielą rozkład na
pierwszą, drugą, trzecią i czwartą ćwiartkę.
Są zwykle opisywane symbolami Q

1

(dolny

kwartyl), M (mediana), Q

3

(górny kwartyl).

background image

Kwartyle

Dolnym kwartylem

próby nazywamy

medianę podpróby, składającej się ze
wszystkich elementów próby o
wartościach mniejszych od mediany całej
próby.

Górnym kwartylem

próby nazywamy

medianę podpróby, składającej się ze
wszystkich elementów próby o
wartościach większych od mediany całej
próby.

background image

Kwartyle

Przykład 9
Dane: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
Dane uporządkowane: 6, 7,

15

, 36, 39,

40

, 41, 42,

43

, 47, 49

Q

1

=15; Q

2

=M=40; Q

3

=43

Przykład 10
Dane uporządkowane: 7, 15, 36, 39, 40, 41
Q

1

=15; Q

2

=M=37.5; Q

3

=40

Przykład 11
Dane uporządkowane: 1 2 3 4
Q

1

=1.5; Q

2

=M=2.5; Q

3

=3.5

background image

Inne statystyki
porządkowe

Istnieją także kwintyle, decyle i
percentyle, dzieląc rozkład na
odpowienio 5, 10, i 100 równych
części.

Ogólny termin dla tych wszystkich
to

kwantyle

.

background image

Moda

Modę

zazwyczaj definiuje się jako pomiar

występujący najczęściej w analizowanym
zbiorze danych. Jednakże czasami lepiej
zdefiniować ją jako pomiar o istotnie
większej koncentracji/częstości
występowania od pozostałych.

W niektórych przypadkach może
występować więcej niż jeden punkt
koncentracji.

background image

Przykład 12

Załóżmy, iż próba składa się z następujących
pomiarów: 6, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10,
11, 12, 12, 12, 12, 12, 12, 13, 13, i 14 mm.

0

1

2

3

4

5

6

7

N

o

o

f

in

d

iv

id

u

a

ls

6

7

8

9 10 11 12 13 14

length [mm]

Główna moda

Moda oboczna

Rozkład dwumodalny

background image

Uwagi

background image

Uwagi

Średnia arytmetyczna jest najczęściej
stosowaną statystyką położenia, jednak
jest bardzo wrażliwa na wartości odstające
(istotnie różne od pozostałych), podczas
gdy mediana i moda są nań odporne.

W przypadku symetrycznego i
jednomodalnego rozkładu zmiennej
losowej średnia arytmetyczna, mediana i
moda są sobie równe.

background image

Statystyki rozrzutu

background image

Zakres

Zakres

jest miarą, która ukazuje

zmienność/rozrzut pomiarów zmiennej.

i

N

i

i

N

i

x

x

Zakres

,...,

1

,...,

1

min

max

Jest silnie wrażliwy na pojedyncze
wielkości odstające i z tego
powodu może być traktowany
jedynie jako zgrubna ocena
zmienności pomiarów.

background image

Przedział
międzykwartylowy

Odległość pomiędzy Q

1

a Q

3

, pierwszym

i trzecim kwartylem (inaczej 25-tym i
75-tym percentylem) jest nazywana

przedziałem międzykwartylowym

albo

odchyleniem kwartylowym.

1

3

Q

Q

IQR

background image

Średnie odchylenie

Ponieważ średnia jest użyteczną miarą
położenia, wielkość mierząca odchyłki od
średniej wyrażać będzie zmienność
pomiarów w próbie.

Suma wartości absolutnych odchyłek od
wartości średniej podzielona przez liczność
próby N daje w wyniku statystykę
nazywaną

średnim odchyleniem (AD)

N

x

x

AD

N

i

i

1

background image

Wariancja

Alternatywnym sposobem pomiaru odchyleń
od wartości średniej jest posługiwanie się
kwadratem odległości a nie wartością
absolutną. Ich suma jest bardzo ważną
wielkością w statystyce, nazywaną

sumą

kwadratów

(SS).

Wariancja

jest średnią

kwadratów odchyleń.

1

1

1

1

2

1

2

1

2

N

x

N

x

N

x

x

Var

N

i

N

i

i

i

N

i

i

background image

Odchylenie standardowe

Odchylenie standardowe

jest dodatnim

pierwiastkiem wariancji; dzięki temu
wyrażany jest w oryginalnych
jednostkach zmiennej losowej.

1

1

2

N

x

x

s

N

i

i

background image

Przykład 13

background image

Współczynnik zmienności

Zarówno wariancja jak i odchylenie

standardowe przyjmują wartości ściśle

zależne od poziomu pomiarów.

Słonie mają uszy, których wielkość jest

około stukrotnie większa od uszu myszy.

Tym samym odchylenie standardowe będzie

(zakładając podobną zmienność osobniczą

w grupie słoni i myszy) liczbowo stukrotnie

większe w grupie słoni w odniesieniu do

myszy. A ich wariancja będzie 100

2

razy

większa.

background image

Współczynnik zmienności

Współczynnik zmienności (CV)

wyraża

zmienność pomiarów w ramach próbki
odniesioną do średniej arytmetycznej
próbki

%

100

x

s

CV

background image

Wskaźniki różnorodności

Dla zmiennych wyrażanych w skali
nominalnej (atrybuty) nie istnieje
pojęcie średniej czy mediany, które
byłoby odniesieniem dla pomiaru
rozrzutu. Możemy jednak przenieść
ideę różnorodności dla dystrybucji
obserwacji w ramach
poszczególnych kategorii.

background image

Wskaźniki różnorodności

Najczęściej stosowanym wskaźnikiem
różnorodności jest entropia

Shannona-

Wienera

definiowana jako:

gdzie k jest liczbą kategorii,
natomiast f

i

jest częścią

obserwacji zakwalifikowanych do
kategorii i.

k

i

i

i

f

f

H

1

log

background image

Wskaźniki różnorodności

Jeśli N jest licznością próby, a n

i

liczbą obserwacji dla kategorii i, to

N

n

f

i

i

więc

N

n

n

N

N

H

k

i

i

i

1

log

log

background image

Przykład 14 – Płeć

2990

.

0

458

)

207

log

207

251

log

251

(

458

log

458

H

background image

Wskaźniki różnorodności

Maksymalną entropię obserwujemy dla
przypadku gdy

k

N

n

i

~

wówczas

k

N

k

N

N

N

N

N

k

N

k

N

k

N

N

N

k

N

k

N

N

N

N

n

n

N

N

H

k

i

k

i

i

i

log

log

log

log

log

log

log

log

~

log

~

log

1

1

max

background image

Wskaźniki różnorodności

Możemy zatem wyrazić
obserwowaną entropię jako część
maksymalnej możliwej – nazywa
się ją wówczas

relatywnym

wskaźnikiem różnorodności

.

max

H

H

J

background image

Przykład 14 cd

9933

.

0

2

log

2990

.

0

max

H

H

J

background image

Przykład 15

65

45

12

51

0

10

20

30

40

50

60

70

Black

Brown

Blonde

Red

Hair color - Italian

N

o

of

c

as

es

34

169

15

11

0

20

40

60

80

100

120

140

160

180

Black

Brown

Blonde

Red

Hair color - Swedish

N

o

of

c

as

es

5486

.

0

H

60

.

0

J

9112

.

0

J

3612

.

0

H


Document Outline


Wyszukiwarka

Podobne podstrony:
wyklad 1 Wstepne przetwarzania danych
1a, UŁ Sieci komputerowe i przetwarzanie danych, Semestr II, Systemy operacyjne, Wykład, Systemy, Sy
22 Bazy danych wyklad wstepny Nieznany
TAM GDZIE PLUS TO ODPOWIEDŹ POPRAWNA, UŁ Sieci komputerowe i przetwarzanie danych, Semestr II, Syste
Podstawy Informatyki Wykład XIX Bazy danych
upowaznienie-do-przetwarzania-danych-osobowych, Prawo Pracy, Druki
PHP i Oracle Tworzenie aplikacji webowych od przetwarzania danych po Ajaksa

więcej podobnych podstron