Wyklad 2 Prezentacja danych

background image

Wykład 2: Prezentacja danych

Biometria i

Biostatystyka

background image

Zmienne typu atrybuty

i zmienne rangowe

Wykresy słupkowe

Wykresy kołowe

background image
background image
background image

Zmienne pomiarowe

background image

Wykresy „łodygowe” (stem-
leaf)

Obrazują kształt rozkładu,
jednocześnie ukazując na wykresie
wartości numeryczne.

Są najbardziej odpowiednie dla
niewielkiej liczby dodatnich
obserwacji.

background image

Rysowanie wykresu
łodygowego

Podziel każdy wynik na łodygę (stem) i

listek (leaf).

Łodyga: tyle cyfr ile potrzeba

Listek: pojedyncza cyfra

Wypisz łodygi w pionowej kolumnie

rosnąco w dół. Narysuj pionową linię po

prawej stronie.

Wypisz każdy listek w wierszu po prawej

stronie od jego łodygi, w porządku

rosnącym.

background image

Biuro obsługi klienta
Liczba odwiedzin dziennie

54

59

35

41

46

25

47

60

54

46

49

46

41

34

22

background image

54

59

35

41

46

25

47

60

54

46

49

46

41

34

22

background image

Porównywanie dwóch
rozkładów

Wykresy o
wspólnym
pniu

background image

Wykresy „łodygowe”, cd.

Są nieodpowiednie dla dużych

zestawów danych

Każda łodyga musi zawierać dużą liczbę

listków

Warianty:

Podzielić każdą łodygę na dwie, np.:

Jedna z liśćmi od 0 do 4

Druga z liśćmi od 5 do 9

Mają za zadanie zobrazować kształt

rozkładu zmiennej losowej

background image
background image

Histogramy

Histogramem nazywa się wykreślne
przedstawienie szeregu rozdzielczego
wykonane w sposób następujący: na
osi poziomej odkłada się odpowiednie
przedziały klasowe, zaś na osi
pionowej rzędne odkłada się w ten
sposób, żeby pola odpowiednich
prostokątów były proporcjonalne do
liczebności danych klas.

background image

Histogramy

Nie mają takich ograniczeń jak
wykresy łodygowe

Dzielą zakres obserwowanych wartości
na przedziały, pokazując jedynie
liczności lub udział procentowy
obserwacji w danym przedziale

Można wybrać dowolną liczbę
przedziałów

równej

szerokości

background image

Rysowanie histogramu

1.

Podziel zakres zmienności danych na
przedziały o równej szerokości.

2.

Rozpocznij tak, by pomiar najmniejszy
był mniej więcej w połowie pierwszego
przedziału.

3.

Zlicz liczbę obserwacji w każdym
przedziale. Zrób tabelę częstości
wystąpień.

4.

Narysuj histogram.

background image
background image
background image

Histogramy, cd.

Częstości względne

Ułamek lub procent obserwacji, które
przypadają na poszczególne przedziały

Poprawnie oznacz „liczba” lub „procent”.

Właściwy wybór przedziałów:

Za mało: wszystkie wartości tylko w kilku
przedziałach

Za dużo: dużo przedziałów ma 1 lub mniej
wyników

background image

Histogramy, cd.

Wzór heurystyczny do oszacowania szerokości

przedziału:

Jeśli szerokość przedziału jest za mała lub za

duża, można ją skorygować przez pomnożenie

lub podzielenie przez a = 1.2 ÷1.5

Sprawdza się przy rozkładach zbliżonych do

rozkładu normalnego oraz przy względnie

dużych ale nie bardzo dużych n (liczność próby)

3

1

n

IQR

64

.

2

h

0

background image

Histogramy, cd.

Jest kilka innych wzorów pomocnych
przy poszukiwaniu liczby przedziałów.
Kilka przykładów:

Żeby znaleźć szerokość, wystarczy
podzielić zakres przez k.

)

n

(

log

3

.

3

1

k

n

k

)

n

(

log

5

k

10

10

background image

Histograms, cont.

93

.

5

h

14

k

0

background image

Histograms, cont.

40

.

3

h

24

k

0

background image

Histograms, cont.

11

.

4

h

20

k

0

background image

Histograms, cont.

12

.

10

h

8

k

0

background image

Histograms, cont.

background image

Histogramy, cd.

Wiele zależy od Twojej decyzji odnośnie
szerokości przedziałów.

Pole pod krzywą zmienia się w zależności od h i
jest równe:

Żeby otrzymać eksperymentalną funkcję gęstości
prawdopodobieństwa, musimy sprowadzić pole
powierzchni S do 1. Ponieważ h nie może być
zmienione, musimy skorygować jednostkę na osi
OY.

n

*

h

S

background image

Histogramy, cd.

background image

Symetria i kurtoza

Często obserwujemy odstępstwa
od rozkładu normalnego.
Statystyki, które pozwolą to ocenić
ilościowo bardzo użyteczne.

Zajmiemy się dwoma najczęściej
pojawiającymi się odstępstwami
rozkładów od normalności:

skośnością

i

kurtozą

.

background image

Skośność

Skośność

, inaczej zwana asymetrią, ocenia

na ile jeden z końców krzywej rozkładu
prawdopodobieństwa jest niesymetryczny w
stosunku do drugiego końca.

W takim przypadku brak jest zgodności
wartości średniej i mediany.

W zależności od deformacji, krzywe określa
się mianem prawo- i lewoskośności.

background image

Skośność

Przykład - wzrost: skośność =
-0.26

background image

Kurtoza

Jeśli symetryczny rozkład ma
środek, dwa ramiona i dwa końce,
kurtoza opisuje stosunek między
częścią środkową i końcami w
odniesieniu do ramion.

Definiujemy leptokurtozę
(wyostrzenie krzywej) i platykurtozę
(spłaszczenie krzywej).

background image

Kurtoza

O leptokurtozie (wyostrzeniu)
mówimy, gdy krzywa ma więcej
obserwacji blisko środka i na końcach a
mniej w ramionach w porównaniu do
rozkładu normalnego, z tą samą średnią i
wariancją

.

Przykład - wzrost: kurtoza = 3.65

background image

Kurtoza

O platykurtozie (spłaszczeniu)
mówimy, gdy krzywa ma mniej
elementów w środku i końcach, za to
więcej w ramionach niż krzywa
normalna.

background image

Skośność i kurtoza

Przykładowe statystyki mierzące skośność i
kurtozę są zapisywane jako g

1

and g

2

i służą do

reprezentowania parametrów populacji γ

1

i γ

2

.

3

3

1

)

2

)(

1

(

)

(

s

n

n

X

X

n

g

i

4

2

2

4

1

)

1

(

2

)

3

)(

2

(

)

(

3

)

(

s

n

n

X

X

X

X

g

i

i

n

n

n

background image

Skośność i kurtoza

W normalnym rozkładzie częstości γ

1

i

γ

2

są równe zero.

Ujemne g

1

wskazuje na lewoskośność,

a dodatnie g

1

- prawoskośność.

Ujemne g

2

mówi o wyostrzeniu, zaś

dodatnie g

2

- o spłaszczeniu.

Wartości bezwzględne z g

1

and g

2

nie

mają wielkiego znaczenia.

background image

Ocena skośności i kurtozy za
pomocą kwantyli

Oznaczając i-ty kwartyl jako Q

i

, możemy

zdefiniować współczynnik skośności
Bowley’a (Bowley, 1920):

1

3

2

1

3

2

Q

Q

Q

Q

Q

skewness

wielkość, która może przyjmować
wartości od -1 dla rozkładu ekstremalnie
lewoskośnego, przez 0 dla rozkładu
symetrycznego, do 1 dla rozkładu
prawoskośnego

background image

Ocena skośności i kurtozy za
pomocą kwantyli

Pomiar kurtozy (wyostrzenia) na podstawie
oktyli O

i

(12.5%, 25%, 37.5% itd.) został

zaproponowany przez Moors’a w 1988

1

3

1

3

5

7

)

(

)

(

Q

Q

O

O

O

O

kurtosis

Dla skrajnie spłaszczonego rozkładu
ta wartość wynosi 0; 1.233 dla
normalnego; nieskończoność dla
skrajnie wyostrzonego.

background image

Opisywanie rozkładów
liczbami

Miary położenia

Wartość średnia

Mediana

Miary rozrzutu

Odchylenie standardowe

Kwartyle

Metoda pięciu liczb (wykresy ramkowe)

Poszukiwanie wielkości odstających

background image

Metoda pięciu liczb

Obejmuje najmniejszą obserwację,
pierwszy kwartyl, medianę, trzeci
kwartyl i największą obserwację,
napisane od najmniejszego do
największego:

Minimum Q1 M Q3
Maksimum

background image

Metoda pięciu liczb, cd.

Dostarcza w miarę pełnej informacji o
położeniu i rozrzucie.

Położenie

Mediana

Rozrzut

rozrzut środkowej połowy pomiarów (od
25% do 75%) ukazują kwartyle

Minimum i maksimum pokazują pełny
rozrzut

background image

Wykresy ramkowe
(pudełkowe)

Wykres pięciu liczb

Centralna ramka obejmuje Q1 i Q3

Linia w pudełku to M

Linie wychodzące z ramki dochodzą
do największej i najmniejszej wartości
wśród pomiarów

background image
background image

Wykresy ramkowe, cd.

Przedstawiają mniej informacji niż

histogramy i wykresy łodygowe

Używane do porównania więcej niż

jednej serii pomiarów

Analiza wykresu

Znajdź medianę (środek)

Określ rozrzut (między Q1 i Q3;

między min i max)

background image

Punkty odstające

Definicja:

Pomiar odstający to obserwacja, która
istotnie różni się od pozostałych i tym
samym pojawia się podejrzenie, że
pojawiła się jako efekt innego niż
analizowany mechanizmu.

D. Hawkins. Identification of Outliers. Chapman and Hall, London,

1980

background image

Detekcja punktów
odstających

Odległość między kwartylami = zakres
połowy danych = przedział
międzykwartylowy = IQR

IQR = Q3 – Q1

IQR jest odporny na zmiany na końcach
dystrybucji zmiennej losowej.

Wynik może być punktem odstającym,
jeśli ma wartość powyżej Q3+1.5 x IQR
lub poniżej Q1-1.5 x IQR.

background image

Example: % narodowości
USA

Q1 = 2.0, Q3 = 7.0

IQR = 7.0 – 2.0 = 5.0

Wszystkie wartości poniżej 2.0 – 1.5*5.0 = -5.5 lub

ponad 7.0 + 1.5*5.0 = 14.5 są oznaczone jako

możliwe punkty odstające. Jest 7 takich obserwacji.

To nie zwalnia od własnego osądu – trzeba zerknąć

na dystrybucje i podjąć decyzję o pozostawieniu lub

usunięciu pomiaru z dalszej analizy.

Wygodne narzędzie do oceny dużych zbiorów

danych.

background image

Zmodyfikowany wykres
ramkowy

Zaznacz każdy punkt odstający osobno
używając symboli typu ‘*’ lub ‘o’.

Linie od „pudełka” prowadzą tylko do
największych i najmniejszych pomiarów,
które pozostały po usunięciu punktów
odstających.

background image
background image

Przykład - wzrost

Liczność próbki N = 582

Wartość średnia = 176.16 cm

Mediana = 177 cm

Zakres = 82 cm

Q1 = 170 cm; Q3 = 183 cm

IQR = 13 cm

Odchylenie standardowe = 9.86 cm

background image

Przykład - wzrost

Dwie wielkości odstające
210 cm i 125 cm

background image

Normalny wykres
kwantylowy

Rozkłady normalne

Dobre modele dla niektórych rozkładów

rzeczywistych danych

Rozkłady niektórych zmiennych są skośne i

dalekie od normalnych

Należy przejrzeć dane!

Sposoby sprawdzenia normalności

Histogramy

Wykresy łodygowe

Normalne wykresy kwantylowe

background image

Konstrukcja normalnego wykresu
kwantylowego

1.

Uporządkuj zaobserwowane dane w porządku

malejącym. Zapisz jakim percentylem danych

jest każda wartość.

2.

Przeprowadź obliczenia dla normalnego rozkładu

żeby znaleźć punkty standardowe z tych

percentyli.

3.

Zaznacz każdy punkt x w zależności od z. Jeśli

rozkład danych jest w przybliżeniu standardowy

normalny, narysowane punkty będą leżały blisko

prostej x=z. Jeśli rozkład danych jest bliski do

innego dowolnego rozkładu normalnego, punkty

będą leżały blisko innej linii, także prostej.

background image

Normalny wykres
kwantylowy

Linia prosta

Dane pochodzą z rozkładu normalnego

Systematyczne odchylenia od linii

prostej

Dane nie pochodzą z rozkładu

normalnego

Punkty odstające ujawniają się jako

punkty leżące daleko od ogólnego

kształtu wykresu.

background image
background image
background image
background image

Document Outline


Wyszukiwarka

Podobne podstrony:
wyklad 2 Prezentacja danych PL
wyklad 2 Prezentacja danych PL
Wykład 3 Określenie danych wyjściowych do projektowania OŚ
Wyklad I prezentacja
ssciaga, Studia PŚK informatyka, Semestr 4, Bazy Danych 2, Bazy Danych Zaliczenie Wykladu, Bazy Dany
02 PREZENTACJA DANYCH STATYSTYCZNYCH
BO wyklad prezentacja
Finanse przedsiębiorstw wykłady (prezentacje + testy) FP testy
Wykłady (z prezentacji) Ronikier
Chemia analityczna wykład prezentacja
MNUM wykład1 prezentacja
Wykłady Prezentacja
Wykład V prezentacja
4. Graficzne i tabelaryczne metody prezentacji danych statystycznych, licencjat(1)

więcej podobnych podstron