Statystyka w analizie i planowaniu eksperymentu
Wykład 3
Transformacje danych i metody ich prezentacji
Przemysław Biecek
Dla 1 roku studentów Biotechnologii
Wejściówka
Proszę na (niewielkiej) kartce napisać:
1
Imię, nazwisko,
2
Nr. indeksu,
3
Nazwisko osoby prowadzącej ćwiczenia
Podstawy rachunku prawdopodobieństwa 2/34
Wejściówka
Proszę na (niewielkiej) kartce napisać:
1
Imię, nazwisko,
2
Nr. indeksu,
3
Nazwisko osoby prowadzącej ćwiczenia
Zadanie
Proszę wyznaczyć wariancję dla cyfr swojego numeru indeksu.
Zadanie
Przyjmując, że liczba jagód w jagodziance ma rozkład w
przybliżeniu normalny N ( = 50, = 10), proszę oszacować
prawdopodobieństwo, że w kupionej jagodziance jest od 30 do 80
jagód.
Podstawy rachunku prawdopodobieństwa 3/34
Podstawowe statystyki opisowe
Podstawowymi statystykami opisowymi są (patrz wykład 1)
min, max,
średnia, mediana,
kwartyle, IQR,
odchylenie standardowe sd, wariancja var,
kowariancja cov, korelacja cor.
Podstawy rachunku prawdopodobieństwa 4/34
Podstawowe statystyki
Zobaczmy jak wygląda rozkład koloru oczy i rozkład płci w pewnej
populacji 45 osób. Aby podsumować wystąpienia dwóch zmiennych
jakościowych, wygodnie jest wykorzystać tablice kontyngencji
(nazywaną też tablicą wielodzielczą).
niebieskie brązowe Ł
mężczyzna 15 8 23
kobieta 10 12 22
Ł 25 20 45
W komórkach macierzy wypisane są liczby osób o odpowiednich
atrybutach. W ostatniej kolumnie i ostatnim wierszu wypisane są
liczebności brzegowe.
Podstawy rachunku prawdopodobieństwa 5/34
Podstawowe statystyki
Dla tej macierzy, możemy wyznaczyć jako procent osób mających
niebieskie oczy to mężczyzni a jaki procent to kobiety.
niebieskie brązowe
mężczyzna 15 8 23
kobieta 10 12 22
25 20 45
niebieskie brązowe
mężczyzna 60% 40%
kobieta 40% 60%
100% 100%
Pr(kobieta|oczy niebieskie) =???
Podstawy rachunku prawdopodobieństwa 6/34
Podstawowe statystyki
Dla tej macierzy, możemy też wyznaczyć procent mężczyzn mające
niebieski kolor oczu lub brązowy kolor oczu.
niebieskie brązowe
mężczyzna 15 8 23
kobieta 10 12 22
25 20 45
niebieskie brązowe
mężczyzna 65.2% 34.8% 100%
kobieta 45.5% 54.5% 100%
Pr(oczy niebieskie|kobieta) =???
Podstawy rachunku prawdopodobieństwa 7/34
Podstawowe statystyki graficzne
Jeden obrazek jest wart więcej niż tysiąc słów.
Podstawy rachunku prawdopodobieństwa 8/34
Wykres mozaikowy mosaicplot()
Pola kwadratów odpowiadają liczebności klas.
mezczyzna
kobieta
Podstawy rachunku prawdopodobieństwa 9/34
niebieskie
brazowe
Wykres balonowy balloonplot()
Pola kół odpowiadają liczebności klas.
mezczyzna
x kobieta
y
niebieskie 15 8 23
brazowe 10 12 22
25 20 45
Podstawy rachunku prawdopodobieństwa 10/34
Wykres słupkowy barplot()
Wysokości słupków opisują liczebności lub frakcje występowania
poszczególnych poziomów zmiennej.
wysokie średnie niskie
Podstawy rachunku prawdopodobieństwa 11/34
5
10
15
20
0
Wykres słupkowy barplot()
Możemy przedstawiać zmienne w rozbiciu na podgrupy.
0 20 40 60 80
Podstawy rachunku prawdopodobieństwa 12/34
podstawowe
srednie
wyzsze
zawodowe
Wykres słupkowy barplot()
Możemy przedstawiać zmienne w rozbiciu na podgrupy.
kobieta
mezczyzna
71
39
24
22
16
15
10
7
podstawowe srednie wyzsze zawodowe
Podstawy rachunku prawdopodobieństwa 13/34
0
20
40
60
80
Wykres pudełkowy boxplot()
Wykres pudełkowy to jeden z najpopularniejszych sposobów
przedstawiania danych.
Podstawy rachunku prawdopodobieństwa 14/34
20
30
40
50
60
70
Wykres pudełkowy boxplot()
60 70 80 90 100
ciś nienie rozkurczowe
Podstawy rachunku prawdopodobieństwa 15/34
obs. odstają ca
obs. odstają ca
obs. odstają ca
obs. odstają ca
obs. odstają ca
min. bez obs. odst.
1. kwartyl
95% p. ufn. dla med.
mediana
95% p. ufn. dla med.
3. kwartyl
max. bez obs. odst.
obs. odstają ca
Wykres pudełkowy boxplot()
podstawowe srednie wyzsze zawodowe
Podstawy rachunku prawdopodobieństwa 16/34
20
30
40
50
60
70
Histogram hist()
Histogram zmiennej wiek
20 30 40 50 60 70 80
wiek
Podstawy rachunku prawdopodobieństwa 17/34
liczebnosci
0
10
20
30
40
50
Histogram hist()
Histogram zmiennej wiek
20 30 40 50 60 70
wiek
Podstawy rachunku prawdopodobieństwa 18/34
15
10
liczebnosci
5
0
Histogram hist()
Histogram of IQ
60 70 80 90 100 110 120 130
IQ
Podstawy rachunku prawdopodobieństwa 19/34
Frequency
0
1
2
3
4
Histogram hist()
Histogram of IQ
70 80 90 100 110 120 130
IQ
Podstawy rachunku prawdopodobieństwa 20/34
Frequency
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Histogram hist()
Histogram of IQ
70 80 90 100 110 120
IQ
Podstawy rachunku prawdopodobieństwa 21/34
Frequency
0.0
0.5
1.0
1.5
2.0
Wykres kołowy pie()
Niestety, popularny sposób opisu danych.
podstawowe
zawodowe
srednie
wyzsze
Podstawy rachunku prawdopodobieństwa 22/34
Wykres kołowy
Są sytuacje w których nie powinno się stosować wykresów
kołowych.
1
1
2
2
3
3
Podstawy rachunku prawdopodobieństwa 23/34
Wykres rozrzutu sp(), plot()
100 120 140 160 180
dat$cisnienie.skurczowe
Podstawy rachunku prawdopodobieństwa 24/34
dat$cisnienie.rozkurczowe
60
70
80
90
100
Wykres rozrzutu sp(), plot()
100 120 140 160 180
dane$cisnienie.skurczowe
Podstawy rachunku prawdopodobieństwa 25/34
dane$cisnienie.rozkurczowe
60
70
80
90
100
Wykres rozrzutu
plec
kobieta
mezczyzna
100 120 140 160 180
cisnienie.skurczowe
Podstawy rachunku prawdopodobieństwa 26/34
cisnienie.rozkurczowe
60
70
80
90
100
Macierz wykresów rozrzutu pairs()
100 120 140 160 180
wiek
||| ||||| ||| | ||||||| || | | | |
|||||||||||||| || | | |||||||||||||| | | |
||||||||||||||||||| | ||||||||||||||| || || |
|||||||||||||||||||||||||||||||||||||||| || ||| ||| ||
| | | | || | |
| || | ||| | ||||| ||
| ||| | ||| | ||||| || | | |
|
| |
| | | |
| | || |
cisnienie.skurczowe
| ||||| |||||||||||||||||||||||||||||||||||||||||||| || |
| | | || |||||||||||||||| |||| |
| | | |||||||||||||||||||||| |||| | |
| || | ||| ||||||||||||||||||||||| |||| | | |
| | || || |||||||| ||| | ||
| | ||||| | ||| ||
| | |
| | | |
| ||||| | | |
|
|
|
|
| |
| |
cisnienie.rozkurczowe
| | ||| ||| |||| | |||||||||||||| || | | |
| | | | || | ||||||| | |||| |
| || ||| | || | ||||||| |||||| || | |
| | | |||| || | || | |
| | || | || || |
| | || | || || |
| | || | || | || |
| | || | || | || |
| | || | || | || |
| || | || | |
| || | || | |
|| | || |
|| | || |
|| | || |
|| | || |
| |
| |
| | |
| | || |
| | || |
|
20 30 40 50 60 70 60 70 80 90 100
Podstawy rachunku prawdopodobieństwa 27/34
20
30
40
50
60
70
100
120
140
160
180
60
70
80
90
100
Wykres słonecznikowy sunflowerplot()
0 1 2 3 4 5
zm1
Podstawy rachunku prawdopodobieństwa 28/34
zm2
0
1
2
3
4
5
Transformacje zmiennych
Pierwiastkowa Logarytmiczna
-2 -1 0 1 2 -2 -1 0 1 2
norm quantiles norm quantiles
Odwrotna Arcsin
-2 -1 0 1 2 -2 -1 0 1 2
norm quantiles norm quantiles
Podstawy rachunku prawdopodobieństwa 29/34
y
y
0
5
10
15
0
20
40
60
y
y
-1.0
-0.5
0.0
0.5
1.0
0.15
0.25
0.35
0.45
Transformacje zmiennych
0 1 2 3 4 5 6
Podstawy rachunku prawdopodobieństwa 30/34
Frequency
0
50
100
150
200
Transformacje logarytmiczna
Y = log(X )
0 500 1000 1500 2000 2500 3000
Podstawy rachunku prawdopodobieństwa 31/34
Frequency
0
100
200
300
400
500
600
Transformacja odwrotna
Y = 1/X
0.2 0.3 0.4 0.5
Podstawy rachunku prawdopodobieństwa 32/34
Frequency
0
50
100
150
Popularne transformacje nieliniowe
Nazwa Zmienna przyjmuje Zmienna przyjmuje
wartości dodatnie wartości nieujemne
Logarytmiczna x = log(x) x = log(x + 1)
Odwrotna x = 1/x x = 1/(x + 1)
"
"
Pierwiastkowa x = x x = x + 0.5
"
Arcsin x = arc sin( x)
Podstawy rachunku prawdopodobieństwa 33/34
Co trzeba zapamiętać?
Jakimi statystykami możemy opisać zmienną jakościową?
Jakimi statystykami możemy opisać zmienną ilościową?
Jakimi statystykami możemy opisać pary zmiennych?
Jakie i kiedy transformacje stosować?
Podstawy rachunku prawdopodobieństwa 34/34
Wyszukiwarka
Podobne podstrony:
Zakażenia mikrobiologiczne nowoczesne metody ich wykrywania w przemysle spożywczym3 Mechanizm powstawania odruchów warunkowych oraz metody ich badaniaChemiczne zanieczyszczenia żywności i metody ich oznaczaniaŚrodki konserwujące w zywności i metody ich oznaczaniaćw 03 struktury danychkołaczek,bezpieczeństwo i ochrona danych, metody progoweZafałszowanie żywności i napojów oraz metody ich wykrywaniaBiaĹ‚ka i metody ich oznaczania w mleku[03] Bazy Danych Relacyjny Model DanychSubstancje słodzące i metody ich oznaczaniawięcej podobnych podstron