wyklad7 2008 tekst


Wykład 7
Rozkłady wielowymiarowe c.d.
Wstęp do statystyki
Wektor losowy
Załóżmy, że dany jest wektor (X, Y ) i jego rozkład
Y \ X 0 1 2
-1 0, 2 0, 1 0, 1
1 0, 1 0, 3 0, 2
Kowariancja
Miarą zależności zmiennych jest ich kowariancja
cov(X, Y ) = E(XY ) - E(X)E(Y ).
" Wiemy już, jak obliczyć E(X) i E(Y ).
" Znając rozkład wektora (X, Y ) (czyli wartości w tabelce), możemy obliczyć E(XY ):
"

E(XY ) = xiyjpij.
i,j
" W naszym zadaniu E(XY ) =
= 0 + 1 · (-1) · 0, 1 + 2 · (-1) · 0, 1 + 0 + 1 · 1 · 0, 3 + 1 · 2 · 0, 2 = 0, 4,
skÄ…d cov(X, Y ) = 0, 4 - 1 · 0, 2 = 0, 2.
Kowariancja zmiennych niezależnych
Gdy X i Y sÄ… niezależne, to p(X,Y ) = p(X) · p(Y ) i wtedy
ij i j

E(XY ) = xiyjp(X,Y ) = xiyjp(X) · p(Y ) =
ij i j
i,j i,j

= xip(X) · yjp(Y ) = E(X)E(Y ).
i j
i j
Kowariancja zmiennych niezależnych
Gdy X i Y sÄ… niezależne, to p(X,Y ) = p(X) · p(Y ) i wtedy
ij i j

E(XY ) = xiyjp(X,Y ) = xiyjp(X) · p(Y ) =
ij i j
i,j i,j

= xip(X) · yjp(Y ) = E(X)E(Y ).
i j
i j
Wniosek: Gdy X i Y są niezależne, to
cov(X, Y ) = E(XY ) - E(X)E(Y ) = 0.
1
Współczynnik korelacji
Ponieważ kowariancja może być bardzo duża, więc normuje się ją, dzieląc przez pierwiastek z iloczynu
wariancji:
cov(X, Y ) E(XY ) - E(X)E(Y )

ÁXY = = .
V ar(X)V ar(Y ) V ar(X)V ar(Y )
W naszym zadaniu
ÁXY = ...
" Współczynnik korelacji jest zawarty pomiÄ™dzy -1 i 1: |Áxy| 1.
" Gdy ÁXY = Ä…1, to zmienne sÄ… bardzo silnie zależne:
" albo Y = aX + b albo X = AY + B.
" Gdy zmienne X i Y są niezależne, to cov(X, Y ) = 0,
" ale nie na odwrót!
Rozkłady warunkowe
Gdy rozkład wektora (X, Y ) zadany jest za pomocą tabelki, to łatwo możemy obliczyć rozkłady warun-
kowe. Na przykład, rozkład warunkowy zmiennej X pod warunkiem Y = 1:
"
P (X = 0, Y = 1) 0, 1 1
P (X = 0 | Y = 1) = = = ,
P (Y = 1) 0, 6 6
"
P (X = 1, Y = 1) 0, 3 3
P (X = 1 | Y = 1) = = = ,
P (Y = 1) 0, 6 6
"
P (X = 2, Y = 1) 0, 2 2
P (X = 2 | Y = 1) = = = .
P (Y = 1) 0, 6 6
Warunkowa wartość oczekiwana
Wartość oczekiwana rozkładu warunkowego nazywa się warunkową wartością oczekiwaną.
" W naszym zadaniu
"
E(X | Y = 1) = 0 · P (X = 0 | Y = 1)+
2 4
+1 · P (X = 1 | Y = 1) + 2 · P (X = 2 | Y = 1) = + = 1.
6 6
=
Gdy rozkład (X, Y ) jest ciągły
Określimy teraz wszystkie wprowadzone pojęcia w przypadku, gdy rozkład wektora (X, Y ) ma gęstość, to
znaczy, gdy istnieje taka funkcja dwóch zmiennych f(x, y), dla której
" f(x, y) 0
"

f(x, y) dx dy = 1.
R2
" Wtedy

P ((X, Y ) " A) = f(x, y) dx dy.
A
2
Rozkłady brzegowe
Aby obliczyć rozkład zmiennej X w przypadku, gdy (X, Y ) zadany był tabelką, należało posumować kolum-
ny. Gdy rozkład wektora (X, Y ) zadany jest funkcją f(x, y), to zamiast dodawania stosujemy całkowanie:
" zmienna losowa X ma rozkład o gęstości
"

"
fX(x) = f(x, y) dy,
-"
" a zmienna losowa Y ma rozkład o gęstości
"

"
fY (y) = f(x, y) dx.
-"
Konkretny przykład
Niech wektor (X, Y ) ma rozkład jednostajny na kółku {(x, y) : x2 +y2 < 1}, to znaczy ma rozkład o gęstości

1
, gdy x2 + y2 < 1
Ä„
f(x, y) =
0, gdy x2 + y2 1
Wtedy
"

"
fX(x) = f(x, y) dy = ...
-"
" Dla |x| 1 mamy f(x, y) = 0, więc fX(x) = 0.
" Dla |x| < 1 ta całka mierzy długość odcinka wyciętego z prostej {(x, y) : x ustalone} przez koło, skąd

2
fX(x) = 1 - x2.
Ä„
Rozkład brzegowy zmiennej Y
Zauważmy, że nie musimy liczyć oddzielnie rozkładu zmiennej Y , bo f(x, y) jest funkcją symetryczną, to
znaczy po zamianie ról x i y ta funkcja się nie zmienia. Zatem w funkcji fX(x) trzeba tylko zmienić X na
Y oraz x na y:

0, gdy |y| 1,

fY (y) =
2
1 - y2, gdy |y| < 1,
Ä„
E(X) i V ar(X)
Mając funkcję fX(x), gęstość rozkładu zmiennej X, możemy obliczyć wartość oczekiwaną i wariancję:
"

1
2
E(X) = x · 1 - x2 dx = 0
Ä„
-1
"

1
2
V ar(X) = x2 · 1 - x2 dx = ...
Ä„
-1
" Dla zmiennej Y oba wyniki są oczywiście takie same, jak dla X.
3
Niezależność
Zmienne X i Y są niezależne wtedy i tylko wtedy, gdy gęstość rozkładu łącznego jest iloczynem
gęstości brzegowych, tzn. dla wszystkich x, y " R zachodzi równość
f(x, y) = fX(x) · fY (y).
" A jak jest w rozważanym przypadku?
" Wezmy taki punkt (x, y) aby x2 + y2 < 1. Wtedy |x| < 1 oraz |y| < 1 i


1 4

= 1 - x2 1 - y2
Ä„ Ä„2
" Te zmienne są zależne.
" A jaka jest ich kowariancja?
Kowariancja dla rozkładu z gęstością
Wzór definiujący jest oczywiście taki, jak w przypadku rozkładów zadanych tabelką, tzn.
cov(X, Y ) = E(XY ) - E(X)E(Y ).
"

E(XY ) = x y f(x, y) dx dy.
R2
" W naszym zadaniu
"

xy
E(XY ) = dx dy = 0,
Ä„
{x2+y2<1}
" zatem cov(X, Y ) = 0 - 0 · 0 = 0.
" Mamy tu przykład zmiennych zależnych o kowariancji zero.
Rozkłady warunkowe
Podobnie jak w przypadku rozkładów zadanych tabelką możemy obliczać rozkłady warunkowe:
"
f(x, y)
f(x | Y = y) = ,
fY (y)
"
f(x, y)
f(y | X = x) = ,
fX(x)
" gdy mianownik jest różny od zera.
" Gdy mianownik jest równy zero, to kładziemy f(x | Y = y) = 0.
Zadanie
Niech wektor losowy (X, Y ) ma rozkład o gęstości

2
36xye-(x +y2), gdy x > 0, y > 0,
f(x, y) =
0, gdy x 0 lub y 0.
Obliczyć:
4
" P (0 < X < 2, 1 < Y < 4),
" E(X), E(Y ),
" V ar(X), V ar(Y ).
" Czy X i Y są niezależne?
Czym jest statystyka?
" Nauka rozumienia danych i podejmowania decyzji w obliczu losowości.
" Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i
ilościową ocenę ich wiarygodności.
Przykład
Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga
nie. Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ?
Czynniki mogące wpłynąć na wynik eksperymentu:
" Ludzie mają naturalnie różne poziomy cholesterolu.
" Reagują różnie na ten sam reżim ćwiczeń.
" Różny stopień zaangażowania w realizację ćwiczeń.
" Wpływ diety.
" Ćwiczenia mogą wpływać na inne czynniki, np. apetyt.
Jak interpretować dane?
Większość wypadków samochodowych zdarza się, gdy samochód porusza się z prędkością pomiędzy 50 km/h
a 100 km/h.
" Czy w takim razie bezpieczniej jest jezdzić
" z prędkością powyżej 100 km/h?
" A może powyżej 300 km/h?
WyciÄ…gnij wniosek!
Przed II wojną światową gruzlica procentowo najwięcej zgonów powodowała w Zakopanem.
" Czy zatem było tam najbardziej niezdrowe powietrze?
" Wprost przeciwnie: było najlepsze do leczenia tej choroby!
" Wybór Roosevelta na prezydenta USA.
"  How to lie with statistics
" A może warto nauczyć się logicznego wyciągania wniosków?
5
Dlaczego uczÄ… siÄ™ dobrze?
Przepowadzono ankietę wśród studentów II roku pewnego wydziału i okazało się, że szczególnie dobre
wyniki w nauce na I roku osiągnęły osoby, które dojeżdżały daleko do szkoły średniej (ponad godzinę w
jednÄ… stronÄ™).
Wniosek: ???
Wino a choroby serca
Oto roczne spożycie wina (w litrach czystego alkoholu pochodzącego z wina na osobę) oraz liczba zgonów
w ciagu roku spowodowanych atakiem serca (na 100 000 osób) w kilku wybranych krajach:
" Australia 2,5 211
" Austra 3,9 167
" Finlandia 0,9 297
" Francja 9,1 71
" Hiszpania 6,5 86
" Niemcy 2,7 172
" USA 1,2 199
" Czy picie wina wpływa na zmniejszenie ryzyka ataku serca?
Reakcja owiec na bakterie wÄ…glika
Reakcja Zaszczepione Nie zaszczepione
Śmierć 0 24
Przeżycie 24 0
Procent 100% 0%
Przykład
" W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodo-
wych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest
nosić jasne ubrania.
" Czy przeprowadzone badania upoważniają do takiej konkluzji?
" 80% wobec 20%  czy taka różnica jest znacząca?
" Jakie byłyby wyniki, gdyby wszyscy nosili ciemne ubrania?
" Przy jakiej różnicy można wyciągać prawidłowe wnioski?
" Jak duża musi być próba, abyśmy w oparciu o nią mogli dowieść wpływu czynnika na wynik ekspery-
mentu?
Rodzaje danych
" Jakościowe: Porządkowe Nie porządkowe
6
" Ilościowe: Ciągłe Dyskretne
Zmienne jakościowe (kategoryczne)
Jakościowe  kwalifikujące do kategorii
" Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze.
" Nie porzÄ…dkowe, np. kolory (przy badaniu dziedziczenia koloru oczu).
Zmienne ilościowe (liczbowe)
Ilościowe  wynik jest liczbą.
" Ciągłe, np. wzrost, waga, stężenie.
" Dyskretne, np. liczba wadliwych elementów, liczba wypadków.
Oznaczenia
" Zmienne: X, Y, Z ; np. Y =wzrost (pojęcie)
" Obserwacje: x, y, z; np. y=182cm (wynik)
" Próba: y1, y2, ..., yn (wielokrotne obserwacje)
" Rozmiar próby: n, czasem n1, n2, itp.
Próba a próbka
Biolog mierzy poziom glukozy we krwi 20 ludzi.
"  20 próbek krwi (biolog)
"  Jedna próba 20 pomiarów glukozy (statystyk)
" Będziemy używali terminu  pomiar tam, gdzie biolog użyłby słowa  próba .
Histogram liczebności
Przypuśćmy, że zbadano dochód roczny wylosowanych 20 gospodarstw domowych i uzyskano następujące
dane (zarobki brutto w tysiacach zł):
35,5; 58,3; 127,2; 84,3; 46,8; 29,9; 41,7; 83,1; 38,2; 91,3;
44,8; 62,1; 25,0; 34,8; 19,5; 29,8; 73,2; 36,6; 41,1; 27,3;
" Narysować histogram.
" Jakie sÄ… max i min?
" Jaki jest rozstęp?
" Jakie dobrać przedziały i ile ich wziąć?
Histogram liczebności
" Grupowanie podobnych obserwacji zwykle jest pomocne.
" Prawie zawsze postępujemy tak z danymi ciągłymi.
7
" Definiujemy  klasy (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy.
Jak wybierać klasy?
" Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie moż-
liwe wyniki).
" Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam.
" Używamy wygodnych granic przedziałów, np. 20-29, a nie 19,82  29,26.
" Używamy od 5 do 15 klas dla umiarkowanych zbiorów danych (n < 50); więcej, gdy próba jest duża.
Opis histogramu
" Symetryczny / asymetryczny.
" W kształcie dzwonu (normalny) / ciężkie ogony (spłaszczony).
" Skośny na prawo lub lewo.
" Jednomodalny (jeden główny wierzchołek).
" Dwumodalny (dwa główne wierzchołki).
" Wykładniczy (malejący)
" Rozrzut (duży lub mały)
Statystyka
Statystyka to liczbowa charakterystyka danych.
Na przykład z próby y1 = 24, y2 = 35, y3 = 26, y4 = 36 można obliczyć wartości statystyk:
" min=24, max=36,
" rozstęp= 36 - 24 = 12,
1 121
" y = (24 + 35 + 26 + 36) = = 30, 25.
4 4
Średnia z próby
" Symbol y oznacza liczbę  arytmetyczną średnią z obserwacji.
" Symbol Y oznacza pojęcie średniej z próby.
" Średnia jest  środkiem ciężkości zbioru danych.
Åšrednia a mediana
" Mediana dzieli powierzchnię histogramu na połowy.
" Jest odporna  nie mają na nią wpływu obserwacje  odstające .
" Obserwacje odstające mają duży wpływ na średnią  średnia nie jest odporna.
" Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone.
" Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana.
" Obie te miary położenia są jednakowo ważne.
" Średnia jest częściej wykorzystywana do testowania i estymacji (o czym pózniej).
8


Wyszukiwarka

Podobne podstrony:
wyklad10 08 tekst
wyklad8 08 tekst
wyklad5 08 tekst
wyklad2 08 tekst
wyklad9 08 tekst
wyklad4 08 tekst
wyklad3 08 tekst
wyklad6 08 tekst
TI Wykład 08
Wyklad2 08
PLC wyklad 08
1GW Wyklad 08 cz1id991
GW Wyklad 08 cz2
wyklad1 08
PBS wyklad 08

więcej podobnych podstron