Wyklad2 2008

Dla Zmiennych losowych typu ciągłego łatwiej
korzystać z gęstości
Zmienna losowa X jest typu ciągłego jeżeli jej
dystrybuanta FX ma postać:
dla pewnej funkcji f mierzalnej względem �-ciała
zbiorów mierzalnych względem miary Lebesgue'a na
prostej,
f(t) >= 0 na R.
Funkcję f nazywamy funkcją gęstości rozkładu zmiennej
losowej X.
Własności gęstości
1. Obliczanie gęstości gdy dana dystrybuanta
F(x)
f(x) = d F(x) /dx
2. Obliczanie dystrybuanty, gdy dana jest gęstość
3. Obliczanie prawdopodobieństw dana gęstość
b
f t t
P(a < X < b ) = F(b)-F(a) =
a
Uwagi
4. Ważne: gdy zm.l. jest typu ciągłego (posiada
gęstość), to
P ( X = a ) = 0 dla dowolnego a !!!
Komentarz: trudno znalezć osobę, której wzrost
wynosi
170.314159278913245673987654321 cm (to ja)
Ale znajdziemy osoby, których wzrost mieści się w
przedziale [170.1, 170.3] cm.
5. Gdy zm.l. jest typu ciągłego o różniczkowalnej w
otoczeniu pkt-u x gęstości f(x) [jest to założenie
dodatkowe !] , to
P( a < X < a + " ) = f(x) " + o(") .
Wzór ten daje podstawy do praktycznej interpretacji
gęstości i szacowania gęstości.
6. f(x) jest zawsze nieujemna i
***
Jeśli mamy daną pewną funkcję f(x) nieujemną i
zachodzi *** to potrafimy skonstruować zm.l. o
gęstości f(x).
Rozkład empiryczny
Rozkład empiryczny uzyskujemy na podstawie obserwacji
X_1, X_2, & X_n zm.l. X
(opisującej np. pewną cechę populacji (wzrost)
lub wielkości fizycznej (temperatura powietrza))
Badamy częstości występowania w wybranych przez nas
przedziałach
ze zbioru wartości przyjmowanych przez tę zm.l.
Taki podział i zliczanie częstości nazywa się tworzeniem
szeregu rozdzielczego.
Kolejne kroki podczas wykonywania szeregu
rozdzielczego:
" porządkujemy (jeśli to możliwe rosnąco) wartości
cechy
" zliczamy ilość wystąpień danej cechy w próbie
" obliczamy częstości występowania dla każdej wartości
cechy
" prezentujemy wynik w formie tabeli.
Liczba i rozpiętości przedziałów powinny być tak
dobrane, aby dawały przejrzysty obraz rozkładu. Na
ogół przyjmuje się, że liczba przedziałów powinna być
większa od 5 i mniejsza od 20.
Przykład: Dany jest szereg rozdzielczy:
Wartości cechy Liczebność Częstość
0 - 10 5 0.25
10 - 20 8 0.40
20 - 30 5 0.25
30 - 40 1 0.05
40 - 50 1 0.05
Histogram
Histogram to jeden z graficznych sposobów
przedstawiania rozkładu cechy.
Składa się z szeregu prostokątów umieszczonych na osi
współrzędnych.
Prostokąty te położone są tam, gdzie przedziały klasowe
wartości cechy, natomiast ich wysokość jest określona
przez liczebności (lub częstości) elementów wpadających
do określonego przedziału klasowego.
20000
15000
10000
5000
205 210 215 220 225 230 235 240 245 250 255
Wybieramy piksele o wartościach z [200, 215] i dostajemy:
Wartość oczekiwana
Jeżeli dyskretna zmienna losowa X przyjmuje wartości x1,
x2, ...
odpowiednio z prawdopodobieństwami p1, p2, ...,
wówczas wartość oczekiwaną E[X] zmiennej losowej X
definiujemy jako:
Jeśli X jest zmienną losową o funkcji gęstości
prawdopodobieństwa f(x), to jej wartość oczekiwana
wynosi
O ile istnieje (tzn. jeśli całka ta jest zbieżna).
Uwaga: dla rozkładu Cauche go E[X] nie istnieje (ciężkie
ogony ).
Zadanie domowe:
Obliczyć E[X] dla rozkładu wykładniczego.
Własności
" Jeżeli istnieją E[X] i E[Y] to: (liniowość)
" Jeżeli zmienne X,Y są niezależne, to E[XY] = E[X]
E[Y]
(pojęcie niezależności poznamy pozniej)
" Jeśli E[X] istnieje to istnieje także wart. Oczekiwana
zm.l.
Y= X - E[X] i E[Y] = 0
(centrowanie).
Estymatorem wartości oczekiwanej rozkładu cechy w
populacji jest średnia arytmetyczna.
Podstawowym wzorem na średnią jest formuła nieważona
(czyli średnia nieważona):
Jeżeli dane są pogrupowane w klasy w postaci szeregu
rozdzielczego, stosujemy wzór ważony (średnia ważona):
gdzie xi to wartości cechy, zaś ni to liczebność tych xi
.
które wpadły do i-tego przedziału
Możemy również wykorzystać częstości:
Gdzie
to częstości występowania danej wartości xi
Średnia arytmetyczna jest dobrą miarą położenia
rozkładu.
Jest to miara klasyczna rozkładu, tzn. każda zmiana
dowolnego elementu badanego zbioru pociąga za sobą
zmianę wartości średniej (nie jest odporna na błędy w
danych).
Wariancja
zmiennej losowej X o wartości oczekiwanej ź
zdefiniowana jest tak:
Var[X] = E[(X - ź)2] czyli Var[X] = E[(X - E(X))2],
gdzie E[] jest wartością oczekiwaną zmiennej losowej.
Jest to średniokwadratowe odchylenie zm.l. od swojej
wartości oczekiwanej
(im większa wariancja, tym większy rozrzut wokół E(X)).
Jest to klasyczna miara zmienności zm.l.
Bywa oznaczana jako �2 lub D2(X).
Jaką wariancję ma zm.l. X=13 z prawd. 1 ??
Zadanie domowe: wykazać, że wariancję można obliczać
następująco:
D2(X) = E(X2) - [E(X)]2.
Uwaga: powyżej E(X2) to wartość oczekiwana zm.l.
podniesionej do kwadratu, natomiast w [E(X)]2 najpierw
liczymy wartość oczekiwaną, a to co wyjdzie podnosimy do
kwadratu.
Własności wariancji:
H1: D2(c) = c
H2: D2(a * X) = a2 * D2(X)
H3: D2(X + b) = D2(X)
H4: D2(X + Y) = D2(X) + D2(Y), gdy X I Y są
niezależne.
Wariancję dla populacji można estymować za pomocą n-
elementowej próby losowej:
gdzie x z kreską, to średnia arytmetyczna ze wszystkich
obserwacji .
Jednak powyższy estymator jest obciążony, dlatego też
często używa się nieobciążonego estymatora:
Pierwiastek kwadratowy z wariancji nazywamy
odchyleniem standardowym
lub dyspersją i oznaczamy przez � > 0.
Ważne, bo � ma ten sam wymiar co zm.l. X, zatem
X/ �
Jest wielkością bezwymiarową.
Przykłady:
Rozkład normalny
ma wariancję = �2
Linia gruba Var=1, linia cienka Var =0.25,
przerywana var=2.25
1.5
1.25
1
0.75
0.5
0.25
-6 -4 -2 2 4 6
Jeśli X ~ N(ź, �2) i a i b są liczbami rzeczywistymi,
to aX + b ~ N(aź + b, (a�)2).
Jeśli X ma rozkład normalny ze średnią ź i wariancją �2,
wtedy:
Z jest zmienną losową o standardowym rozkładzie
normalnym N(0, 1)
A operację tę nazywamy standaryzacją zm. l.
Odwrotnie, jeśli Z jest zm. l. o standardowym rozkładzie
normalnym, to:
jest zmienną o rozkładzie normalnym ze średnią ź i
wariancją �2.
Standardowy rozkład normalny został tablicowany. W ten
sposób możemy używać tablic dystrybuanty rozkładu
normalnego do wyznaczenia wartości dystrybuanty
rozkładu normalnego o dowolnych parametrach.
Rozkład Cauchy ego o gęstości:
Nie ma wariancji (całki rozbieżne), ale lambda pełni rolę
parametru skali.
Rozkład jednostajny na odcinku [a, b] ma wariancję: (b-
a)2/12
(policzyć jako zadanie domowe łatwe).
Rozkład dwumianowy
Rozkład dwumianowy (rozkład Bernoulliego) to dyskretny
rozkład prawdopodobieństwa opisujący liczbę sukcesów w
ciągu N niezależnych prób, z których każda ma stałe
prawdopodobieństwo sukcesu równe p.
Prawdopodobieństwo p(k) uzyskania dokładnie k sukcesów
w N próbach
EX = p * N , D2X = p * (1-p) * N
" Jeśli n jest duże, ieśli zarówno np, jak i n(1 - p) są
większe od 5-10, wtedy
rozkład dwumianowy można przybliżać rozkładem
normalnym:
" Jeśli p jest małe (czyli n*p ma umiarkowanie dużą
wartość), to przybliżeniem rozkładu dwumianowego
jest rozkład Poissona z wartością oczekiwaną = n*p.
Momenty wyższych rzędów
Moment niecentralny (zwykły) rzędu k (gdzie k = 1, 2, ...)
zmiennej losowej X to wartość oczekiwana k-tej potęgi tej
zmiennej
(o ile istnieje)
Wzory (1) i (2) stosujemy odpowiednio dla zmiennej
losowej o rozkładzie
skokowym i ciągłym.
Dla k = 1, jest to wzór na wartość oczekiwaną, zatem
wartość oczekiwana może być traktowana jako pierwszy
moment zwykły m1.
Moment centralny rzędu k (k = 1, 2, ...) zmiennej losowej
X to
Dla k = 2 otrzymujemy wzór na wariancję, zatem jest ona
drugim momentem centralnym ź2.
Ważnym trzeci moment centralny, którego wartość
pozwala wnioskować o asymetrii rozkładu empirycznego.
Trzeci moment centralny przyjmuje wartość zero dla
rozkładu symetrycznego, wartości ujemne dla rozkładów o
lewostronnej asymetrii (cięższe lewa strona rozkładu
licząc od wart. Oczekiwanej ) i wartości dodatnie dla
rozkładów o prawostronnej asymetrii (cięższe prawa
strona rozkładu).
Miary położenia, symetrii i koncentracji - klasyczne
(głównie korzystające z momentów)
Współczynnik asymetrii (Skewness) to iloraz
trzeciego momentu centralnego przez trzecią potęgę
odchylenia standardowego:
gdzie M3 to wartość trzeciego momentu centralnego, zaś s
to wartość odchylenia standardowego.
Współczynnik asymetrii przyjmuje wartość zero dla
rozkładu symetrycznego, wartości ujemne dla rozkładów o
lewostronnej asymetrii i wartości dodatnie dla rozkładów o
prawostronnej asymetrii.
Współczynnik asymetrii pozwala porównywać jego
bezględne wartości z różnych rozkładów i jest
bezwymiarowy (uzasadnić).
Kurtoza (Kurtosis) to jedna z miar koncentracji
rozkładu zdefiniowana tak:
gdzie ź4 jest czwartym momentem centralnym, zaś � to
odchylenie standardowe.
" kurtoza rozkładu normalnego wynosi 0
" jeśli Y jest sumą n niezależnych zmiennych losowych,
każdej o rozkładzie identycznym z rozkładem
zmiennej losowej X, zachodzi własność: Kurt[Y] =
Kurt[X] / n.
Rozkłady prawdopodobieństwa można podzielić ze
względu na wartość kurtozy na rozkłady:
" mezokurtyczne - wartość kurtozy wynosi 0,
spłaszczenie rozkładu jest podobne do spłaszczenia
rozkładu normalnego (dla którego kurtoza wynosi
dokładnie 0)
" leptokurtyczne - kurtoza jest dodatnia, wartości cechy
bardziej skoncentrowane niż przy rozkładzie
normalnym
" platykurtyczne - kurtoza jest ujemna, wartości cechy
mniej skoncentrowane niż przy rozkładzie
normalnym
Kurtoza z próby wyraża się wzorem:
gdzie xi to i-ta wartość cechy, ź to wartość oczekiwana w
populacji, � to odchylenie standardowe w populacji, zaś n
to liczebność próby.
Powyższa statystyka jest obciążonym estymatorem kurtozy
z populacji.
Przykład 1 dla rozkładu równomiernego na [A, B]
Kurtoza = 9/5
WSP. Asymetrii = 0.
Przykład 2 Rozkład logarytmiczno normalny
Zm. l. X ma rozkład log-normalny, gdy X = exp ( Y ),
gdzie Y ma rozkład normalny
(powstaje, gdy wiele czynników losowych oddziaływuje
multiplikatywnie)
Gęstość
f(x) = dla x >0
0.6
0.5
0.4
0.3
0.2
0.1
1 2 3 4 5 6
WSP. Asymetrii =
Kurtoza =
s dyspersja rozkładu.
Moda
(wartość modalna, moda, wartość najczęstsza, dominanta)
jedna z miar tendencji centralnej, statystyka dla
zmiennych o rozkładzie dyskretnym, wskazująca
na wartość zm.l. o największym prawdopodobieństwie.
Przykład: Dana jest zmienna losowa, która przyjmuje pięć
wartości z pewnymi prawdopodobieństwami:
wartość Prawd.
1 0.2
2 0.3
3 0.1
4 0.21
5 0.29
Moda dla tego rozkładu wynosi 2.
Moda może być szczególnie użyteczna gdy wartości
zmiennej obserwowanej nie są liczbowe. Np. dla ciągu {
mleko, piwo, woda mineralna, mleko, herbata, piwo,
kawa}
modą empiryczną jest piwo.
Dla zm.l. X posiadających gęstość f(x)
Moda zdefiniowana jest jako d= arg max f(x).
Współczynnik skośności rozkładu to miara asymetrii
rozkładu
gdzie
" m to wartość oczekiwana
" d to wartość mody)
" s to wartość odchylenia standardowego
Współczynnik skośności przyjmuje:
" wartość zero dla rozkładu symetrycznego,
" wartości ujemne dla rozkładów o lewostronnej
asymetrii
" wartości dodatnie dla rozkładów o prawostronnej
asymetrii .

Wyszukiwarka

Podobne podstrony:
TI Wykład 08
wyklad10 08 tekst
wyklad7 08 tekst
wyklad8 08 tekst
PLC wyklad 08
wyklad5 08 tekst
1GW Wyklad 08 cz1id991
GW Wyklad 08 cz2
wyklad1 08
PBS wyklad 08
III WL wyklady 08 09
2010 11 WIL Wyklad 08
wyklad2 08 tekst
PLC wyklad 08
ISZ Wykład 08 Zintegrowane systemy informatyczne zarządzania

więcej podobnych podstron