Prawa wielkich liczb oraz rozkłady graniczne
Prawdopodobieństwo określane jest na podstawie tzw. definicji częstościowej.
Dlatego przy dużej liczbie zdarzeń maleją prawdopodobieństwa występowania
skrajnych (dużych) różnic (tj. różnic między częstością a prawdopodobieństwem)
Natomiast rośnie prawdopodobieństwo występowania różnic małych. Mówi o tym
tzw. złote twierdzenie Bernoulli’ego
k
lim P − p < ε = 1
n→∞
n
Złote twierdzenie mówi:
„Jest mało prawdopodobne aby to co mało prawdopodobne zdarzało się
czę sto. Jednocześ nie, jest mało prawdopodobne aby to co jest bardzo
prawdopodobne zdarzało się rzadko”.
Twierdzenie to należy do grupy twierdzeń zwanych prawami wielkich liczb oraz twierdzeniami
granicznymi.
Twierdzenia
te określają
co się
dzieje
z
prawdopodobieństwami zdarzeń gdy liczba doświadczeń jest bardzo duża.
1
mówią o zbieżności stochastycznej ciągu
zmiennych losowych.
Twierdzenie Bernoulli’ego
jest właśnie takim prawem gdyż określa ono granicę
stochastyczną ciągu zmiennych losowych, jaką tworzą częstości występowania k liczny sukcesów w serii n doświadczeń.
Twierdzenia graniczne określają co się dzieje z prawdopodobieństwami
zdarzeń (opisywanymi przez funkcję prawdopodobieństwa, funkcję
gęstości lub dystrybuantę) gdy liczba doświadczeń jest bardzo duża.
Lokalne twierdzenia graniczne: dotyczą zmian w funkcji prawdopodobień stwa, funkcji gę stoś ci)
Integralne twierdzenia graniczne: dotyczą zmian w wartoś ciach dystrybuanty.
W sytuacji gdy w rozkładzie dwumianowym prawdopodobieństwo nie ulega zmianie
natomiast zmienia się liczba doświadczeń została zaobserwowana pewna
prawidłowość.
Co się dzieje jeśli w rozkładzie dwumianowym mamy do czynienia z dużymi wartościami n?????
2
Twierdzenie de Moivera-Laplace’a:
Twierdzenie to mówi że dystrybuanta rozkładu normalnego o parametrach:
N ( m = np ,σ = np 1
( − p )
Jest dystrybuantą graniczną rozkładu dwumianowego o parametrach n i p
Oznacza to, że gdy prawdopodobieństwo pojedynczego sukcesu jest stałe
niezależne od liczby doświadczeń natomiast liczba doświadczeń jest duża wówczas
dystrybuantę rozkładu dwumianowego możemy przybliżać dystrybuantą rozkładu
normalnego z parametrami określonymi przez rozkład dwumianowy.
Twierdzenie Lindeberga-Levy’ego
Twierdzenie to dotyczy sytuacji gdy mamy do czynienia z sumą zmiennych o
identycznych rozkładach normalnych (jednakowych średnich i jednakowych
odchyleniach standardowych:
n
T
X
n = ∑
i
i =1
To taka zmienna która jest sumą n-zmiennych ma asymptotyczny rozkład
normalny z parametrami:
N ( n ⋅ E( X ) , n ⋅σ )
3
Praktyczne wykorzystanie twierdzeń granicznych
Prawdopodobieństwo błędnego wypełnienia zeznania podatkowego przez osobę z
podstawowym wykształceniem wynosi 0,2. Czy prawdopodobieństwo, że wśród 25
000 podatników z wykształceniem podstawowym co najmniej 4800 wypełni błędnie
zeznanie podatkowe jest większe od 0,3?
Czas obsługi klienta na poczcie w mieście stołecznym jest zmienną losową, której
rozkład charakteryzuje wartość oczekiwana 4,5 min. i odchylenie standardowe 0,6
min. Jakie jest prawdopodobieństwo, że czas obsługi 100 klientów będzie dłuższy
niż 450 min.
W wyniku kradzieży majonezów w supermarkecie firma traci dziennie średnio 105 zł
z przeciętnym zróżnicowaniem 40 zł. Jakie jest prawdopodobieństwo, że kwartalna
(92 dni) strata spowodowana kradzieżą majonezów wyniesie co najwyżej 10 000 zł.
Wiadomo, że prawdopodobieństwo zgłoszenia reklamacji wynosi 0,1. Które z
poniższych zdarzeń jest bardziej prawdopodobne:
a) spośród 4 klientów przynajmniej 1 zgłosi reklamację,
b) spośród 400 klientów reklamację zgłosi co najmniej 38 osób?
Proszę uzasadnić metodę rozwiązania.
4
Próba jako realizacja procesu losowego: postulaty:
1. Próba powinna mieć charakter losowy – kiedy próba nie jest losowa?
2. Jeśli próba ma charakter losowy to do próby będą miały szanse trafić
jednostki najczęściej występujące w populacji: czyli struktura próby będzie
odzwierciedlała strukturę populacji.
3. Najbardziej prawdopodobne będą próby zbliżone swoją strukturą do
struktury populacji. Są to tzw. próby wiarygodne. Inne próby będą mało
prawdopodobne czyli mało wiarygodne.
4. Próby nie odzwierciedlające dobrze struktury populacji są
mało
prawdopodobne ale nie są niemożliwe.
5. Z populacji możemy wylosować nieskończoną ilość prób
6. Próby losowe możemy charakteryzować za pomocą znanych miar takich
jak średnia, wariancja czy częstość
Nie tylko cechy statystyczne takie jak wzrost czy dochód możemy
scharakteryzować jako zmienne losowe. Zmiennymi losowymi mogą być także tzw. statystyki z próby czyli średnia, wariancja czy frakcja (częstość).
5
Próba jako realizacja procesu losowego: wnioski
1. Ponieważ z każdej populacji możemy wylosować nieskończoną ilość prób
każda z tych prób może charakteryzować się innymi parametrami czyli różnymi
średnimi, odchyleniami standardowymi (wariancjami), medianami…….itp
2. Takie parametry nazywamy statystykami z próby
3. Ponieważ to jakie wartości te statystyki przyjmą będzie generowane przez
proces losowy (losowanie próby) możemy je traktować jako zmienne losowe o
określonych rozkładach.
4. Pytanie: Jak zdefiniujemy te rozkłady i jakie będą ich parametry
Pozostaje pytanie czy statystyki obliczone na podstawie prób wiarygodnych bę dą dobrze oddawały wartoś ci wystę pują ce w populacji. O tym mówi wnioskowanie statystyczne.
Dowiemy się na nastę pnych zaję ciach!!!
6
Parametry rozkładów statystyk z próby
Rozkład średniej arytmetycznej z próby jest rozkładem normalnym o parametrach (wtedy gdy znamy odchylenie standardowe w populacji) :
σ
N E( x) = m, D( x) =
n
Rozkład średniej arytmetycznej z próby ma rozkład t-Studenta gdy
nie znamy odchylenia standardowego w populacji. Ponieważ rozkłady t-Studenta
oraz normalny są zbliżone dla n>30 można korzystać z rozkładu normalnego i wykorzystywać rozkład normalny o powyższych parametrach.
7
Rozkład różnicy średnich. Dla dwóch prób losowych
Próba 1 – z parametrami m , σ i liczebnością n
1
1
1
Próba 2 – z parametrami m , σ i liczebnością n
2
2
2
Statystyka mierząca rozbieżność położenia obu tych prób będzie różnica średnich
arytmetycznych z tych prób czyli
x
− x ma rozkład normalny o parametrach:
1
2
σ
σ
E( x − x = m − m oraz D x − x =
+
1
2 )
1
2
( 1 2)
2
2
1
1
n
n
1
1
2
2
σ
σ
1
1
N m m ;
1 −
2
+
n
n
1
1
8
Jak widzieliśmy wcześniej rozkładem granicznym dla liczby elementów
wyróżnionych, czyli frakcji, jest rozkład normalny (na mocy tw. Moivera-Laplace’a).
Jeśli zmienna losowa ma rozkład dwumianowy o ustalonym parametrze p jakim jest prawdopodobieństwo pojedynczego sukcesu to przy liczbie doświadczeń
równej n częstość występowania liczby sukcesów m czyli frakcja w=m/n ma rozkład dwumianowy o parametrach:
p(1 - p)
E ( w ) = p oraz D(w) =
n
Jeśli liczba doświadczeń wzrasta do n>120 to frakcja posiada rozkład
asymptotycznie normalny o analogicznych parametrach
p(1 - p)
N p ;
n
9
Jeśli mamy dwie niezależne zmienne losowe o rozkładzie dwumianowym i
różnych parametrach p i p to przy liczbie doświadczeń odpowiednio n oraz 1
2
1
n
różnica między częstościami względnymi liczby sukcesów w obu
2
doświadczeniach mierzona różnicą frakcji ( w -w ) ma rozkład graniczny
1
2
normalny o parametrach:
p (1 - p )
p (1 - p )
1
1
2
2
E ( w ) = p - p oraz D(w)
1
2
=
−
n
n
1
2
N
p (1 - p )
p (1 - p )
1
1
p - p ;
1
2
− 2
2
n
n
1
2
10
Przykłady wykorzystania rozkładów statystyk z próby
Waga netto pudełka proszku do prania jest zmienną losową o rozkładzie normalnym ze średnią równą 1 kg i odchyleniem standardowym równym 10 gram. Kontrola przyjmuje partię towaru, jeśli dla losowo wybranych 9 opakowań średnia waga nie będzie się różniła od 1 kg o więcej niż 5 gram. Jakie jest prawdopodobieństwo przyjęcia partii towaru?
Na podstawie spisu powszechnego ustalono następujące charakterystyki wydatków
gospodarstw domowych w Polsce na usługi:
•Miasta: średnio 172 zł. z odchyleniem standardowym 15 zł
•Wieś: średnio 180 zł z odchyleniem standardowe 20 zł
Jakie jest prawdopodobieństwo że na podstawie wylosowanych 150 gospodarstw miejskich
i 200 gospodarstw wiejskich będziemy mogli stwierdzić że różnica między średnimi wydatkami na usługi zawiera się w przedziale 8-15 PLN?.
Z danych PKW wynika że poparcie dla Lecha Kaczyńskiego w Warszawie wynosiło 35% a w
Toruniu 75% Jakie jest prawdopodobieństwo że na podstawie dwóch prób wylosowanych
spośród mieszkańców Torunia (250 osób) i Warszawy (250 osób) będziemy mogli stwierdzić że różnica była mniejsza niż 20%?
11