wyklad8 2008 tekst


Wykład 8. Przedziały ufności dla średniej
Åšrednia a mediana
" Mediana dzieli powierzchnię histogramu na połowy.
" Jest odporna  nie mają na nią wpływu obserwacje  odstające .
" Obserwacje odstające mają duży wpływ na średnią  średnia nie jest odporna.
" Jeżeli histogram jest w przybliżeniu symetryczny, to średnia i mediana są zbliżone.
" Jeżeli histogram jest skośny na prawo, to średnia jest zwykle większa niż mediana.
" Obie te miary położenia są jednakowo ważne.
" Średnia jest częściej wykorzystywana do testowania i estymacji (o czym pózniej).
Miary położenia: kwartyle
" Kwartyle dzielą zbiór danych na cztery grupy.
" Drugi kwartyl (Q2) to mediana.
" Pierwszy kwartyl (Q1) to mediana grupy obserwacji mniejszych niż Q2.
" Trzeci kwartyl (Q3) to mediana grupy obserwacji większych niż Q2.
Rozstęp międzykwartylowy
IQR = Q3 - Q1 (inter-quartile range)
Obserwacja odstajÄ…ca
Czasami jeden lub kilka wyników wyraznie odstaje od pozostałej większości. Spowodowane to może być np.
przez błąd w zapisie danych, błąd maszyny, zmianę warunków eksperymentu itp.
" Jak ustalić, które wyniki odstają?
" Dolna granica = Q1 - 1, 5 · IQR
" Górna granica = Q3 + 1, 5 · IQR
Wariancja z próby
Miarą rozrzutu danych jest wariancja. Niestety, używa się dwóch bardzo podobnych statystyk.
Przypuśćmy, że dane są wyniki pomiarów y1, y2, ..., yn. Wtedy
"
n

1
s2 = (yi - y)2
n
i=1
"
n

1
%5Å„2 = (yi - y)2
n - 1
i=1
" Odpowiednio definiujemy s oraz %5Å„ (jako pierwiastki).
" Czym różnią się s2 i %5ń2?
" Zasadniczą różnicę poznamy pózniej, większą rolę w statystyce pełni %5ń2.
Wpływ przekształceń

Jak zmieniają się: histogram, y, rozstęp, mediana, kwartyle i s2, gdy zamiast y wezmiemy yi = ayi + c, gdzie
a, c są stałymi rzeczywistymi?
" Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć (|a| > 1),
ścieśnić (|a| < 1), przesunąć (c < 0 lub c > 0) i obrócić (a < 0).
1

" y = ay + c

" s2 = a2s2, więc s = |a| s.
" Funkcja liniowa zmienia: medianę i kwartyle tak, jak średnią, a rozstęp i IQR tak, jak odchylenie
standardowe.
Przekształcenia nieliniowe
Funkcje nieliniowe (np. logarytm) zmieniają kształt histogramu i na ogół nie ma dla nich prostych formuł
umożliwiających obliczenie nowej średniej i nowego odchylenia standardowego.
Parametry te liczymy z definicji korzystajÄ…c z  nowego zbioru danych.
Czasami używamy funkcji nieliniowych, aby przekształcić skośne dane w bardziej symetryczne.
Próba a populacja
" Populacja:
" Zbiór, z którego losujemy próbę i który chcemy opisać. Czasami rzeczywista, czasami abstrakcyjna
(np.  nieskończenie duża próba ) .
" Próba:
" Podzbiór populacji.
" Próba powinna być reprezentatywna dla populacji.
" Wnioskowanie statystyczne to wnioskowanie o populacji w oparciu o próbę.
Próba prosta
Prosta próba losowa:
" Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem.
" Wybory poszczególnych osobników są niezależne.
Jak wybrać próbę losową prostą?
Mechanizm losujÄ…cy, np.:
" Przyznajemy numer każdemu osobnikowi.
" Zapisujemy numery na kulach.
" Mieszamy kule w urnie.
" Losujemy kule=numery=osobników, tyle razy, ile wynosi rozmiar próby.
" Do losowania możemy również użyć komputera lub gotowej tablicy liczb (numerów) losowych.
" Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest
dużo trudniejsze.
Przykład
Przewidywanie wyników wyborów prezydenckich w USA, 1936:
" Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących).
" Odpowiedziało 2,4 miliona.
" Przewidywanie: Landon 57%, Roosevelt 43%.
" Wynik wyborów: Roosevelt 62%, Landon 38%.
" Uwaga: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945.
2
Przyczyny błędu
" Złe (dyskryminujące) próbkowanie (użyto książek telefonicznych, list członkowskich klubów, listy za-
mówień pocztowych, listy właścicieli pojazdów).
" Brak odpowiedzi. Tylko 24% odpowiedziało (niemal wyłącznie Republikanie).
" Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób.
Obciążenie w próbkowaniu
Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym
pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby.
Losowy wybór elementów do próby zwykle eliminuje takie obciążenie.
Stratyfikacja
Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej
warstwie.
Przykłady warstw:
" studentki i studenci
" grupy zawodowe
" regiony geograficzne
Czym jest statystyka?
Statystyka to nauka rozumienia danych i podejmowania decyzji w obliczu losowości.
Problem. Dana jest populacja pewnych elementów. Interesuje nas średnia tej populacji. Jak ją obliczyć
dokładnie? Jak ją oszacować szybko i małym kosztem ze stosunkowo dużą dokładnością? I jaka jest ta
dokładność?
Przykłady
Oto kilka konkretnych zadań, rozwiązywanych za pomocą statystyki.
" Ile haseł jest w tej 1000-stronicowej encyklopedii?
" Jaki jest średni czas bezawaryjnego działania urządzeń, które produkuje dana fabryka (np. żarówek)?
" Ile czerwonych krwinek w 1 mm3 krwi zawiera badana próbka?
" Gdyby dziś odbywały się wybory, to ilu ludzi głosowałoby na partię X?
" Czy większość Polaków wypowiada się za przywróceniem kary śmierci?
Liczba haseł w encyklopedii
Rozważmy pierwszy przykład. Ile haseł omawia dana encyklopedia?
" Jak liczbę haseł obliczyć dokładnie?
" Kto chciałby to zrobić i czy warto wkładać tyle wysiłku w tę, w gruncie rzeczy, mało istotną informację?
" Jak to zrobić, stosując statystykę?
" Ile średnio haseł jest na jednej stronie?
" Gdy to już wiemy, mnożymy średnią przez liczbę stron.
" Jak dokładne są takie obliczenia?
 Czas życia żarówki
Ile czasu średnio świecą żarówki, które produkujemy?
3
" Tu nie można zbadać wszystkich żarówek!
" Czy na podstawie jednej żarówki możemy szacować czas świecenia całej populacji?
" Ile pomiarów trzeba przeprowadzić, aby ich średnia była dobrym odzwierciedleniem nieznanego śred-
niego czasu świecenia?
Czerwone krwinki
" Jak je szybko policzyć? Wynik wychodzi w milionach!
Średnia z próby
" Symbol x oznacza liczbę  arytmetyczną średnią z obserwacji.
" Symbol X oznacza pojęcie średniej z próby.
Parametry średniej
Za chwilę wylosujemy z danej populacji (np. żarówki) n elementów. Czas świecenia (do przepalenia żarówki)
jest zmienną losową o nieznanym nam rozkładzie. Nie znamy też żadnych parametrów tego rozkładu, a
interesuje nas średnia.
" Niech X1, X2, ..., Xn będą czasami świecenia wylosowanych żarówek.
"
X1 + X2 + ... + Xn
X =
n
" Jaka jest wartość oczekiwana E(X)?
" Jaka wariancja V ar(X)?
Parametry X
Ponieważ zmienne X1, X2, ..., Xn pochodzą z jednej populacji, więc ich rozkład jest jednakowy (czy naprawdę
jest???). Oczywiście zarówno średnia, jak i wariancja są skończone.
"

X1 + X2 + ... + Xn
E(X) = E =
n
"
1
(E(X1) + E(X2) + ... + E(Xn)) = E(X1)
n
"

X1 + X2 + ... + Xn
V ar(X) = V ar =
n
"
1 V ar(X1)
(V ar(X1) + ... + V ar(Xn)) =
n2 n
Parametry X
Podsumujmy: w próbie prostej (tzn. gdy wszystkie zmienne są niezależne i mają jednakowy rozkład)
"
E(X) = E(X1)
"
V ar(X1)
V ar(X) =
n
" Wniosek: Im więcej prób, tym dokładniejszy wynik (wariancja maleje!).
4
Przykład
Dla próby n-elementowej z pewnej populacji V ar(X) = a. Jak dużą próbę należałoby wziąć, aby
" ta wariancja zmalała dwukrotnie?
" odchylenie standardowe zmalało dziesięciokrotnie?
RozwiÄ…zanie
V ar(X1)
Wiemy, że V ar(X) = = a.
n
" Jeśli chcemy zmniejszyć wariancję dwukrotnie, to musimy dzielić przez dwa razy większą liczbę, czyli
należy dwukrotnie zwiększyć liczbę prób.
" Odchylenie standardowe to pierwiastek z wariancji:

V ar(X1)
ÃX = .
n
" Aby tę liczbę zmniejszyć dziesięciokrotnie, należy zwiększyć mianownik pod pierwiastkiem 100 razy.
" Odpowiedz: Trzeba zwiększyć liczbę prób z n do 100n.
Przedziały ufności Neymana
Jerzy Spława-Neyman (1894-1981), polski statystyk, w latach 1924-38 w Londynie, od 1938 pracował w
Berkeley.
Opracował (między innymi) teorię przedziałów ufności.
Definicja przedziału ufności
Niech cecha X ma w populacji rozkÅ‚ad z nieznanym parametrem ¸. Z populacji wybieramy próbÄ™ losowÄ…
X1, X2, ..., Xn. PrzedziaÅ‚em ufnoÅ›ci (¸1, ¸2) o poziomie ufnoÅ›ci 1 - Ä… nazywamy taki przedziaÅ‚, który
spełnia warunek:
P (¸1 < ¸ < ¸2) = 1 - Ä…,
gdzie ¸1 i ¸2 sÄ… funkcjami wyznaczonymi na podstawie próby losowej.
" Zazwyczaj poszukuje się przedziałów najkrótszych.
" Poziom ufnoÅ›ci 1-Ä… to prawdopodobieÅ„stwo, że rzeczywista wartość parametru ¸ w populacji znajduje
się w wyznaczonym przez nas przedziale ufności.
" W praktyce przyjmuje się zazwyczaj następujące wartości poziomu 1 - ą: 0,99, 0,95 lub (rzadziej)
0,90.
Przedziały ufności dla wartości średniej
Załóżmy, że chcemy oszacować nieznaną wartość średnią m zmiennej losowej (cechy) X, której wa-
riancjÄ™ Ã2 znamy. Przyjmujemy jedno z dwu zaÅ‚ożeÅ„:
Ã2
" Zmienna X ma rozkÅ‚ad N(m, Ã2), wtedy X <" N(m, ) lub
n
" zmienna X ma rozkład różny od normalnego, ale próba jest na tyle duża (n > 30? n > 50?), że średnia
Ã2
X ma w przybliżeniu rozkład N(m, ).
n
" Jeśli spełnione jest jedno z tych założeń, to
"
X - m
" zmienna n ma rozkład N(0, 1).
Ã
5
Wyznaczanie przedziału ufności
Wybierzmy odpowiedni poziom ufności, na przykład 0,95.
"
X - m
" Skoro n ma rozkład N(0, 1),
Ã
" to z tablic rozkładu normalnego można wyznaczyć taką liczbę zą, dla której
"
"
X - m
P (-zÄ… < n < zÄ…) = 1 - Ä… = 0, 95.
Ã
" Przekształćmy wyrażenie w nawiasie tak, aby otrzymać nierówność dla nieznanej średniej m:
Wyznaczanie przedziału ufności
"
à Ã
P (-zÄ… " - m < zÄ… " - Ä… = 0, 95, skÄ…d
< X ) = 1
n n
"
à Ã
P (X - zÄ… " < m < X + zÄ… " - Ä… = 0, 95.
) = 1
n n
" Szukanym przedziałem ufności dla m na poziomie ufności 1 - ą jest więc przedział
"

à Ã
X - zÄ… " , X + zÄ… " .
n n
Ã
" Estymatorem nieznanej średniej m jest x, a margines błędu wynosi zą "n.
Trzy najważniejsze poziomy ufności
Niech Z <" N(0, 1). Z tablic rozkładu normalnego N(0, 1) odczytujemy, że dla danego 1 - ą, równego 0,9,
0,95 oraz 0,99:
" dla 0,9 mamy P (Z < 1, 65) = 0, 95, więc z0,9 = 1, 65
" dla 0,95 mamy P (Z < 1, 96) = 0, 975, więc z0,95 = 1, 96,
" dla 0,99 mamy P (Z < 2, 58) = 0, 995, więc z0,99 = 2, 58.
Długość przedziału ufności
Przy planowaniu eksperymentu (w tym liczebności próby) chcemy wiedzieć, z jaką dokładnością będziemy
znać m (margines błędu).
" Nieznana średnia m zawarta jest w przedziale
"

à Ã
X - zÄ… " , X + zÄ… "
n n
" o długości
"
zÄ…Ã
2" = 2 "
n
" Znamy Ã, dla wybranego Ä… odczytujemy z tablic zÄ….
6
"
" Szerokość przedziału zależy zatem od n.
Długość przedziału ufności
Jeśli zadana jest liczba " (czyli połowa długości przedziału), to liczba prób, potrzebna do otrzymania
przedziału danej długości, jest równa
Ã2
2
n = zÄ… .
"2
Przykład
Próba pobrana z dużej partii lamp zawiera 100 lamp. Średnia z próby długości świecenia lampy wynosi 1000
godzin. Na poziomie ufności 1 - ą = 0, 95 wyznacz przedział ufności dla średniej długości świecenia lampy
z caÅ‚ej partii, jeÅ›li wiadomo, że odchylenie standardowe wynosi à = 40 godzin.
RozwiÄ…zanie
Nie znamy rozkładu długości świecenia, ale próba n = 100 jest na tyle duża, że średnia X ma w przybliżeniu
Ã2 402
rozkład N(m, ) czyli N(m, ).
n 100
" Zadany poziom ufności 1 - ą = 0, 95.
" Szukamy takiej liczby zą, dla której P (-zą < Z < zą) = 0, 95, skąd zą = 1, 96.

40 40
" Szukanym przedziaÅ‚em ufnoÅ›ci jest przedziaÅ‚ 1000 - 1, 96 · ; 1000 + 1, 96 · ,
10 10
" czyli (992, 16; 1007, 84).
7


Wyszukiwarka

Podobne podstrony:
wyklad10 08 tekst
wyklad7 08 tekst
wyklad5 08 tekst
wyklad2 08 tekst
wyklad9 08 tekst
wyklad4 08 tekst
wyklad3 08 tekst
wyklad6 08 tekst
TI Wykład 08
Wyklad2 08
PLC wyklad 08
1GW Wyklad 08 cz1id991
GW Wyklad 08 cz2
wyklad1 08
PBS wyklad 08

więcej podobnych podstron