Wnioskowanie statystyczne - dr Alicja Szuman
Literatura:
J. Jóźwiak, J. Podgórski „Statystyka od podstaw” PWE Warszawa 2006
J. Kudelski, I. Roeske - Slomka „Statystyka” AE Poznań 1995
J. Greń „Statystyka matematyczna. Modele i zadania” PWN Warszawa 1984
J. Paradysz (red.) „Statystyka” AE Poznań 2005
Kalkulatory
Na egzamin suche wzory na jednej kartce A4 może być dwustronnie zapisana
Wnioskowanie statystyczne a statystyka opisowa
Statystyka opisowa oparta jest na indukcji zupełnej, ukazuje metody gromadzenia, opracowania, prezentacji danych wraz z sumarycznym ich opisem przy wykorzystaniu właściwych narzędzi statystycznych.
Statystyka matematyczna (wnioskowanie statystyczne) oparta jest na indukcji niezupełnej.
teoria estymacji - metoda estymacji umożliwia szacunek nieznanych parametrów w populacje na podstawie próby.
teoria weryfikacji hipotez statystycznych - pozwala na sprawdzenie hipotez o parametrach lub kształcie rozkładu populacji na podstawie wyników z próby.
Wnioskowanie statystyczne to procedura podejmowania decyzji o parametrach i rozkładach w zbiorowości generalnej na podstawie wyników z próby.
Podstawowymi kategoriami stosowanymi w procedurze wnioskowania statystycznego są zmienne losowe i ich rozkłady teoretyczne.
Zdarzenia losowe to takie wyniki uzyskane przez relację danego procesu, które mogą w określonym zespole warunków wystąpić lub nie wystąpić.
Jeżeli każdorazowa realizacja określonego doświadczenia daje to samo zdarzenie A, to zdarzenie to nazywamy zdarzeniem pewnym. Natomiast jeśli każdorazowa realizacja doświadczenia nie daje zdarzenia A, to realizację zdarzenia A uważamy za niemożliwe.
Jeżeli realizacja przypadkowego zdarzenia niekiedy prowadzi do zdarzenia A, a niekiedy nie, nazywamy to zdarzeniem przypadkowym.
Zmienna losowa - w wyniku doświadczenia przyjmuje określoną wartość o zrealizowaniu tego doświadczenia, a nie dającą się przewidzieć przed tym doświadczeniem.
Zmienna losowa może przybierać wartości z przedziału liczb rzeczywistych i to z określonym prawdopodobieństwem.
P(x = xi) = pi <- prawdopodobieństwo
pi - można traktować jako wartość przyjmowaną przez zmienną losową.
Pi = f(xi)
Suma prawdopodobieństwa pi = 1
Zmienne losowe oznaczamy dużymi literami alfabetu np. X, Y, Z. Małymi literami alfabetu oznaczają realizację czyli wartości przybierane przez zmienne losowe zwane realizacjami x, y, z.
Pojęciem związanym ze zmienną losową i jej rozkładu jest pojęcie dystrybuanty.
Dystrybuanta zmiennej losowej to funkcja zmiennej rzeczywistej określona wzorem:
Właściwości dystrybuanty:
przyjmuje wartości od 0 do 1
funkcja malejąca, tzn. dla x1<x2 zawsze F(x1) ≤ F(x2)
funkcja lewostronna ciągła
F(-∞) = 0; F(+∞) = 1
Rozkłady empiryczne i teoretyczne zmiennej losowej warunkują przeprowadzenie wnikliwego opisu zbiorowości statystycznej.
Rozkłady empiryczne pochodzą z obserwacji ustalane są na podstawie konkretnych wielkości.
Rozkłady teoretyczne aproksymowane są za pomocą rozkładów probabilistycznych. Rozkład zmiennej losowej może być przedstawiony za pomocą funkcji matematycznej(…)
Najważniejszymi parametrami zmiennej losowej X są:
wartość oczekiwana (nadzieja matematyczna) średniej arytmetycznej rozkładu zmiennej X w zbiorowości generalnej
wariancja oraz odchylenie standardowe
Zmienna losowa skokowa to taka zmienna, która ma przeliczony i skończony zbiór wartości.
Zmienna losowa ciągła przybiera dowolne wartości z określonego przedziału.
Rozkłady:
dla zmiennej losowej skokowej:
- zerojedynkowy
- dwumianowy (Bernoulliego)
- Pojssona
dla zmiennej losowej ciągłej:
- normalny Gaussa - Laplace'a
Rozkład zerojedynkowy - jest on rezultatem takiego doświadczenia, którego określone zdarzenie wystąpi lub nie. Zdarzeniem elementarnym realizującym zadanie A jest liczba 1, a nie realizującym zdarzenia A jest liczba 0.
Rozkład dwumianowy - korzystamy z niego, gdy określamy prawdopodobieństwo wystąpienia k razy określonego zdarzenia w n niezależnych doświadczeniach, przy danym prawdopodobieństwie p
Jeśli: p = q rozkład symetryczny
p ≠ q rozkład asymetryczny
- asymetria dodatnia, gdy p < q
- asymetria ujemna, gdy p > q
Jeśli p, q i n dążą jednocześnie do nieskończoności, to rozkład ten przekształca się w rozkład normalny.
Wartość oczekiwana: E(x) = np
σ² (x) = npq
σ (x)
Rozkład Pojssona - szczególny przypadek rozkładu dwumianowego. Wykorzystujemy go, gdy liczba serii doświadczenia jest nieskończona (n → ∞), prawdopodobieństwo p maleje do zera (p→0), a iloczyn np = 2 jest wartością stałą (λ > 0).
gdzie e = 2,718 (podstawa logarytmu naturalnego)
k - liczba realizacji elementów wyróżnionych w doświadczeniu
Rozkład normalny
Zmienna losowa ciągła X ma rozkład normalny, jeśli jej funkcja gęstości prawdopodobieństwa wyraża się wzorem:
gdzie: M = n(x) - wartość oczekiwana
f(x) - funkcja gęstości rozkładu normalnego
Właściwości krzywej funkcji normalnej:
krzywa w kształcie dzwonu
funkcja ta posiada jedno maksimum i jest ono medianą, średnią arytmetyczną, dominantą rozkłady oraz wartością oczekiwaną
pole funkcji f(x) obejmuje zbiór liczb rzeczywistych
wewnątrz przedziału od M-σ do M+σ krzywa jest wypukła, a na zewnątrz jest wklęsła
krzywa ma dwa punkty przegięcia, a współrzędnych M-σ oraz M+σ
lewe i prawe ramię zbliża się asymptotycznie do osi odciętych, ale jej nie przecinają.
Reguła trzech sigm - przyjmuje ona jako bliskie 1 prawdopodobieństwo, że realizacja zmiennej losowej ciągłej nie będzie różniła się od wartości oczekiwanej więcej aniżeli o trzy odchylenia standardowe.
Zmienna standaryzowana - to duża litera ”U”, a realizacja - to mała litera ”u”.
Estymacja (szacowanie) - polega na tym, że na podstawie niekompletnych danych ze zbioru pochodzących z próby, wnioskuje się o wartościach liczbowych zbioru, a otrzymane w ten sposób wnioski służą do podejmowania decyzji.
Metody estymacji:
estymacja punktowa
estymacja przedziałowa
Estymacja punktowa oblicza pojedynczą liczbę dla każdego nieznanego parametru, np.:
- estymatorem średniej arytmetycznej jest średnia arytmetyczna z próby,
- estymatorem wariancji populacji generalnej jest wariancja z próby.
Estymacja przedziałowa polega na szacunku parametru w postaci takiego przedziału zwanego przedziałem ufności, który z dużym prawdopodobieństwem obejmuje prawdziwą wartość parametru.
Właściwości dobrego estymatora:
nieobciążony - estymator jest nie obciążony, gdy wartość estymatora jest równa parametrowi z próby.
zgodność z prawem wielkich liczb - prawdopodobieństwo, że estymator jest zgodny z prawem wielkich liczb, z wielkością liczebności próby. Wówczas estymator będzie przyjmował wartości bliskie parametru. Ryzyko popełnienia błędu jest niewielkie.
efektywny - posiadać powinien możliwie małą wariancję.
Każdy estymator jest zmienną losową mającą określony rozkład prawdopodobieństwa.
Przedział ufności dla średniej arytmetycznej:
Model 1
Jeśli populacja generalna ma rozkład normalny N(m, σ), ze znanym odchyleniem standardowym σ, z populacji pobrano próbę N elementową i przy takich założeniach dla średniej m przy współczynniku ufności 1 - ά ma postać:
x - średnia arytmetyczna obliczana na podstawie próby
uά - wartość zmiennej losowej mającej rozkład normalny standaryzowany
σ - znane odchylenia standardowe populacji generalnej
n - liczebność próby
m - średnia populacji generalnej
1- ά- prawdopodobieństwo przyjęte z góry, nazwane współczynnikiem ufności.
Współczynnik ten przyjmuje się subiektywnie jako dowolnie duże, blisko jedności prawdopodobieństwo. Jest miarą zaufania dla przeprowadzonego szacunku.
Najczęściej stosowane współczynniki ufności:
0,90 → uά = 1,64 Przykładowo współczynnik ufności 0,95 oznacza, że pragniemy
0,95 → uά = 1,96 by w 95 przypadkach na 100 estymowany parametr mieścił się
0,99 → uά = 2,58 w oszacowanym przez nas przedziale.
Długość przedziału ufności przy danej liczebności n zależy od przyjętego współczynnika ufności 1-ά. Wraz ze wzrostem współczynnika 1-ά, długość przedziału rośnie. Im większy jest przedział, tym większą mamy pewność że średnia mieści się w podanych granicach, a to z kolei oznacza, że przeprowadzony szacunek jest mniej dokładny.
Przyjmując wąski przedział mniejsza jest realność, że znajdzie się w przedziale, ale szacunek jest bardziej dokładny.
Ocenę precyzji szacowanego parametru m można ustalić za pomocą zależności:
Jeśli:
B(x) ≤ 5% - duża precyzja szacunku
5% < B(x) ≤ 10% - dostateczna precyzja szacunku
B(x) > 10% - niedostateczna precyzja szacunku, nie należy wnioskować o parametrze
Model 2
Populacja generalna ma rozkład normalny, gdzie nie znamy ani średniej arytmetycznej, ani odchylenie standardowego populacji. Z populacji tej pobrano małą próbę (≤ 30). W oparciu o wyniki tej próby, przedział ufności dla średniej budujemy:
tά - wartość statystyki z rozkładu t-Studenta dla n-1 stopnia swobody, przy poziomie istotności ά.
Liczba stopni swobody to liczba niezależnych obserwacji niezbędnych do oszacowania nieznanego parametru populacji generalnej.
Ocena względnej precyzji oszacowania modelu:
Model 3
Populacja generalna ma rozkład normalny, lub dowolnie inny. Nie znamy ani średniej arytmetycznej ani odchylenia standardowego populacji. Z populacji tej pobieramy dużą próbę.
s(x) - odchylenie standardowe z próby
Ocena względnej precyzji oszacowania modelu:
m - średnia populacji generalnej
`x - średnia populacji generalnej z próby
σ - odchylenie standardowe w populacji generalnej
s(x) - odchylenie standardowe obliczane na podstawie próby.
Zadanie 1
W pewnym mieście postanowiono zbadać miesięczne zużycie wody (w m³) przez mieszkańców. W celu tym z populacji tej wylosowano 81 mieszkań i otrzymano średnie miesięczne zużycie wody 11,25m³. Dotychczasowe badania wykazują, że rozkład zużycia wody przez mieszkańców jest normalny z odchyleniem standardowym (σ) wynoszącym 3,10m³. Przyjmując współczynnik ufności 0,90 oszacować metodą przedziałową średnie zużycie wody przez mieszkańców tego miasta oraz ocenić precyzję dokonanego szacunku (wartość odpowiedniej statystyki 1,64).
P= {11,25 - 1,64 < m < 11,25 + 1,64 }
10,69 < m < 11,81
Przedział liczbowy o końcach 10,69 i 11.81 obejmuje z prawdopodobieństwem 0,90 nieznane średnie zużycie wody w m³, przez mieszkańców badanego miasta.
B(`x) = * 100
B(`x) = 5%
Błąd względny szacunku wynosi 5%, co oznacza dobrą precyzję oszacowania i dopuszcza do wnioskowania na podstawie próby.
Zadanie 2
Aby ustalić średnie tygodniowe wydatki na prasę studentów UEPu, wylosowano niezależnie od próby dziesięciu studentów i otrzymano wyniki (w zł):
4,6
5,2
6,2
5,8
4,9
5,7
5,5
6,2
5,5
6,0
Na podstawie uzyskanych wyników oszacować metodą przedziałową średnie wydatki na prasę wszystkich studentów UEPu, przyjmując współczynnik ufności 0,95 oraz ocenić precyzję dokonanego szacunku. Doświadczenie wskazuje na to, że rozkład wydatków na prasę jest w przybliżeniu normalny (wartość odpowiedniej statystyki 2,262).
xi |
xi - `x |
(xi - `x)² |
4,6 |
-1 |
1 |
5,2 |
- 0,4 |
0,16 |
6,2 |
0,6 |
0,36 |
5,8 |
0,2 |
0,04 |
4,9 |
- 0,7 |
0,49 |
5,7 |
0,1 |
0,01 |
5,5 |
0,3 |
0,09 |
6,2 |
0,6 |
0,36 |
5,5 |
- 0,1 |
0,01 |
6,0 |
0,4 |
0,16 |
56 |
|
2,68 |
`x = 56/10 = 5,6
s(x) = √(2,68/10) = 0,52
5,6 - 2,262 < m < 5,6 + 2,262
5,21 < m < 5,99
B(`x) = * 100
B(`x) = 7, 02%
Przedział liczbowy o końcach 5,21 i 5,99 zł obejmuje z prawdopodobieństwem 0,95 średnie wydatki na prasę przez studentów UEPu.
Błąd względny szacunku wynosi 7%, co oznacza dostateczną precyzję oszacowania i dopuszcza do wnioskowania na podstawie podanej próby.
Zadanie 3
W celu oszacowania średniej wagi bagażu osób udających się samolotem na dwutygodniowy urlop do Hiszpanii wylosowano niezależnie od próby 64 podróżnych uzyskując dla tej próby średnią wagę bagażu wynoszącą 24,81kg i odchylenie standardowe 4,82kg. Przyjmując współczynnik ufności 0,95 zbudować przedział ufności dla średniej wagi bagażu oraz ocenić precyzję dokonanego szacunku ( wartość statystyki 1,96).
24,81 - 1,96 < m < 24,81 + 1,96
23,63 < m < 25,99
B(`x) = = 4,76%
Przedział liczbowy o końcach 23,63kg i 25,99kg z prawdopodobieństwem 0,95, obejmuje średnią wagę bagażu podróżnych udających się samolotem na urlop.
Błąd względny szacunku wynosi 5%, co oznacza dobrą precyzję oszacowania i dopuszcza do wnioskowania na podstawie próby o średniej wadze bagażu.
Przedział ufności dla wskaźnika struktury
W przypadku analizy statystycznej prowadzonej ze względu na cechę jakościową podstawowym parametrem populacji generalnej jest wskaźnik struktury zwany frakcją lub prawdopodobieństwem szacunku, po przemnożeniu przez 100% elementów posiadających wyróżnioną cechę w zbiorowości.
Wskaźnik struktury w populacji określający udział wyróżnionej części w całej populacji oznaczać będziemy symbolem p, zaś jego estymatorem jest wskaźnik struktury z próby losowej m/n.
m to liczba jednostek w próbie mających wyróżnioną cechę, natomiast n to liczebność próby
uά - odczytujemy z tablicy dystrybuanty rozkładu normalnego standaryzowanego.
N(0,1) w sposób, aby spełniona była relacja:
Względne precyzje szacowania:
B(p) - względna precyzja szacowania wskaźnika struktury
Zadanie 4
W roku 2006 wśród losowo wybranych 450 mieszkańców Poznania przeprowadzono badania ankietowe, w których pytano między innymi o ulubione miejsce spędzania urlopu. Z badania wynika, że 288 osób preferuje urlop nad morzem. Przyjmując współczynnik ufności 0,95 oszacować metodą przedziałową procent mieszkańców Poznania, którzy lubią spędzać urlop nad morzem oraz ocenić precyzję dokonanego szacunku (wartość statystyki 1,96).
n = 450
m = 288
m/n = 0,64
0,64 - 1,96 √ < p< 1,96 √
0,595 < p < 0,685
59,5% < p < 68,5%
B(p) = (1,96 : 0,64) * √
B(p) = 7,04%
Przy współczynniku ufności 0,95 odsetek mieszkańców Poznania preferujących urlop nad morzem mieści się w przedziale od 59,5 do 68,5%. Błąd względny mieszkańców wynosi 7,04%, co oznacza dostateczną precyzję oszacowania i dopuszcza do wnioskowania na podstawie próby.
3,10
√81
3,10
√81
1,64 * 3,1
11,25 * √81
0,52
√ 9
0,52
√ 9
2,262 * 0,52
5,6 * √ 9
4,82
√ 64
4,82
√ 64
0,64 (1 - 0,64)
450
0,64 (1 - 0,64)
450
1,96 * 4,82
24,81 * √ 64
0,64 (1 - 0,64)
450