Wnioskowanie statystyczne (wykład), UEP semestr I, Wnioskowanie statystyczne


Wnioskowanie statystyczne - dr Alicja Szuman

Literatura:

J. Jóźwiak, J. Podgórski „Statystyka od podstaw” PWE Warszawa 2006

J. Kudelski, I. Roeske - Slomka „Statystyka” AE Poznań 1995

J. Greń „Statystyka matematyczna. Modele i zadania” PWN Warszawa 1984

J. Paradysz (red.) „Statystyka” AE Poznań 2005

Kalkulatory

Na egzamin suche wzory na jednej kartce A4 może być dwustronnie zapisana

Wnioskowanie statystyczne a statystyka opisowa

Statystyka opisowa oparta jest na indukcji zupełnej, ukazuje metody gromadzenia, opracowania, prezentacji danych wraz z sumarycznym ich opisem przy wykorzystaniu właściwych narzędzi statystycznych.

Statystyka matematyczna (wnioskowanie statystyczne) oparta jest na indukcji niezupełnej.

Wnioskowanie statystyczne to procedura podejmowania decyzji o parametrach i rozkładach w zbiorowości generalnej na podstawie wyników z próby.

Podstawowymi kategoriami stosowanymi w procedurze wnioskowania statystycznego są zmienne losowe i ich rozkłady teoretyczne.

Zdarzenia losowe to takie wyniki uzyskane przez relację danego procesu, które mogą w określonym zespole warunków wystąpić lub nie wystąpić.

Jeżeli każdorazowa realizacja określonego doświadczenia daje to samo zdarzenie A, to zdarzenie to nazywamy zdarzeniem pewnym. Natomiast jeśli każdorazowa realizacja doświadczenia nie daje zdarzenia A, to realizację zdarzenia A uważamy za niemożliwe.

Jeżeli realizacja przypadkowego zdarzenia niekiedy prowadzi do zdarzenia A, a niekiedy nie, nazywamy to zdarzeniem przypadkowym.

Zmienna losowa - w wyniku doświadczenia przyjmuje określoną wartość o zrealizowaniu tego doświadczenia, a nie dającą się przewidzieć przed tym doświadczeniem.

Zmienna losowa może przybierać wartości z przedziału liczb rzeczywistych i to z określonym prawdopodobieństwem.

P(x = xi) = pi <- prawdopodobieństwo

pi - można traktować jako wartość przyjmowaną przez zmienną losową.

Pi = f(xi)

Suma prawdopodobieństwa pi = 1

0x01 graphic

Zmienne losowe oznaczamy dużymi literami alfabetu np. X, Y, Z. Małymi literami alfabetu oznaczają realizację czyli wartości przybierane przez zmienne losowe zwane realizacjami x, y, z.

Pojęciem związanym ze zmienną losową i jej rozkładu jest pojęcie dystrybuanty.

Dystrybuanta zmiennej losowej to funkcja zmiennej rzeczywistej określona wzorem:

0x01 graphic

Właściwości dystrybuanty:

Rozkłady empiryczne i teoretyczne zmiennej losowej warunkują przeprowadzenie wnikliwego opisu zbiorowości statystycznej.

Rozkłady empiryczne pochodzą z obserwacji ustalane są na podstawie konkretnych wielkości.

Rozkłady teoretyczne aproksymowane są za pomocą rozkładów probabilistycznych. Rozkład zmiennej losowej może być przedstawiony za pomocą funkcji matematycznej(…)

Najważniejszymi parametrami zmiennej losowej X są:

Zmienna losowa skokowa to taka zmienna, która ma przeliczony i skończony zbiór wartości.

Zmienna losowa ciągła przybiera dowolne wartości z określonego przedziału.

Rozkłady:

- zerojedynkowy

- dwumianowy (Bernoulliego)

- Pojssona

- normalny Gaussa - Laplace'a

Rozkład zerojedynkowy - jest on rezultatem takiego doświadczenia, którego określone zdarzenie wystąpi lub nie. Zdarzeniem elementarnym realizującym zadanie A jest liczba 1, a nie realizującym zdarzenia A jest liczba 0.

0x01 graphic

Rozkład dwumianowy - korzystamy z niego, gdy określamy prawdopodobieństwo wystąpienia k razy określonego zdarzenia w n niezależnych doświadczeniach, przy danym prawdopodobieństwie p

0x01 graphic

Jeśli: p = q rozkład symetryczny

p ≠ q rozkład asymetryczny

- asymetria dodatnia, gdy p < q

- asymetria ujemna, gdy p > q

Jeśli p, q i n dążą jednocześnie do nieskończoności, to rozkład ten przekształca się w rozkład normalny.

Wartość oczekiwana: E(x) = np

σ² (x) = npq

σ (x)

Rozkład Pojssona - szczególny przypadek rozkładu dwumianowego. Wykorzystujemy go, gdy liczba serii doświadczenia jest nieskończona (n → ∞), prawdopodobieństwo p maleje do zera (p→0), a iloczyn np = 2 jest wartością stałą (λ > 0).

0x01 graphic

gdzie e = 2,718 (podstawa logarytmu naturalnego)

k - liczba realizacji elementów wyróżnionych w doświadczeniu

Rozkład normalny

Zmienna losowa ciągła X ma rozkład normalny, jeśli jej funkcja gęstości prawdopodobieństwa wyraża się wzorem:

0x01 graphic

gdzie: M = n(x) - wartość oczekiwana

f(x) - funkcja gęstości rozkładu normalnego

Właściwości krzywej funkcji normalnej:

Reguła trzech sigm - przyjmuje ona jako bliskie 1 prawdopodobieństwo, że realizacja zmiennej losowej ciągłej nie będzie różniła się od wartości oczekiwanej więcej aniżeli o trzy odchylenia standardowe.

Zmienna standaryzowana - to duża litera ”U”, a realizacja - to mała litera ”u”.

0x01 graphic

Estymacja (szacowanie) - polega na tym, że na podstawie niekompletnych danych ze zbioru pochodzących z próby, wnioskuje się o wartościach liczbowych zbioru, a otrzymane w ten sposób wnioski służą do podejmowania decyzji.

Metody estymacji:

Estymacja punktowa oblicza pojedynczą liczbę dla każdego nieznanego parametru, np.:

- estymatorem średniej arytmetycznej jest średnia arytmetyczna z próby,

- estymatorem wariancji populacji generalnej jest wariancja z próby.

Estymacja przedziałowa polega na szacunku parametru w postaci takiego przedziału zwanego przedziałem ufności, który z dużym prawdopodobieństwem obejmuje prawdziwą wartość parametru.

Właściwości dobrego estymatora:

Każdy estymator jest zmienną losową mającą określony rozkład prawdopodobieństwa.

Przedział ufności dla średniej arytmetycznej:

Model 1

Jeśli populacja generalna ma rozkład normalny N(m, σ), ze znanym odchyleniem standardowym σ, z populacji pobrano próbę N elementową i przy takich założeniach dla średniej m przy współczynniku ufności 1 - ά ma postać:

0x01 graphic

x - średnia arytmetyczna obliczana na podstawie próby

uά - wartość zmiennej losowej mającej rozkład normalny standaryzowany

σ - znane odchylenia standardowe populacji generalnej

n - liczebność próby

m - średnia populacji generalnej

1- ά- prawdopodobieństwo przyjęte z góry, nazwane współczynnikiem ufności.

Współczynnik ten przyjmuje się subiektywnie jako dowolnie duże, blisko jedności prawdopodobieństwo. Jest miarą zaufania dla przeprowadzonego szacunku.

Najczęściej stosowane współczynniki ufności:

0,90 → uά = 1,64 Przykładowo współczynnik ufności 0,95 oznacza, że pragniemy

0,95 → uά = 1,96 by w 95 przypadkach na 100 estymowany parametr mieścił się

0,99 → uά = 2,58 w oszacowanym przez nas przedziale.

Długość przedziału ufności przy danej liczebności n zależy od przyjętego współczynnika ufności 1-ά. Wraz ze wzrostem współczynnika 1-ά, długość przedziału rośnie. Im większy jest przedział, tym większą mamy pewność że średnia mieści się w podanych granicach, a to z kolei oznacza, że przeprowadzony szacunek jest mniej dokładny.

Przyjmując wąski przedział mniejsza jest realność, że znajdzie się w przedziale, ale szacunek jest bardziej dokładny.

Ocenę precyzji szacowanego parametru m można ustalić za pomocą zależności:

0x01 graphic

Jeśli:

B(x) ≤ 5% - duża precyzja szacunku

5% < B(x) ≤ 10% - dostateczna precyzja szacunku

B(x) > 10% - niedostateczna precyzja szacunku, nie należy wnioskować o parametrze

Model 2

Populacja generalna ma rozkład normalny, gdzie nie znamy ani średniej arytmetycznej, ani odchylenie standardowego populacji. Z populacji tej pobrano małą próbę (≤ 30). W oparciu o wyniki tej próby, przedział ufności dla średniej budujemy:

0x01 graphic

tά - wartość statystyki z rozkładu t-Studenta dla n-1 stopnia swobody, przy poziomie istotności ά.

Liczba stopni swobody to liczba niezależnych obserwacji niezbędnych do oszacowania nieznanego parametru populacji generalnej.

Ocena względnej precyzji oszacowania modelu:

0x01 graphic

Model 3

Populacja generalna ma rozkład normalny, lub dowolnie inny. Nie znamy ani średniej arytmetycznej ani odchylenia standardowego populacji. Z populacji tej pobieramy dużą próbę.

0x01 graphic

s(x) - odchylenie standardowe z próby

Ocena względnej precyzji oszacowania modelu:

0x01 graphic

m - średnia populacji generalnej

`x - średnia populacji generalnej z próby

σ - odchylenie standardowe w populacji generalnej

s(x) - odchylenie standardowe obliczane na podstawie próby.

Zadanie 1

W pewnym mieście postanowiono zbadać miesięczne zużycie wody (w m³) przez mieszkańców. W celu tym z populacji tej wylosowano 81 mieszkań i otrzymano średnie miesięczne zużycie wody 11,25m³. Dotychczasowe badania wykazują, że rozkład zużycia wody przez mieszkańców jest normalny z odchyleniem standardowym (σ) wynoszącym 3,10m³. Przyjmując współczynnik ufności 0,90 oszacować metodą przedziałową średnie zużycie wody przez mieszkańców tego miasta oraz ocenić precyzję dokonanego szacunku (wartość odpowiedniej statystyki 1,64).

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
P= {11,25 - 1,64 < m < 11,25 + 1,64 }

10,69 < m < 11,81

Przedział liczbowy o końcach 10,69 i 11.81 obejmuje z prawdopodobieństwem 0,90 nieznane średnie zużycie wody w m³, przez mieszkańców badanego miasta.

0x08 graphic

0x08 graphic
B(`x) = * 100

B(`x) = 5%

Błąd względny szacunku wynosi 5%, co oznacza dobrą precyzję oszacowania i dopuszcza do wnioskowania na podstawie próby.

Zadanie 2

Aby ustalić średnie tygodniowe wydatki na prasę studentów UEPu, wylosowano niezależnie od próby dziesięciu studentów i otrzymano wyniki (w zł):


4,6

5,2

6,2

5,8

4,9

5,7

5,5

6,2

5,5

6,0


Na podstawie uzyskanych wyników oszacować metodą przedziałową średnie wydatki na prasę wszystkich studentów UEPu, przyjmując współczynnik ufności 0,95 oraz ocenić precyzję dokonanego szacunku. Doświadczenie wskazuje na to, że rozkład wydatków na prasę jest w przybliżeniu normalny (wartość odpowiedniej statystyki 2,262).

xi

xi - `x

(xi - `x)²

4,6

-1

1

5,2

- 0,4

0,16

6,2

0,6

0,36

5,8

0,2

0,04

4,9

- 0,7

0,49

5,7

0,1

0,01

5,5

0,3

0,09

6,2

0,6

0,36

5,5

- 0,1

0,01

6,0

0,4

0,16

56

2,68

`x = 56/10 = 5,6

s(x) = √(2,68/10) = 0,52

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
5,6 - 2,262 < m < 5,6 + 2,262

5,21 < m < 5,99

0x08 graphic

0x08 graphic
B(`x) = * 100

B(`x) = 7, 02%

Przedział liczbowy o końcach 5,21 i 5,99 zł obejmuje z prawdopodobieństwem 0,95 średnie wydatki na prasę przez studentów UEPu.

Błąd względny szacunku wynosi 7%, co oznacza dostateczną precyzję oszacowania i dopuszcza do wnioskowania na podstawie podanej próby.

Zadanie 3

W celu oszacowania średniej wagi bagażu osób udających się samolotem na dwutygodniowy urlop do Hiszpanii wylosowano niezależnie od próby 64 podróżnych uzyskując dla tej próby średnią wagę bagażu wynoszącą 24,81kg i odchylenie standardowe 4,82kg. Przyjmując współczynnik ufności 0,95 zbudować przedział ufności dla średniej wagi bagażu oraz ocenić precyzję dokonanego szacunku ( wartość statystyki 1,96).

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
24,81 - 1,96 < m < 24,81 + 1,96

23,63 < m < 25,99

0x08 graphic

0x08 graphic
B(`x) = = 4,76%

Przedział liczbowy o końcach 23,63kg i 25,99kg z prawdopodobieństwem 0,95, obejmuje średnią wagę bagażu podróżnych udających się samolotem na urlop.

Błąd względny szacunku wynosi 5%, co oznacza dobrą precyzję oszacowania i dopuszcza do wnioskowania na podstawie próby o średniej wadze bagażu.

Przedział ufności dla wskaźnika struktury

W przypadku analizy statystycznej prowadzonej ze względu na cechę jakościową podstawowym parametrem populacji generalnej jest wskaźnik struktury zwany frakcją lub prawdopodobieństwem szacunku, po przemnożeniu przez 100% elementów posiadających wyróżnioną cechę w zbiorowości.

Wskaźnik struktury w populacji określający udział wyróżnionej części w całej populacji oznaczać będziemy symbolem p, zaś jego estymatorem jest wskaźnik struktury z próby losowej m/n.

m to liczba jednostek w próbie mających wyróżnioną cechę, natomiast n to liczebność próby

0x01 graphic

uά - odczytujemy z tablicy dystrybuanty rozkładu normalnego standaryzowanego.

N(0,1) w sposób, aby spełniona była relacja:

0x01 graphic

Względne precyzje szacowania:

0x01 graphic

B(p) - względna precyzja szacowania wskaźnika struktury

Zadanie 4

W roku 2006 wśród losowo wybranych 450 mieszkańców Poznania przeprowadzono badania ankietowe, w których pytano między innymi o ulubione miejsce spędzania urlopu. Z badania wynika, że 288 osób preferuje urlop nad morzem. Przyjmując współczynnik ufności 0,95 oszacować metodą przedziałową procent mieszkańców Poznania, którzy lubią spędzać urlop nad morzem oraz ocenić precyzję dokonanego szacunku (wartość statystyki 1,96).

n = 450

m = 288

m/n = 0,64

0x08 graphic
0x08 graphic

0x08 graphic
0,64 - 1,96 √ < p< 1,96 √

0x08 graphic

0,595 < p < 0,685

59,5% < p < 68,5%

0x08 graphic

0x08 graphic
B(p) = (1,96 : 0,64) * √

B(p) = 7,04%

Przy współczynniku ufności 0,95 odsetek mieszkańców Poznania preferujących urlop nad morzem mieści się w przedziale od 59,5 do 68,5%. Błąd względny mieszkańców wynosi 7,04%, co oznacza dostateczną precyzję oszacowania i dopuszcza do wnioskowania na podstawie próby.

3,10

√81

3,10

√81

1,64 * 3,1

11,25 * √81

0,52

√ 9

0,52

√ 9

2,262 * 0,52

5,6 * √ 9

4,82

√ 64

4,82

√ 64

0,64 (1 - 0,64)

450

0,64 (1 - 0,64)

450

1,96 * 4,82

24,81 * √ 64

0,64 (1 - 0,64)

450



Wyszukiwarka

Podobne podstrony:
Prawo wykład, UEP semestr II, Prawo gospodarcze
Statystyka II, UEP semestr I, Wnioskowanie statystyczne
statystyka III, UEP semestr I, Wnioskowanie statystyczne
Statystyka (II ZIP) - Wyklad, Rok I, semestr II, Rok II, Semestr I, Statystyka inżynierska
FP 7 i 8, Prawo Finansowe, Wykłady IV rok - projekt, PF - wykłady, wykłady PF - 6 semestr
Pytania Wykłady Biola - semestr I, Wychowanie fizyczne (hasł awf)
wykład2, gik, semestr 4, kartografia
Wykład 8 - Hume, Semestr V, Etyka
GF w9 9.12, Geologia GZMiW UAM 2010-2013, I rok, Geologia fizyczna, Geologia fizyczna - wykłady, 03,
Mechanika wykład II semestr
wyklad6, SiMR, SEMESTR2, technologia
ZAGADNIENIA PORUSZONE NA WYKŁADACH W II SEMESTRZE
sady wyklady, Ogrodnictwo, Semestr V, Sadownictwo - Pomologia
4 fcje potegowe logarytm wyklad moodle, I semestr, Matma
wykład3, gik, semestr 4, kartografia

więcej podobnych podstron