Zadanie 1. |
|
|
|
|
|
Obserwując liczbę awarii w sieci wodno-kanalizacyjnej w ciągu 100 dni |
|||||
w pewnym rejonie miasta otrzymano dane: |
|
|
|||
|
|
|
|
|
|
Dzienna liczba awarii |
0 |
1 |
2 |
3 |
4 |
Liczba dni |
13 |
32 |
27 |
18 |
10 |
|
|
|
|
|
|
a) Na poziomie ufności 1 - =0,9 oszacować metodą przedziałową |
|||||
średnią dzienną liczbę awarii w l losowo wybranym dniu. |
|||||
b) Na poziomie ufności 1 - =0,95 oszacować metodą przedziałową |
|||||
wariancję dziennej liczby awarii w sieci wodno kanalizacyjnej. |
|||||
a) Na poziomie istotności 0,05 zweryfikować hipotezę, że średnia |
|||||
dzienna liczba awarii w sieci wodno-kanalizacyjnej jest równa 1,5. |
Ad a).
Elementem populacji generalnej jest dowolny dzień który był, jest , będzie. Cechą dla elementu populacji generalnej jest liczba awarii sieci wodno-kanalizacyjnej w przeciągu dnia w pewnym rejonie miasta.
Z treści zadania wynika, że mamy dużą próbę - n=100>30 przedstawioną za pomocą szeregu rozdzielczego.
Z modeli na przedziały ufności dla wartości oczekiwanej a więc średniej mamy, że założenia modelu spełnione są w modelu III, w którym cecha może mieć dowolny rozkład i wielkość próby powinna być duża ( n>30).
Wtedy statystyka określona wzorem
ma rozkład normalny standaryzowany (w przybliżeniu). Wychodząc z
otrzymujemy wzór na przedział ufności . W pliku na mojej stronie internetowej o nazwie Wzory estymacja.doc można znaleźć wszystkie was obowiązujące modele na przedziały ufności i wszystkie podstawowe informacje potrzebne do wyznaczenia przedziału.
Aby policzyć przedział ufności zgodnie z wzorem
należy wyznaczyć wartości statystyki
w próbie które równają się średniej arytmetycznej
i odchyleniu standardowemu
w próbie przedstawionej za pomocą szeregu rozdzielczego. Ponadto z tablic rozkładu normalnego należy wyznaczyć kwanty
.
Dane z zadania należy przedstawić jak poniżej i obliczyć te podstawowe parametry zgodnie z schematem.
Cecha w populacji jest typu skokowego i przyjmuje tylko wartości całkowite. Wartości cech są środkami przedziałów klasowych.
dzienna |
liczba |
|
|
liczba awarii |
dni |
składniki |
składniki |
|
|
|
|
0 |
13 |
0 |
42,12 |
1 |
32 |
32 |
20,48 |
2 |
27 |
54 |
1,08 |
3 |
|
54 |
25,92 |
4 |
10 |
40 |
48,40 |
|
|
|
|
Ponieważ
Z tablicy rozkładu normalnego zatytułowanego
zamieszczonego w pliku o nazwie tablice podstawowe3.doc wyznaczamy
. Wszystkie potrzebne kwantyle w różnych modelach można znaleźć w tym pliku. Ostatecznie
. Ten przedział pokrywa z prawdopodobieństwem
teoretyczną średnią liczbę awarii w przeciągu dnia w sieci wodno- kanalizacyjnej w pewnym rejonie miasta.
Ad b).
Szukając model przedziału ufności w tym samym pliku tylko dla wariancji i odchylenia standardowego wybieramy z tych samych powodów model II. Model I dotyczy małej próby i cecha powinna mieć rozkład normalny.
Ponieważ
Wzór ma postać
Ponieważ statystyka do wyznaczenia tego przedziału miała rozkład normalny to z tej samej tablicy wyznaczamy
.
Te przedziały z prawdopodobieństwem
pokrywają odpowiednio teoretyczne odchylenie standardowe i wariancje dziennej liczby awarii w sieci wodno- kanalizacyjnej w pewnym rejonie miasta.
Ad c).
Zgodnie z treścią zadania stawiamy hipotezę, że średnia liczbę awarii w przeciągu dnia w sieci wodno- kanalizacyjnej w pewnym rejonie miasta jest równa 1,5 tzn.
. Na przykład do tej pory po pewnych badaniach tak się uważało. Na podstawie uzyskanej próby należy sprawdzić czy to jest dalej zdanie prawdziwe.
Formułujemy hipotezę alternatywną która będzie prawdziwa po odrzuceniu hipotezy zerowej. W naszym przypadku hipoteza alternatywna będzie postaci
tzn. , że średnia liczbę awarii w przeciągu dnia jest inna niż 1,5.
Ustalamy poziom istotności na podstawie którego będziemy weryfikować hipotezę. Te trzy elementy ustalany na podstawie treści zadania. Następnie znajdujemy statystykę za pomocą której będziemy weryfikować hipotezę przy założeniu prawdziwości hipotezy zerowej i innych nam znanych informacji. W praktyce wybieramy model do weryfikowania, w którym są spełnione założeń modelu, w którym podany jest wzór statystyki testowej i jej rozkład prawdopodobieństwa.
Wszystkie modele do weryfikowania was obowiązujące są podane w pliku na mojej stronie internetowej w pliku o nazwie Weryfikacja hipotez wzory z m.doc.
Postępujemy zgodnie z schematem:
tzn. wybraliśmy model III z grupy modeli do weryfikowania
hipotez dla wartości średniej. Ponieważ mamy dużą próbę i cecha może mieć rozkład dowolny.
W pozostałych modelach założenia nie są spełnione.
Następnie obliczamy wartość statystyki z uzyskanej próby.
Wyznaczamy obszar krytyczny czyli zbiór wartości statystyki testowej
przejmujący te
wartości z prawdopodobieństwem małym. W naszym przypadku z prawdopodobieństwem
tzn.
.
Z informacji z modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar ten ma wzór
K = (-∞; -uα) ∪ (uα; + ∞) . Ponieważ statystyka testowa ma rozkład normalny
to z tych
samych tablic jak w powyższych punktach wyznaczamy
a więc zbiór
krytyczny ma postać
Ponieważ wartość statystyki
należy do obszaru krytycznego
tzn.
to hipotezę zerową odrzucamy na korzyść
hipotezy alternatywnej i twierdzimy z prawdopodobieństwem przynajmniej 0,95, że hipoteza
alternatywna jest prawdziwa.
A więc twierdzimy z prawdopodobieństwem przynajmniej 0,95, że średnia teoretyczna
liczba awarii w przeciągu dnia w sieci wodno-kanalizacyjnej w pewnym rejonie miasta jest
inna niż 1,5.
Z tym prawdopodobieństwem możemy uważać, że coś się zmieniło w stosunku np. co do tej
pory było. Błąd w takim rozumowaniu tzn. , że hipoteza zerowa jest prawdziwa a przyjmujemy
hipotezę alternatywną występuje z prawdopodobieństwem
. Jest to błąd pierwszego
rodzaju
Zadanie 2 |
|
|
|
|
|
|
|
|
|||||||
Badając zanieczyszczenie zbiornika wodnego w losowo wybranym czasie |
|||||||||||||||
dokonano 100 pomiarów i z otrzymanych wyników utworzono szereg rozdzielczy: |
|||||||||||||||
Zanieczyszczenie w promilach |
|
0 - 4 |
4 - 8 |
8 - 12 |
12 - 16 |
16 - 20 |
|||||||||
liczba wyników pomiarów w przedziale |
8 |
18 |
27 |
35 |
12 |
||||||||||
|
|
|
|
|
|
|
|
|
|||||||
a) Na poziomie ufności 1 - =0,9 oszacować metodą przedziałową |
|
||||||||||||||
średnie zanieczyszczenie zbiornika wodnego w losowo wybranym czasie. |
|
|
|||||||||||||
b) Na poziomie ufności 1 - =0,95 oszacować metodą przedziałową |
|
||||||||||||||
wariancję zanieczyszczenie zbiornika wodnego w losowo wybranym czasie. |
|||||||||||||||
a) Na poziomie istotności a = 0,05 zweryfikować hipotezę, że średnie |
|||||||||||||||
zanieczyszczenie zbiornika wodnego jest równe 10,5 promila. |
Jest to zadanie analogiczne do zadania poprzedniego i należy wyznaczyć te same zagadnienia.
Elementem populacji generalnej jest losowo wybrany czas a cechą elementu populacji jest zanieczyszczenie zbiornika wodnego w losowo wybranym czasie. Istotną różnicą jest typ cechy. W naszym zadaniu cecha jest typu ciągłego i może przyjmować wszystkie wartości z określonego przedziału. Dlatego przedziały klasowe są postaci
i do obliczenia podstawowych parametrów należy znaleźć środki przedziałów klasowych. W poprzednim zadaniu cecha elementu była typu skokowego i wartości cechy tworzyły środki przedziałów.
Pozostałe elementy i próba jest analogiczna jak w poprzednim zadaniu a więc modele za pomocą których będziemy wyznaczać analogiczne zagadnienia są takie same.
Ad a).
Z modelu III dla przedziałów ufności dla wartości oczekiwanej w którym spełnione są założenia modelu mamy wzór na przedział ufności
.
Obliczając podstawowe parametry występujące w wzorze otrzymamy:
Zanieczyszczenie w |
liczba |
środki |
składniki |
składniki |
|
promilach |
|
pomiarów |
przedział |
|
|
|
|
|
|
|
|
0 |
4 |
8 |
2 |
16 |
648,00 |
4 |
8 |
18 |
6 |
108 |
450,00 |
8 |
12 |
27 |
10 |
270 |
27,00 |
12 |
16 |
35 |
14 |
490 |
315,00 |
16 |
20 |
12 |
18 |
216 |
588,00 |
|
|
|
|
|
|
Ponieważ
i z tablic rozkładu normalnego standaryzowanego zatytułowanego
odczytujemy
. Stąd
Ten przedział pokrywa z prawdopodobieństwem
teoretyczne średnie zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.
Ad b).
Z modelu II dla przedziałów ufności dla wariancji i odchylenia standardowego w którym spełnione są założenia modelu mamy wzór na przedział ufności
Ponieważ
i z tablic rozkładu normalnego standaryzowanego zatytułowanego
odczytujemy
. Stąd
Ten przedział pokrywa z prawdopodobieństwem
teoretyczne odchylenie standardowe zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.
Ad c).
Postępujemy zgodnie z schematem:
,5 tzn. średnie zanieczyszczenie wynosi 10,5 promil
tzn. średnie zanieczyszczenie jest inne niż 10,5 promila
tzn. wybraliśmy model III z grupy modeli do weryfikowania
hipotez dla wartości średniej. Ponieważ mamy dużą próbę i cecha może mieć rozkład dowolny.
W pozostałych modelach założenia nie są spełnione.
Następnie obliczamy wartość statystyki z uzyskanej próby.
Z informacji w modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar ten ma wzór
K = (-∞; -uα) ∪ (uα; + ∞) . Ponieważ statystyka testowa ma rozkład normalny
to z tych
samych tablic jak w powyższych punktach wyznaczamy
a więc zbiór
krytyczny ma postać
Ponieważ wartość statystyki
nie należy do obszaru krytycznego
tzn.
to twierdzimy, że nie ma podstaw do odrzucenia
hipotezy zerowej i przyjąć hipotezę alternatywną .
A więc nie ma podstaw do twierdzenia, że średnie zanieczyszczenie zbiornika wodnego jest
inne niż 10,5 promila. W praktyce hipotezę zerową przyjmuje się za prawdziwą np. w przypadku
gdy do tej pory uważało się ją za prawdziwą.
Błąd w takim rozumowaniu tzn. , że hipoteza alternatywna jest prawdziwa a przyjmujemy
hipotezę zerową występuje z prawdopodobieństwem małym ale trudnym do oszacowania.
Jest to błąd drugiego rodzaju..
Zadanie 3.
Zbadano dwie partie próbek 100 gramowych wątroby ze względu na zawartość węglowodanów. Zawartości węglowodanów dla I partii próbek (w g) były następujący: 15 ; 17 ; 16 ; 17 ; 18,5 ; 18 ; 17,5. Dla II partii liczącej n = 10 próbek średnia zawartość węglowodanów wynosi
= 15,5 g i odchylenie standardowe s = 1,1 g.
a) Na poziomie ufności 1 - =0,9 oszacować metodą przedziałową średnią |
zawartość węglowodanów w próbkach 100 gramowych wątroby I partii |
b) Na poziomie ufności 1 - =0,95 oszacować metodą przedziałową wariancję |
zawartości węglowodanów w próbkach 100 gramowych wątroby I partii. |
c) Na poziomie istotności α = 0,05 zweryfikować hipotezę, że badane partie próbek
pochodzą z populacji generalnych o tej samej średniej zawartości węglowodanów .
Rozwiązanie Ad a).
Z modeli na przedziały ufności dla wartości oczekiwanej a więc średniej mamy, że założenia modelu mogą być spełnione tylko w modelu II, w którym cecha powinna mieć rozkład normalny
. W modelu I nie znamy teoretycznego odchylenia standardowego
cechy. W modelu III próba powinna być duża (n>30) . W zadaniu występuje n=7.
Założenie, że
jest do przyjęcia gdyż takie cechy przyrodnicze w większości tą własność mają. Istnieje możliwość zweryfikowania tej hipotezy i zakładamy, że ona została zweryfikowana. Wtedy statystyka
ma rozkład t - Studenta o n-1 stopniach swobody.
Wychodząc z prawdopodobieństwa
A stąd wzór na przedział
Stąd trzeba policzyć podstawowe parametry próby i z tablic rozkładu t - studenta odczytać kwantyl
.
|
|
15 |
4 |
17 |
0 |
16 |
1 |
17 |
0 |
18,5 |
2,25 |
18 |
1 |
17,5 |
0,25 |
|
|
. Z tablic rozkładu t - Studenta zatytułowanego
odczytujemy
. Stopnie swobody występują w pierwszej kolumnie a wartości
w wierszu na górze. Stąd
Ten przedział pokrywa z prawdopodobieństwem
średnią teoretyczną zawartości węglowodanów w próbkach 100 gramowych wątroby I partii
Rozwiązanie Ad b).
Z modelu I dla przedziałów ufności dla wariancji i odchylenia standardowego w którym spełnione są założenia modelu mamy wzór na przedział ufności
gdzie
,
są wartościami zmiennej wyznaczonymi z tablicy rozkładu z n - 1 stopniami swobody . Model II nie możemy stosować ponieważ mamy próbę małą.
. Stopnie swobody rozkładuwystępują w pierwszej kolumnie a wartości
w wierszu na górze.
Te przedziały z prawdopodobieństwem
pokrywają odpowiednio teoretyczne wariancję i odchylenie standardowe zawartości węglowodanów w próbkach 100 gramowych wątroby I partii.
Rozwiązanie Ad c).
Zgodnie z treścią zadania stawiamy hipotezę, że średnie zawartości węglowodanów w próbkach 100 gramowych wątroby w obu partiach są jednakowe tzn. stawiamy hipotezę zerową
. Mamy dwie populacje generalne związane z różnymi partiami próbek 100 gramowych wątroby. Próby w populacjach generalnych mają obliczone parametry
I partia :
II partia :
Indeksy przy podstawowych parametrach dotyczą numeru populacji a z tym związanych numeru próby. Aby odpowiedzieć na postawione pytanie wybieramy hipotezę alternatywną pierwszą tzn.
. Do weryfikacji hipotezy wybieramy model II spośród modeli na testy istotności dla dwóch średnich. W modelu I nie znamy teoretycznych odchylenia standardowe
a w modelu III próby są duże.
W modelu II cechy powinny mieć rozkład normalny co w tym wypadku jak wyjaśniłem w punkcie a). jest prawdziwe. Ponadto powinno
co można sprawdzić za pomocą testu Snedecora.
Dalej postępujemy zgodnie z schematem:
tzn. średnie zawartości węglowodanów są takie same
tzn. średnie z zawartości węglowodanów są różne
tzn. wybraliśmy model II z grupy modeli testów istotności dla dwóch średnich.
Następnie obliczamy wartość statystyki z uzyskanej próby.
Z informacji w modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar krytyczny ma
wzór K = (-∞; -tα,n1+n2-2) ∪ (tα,n1+n2-2; + ∞ ) Ponieważ statystyka testowa ma rozkład t - Studenta z
tablic tego rozkładu odczytujemy
a więc zbiór
krytyczny ma postać
Ponieważ wartość statystyki
należy do obszaru krytycznego
tzn.
to hipotezę zerową odrzucamy na korzyść
hipotezy alternatywnej i twierdzimy z prawdopodobieństwem przynajmniej 0,95, że hipoteza
alternatywna jest prawdziwa.
A więc twierdzimy z prawdopodobieństwem przynajmniej 0,95, że średnia teoretyczne
zawartości węglowodanów w dwóch próbach są różne. Oznacza to, że próby pochodzą z
różnych populacji.
Może wystąpić błąd pierwszego rodzaju tzn. że hipoteza zerowa jest prawdziwa a przyjmujemy
hipotezę alternatywną. Taki błąd występuje z prawdopodobieństwem
.