4. Zmienne losowe i ich rozkłady
Podstawowe pojęcia
Zmienną losową X nazywamy każdą funkcję o wartościach liczbowych (rzeczywistych), określoną na zbiorze zdarzeń elementarnych Ω, o wartościach ze zbioru liczb rzeczywistych R
X: ω∈Ω → X(ω)∈R (33)
zdarzenia→liczby,
mającą następujące własności: dla dowolnej ustalonej liczby rzeczywistej x zbiór zdarzeń elementarnych ω, dla których spełniona jest nierówność X(ω)<x, jest zdarzeniem.
Rozpatruje się dwa rodzaje zmiennych losowych: zmienne losowe skokowe oraz zmienne losowe ciągłe.
Zmienna losowa X typu skokowego (zmienna losowa dyskretna) to taka zmienna losowa, która ma skończony lub przeliczalny zbiór wartości. Zmienna losowa skokowa przyjmuje wartości x1, x2, ... z prawdopodobieństwami p1, p2, ... Zmienna losowa X typu ciągłego to taka zmienna losowa, która może przybierać dowolne wartości liczbowe z pewnego przedziału liczbowego
Funkcją prawdopodobieństwa zmiennej losowej skokowej X nazywamy przyporządkowanie
xi → P(xi)=pi, i=1, 2, ... (34)
gdzie P(xi) jest prawdopodobieństwem wystąpienia wartości xi oraz
dla zmiennych osiągających skończoną liczbę wartości (35)
dla zmiennych osiągających przeliczalną liczbę wartości. (36)
Dystrybuantą zmiennej losowej skokowej X nazywamy funkcję F(x) określoną dla wszystkich liczb rzeczywistych w następujący sposób:
(37)
Własności dystrybuanty zmiennej losowej skokowej:
(38)
(39)
F(x) jest funkcją niemalejącą i lewostronnie ciągłą.
Wartością oczekiwaną zmiennej losowej skokowej X nazywamy wartość
dla zmiennych osiągających skończoną liczbę wartości
(40)
dla zmiennych osiągających przeliczalną liczbę wartości
(41)
Wariancją zmiennej losowej skokowej X nazywamy wartość
(42)
Funkcją gęstości prawdopodobieństwa zmiennej losowej ciągłej X nazywamy funkcję f(x), określoną na zbiorze liczb rzeczywistych i spełniającą warunki:
(43)
(44)
Dla przedziałów: (a, b), <a, b), (a, b>, <a, b> mamy:
(45)
Dystrybuantą zmiennej losowej ciągłej X nazywamy funkcję F(x) określoną dla wszystkich liczb rzeczywistych w następujący sposób:
(46)
Własności dystrybuanty zmiennej losowej ciągłej:
(47)
(48)
F(x) jest funkcją niemalejącą i ciągłą.
Wartością oczekiwaną zmiennej losowej ciągłej X nazywamy wartość
(49)
Wariancją zmiennej losowej ciągłej X nazywamy wartość
(50)
Własności wartości oczekiwanej zmiennej losowej skokowej oraz zmiennej losowej ciągłej:
E(c)=c (51)
E(aX)=aE(X) (52)
E(X+b)=E(X)+b (53)
E(X-E(X))=0 (54)
E(X+Y)=E(X)+E(Y) (55)
E(X·Y)=E(X)·E(Y) dla zmiennych niezależnych (56)
Własności wariancji zmiennej losowej skokowej oraz zmiennej losowej ciągłej:
D2(c)=0 (57)
D2(aX)=a2 D2(X) (58)
D2(X+b)=D2(X) (59)
D2(X+Y)= D2(X)+D2(Y) dla zmiennych niezależnych (60)
D2(X-Y)= D2(X)+D2(Y) dla zmiennych niezależnych (61)
Wybrane rozkłady dyskretne
Rozkład dwupunktowy
P(X=x1)=p; P(X= x2)=q (gdzie p+q=1) (62)
Szczególnym przypadkiem rozkładu dwupunktowego jest rozkład zero-jedynkowy
P(X=1)=p; P(X=0)=q (gdzie p+q=1) (63)
Dla rozkładu zero-jedynkowego:
(64)
Przykładowe zastosowania rozkładu dwupunktowego - opis jednokrotnego rzutu monetą.
Rozkład dwumianowy
(65)
gdzie k=0, 1, ..., n oraz p+q=1
Zmienna losowa o rozkładzie dwumianowym opisuje eksperyment znany pod nazwą prób Bernoulliego: przeprowadzamy n doświadczeń (n*2). Wynikiem każdego doświadczenia może być tylko jeden z dwóch stanów: sukces albo porażka. Prawdopodobieństwo sukcesu jest takie samo w kolejnych doświadczeniach. Między prawdopodobieństwem sukcesu (p) oraz prawdopodobieństwem porażki (q) zachodzi związek p+q =1. Doświadczenia są niezależne. Jeśli przeprowadzimy n niezależnych doświadczeń, to liczba sukcesów w tych doświadczeniach ma rozkład dwumianowy.
Dla rozkładu dwumianowego:
(66)
Przykładowe zastosowania rozkładu dwumianowego - do rozwiązywania problemów występujących w praktyce oraz do oceny właściwości innych rozkładów skokowych, przy losowaniu zwrotnym elementów z populacji ograniczonej (jeśli wynik pojedynczego losowania jest zmienną losową o rozkładzie zero-jedynkowym).
Rozkład Poissona
Zmienna losowa X, która przyjmuje wartości 0, 1, 2, ... z prawdopodobieństwami określonymi wzorem
(67)
gdzie m jest stałą dodatnią nazywa się zmienną losową o rozkładzie Poissona.
Dla rozkładu Poissona:
(68)
Rozkładem Poissona można przybliżać rozkład dwumianowy, gdy spełnione są następujące warunki:
duża liczba doświadczeń (co najmniej 20)
stały iloczyn np=m
wartość parametru p<0,2.
Przykładowe zastosowania rozkładu Poissona - ustalanie prawdopodobieństwa wadliwej produkcji czy awaryjności maszyn.
Wybrane rozkłady ciągłe
Rozkład jednostajny w przedziale <a, b〉
Funkcja gęstości w tym rozkładzie określona jest następująco:
(69)
Dla rozkładu jednostajnego w przedziale <a, b〉:
(70)
Przykładowe zastosowania rozkładu jednostajnego w przedziale <a, b> - wiążą się z faktem, iż prawdopodobieństwo przyjęcia przez zmienną losową X wartości z przedziału <a, b> jest jednakowe w całym przedziale - może opisywać np. czas oczekiwania podróżnego na przyjazd autobusu w pewnym mieście (rozkład jednostajny od 0 min do 15 min).
Rys. 1. Funkcja gęstości rozkładu jednostajnego w przedziale <a, b>.
Rozkład wykładniczy
Funkcja gęstości w rozkładzie wykładniczym określona jest następująco:
(71)
Dla rozkładu wykładniczego:
(72)
Rys. 2. Funkcja gęstości rozkładu wykładniczego.
Przykładowe zastosowania rozkładu wykładniczego - opisuje czas bezawaryjnej pracy badanego elementu.
Rozkład normalny
Wyrażenie „zmienna losowa X ma rozkład normalny z parametrami m i σ” zapisać można następująco: X∼N(m,σ), gdzie m - wartość oczekiwana zmiennej X, σ - odchylenie standardowe zmiennej X.
Funkcja gęstości rozkładzie normalnym określona jest następująco:
(73)
Dla rozkładu normalnego z parametrami m i σ
(74)
Wykresem gęstości rozkładu normalnego jest tzw. krzywa Gaussa. Krzywa Gaussa ma następujące własności:
kształt funkcji gęstości zależy od wartości dwóch parametrów: m i σ (m decyduje o przesunięciu krzywej, natomiast σ o smukłości krzywej)
jest symetryczna względem prostej x=m
w punkcie x=m osiąga wartość maksymalną (jednomodalność)
w x=m-σ oraz x=m+σ ma punkty przegięcia.
Rys. 3. Funkcje gęstości rozkładu normalnego o różnych parametrach m i σ.
Reguła trzech sigm: P (m - 3 σ ≤ X ≤ m + 3σ) = 0,997 ≈ 1
Prawdopodobieństwo, że zmienna losowa ciągła X przyjmie wartości z przedziału <m-3σ, m+3σ〉 wynosi w przybliżeniu 1.
Przy wykorzystaniu rozkładu normalnego w procedurze wnioskowania statystycznego często dokonuje się przekształcenia, zwanego standaryzacją, tak aby uniezależnić się od parametrów m i σ. Zamiast obserwowanej zmiennej losowej X wprowadzamy tzw. zmienną standaryzowaną T∼N(0,1), która jest zdefiniowana jako:
(75)
Dystrybuanta standaryzowanego rozkładu normalnego standaryzowanego jest stablicowana.
Rozkład chi-kwadrat
Rozkładem χ2 z k stopniami swobody nazywamy rozkład następującej sumy: X12+ X22+ ...+ Xk2, gdzie X1, X2, ..., Xk są niezależnymi zmiennymi losowymi o rozkładzie normalnym Xi∼N(0,1) dla i=1, 2, ..., k. Zmienna losowa χ2 przyjmuje wartości dodatnie i ma rozkład określony przez liczbę stopni swobody k.
Rys. 4. Funkcja gęstości rozkładu chi-kwadrat.
Dla rozkładu chi-kwadrat:
(76)
Przykładowe zastosowania rozkładu chi-kwadrat - w teorii niezawodności.
Rozkład t-Studenta
Jeżeli zmienna losowa X ma rozkład N(0,1), zmienna losowa Y ma rozkład χ2 o k stopniach swobody, a zmienne losowe X i Y są niezależne, to zmienna losowa
(77)
przyjmuje rozkład t-Studenta o k stopniach swobody. Rozkład tego typu po raz pierwszy otrzymał Goosset (pseudonim Student - stąd nazwa rozkładu).
Przykładowe zastosowania rozkładu t-Studenta - gdy cecha X populacji generalnej ma rozkład normalny, to posługując się rozkładem t-Studenta potrafimy wyznaczyć granice przedziału ufności dla oszacowania wartości przeciętnej populacji generalnej nawet wtedy, gdy dysponujemy małą próbą..
Rys. 5. Funkcja gęstości rozkładu t-Studenta.
Dla rozkładu t-Studenta:
(78)
Zadania
Zapoznaj się z tablicami statystycznymi zamieszczonymi w dowolnej pozycji literaturowej (dystrybuanta rozkładu normalnego standaryzowanego, rozkład χ2, rozkład t-Studenta).
Rozważ grę liczbową „Duży Lotek”, w której za pomocą maszyny losującej dokonuje się doboru sześciu liczb spośród czterdziestu dziewięciu. Wygrana pieniężna przysługuje, gdy trafimy „trójkę”, „czwórkę”, „piątkę” lub „szóstkę”. Weź pod uwagę, że trzeba zainwestować w zakup kuponu. Sporządź tabelę z rozkładem prawdopodobieństwa. Spróbuj wyznaczyć wartość oczekiwaną wygranej. Czy wartość oczekiwana wyszła dodatnia czy ujemna? Co to oznacza?
Liczba wyjazdów służbowych w ciągu miesiąca pracowników przedsiębiorstwa „Bob Budowniczy” jest zmienną losową skokową o następującym rozkładzie:
xi |
0 |
1 |
2 |
3 |
pi |
0,1 |
0,5 |
0,3 |
0,1 |
Naszkicować rozkład prawdopodobieństwa oraz dystrybuantę. Wyznaczyć wartość oczekiwaną oraz odchylenie standardowe.
Zysk netto (w tys. zł) osób prowadzących działalność gospodarczą jest zmienną losową X z funkcją gęstości:
obliczyć wartość oczekiwaną;
obliczyć odchylenie standardowe;
wyznaczyć dystrybuantę zmiennej losowej X;
obliczyć P(X≤1), P(2<X<3), P(X*2).
Wydajność kur niosek w pewnym kurniku jest zmienną losową o rozkładzie normalnym z wartością oczekiwaną równą 40 jaj/godzinę i odchyleniem standardowym 5 jaj/godzinę Oblicz prawdopodobieństwo, że:
wydajność pracy jest mniejsza od 50 jaj/godz.
wydajność pracy jest większa od 45 jaj/godz.
wydajność pracy jest zawarta w przedziale (35 jaj/godz.; 45 jaj/godz.).
6. Zmienna losowa X ma rozkład normalny N(0;1). Wykonać następujące obliczenia:
P(X < x0)=0,975 znaleźć x0;
P(X > x0)=0,05 znaleźć x0;
P(X<2,52)=...;
P(X>1,47)=....
7. Zmienna losowa X ma rozkład t-Studenta z pięcioma stopniami swobody (k=5). Wykonać następujące obliczenia:
P(X>0,559)=...;
P(X<0,920)=...;
P(X > x0)=0,05 znaleźć x0
P(X < x0)=0,975 znaleźć x0.
8. Zmienna losowa X ma rozkład chi-kwadrat z pięcioma stopniami swobody (k=5). Wykonać następujące obliczenia:
P(X>0,4118)=...;
P(X<9,2363)=...;
P(X < x0)=0,95 znaleźć x0;
P(X > x0)=0,05 znaleźć x0.
5. Elementy teorii estymacji
Podstawowe pojęcia
Proces uogólniania zaobserwowanych w próbie losowej wyników na całą zbiorowość statystyczną nazywamy wnioskowaniem statystycznym. Metody wnioskowania statystycznego obejmują estymację parametrów zbiorowości generalnej oraz weryfikację hipotez statystycznych.
Wnioskowanie statystyczne jako oparte na częściowej informacji dostarcza jedynie wniosków wiarygodnych. Dowolne dwie n-elenentowe próby z populacji są na ogół różne. Wygodnie jest zatem traktować ciąg liczbowy x1, x2, …, xn jako realizację ciągu X1, X2, …, Xn, gdzie Xi, i=1, 2, …, n, jest zmienną losową, której zbiorem możliwych wartości są wartości i-tego spośród n wylosowanych elementów. Ciąg zmiennych losowych X1, X2, …, Xn nazywa się n-elementową próbą losową, natomiast jeśli zmienne X1, X2, …, Xn są niezależne i każda z nich ma rozkład taki jak rozkład badanej cechy populacji, to próbę nazywamy próbą prostą.
Jednym z rodzajów wnioskowania jest estymacja. Estymacja (szacowanie, ocenianie) jest procesem wnioskowania o numerycznych wartościach nieznanych wielkości charakteryzujących populację generalną na podstawie danych próbkowych.
Estymatorem parametru
nazywa się statystykę
(94)
służącą do oszacowania nieznanej wartości parametru zbiorowości generalnej
.
Wyróżnia się dwa rodzaje estymacji:
estymację punktową, czyli metodę szacunku za pomocą której jako wartość parametru zbiorowości generalnej przyjmuje się konkretną wartość estymatora wyznaczonego na podstawie n-elementowej próby
estymację przedziałową, za pomocą której wyznacza się przedział liczbowy, który z ustalonym prawdopodobieństwem zawiera nieznana wartość szacowanego parametru zbiorowości generalnej. Prawdopodobieństwo to nosi nazwę współczynnika (poziomu) ufności i oznaczane jest jako 1-α, a znaleziony przedział nazywany jest przedziałem ufności.
Interpretacja poziomu ufności jest następująca: przy wielokrotnym pobieraniu prób n-elementowych i wyznaczaniu na ich podstawie granic przedziałów ufności, średnio w (1-α)⋅100% przypadków otrzymujemy przedziały pokrywające nieznaną wartość
.
Estymacja punktowa
Wartość liczbową
estymatora
policzoną na podstawie realizacji (x1, x2, …, xn) próby prostej (X1, X2, …, Xn) nazywamy oceną parametru Q.
Wyrażenie
nazywa się błędem szacunku, a jego miarą jest zwykle
. Wielkość błędu szacunku zależy od doboru próby i od wyboru możliwie najlepszego estymatora.
O wykorzystaniu estymatora dla dokonania oszacowania decydują jego własności, spośród których szczególnie pożądane są:
nieobciążoność
zgodność
efektywność.
Estymatorem zgodnym nazywamy estymator stochastycznie zbieżny do parametru estymowanego, tzn. taki, który dla każdego ε>0 spełnia równość:
(95)
Estymator nieobciążony to taki estymator, którego wartość oczekiwana jest równa estymowanemu parametrowi, tzn.
. Jeśli równość ta nie zachodzi, to estymator nazywa się obciążonym. Obciążeniem estymatora nazywamy wyrażenie
. Estymator, dla którego nazywamy estymatorem asymptotycznie nieobciążonym.
Estymator nieobciążony o najmniejszej wariancji nazywamy estymatorem najefektywniejszym. Efektywnością estymatora
nazywamy wyrażenie
(96)
gdzie
oznacza estymator najefektywniejszy.
Estymator, dla którego
nazywamy estymatorem asymptotycznie najefektywniejszym.
Estymator
jest dostateczny, jeżeli zawiera wszystkie informacje o parametrze
, które występują w próbie.
Korzystanie z estymatora posiadającego własności zgodności, nieobciążoności i będącego najbardziej efektywnym pozwala najlepiej oszacować nieznany parametr
, ponieważ z dużym prawdopodobieństwem można przyjąć, że wyznaczona ocena estymatora jest bliska rzeczywistej.
Podstawowymi parametrami, które szacowane są dla populacji generalnej są: wartość oczekiwana (średnia), wariancja, odchylenie standardowe, frakcja.
Nieobciążonym, zgodnym i efektywnym estymatorem wartości oczekiwanej (średniej) m w populacji jest średnia w próbie
(97)
Estymatorem zgodnym, ale obciążonym wariancji σ2 w populacji jest wariancja w próbie
(98)
Nieobciążonym i zgodnym estymatorem wariancji σ2 w populacji jest wyrażenie
(99)
W badaniach statystycznych często pojawia się problem oszacowania prawdopodobieństwa wystąpienia danego wariantu cechy (zwanego sukcesem) lub oszacowania, jaki procent zbiorowości generalnej posiada wyróżnioną cechę (ewentualnie wariant cechy). Jest to szczególnie ważne w przypadkach, gdy cecha opisująca zbiorowość jest cechą niemierzalną i podstawową charakterystyką populacji jest frakcja (procent) wyróżnionych elementów, zwana też wskaźnikiem struktury w populacji. Zadanie sprowadza się do estymacji parametru p w rozkładzie dwumianowym
(100)
W przypadku, gdy szacujemy p na podstawie n-elementowej próby prostej, estymatorem zgodnym, nieobciążonym i efektywnym jest częstość względna
(101)
gdzie k - liczba elementów wyróżnionych, zaobserwowanych w n-elementowej próbie.
Estymacja przedziałowa
Przypomnijmy, że interpretacja poziomu ufności jest następująca: przy wielokrotnym pobieraniu prób n-elementowych i wyznaczaniu na ich podstawie granic przedziałów ufności, otrzymujemy średnio w (1-α)⋅100% przypadków przedziały pokrywające nieznaną wartość
.
Wzrostowi deklarowanego poziomu ufności odpowiada wzrost przedziału ufności, co prowadzi do znanego paradoksu statystycznego, że im chcemy być bardziej ufni, tym jesteśmy mniej precyzyjni i odwrotnie. Wzrostowi ufności odpowiada wzrost długości przedziałów, a zatem spadek precyzji oszacowania parametru
. Dlatego też nie należy ustalać przesadnie wysokich prawdopodobieństw 1-α, bowiem może odpowiadać im zbyt niska precyzja oszacowań parametrów. Deklarowany poziom ufności zawiera się zazwyczaj w granicach od 0,90 do 0,99.
Przedziały ufności dla wartości przeciętnej m
Średnia wartość badanej cechy jest najczęściej stosowanym parametrem populacji generalnej. Estymatorem wartości przeciętnej jest średnia arytmetyczna z próby. Jest ona zmienną losową, ma swój rozkład i spełnia wszystkie własności dobrego estymatora. Konkretna wartość liczbowa średniej arytmetycznej jest punktową oceną wartości oczekiwanej. Dlatego też, wykorzystując rozkład średniej i deklarując poziom ufności 1-α, konstruujemy przedział ufności dla wartości przeciętnej. W zależności od przyjętych założeń, otrzymuje się konkretne przedziały ufności w oparciu o rozkład normalny lub rozkład t-Studenta.
Populacja generalna ma rozkład N(m, σ); σ - znane
Przedział ufności wyznaczamy na podstawie wzoru:
(102)
gdzie uα/2 - wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był spełniony warunek
(103)
Uwaga!
W zależności od typu tablic zawierających dystrybuantę rozkładu normalnego może zajść potrzeba skorzystania z innej zależności. (na przykład dla tablic zamieszczonych w S. Ostasiewicz, Z. Rusnak, U. Siedlecka, Statystyka. Elementy teorii i zadania, Wydawnictwo Akademii Ekonomicznej im. Oskara Langego, Wrocław 1997) .
Populacja generalna ma rozkład N(m, σ); σ - nie jest znane, próba - mała
Przedział ufności wyznaczamy na podstawie wzoru:
(104)
gdzie tα,n-1 - wartość odczytana z tablic rozkładu t-Studenta dla poziomu istotności α oraz n-1 stopni swobody, tak aby spełniony był warunek
(105)
Uwaga!
W zależności od typu tablic może zajść potrzeba skorzystania z innej zależności. Jeżeli korzystamy z tablic zbudowanych wyłącznie dla obszaru dwustronnego, chcąc ustalić wartość krytyczną dla obszaru jednostronnego, bierzemy podwojoną wartość poziomu istotności 2α.
Rozkład dowolny, σ - nie jest znana, próba - duża
Przedział ufności wyznaczamy na podstawie wzoru:
(106)
gdzie uα/2 - wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego.
Przedziały ufności dla wariancji i odchylenia standardowego
W badaniach statystycznych ze względu na cechę mierzalną do najczęściej szacowanych parametrów populacji obok średniej należy wariancja (lub odchylenie standardowe) badanej cechy. W zależności od przyjętych założeń, otrzymuje się konkretne przedziały ufności w oparciu o rozkład normalny lub rozkład χ2.
Populacja generalna ma rozkład N(m, σ); próba - mała
Przedział ufności wyznaczamy na podstawie wzoru:
(107)
(108)
gdzie:
wartości odczytane z tablic rozkładu chi-kwadrat dla n-1 stopni swobody w ten sposób, aby spełniały równości:
(109)
(110)
Populacja generalna ma rozkład N(m, σ); próba - duża
Przedział ufności wyznaczamy na podstawie wzoru:
(111)
(112)
gdzie uα/2 - wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego.
Przedziały ufności dla wskaźnika struktury (prawdopodobieństwa sukcesu, procentu, odsetka, frakcji)
Nie zawsze badanie statystyczne jest prowadzone ze względu na cechę mierzalną. Czasami badana cecha ma charakter jakościowy. Wtedy, zamiast wartości liczbowej badanej cechy, z badania próbnego uzyskujemy jedynie informację o tym, czy dany element populacji generalnej ma badaną, wyróżnioną cechę jakościową, czy też jej nie ma. Elementy możemy podzielić wówczas na dwie klasy:
posiadające daną cechę (tj. elementy wyróżnione)
nie posiadające danej cechy (tj. elementy niewyróżnione).
Podstawowym parametrem szacowanym w przypadku badań statystycznych ze względu na cechę niemierzalną jest frakcja elementów wyróżnionych w populacji, zwana także wskaźnikiem struktury w populacji. Wskaźnik struktury (frakcję) oznacza się zwykle literą p.
Podstawą konstrukcji przedziału ufności dla prawdopodobieństwa sukcesu p jest częstość występowania tego sukcesu, czyli k/n, gdzie k - liczba wystąpień sukcesu w n-elementowej próbie.
Przedział ufności wyznaczamy tylko na podstawie dużej próby (przyjmuje się nawet n≥100) ze wzoru:
(113)
gdzie uα/2 - wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego.
4) Wyznaczanie minimalnej liczebności próby
Wyznaczenie niezbędnej liczebności próby należy do podstawowych problemów badawczych. Chodzi bowiem o wyznaczenie takiej liczebności próby, która pozwala oszacować podstawowe parametry populacji generalnej z zakładaną dokładnością.
Można wskazać następujące sposoby określania liczebności próby:
badacz wybiera próbę na podstawie własnych osądów
liczebność próby jest określona poprzez minimalne liczby potrzebnych w tablicy kontyngencji obserwacji (porównaj testowanie hipotez nieparametrycznych - test niezależności χ2)
liczebność próby zostaje ograniczona w związku z kosztami (ograniczenia budżetowe)
ustalenie liczebności próby na podstawie określonego z góry poziomu precyzji (konstruowanie przedziałów ufności).
Praktyczna użyteczność wyznaczonych przedziałów ufności zależy od popełnianego maksymalnego błędu szacunku. Z kolei długość przedziału zależy od współczynnika ufności 1-α oraz liczebności próby n. W calu zapewnienia odpowiedniej dokładności estymacji przy zadanym poziomie ufności istnieje konieczność obliczania niezbędnej liczebności próby dla konstruowanych przedziałów ufności.
Niech cecha X na rozkład normalny N(m, σ). Minimalną liczebność próby, niezbędną do oszacowania wartości m na poziomie ufności 1-α, z maksymalnym błędem szacunku nie przekraczającym
, przy założeniu, że σ2 jest znane, obliczamy ze wzoru:
(114)
gdzie uα/2 - wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego.
Jeżeli σ2 nie jest znane, to na podstawie wstępnej próby liczącej n0 elementów, przedstawionych w postaci szeregu szczegółowego wyznacza się:
(115)
Z tablic rozkładu t-Studenta odczytujemy tα,n0-1 dla n0-1 stopni swobody, tak aby spełniony był warunek
(116)
Wówczas:
(117)
Uwagi!
Jeżeli n nie jest liczbą całkowitą, to wynik należy zaokrąglić w górę.
Jeżeli obliczona liczebność próby jest ze względów praktycznych za duża, to mniejszą liczebność otrzymamy zwiększając maksymalny błąd szacunku, a więc zmniejszając dokładność oszacowania.
Przykłady z rozwiązaniami
W wyniku badania przeprowadzonego na próbie losowo wybranych 17 studentów Wydziału Ekonomii i Zarządzania Politechniki Opolskiej, dotyczącego czasu przeznaczonego na naukę materiału do egzaminu z matematyki, okazało się, że średnio studenci przeznaczyli 30 godzin, a odchylenie standardowe dla próby wynosi s=5. Załóżmy, że rozkład czasu przygotowania do egzaminu jest normalny. Z wiarygodnością 95% wyznaczyć przedział ufności dla średniego czasu przygotowania do egzaminu z matematyki wśród studentów WEiZ Politechniki Opolskiej.
Rozwiązanie:
Populacja generalna ma rozkład N(m, σ); σ - nie jest znane, próba - mała (n=17), 1-α=0,95, s=5,
Z tablic rozkładu t-Studenta dla poziomu istotności α=0,05 oraz n-1=16 stopni swobody odczytujemy
Wyznaczamy przedział ufności:
Otrzymujemy następujący przedział ufności:
Wiadomo, że semestralne wydatki na zakup książek w całej populacji studentów WEiZ Politechniki Opolskiej mają rozkład normalny z odchyleniem standardowym wynoszącym 100 zł. Spośród wszystkich studentów WEiZ wylosowano 100 osób i stwierdzono, że dla tej próby średnia semestralna wydatków na zakup książek wynosi 400 zł. Oszacować na poziomie ufności 0,95 średnie semestralne wydatki na ksero wśród studentów WEiZ.
Rozwiązanie:
Populacja generalna ma rozkład N(m, σ); σ =100, próba - duża (n=100), 1-α=0,95
Z tablic dystrybuanty rozkładu normalnego standaryzowanego odczytujemy u0,025=1,96
Wyznaczamy przedział ufności:
Otrzymujemy następujący przedział ufności:
Wiadomo, że średnie semestralne wydatki na telefon wśród 25 losowo wybranych studentów Politechniki Opolskiej to 150 zł z odchyleniem standardowym wynoszącym s=50 zł. Załóżmy, że rozkład wydatków na telefon jest normalny. Dla 1-α=0,9 znaleźć przedział ufności dla odchylenia standardowego wydatków na telefon wśród studentów Politechniki Opolskiej.
Rozwiązanie:
Populacja generalna ma rozkład N(m, σ); próba - mała (n=25), 1-α=0,9, s=50,
Odczytujemy z tablic rozkładu chi-kwadrat dla n-1=24 stopni swobody wartości
Wyznaczamy przedział ufności:
Otrzymujemy następujący przedział ufności:
W grupie 1000 losowo wybranych studentów Politechniki Opolskiej 200 osób stwierdziło, że autobus jest dla nich jedynym środkiem dojazdu na zajęcia. Zbudować przedział ufności dla nieznanej frakcji osób, dla których autobus jest jedynym środkiem dojazdu na zajęcia wśród ogółu studentów PO. Przyjąć współczynnik ufności 0,95.
Rozwiązanie:
n=1000, k=200, 1-α=0,95. Z tablic dystrybuanty rozkładu normalnego standaryzowanego odczytujemy u0,975=1,96
Wyznaczamy przedział ufności:
Otrzymujemy następujący przedział ufności:
Jak liczną próbę należy wylosować spośród studentów dziennych WEiZ, aby oszacować przeciętne miesięczne wydatki na mieszkanie w Opolu lub dojazd do Opola z błędem nie przekraczającym 50 zł? Z poprzednich ustaleń wynika, że rozkład tych wydatków jest normalny, a odchylenie standardowe wynosi 100 zł. Przyjąć współczynnik ufności 0,9.
Rozwiązanie:
Populacja generalna ma rozkład N(m, σ); σ =100; 1-α=0,9. Z tablic dystrybuanty rozkładu normalnego standaryzowanego odczytujemy u0,05=1,64
Wyznaczamy minimalną liczebność próby:
Aby oszacować przeciętne miesięczne wydatki na mieszkanie w Opolu lub dojazd do Opola z błędem nie przekraczającym 50 zł należy przeprowadzić badanie wśród co najmniej 11 studentów dziennych WEiZ.
10
f(x)
x
f(x)
x
0