Rodzaje篸a艅 statystycznych

Rodzaje bada艅 statystycznych

Wyr贸偶nia si臋 badania :

  1. Pe艂ne ( ca艂kowite )

  2. Cz臋艣ciowe

Badania pe艂ne i cz臋艣ciowe mog膮 by膰 :

  1. Ci膮g艂e ( np. rejestracja urodze艅, zgon贸w, ma艂偶e艅stw, itp. )

  2. Okresowe ( np. spisy ludno艣ci , rolne, przemys艂u )

  3. Dora藕ne ( np. kl臋sk 偶ywio艂owych )

W艣r贸d bada艅 cz臋艣ciowych wyr贸偶nia si臋 :

  1. Badania reprezentacyjne ( s膮 bardzo warto艣ciowe, bo pozwalaj膮 z du偶ym prawdopodobie艅stwem uog贸lni膰 wyniki uzyskane ze zbiorowo艣ci pr贸bnej na ca艂膮 populacj臋 generaln膮, s膮 ta艅sze od bada艅 ca艂kowitych).

  2. Badania monograficzne ( obejmuj膮 obserwacj臋 grupy spo艂ecznej, wsi , miasta , przyk艂adem badania monograficznego jest badanie warunk贸w 偶ycia ludno艣ci w mie艣cie Rzeszowie w pewnym momencie lub w okresie)

  3. Badania ankietowe ( do艣膰 cz臋sto wykorzystywana metoda bada艅 , sprowadza si臋 g艂贸wnie do zbierania informacji pierwotnych, wa偶nym problemem jest wykszta艂cenie umiej臋tno艣ci dobrego opracowania ankiety, zestaw pyta艅 w kwestionariuszy ankietowym powinien by膰 umiej臋tnie sformu艂owany.

W Polsce badaniami ankietowymi zajmuj膮 si臋 takie instytucje jak : OBOP, CBOS, PPENTOR oraz inne o艣rodki naukowe.

Procedury dobru pr贸by

W badaniach statystycznych w praktyce pos艂ugujemy si臋 pr贸b膮 . Pr贸ba ma艂a gdy , gdy n>30 to mamy do czynienia z pr贸b膮 du偶膮 .

Od pr贸by wymaga si臋 , aby by艂a reprezentatywna. Na reprezentatywno艣膰 pr贸by maj膮 wp艂yw dwa czynniki :

  1. Spos贸b doboru pr贸by

  2. Liczebno艣膰 pr贸by

Wyr贸偶nia si臋 dwie procedury doboru pr贸by :

  1. Dob贸r celowy ( sprowadza si臋 do tego , 偶e o wyborze jednostek decyduje badacz, opieraj膮c si臋 na merytorycznej znajomo艣ci problematyki badawczej, pr贸ba ta nie podlega prawu wielkich liczb )

  2. Dob贸r losowy ( zgodny jest z zasadami doboru wed艂ug metody reprezentacyjnej, umo偶liwia zastosowanie metod statystyki matematycznej do wnioskowania, pr贸ba ma charakter losowy, gdy ka偶da jednostka populacji z jednakowym prawdopodobie艅stwem r贸偶nym od zera mo偶e si臋 w niej znale藕膰. Wyodr臋bniona pr贸ba podlega dzia艂aniu prawa wielkich liczb, co oznacza 偶e wraz ze wzrostem liczebno艣ci pr贸by losowej (n) ro艣nie stopie艅 jej reprezentatywno艣ci )

Przed pobraniem pr贸by wa偶ne jest okre艣lenie jednostki losowania Indywidualna jednostka losowania pokrywa si臋 z jednostk膮 badania, a zespo艂ow膮 jednostk膮 losowania , gdy nie pokrywa si臋 z jednostk膮 badania ( np. losuje si臋 mieszkania a bada si臋 ich osoby w nich zameldowane ).

Losowanie pr贸by okre艣la si臋 jako operat losowania , przez kt贸ry rozumie si臋 wykaz jednostek uwzgl臋dnionych przy losowaniu z mo偶liwo艣ci膮 ich identyfikacji Na przyk艂ad , takim operatem losowania dla populacji mieszka艅c贸w Rzeszowa jest spis ( ponumerowany) wszystkich mieszka艅c贸w tego miasta.

Spos贸b post臋powania przy doborze pr贸by losowej okre艣la si臋 mianem schematu losowania. Podstawowe schematy losowania to:

  1. losowanie indywidualne

  2. losowanie nieograniczone ze zwracaniem ( zwane inaczej niezale偶nym lub zwrotnym )

  3. losowanie nieograniczone bez zwracania ( inaczej okre艣lane jako zale偶ne )

  4. losowanie warstwowe

  5. losowanie systematyczne

  6. losowanie grupowe

Klasyfikacja cech statystycznych

Cechy statystyczne mo偶na podzieli膰 na:

  1. ilo艣ciowe ( mierzalne, kwantytatywne ) 鈥 mo偶na je zmierzy膰 i wyrazi膰 za pomoc膮 odpowiednich jednostek fizycznych ( np. kg, m, szt, t )

  2. jako艣ciowe ( kwalitatywne) 鈥 zwykle s膮 okre艣lane s艂ownie np. p艂e膰, standard mieszkania, pochodzenie spo艂eczne, rodzaj kredytu itp.

Cechy ilo艣ciowe okre艣la si臋 jako zmienne, kt贸re mo偶na podzieli膰 na :

Cecha skokowa przyjmuje sko艅czony i przeliczalny zbi贸r warto艣ci na danej skali liczbowej , przy czym jest to najcz臋艣ciej zbi贸r liczb ca艂kowitych nieujemnych ( np. liczba dzieci w rodzinie , liczba usterek w konkretnym produkcie , wielko艣膰 gospodarstwa domowego itp. )

Cecha ci膮g艂a przyjmuje wszystkie liczby rzeczywiste z okre艣lonego przedzia艂u liczbowego < a , b > , przy czym liczba miejsc po przecinku jest uzale偶niona od dok艂adno艣ci pomiar贸w ( np. wiek , p艂aca, wzrost, plon pszenicy itp. )

Wyst臋puje r贸wnie偶 podzia艂 cech na :

Dla potrzeb pomiaru cech stosuje si臋 cztery rodzaje skal : nominaln膮 , porz膮dkow膮, interwa艂ow膮 i ilorazow膮 .

Skala nominalna 鈥 skala stosuj膮ca wy艂膮cznie opis s艂owny dla potrzeb identyfikacji jednostki. Np. kobieta i m臋偶czyzna . Nie s膮 mo偶liwe dzia艂ania arytmetyczne na danych opisanych na skali nominalnej.

Skala porz膮dkowa 鈥 s艂u偶膮ca do porz膮dkowania danych. Na przyk艂ad ranking szk贸艂 wy偶szych z punktu widzenia ich atrakcyjno艣ci.

Skala interwa艂owa - skala maj膮ca w艂asno艣ci skali porz膮dkowej, gdy偶 mo偶liwe jest porz膮dkowanie jednostek statystycznych opisanych w tej skali , a jednocze艣nie jest mo偶liwe okre艣lenie interwa艂u ( przedzia艂u ) liczbowego, w kt贸rym zawieraj膮 si臋 obserwacje.

Skala ilorazowa 鈥 skala ma cechy skali interwa艂owej, a ponadto iloraz ma tutaj okre艣lon膮 interpretacj臋. Dane opisane w skali ilorazowej przyjmuj膮 zawsze warto艣ci liczbowe, np. waga itp.

Szeregi statystyczne

Materia艂 liczbowy , otrzymany w wyniku przeprowadzonej obserwacji statystycznej lub pomiaru, po opracowaniu i pogrupowaniu nazywamy szeregiem strukturalnym, charakteryzuje on zbiorowo艣膰 statystyczn膮 pod wzgl臋dem wyr贸偶nionej cechy jako艣ciowej i ilo艣ciowej.

Wyr贸偶nia si臋 dwa typy grupowania : grupowanie typologiczne ( wed艂ug cechy jako艣ciowej ) oraz grupowanie wariancyjne ( wed艂ug cechy ilo艣ciowej )

Szeregiem szczeg贸艂owym prostym nazywamy uporz膮dkowany nierosn膮co lub niemalej膮co ci膮g warto艣ci badanej zmiennej. Oznaczmy symbolem X badan膮 zmienn膮 , symbolem xi ( i=1,2,...,n) warto艣膰 tej zmiennej odpowiadaj膮c膮 i-tej jednostce statystycznej. Za艂贸偶my, 偶e badano n jednostek statystycznych. Ci膮g warto艣ci tej zmiennej ;

x1 , x2, ..., xn

okre艣la si臋 szeregiem szczeg贸艂owym prostym, je艣li w powy偶szym ci膮gu ka偶dy nast臋pny element nie jest mniejszy od poprzedniego.

Przyk艂ad 1.

Za艂贸偶my , 偶e w pewnej miejscowo艣ci poddano obserwacji 16 rodzin ze wzgl臋du na liczb臋 dzieci i otrzymano nast臋puj膮ce wyniki :

0,1,1,2,2,3,3,3,4,4,4,5,5,6,6,7

Powy偶szy ci膮g warto艣ci jest uporz膮dkowany niemalej膮co, jest wi臋c szeregiem szczeg贸艂owym prostym. W tym przypadku jednostk膮 statystyczn膮 jest rodzina, a cech膮 liczba dzieci w rodzinie

W艣r贸d szereg贸w strukturalnych cechy ilo艣ciowej wyr贸偶nia si臋 szereg szczeg贸艂owy wa偶ony oraz rozdzielczy.

Szereg szczeg贸艂owy wa偶ony

Za艂贸偶my, 偶e w艣r贸d danych zawartych w szeregu szczeg贸艂owym prostym wyr贸偶niono k r贸偶nych warto艣ci. Nast臋pnie grupujemy jednostki statystyczne odpowiadaj膮ce jednakowym warto艣ciom cechy. Post臋puj膮c w ten spos贸b otrzymujemy wyniki, kt贸re mo偶na zaprezentowa膰 w poni偶szej tablicy

Tab. 1 Wyniki grupowania statystycznego

Warto艣ci cechy

xi

Liczebno艣膰

f i

Cz臋sto艣膰 wzgl臋dna

fi / n

x1

x2

.

.

.

xk

f1

f2

.

.

.

fk

f1 / n

f2 / n

.

.

.

fk / n

Razem

殴r贸d艂o; opracowanie w艂ane

Druga i trzecia kolumna tej tablicy charakteryzuje struktur臋 zbiorowo艣ci n- elementowej pod wzgl臋dem cechy X. Symbolem fi oznaczamy liczb臋 jednostek statystycznych , dla kt贸rych warto艣膰 cechy przyj臋艂a warto艣膰 xi ( i = 1,2,...,n). Warto艣膰 t臋 nazywamy liczebno艣ci膮. Trzecia kolumna zawiera wielko艣ci zwane liczebno艣ciami wzgl臋dnymi lub frakcjami. Suma tych wielko艣ci jest r贸wna 1. Mno偶膮c te wielko艣ci przez 100, otrzymujemy cz臋sto艣ci w procentach . Cz臋sto艣ci wzgl臋dne s膮 wielko艣ciami niemianowanymi. Mog膮 by膰 wykorzystane do por贸wna艅 struktur zbiorowo艣ci r贸偶ni膮cych si臋 liczebno艣ciami. Liczebno艣ci lub cz臋sto艣ci zawarte w przedostatniej i ostatniej kolumnie tej tablicy charakteryzuj膮 rozk艂ad element贸w zbiorowo艣ci pod wzgl臋dem danej cechy , lub rozk艂ad cechy.

Szereg rozdzielczy

Obszar zmienno艣ci warto艣ci cech dzielimy na roz艂膮czne przedzia艂y w postaci

dla i=1,2,...,k. S膮 to przedzia艂y prawostronnie otwarte. Jednostki statystyczne , kt贸rych warto艣ci cechy przedstawia szereg szczeg贸艂owy prosty grupujemy wykorzystuj膮c przedzia艂y, kt贸re nazywa膰 b臋dziemy przedzia艂ami klasowymi lub klasami. Wyniki grupowania zawiera poni偶sza tablica

Tab.2 Wyniki grupowania statystycznego

Przedzia艂 klasowy Liczebno艣膰 艣rodek przedzia艂u klasowego Cz臋sto艣膰 wzgl臋dna

.

.

.

.

.

.

.

.

.

.

.

.

Razem

殴r贸d艂o: Opracowanie w艂asne

Warto艣膰 艣rodkow膮 oblicza si臋 wed艂ug nast臋puj膮cej formu艂y :

( i=1,2,...,k)

Przy budowie szeregu rozdzielczego nale偶y sobie odpowiedzie膰 na nast臋puj膮ce pytania :

  1. czy d艂ugo艣ci przedzia艂贸w maj膮 by膰 jednakowe ?

  2. na ile klas nale偶y podzieli膰 obszar zmienno艣ci ?

W praktyce bada艅 statystycznych wygodnie jest, gdy przedzia艂y klasowe s膮 jednakowej d艂ugo艣ci. W przypadku , gdy przedzia艂y nie s膮 jednakowej d艂ugo艣ci, do opisu struktury zbiorowo艣ci wykorzysta膰 nale偶y tzw. g臋sto艣膰 liczebno艣ci, definiowan膮 za pomoc膮 nast臋puj膮cego wzoru :

( i=1,2,...,n )

gdzie w mianowniku mamy d艂ugo艣膰 i-tego przedzia艂u, w liczniku za艣 odpowiadaj膮c膮 mu liczebno艣膰.

W badaniach statystycznych brak jest jednoznacznych kryteri贸w umo偶liwiaj膮cych w spos贸b jednoznaczny odpowiedzie膰 na pytanie o liczb臋 klas w szeregu rozdzielczym.

J. Sp艂awa Neyman zaleca艂 przy tworzeniu szereg贸w rozdzielczych podzia艂 obszaru zmienno艣ci na oko艂o 10 鈥 20 klas, w zale偶no艣ci od liczebno艣ci zbiorowo艣ci.

Oznaczmy symbolem 鈥 h 鈥 d艂ugo艣膰 przedzia艂u klasowego. Za艂贸偶my, 偶e wszystkie przedzia艂y maj膮 mie膰 r贸wn膮 d艂ugo艣膰. W tym przypadku najcz臋艣ciej zaleca si臋, aby d艂ugo艣膰 przedzia艂u oblicza膰 za pomoc膮 nast臋puj膮cej formu艂y :

( i=1,...,n)

gdzie : w liczniku jest zakres zmienno艣ci warto艣ci cechy, w mianowniku za艣 liczba wymaganych klas.

Je艣li decydujemy si臋 na budow臋 przedzia艂贸w klasowych , to nara偶amy si臋 na pewn膮 strat臋 informacji dotycz膮cych pojedynczych wynik贸w. Im wi臋ksza jest rozpi臋to艣膰 przedzia艂u klasowego, tym ta strata mo偶e by膰 bardziej dotkliwa.

Przedzia艂y klasowe zapisuje si臋 zazwyczaj z dok艂adno艣ci膮 do przyj臋tej jednostki pomiarowej. Mo偶na budowa膰 rozk艂ady ( szeregi ) z przedzia艂ami klasowymi domkni臋tymi lub otwartymi.

Rozst臋p wynosi R= Xmax 鈥 Xmin . Rozst臋p charakteryzuje jedynie wst臋pnie dyspersj臋 badanego rozk艂adu.

Odchylenie 膰wiartkowe wyra偶one jest nast臋puj膮cym wzorem :

Najpierw nale偶y obliczy膰 kwartyl trzeci i kwartyl pierwszy.

Grupy dochod贸w miesi臋cznych

na gospodarstwo domowe

Liczba kobiet

W %

Szereg

skumulowany

0,5 鈥 1,0 0,9 0,9
1,0 鈥 1,5 4,0 4,9
1,5 鈥 2,0 8,8 13,7
2,0 鈥 3,0 21,5 35,2 Q1
3,0 鈥 4,0 23,5 58,7 Q2
4,0 鈥 5,0 20,3 79,0 Q3
5,0 鈥 6,0 10,8 89,8
6,0 鈥 7,0 5,2 95,0
7,0 鈥 8,0 2,8 97,8
8,0 鈥 9,0 2,2 100,0

Wzory:

Odchylenie 膰wiartkowe wynosi :

Oznacza to , 偶e 艣rednio miesi臋czne dochody kobiet r贸偶ni膮 si臋 od mediany o ty艣. z艂.

Mediana dla badanego rozk艂adu wynosi :

Wsp贸艂czynnik zmienno艣ci ( wzgl臋dna miara dyspersji )wynosi:

Oznacza to , 偶e 31,32 % mediany dochod贸w kobiet stanowi odchylenie standardowe.

Wyznaczenie dominanty wed艂ug wzoru :

Podstawowym miernikiem asymetrii jest r贸偶nica mi臋dzy 艣redni膮 arytmetyczn膮 a dominant膮, czyli :

Znak 鈥 鈥 鈥 przy warto艣ci miernika oznacza asymetri臋 lewostronn膮 , znak 鈥+鈥 asymetri臋 prawostronn膮.

W rozpatrywanym przyk艂adzie mamy do czynienia z asymetri膮 prawostronn膮 , co oznacza , 偶e przewaga liczebno艣ci wyst臋puje w przedzia艂ach klasowych poni偶ej 艣redniej arytmetycznej.

O sile i kierunku symetrii m贸wi膮 wsp贸艂czynniki asymetrii. Wsp贸艂czynnik asymetrii Pearsona wyznacza si臋 wed艂ug formu艂y :

Wsp贸艂czynnik asymetrii wykazuje sko艣no艣膰 prawostronn膮.

Gdy rozk艂ad jest symetryczny to , Vs = 0

Gdy rozk艂ad jest asymetryczny 鈥 prawostronny., to Vs > 0

Gdy rozk艂ad jest asymetryczny 鈥 lewostronny , to Vs < 0

Wsp贸艂czynnik贸w asymetrii jest kilka, a zastosowanie ich jest uzale偶nione od charakteru badanego szeregu i mo偶liwo艣ci wyliczenia poszczeg贸lnych parametr贸w.

Miar膮 asymetrii jest r贸wnie偶 wsp贸艂czynnik sko艣no艣ci obliczony na podstawie dominanty i mediany, wed艂ug wzoru :

Miar膮 asymetrii mo偶e by膰 tak偶e moment trzeci centralny. Dla rozk艂adu przedzia艂owego ma on posta膰 nast臋puj膮c膮:

Tablica pomocnicza do wyznaczenia momentu trzeciego centralnego

0,75 0,9 -3,063 -25,863
1,25 4,0 -2,563 -67,344
1,75 8,8 -2,063 -77,263
2,50 21,5 -1,313 -48,665
3,50 23,5 -0.313 -0,720
4,50 20,3 0,687 6,581
5,50 10,8 1,687 51,851
6,50 5,2 2,687 100,879
7,50 2,8 3,687 140,336
8,50 2,2 4,687 226,519
Razem 100 306,313

Dla badanego szeregu moment trzeci centralny wynosi :

Moment trzeci centralny mo偶na r贸wnie偶 zapisa膰 w postaci moment贸w zwyk艂ych w spos贸b nast臋puj膮cy:

gdzie :

Dla szeregu wynosz膮 odpowiednio :

wobec tego otrzymujemy :

Miar膮 wzgl臋dn膮 asymetrii jest nast臋puj膮ca formu艂a :

Dla rozpatrywanego szeregu wynosi :

Rozk艂ad ma asymetri臋 prawostronn膮 o nat臋偶eniu 0,66.

Dla szereg贸w dok艂adnie symetrycznych m3=0. W przypadku asymetrii prawostronnej m3 > 0, lewostronnej za艣 m3 < 0.

Przyk艂ad 3.

Zbi贸r wojew贸dztw , w kt贸rym cech膮 badania by艂a ich powierzchnia, zosta艂 opisany przy u偶yciu podstawowych charakterystyk liczbowych tj 艣redniej arytmetycznej, kt贸ra wynosi 6,286 ty艣. km2 oraz odchylenia standardowego ,kt贸re jest r贸wne 2, 138 ty艣, km2.W celu dok艂adniejszego opisu rozk艂adu tej zbiorowo艣ci nale偶y wyznaczy膰 miary koncentracji.

Powierzchnia

W ty艣. km2

Liczba

Wojew贸dz.

1-3 1 2 -4,286 337,449405
3-5 14 4 -2,286 382,325213
5-7 18 6 -0,286 0,12043
7-9 10 8 1,714 86,306453
9-11 5 10 3,714 951,344040
11-13 1 12 5,714 1066,009178
49 2823,554720

Wzgl臋dna miara koncentracji to stosunek momentu centralnego czwartego rz臋du przez odchylenie standardowe do pot臋gi czwartej, czyli :

Im wy偶sza warto艣膰 K , tym bardziej wysmuk艂a jest krzywa liczebno艣ci , co wskazuje na tendencj臋 do skupienia si臋 jednostek wok贸艂 艣redniej. Ma艂e warto艣ci wskazuj膮 na sp艂aszczenie krzywej rozk艂adu , a zatem s艂ab膮 koncentracj臋. Zak艂ada si臋 ,偶e dla rozk艂adu normalnego K=3, dla bardziej od niego sp艂aszczonego K < 3 oraz dla wysmuk艂ego K > 3. W zwi膮zku z powy偶szym skonstruowany wsp贸艂czynnik koncentracji o postaci :

przyjmuje warto艣膰 zero, je偶eli rozk艂ad ma kszta艂t normalny ,Ku > 0 , je偶eli rozk艂ad jest bardziej wysmuk艂y, oraz Ku < 0 , gdy rozk艂ad jest sp艂aszczony w stosunku do rozk艂adu normalnego.

Koncentracja w por贸wnaniu z krzyw膮 normaln膮 jest s艂absza, a zatem rozk艂ad jest sp艂aszczony.

Inn膮 miar膮 koncentracji jest wsp贸艂czynnik koncentracji Lorenca. Zjawisko koncentracji mo偶e by膰 rozwa偶ane jako nier贸wnomierny podzia艂 og贸lnej sumy warto艣ci zmiennej x pomi臋dzy poszczeg贸lne jednostki zbiorowo艣ci statystycznej. Ma to miejsce przy badaniu dochod贸w, koncentracji produkcji, g臋sto艣ci zaludnienia, rozmieszczenia bogactw naturalnych itp. Tak rozumiana koncentracja jest zwykle przedstawiana i mierzona za pomoc膮 krzywej koncentracji Lorenza. Kszta艂t krzywej okre艣la nat臋偶enie koncentracji. Wsp贸艂czynnik koncentracji Lorenza ( KL ) mo偶na wyrazi膰 za pomoc膮 wzoru:

gdzie :

a 鈥 pole zawarte mi臋dzy lini膮 r贸wnomiernego podzia艂u a krzyw膮 Lorenza

b 鈥 pole pod krzyw膮 Lorenza

a+b 鈥 pole tr贸jk膮ta

Wyznaczenie pola a nie jest 艂atwe. Cz臋艣ciej wyznaczamy przybli偶on膮 warto艣膰 pola b, buduj膮c w tym celu w uk艂adzie wsp贸艂rz臋dnych prostok膮ty o podstawie r贸wnej wska藕nikowi struktury dla liczby jednostek znajduj膮cych si臋 w przedziale, a wysoko艣膰 jest 艣redni膮 ze skumulowanych warto艣ci wska藕nik贸w struktury wielko艣ci badanego zjawiska grupy badanej i poprzedniej. Obliczenie powierzchni pola b mo偶na opisa膰 nast臋puj膮cym wzorem:

gdzie :

skum.Wi 鈥 kolejne skumulowane warto艣ci wska藕nik贸w struktury wielko艣ci badanego zjawiska

- kolejne warto艣膰i wska藕nik贸w struktury dla liczby badanych jednostek

Wsp贸艂czynnik ten jest wzgl臋dn膮 miar膮 koncentracji zjawiska. W praktyce zawiera si臋

Przyk艂ad 4.

Struktura zatrudnienia w badanych firmach zosta艂a scharakteryzowana za pomoc膮 nast臋puj膮cych liczb zawartych w poni偶szej tablicy. Nale偶y okre艣li膰 stopie艅 koncentracji zatrudnienia w badanych firmach w 1995 roku .

Liczba zatrudnionych

pracownik贸w

w badanych firmach

Firmy

w %

Zatrudnienie

w %

do 4 37,7 1,0
5 - 10 20,5 2,0
11-15 7,2 1,3
16 - 50 17,4 7,0
51 -100 7,0 6,8
101 - 200 4,3 8,2
201 - 500 3,1 13,2
501 -1000 1,5 14,3
1001 - 2000 0,7 13,7
2001 - 5000 0,4 17,7
5001 i wi臋cej 0,2 14,8
100 100

殴r贸d艂o: Dane umowne

Tablica pomocnicza do wyznaczenia do wyznaczenia wsp贸艂czynnika Lorenza

Firmy w % Zatrudnienie w % Skum. Skum.
37,7 1,0 37,7 1,0 (1+0)/2=0,5 0.5*37,7=18,85
20,5 2,0 58,2 3,0 ( 3,0+1,0)/2=2,0 2,0*20,5=41,00
7,2 1,3 65,4 4,3 ( 4,3+3,0)/2=3,65 3,65*7,2=26,28
17,4 7,0 82,8 11,3 ( 11,3 + 4,3 ) /2=7,80 7,80*17,4=135,72
7,0 6,8 89,8 18,1 14,7 102,90
4,3 8,2 94,1 26,3 22,20 95,46
3,1 13,2 97,2 39,5 32,90 101,99
1,5 14,3 98,7 53,8 46,65 69,975
0,7 13,7 99,4 67,5 60,65 42,455
0,4 17,7 99,8 85,2 76,35 30,54
0,2 14,8 100,0 100,0 92,80 18,52
100 100 683,69

殴r贸d艂o: Obliczenia w艂asne

Obliczona powierzchnia b wynosi 683,69, wobec tego wsp贸艂czynnik koncentracji wynosi:

Pole tr贸jk膮ta ( a + b)=5000, wobec tego

Oznacza to do艣膰 wysok膮 koncentracj臋 badanego zjawiska.

Inn膮 miar膮 koncentracji jest wsp贸艂czynnik koncentracji Lorenza. Mo偶e by膰 on wykorzystywany do bada艅 w zakresie koncentracji w艂asno艣ci ziemskiej, bogactw naturalnych czy kapita艂u. Punktem wyj艣cia do ilo艣ciowego badania koncentracji jest ustalenie, w jaki spos贸b rozk艂ada si臋 og贸lna suma warto艣ci badanej cechy na poszczeg贸lne jednostki zbiorowo艣ci statystycznej.

Do oceny stopnia nat臋偶enia tak rozumianej koncentracji stosuje si臋 krzyw膮 koncentracji lub krzyw膮 Lorenza. Kszta艂t linii 艂amanej okre艣la nat臋偶enie koncentracji Je偶eli na ka偶d膮 jednostk臋 zbiorowo艣ci przypada taka sama cz臋艣膰 og贸lnej sumy warto艣ci cechy , to zamiast krzywej koncentracji otrzymamy lini臋 prost膮 przechodz膮c膮 przez pocz膮tek uk艂adu wsp贸艂rz臋dnych pod k膮tem 纬=45 w stosunku do osi odci臋tych. Jest to tzw. Linia r贸wnomiernego rozk艂adu warto艣ci cechy dla poszczeg贸lnych jednostek zbiorowo艣ci.

Stosunek pola zawartego mi臋dzy krzyw膮 koncentracji a lini膮 r贸wnomiernego rozk艂adu do og贸lnego pola tr贸jk膮ta nosi nazw臋 wsp贸艂czynnika koncentracji Lorenza.Mo偶na go wyznaczy膰 w spos贸b nast臋puj膮cy:

gdzie :

a 鈥 powierzchnia pola zawartego mi臋dzy krzyw膮 koncentracji a lini膮 r贸wnomiernego rozk艂adu

b 鈥 powierzchnia pola le偶膮cego pod krzyw膮 koncentracji

Wsp贸艂czynnik ten zawiera si臋 w przedziale [ 0, 1 ]. Procedur臋 wyznaczania wsp贸艂czynnika przedstawimy na przyk艂adzi

Przyk艂ad 4.Na podstawie danych dotycz膮cych os贸b pobieraj膮cych renty z tytu艂u niezdolno艣ci do pracy wed艂ug wysoko艣ci 艣wiadcze艅 we wrze艣niu 1997 roku nale偶y oceni膰 stopie艅 koncentracji wysoko艣ci 艣wiadcze艅 z ubezpieczenia spo艂ecznego.

Obliczenia pomocnicze do wyznaczenia wsp贸艂czynnika koncentracji.

Wysoko艣膰

艢wiadczenia

Brutto

Z ubezp.spo艂.

Liczba

Pobier. Renty

Z tytu艂.niezd.

Do pracy

ni

艁膮czna

Wysok.

艢wiadcz.

Brutto

Odsetki

Liczby

Pobier.

Renty

Odsetki

艁膮czn.

Wysok.

艢wiadcz.

Skum. Skum.

Pole

figury b

400-450 255,6 108 630,0 0,159 0,101 0,159 0,101 0.0080
450-500 387,5 184 062,5 0,241 0,172 0,400 0,273 0.0451
500-550 191,0 100 275,0 0,119 0,093 0,518 0,366 0.0379
550 -600 142,6 81 955,0 0,089 0,076 0,607 0,443 0,0359
600-650 104,9 65 562,5 0,065 0,061 0,672 0,504 0,0309
650-700 88,8 59 940,0 0,055 0,056 0,727 0,560 0,0294
700-750 61,9 44 877,5 0,038 0,042 0,766 0,602 0,0223
750-800 48,4 37 510,0 0.030 0,035 0,796 0,636 0,0186
800-900 72,6 62 710,0 0,0,45 0,058 0,841 0,694 0,0300
900-1 000 48,4 45 980,0 0,030 0,043 0,871 0,737 0,0215
1 000 鈥 1 100 40,3 42 315,0 0,025 0,039 0,896 0,776 0,0190
1 100 - 1 200 29,6 34 040,0 0,018 0,032 0,915 0,808 0,0146
1 200 鈥 1 300 29,6 37 000,0 0,018 0,034 0,933 0,843 0,0152
1 300 鈥 1 400 29,6 39 960,0 0,018 0,037 0,952 0,880 0,0158
1 400 鈥 1 500 16,1 23 345,0 0,010 0,022 0,962 0,902 0,0089
1 500 鈥 1 600 10,7 16 585,0 0,007 0,015 0,968 0,917 0,0060
1 600 鈥 1 700 5,6 9 240,0 0,003 0,009 0,972 0,926 0,0032
1 700 鈥 1 800 45,6 79 800,0 0,028 0,074 1,000 1,000 0,0273
Og贸艂em 1 608,8 1 072 828,5 1,000 1,000 0,3896

Zalia艣 A. : Metody statystyczne. PWE, Warszawa, s.75.

Pole figury b pod krzyw膮 Lorenza , mo偶na w przybli偶eniu wyznaczy膰 w spos贸b nast臋puj膮cy:

gdzie :

cum zi 鈥 wzgl臋dna warto艣膰 szeregu skumulowanego obliczonego w spos贸b nast臋puj膮cy

wi - liczebno艣ci wzgl臋dne obliczone nast臋puj膮co: , przy czym

W naszym przyk艂adzie mamy :

a=0,5-0,3896=0,1104

Uzyskany wynik wskazuje na s艂aby stopie艅 koncentracji, co odpowiada r贸wnomiernemu podzia艂owi 艂膮cznej wysoko艣ci 艣wiadczenia brutto z ubezpieczenia spo艂ecznego mi臋dzy pobieraj膮cych renty z tytu艂u niezdolno艣ci do pracy.

Rachunek prawdopodobie艅stwa

  1. Kr贸tki rys historyczny

  2. Podstawowe wiadomo艣ci o zdarzeniach

  3. Poj臋cie prawdopodobie艅stwa

  4. Podstawowe twierdzenia rachunku prawdopodobie艅stwa

!. Krotki rys historyczny

Rachunek prawdopodobie艅stwa jest dziedzin膮 matematyki. Z rachunkiem prawdopodobie艅stwa zwi膮zane s膮 takie nazwiska francuskich matematyk贸w jak : B.Pascal ( 1623 鈥 1662 ) i P. Fermat ( 1601 鈥 1661 ).

Du偶y wk艂ad w rozw贸j tej dyscypliny przypisuje si臋 r贸wnie偶 szwajcarskiemu matematykowi J. Bernoulliemu ( 1654 鈥 1705.W pracy 鈥 Traktat o sztuce przewidywania 鈥 mo偶na znale藕膰 podstawowe twierdzenia rachunku prawdopodobie艅stwa zwane 鈥 prawem wielkich liczb 鈥. Wielkie zas艂ugi w rozw贸j teorii prawdopodobie艅stwa po艂o偶y艂 r贸wnie偶 P.S. Laplace ( 1749 鈥 1705 ) oraz K.F. Gauss ( 1777 鈥 1855 ). Gauss uwa偶any jest za tw贸rc臋 teorii b艂臋d贸w obserwacji i metody najmniejszych kwadrat贸w. Na uwag臋 zas艂uguje nazwisko S.D. Poissona ( 1781 鈥1840 ), francuskiego matematyka , kt贸rego imieniem zosta艂 nazwany jeden z najwa偶niejszych rozk艂ad贸w statystycznych.

Studiuj膮c histori臋 rachunku prawdopodobie艅stwa wa偶ne wydaje si臋 wymienienie prac cz艂onka Petersburskiej Akademii Nauk , szwajcara z pochodzenia , L. Eulera ( 1707 鈥 1783) Ca艂ki Eulera nazywa si臋 tzw. Funkcj膮 gamma i funkcj膮 beta. Funkcje te maj膮 du偶e zastosowanie w statystyce matematycznej.

Za tw贸rc臋 rosyjskiej szko艂y probabilistycznej uzna膰 nale偶y P. Czejbyszewa (1821 鈥 1894) Wybitni matematycy radzieccy, A. Ko艂mogorow, N. Smirnow i inni stworzyli radzieck膮 szko艂臋 teorii prawdopodobie艅stwa, kt贸ra nale偶y do czo艂owych w 艣wiecie.

Osi膮gni臋cia wsp贸艂czesnej probabilistyki w Polsce s膮 zwi膮zane z imieniem profesora Uniwersytetu Wroc艂awskiego H.Steinhausa i jego uczni贸w.

Zmienna losowa jest to zmienna, kt贸ra przyjmuje r贸偶ne warto艣ci liczbowe, wyznaczone przez los.

Zmienn膮 losow膮 mo偶na traktowa膰 jako pewn膮 funkcj臋 okre艣lon膮 na przestrzeni pr贸by zwi膮zanej z eksperymentem. Przyporz膮dkowanie prawdopodobie艅stw r贸偶nym mo偶liwym warto艣ci膮 zmiennej losowej, czyli 鈥瀙robabilistyczne prawo rz膮dz膮ce zmienn膮 losow膮 鈥 nazywamy rozk艂adem prawdopodobie艅stwa zmiennej losowej.

Zmienna losowa mo偶e by膰 :

Zmienna losowa jest skokowa ( dyskretna ), gdy mo偶e przyjmowa膰 warto艣ci ze zbioru najwy偶ej przeliczalnego.

Zmienna losowa ci膮g艂a mo偶e przyjmowa膰 warto艣ci z dowolnego przedzia艂u liczbowego. Mo偶liwe warto艣ci takiej zmiennej tworz膮 zbi贸r nieprzeliczalnie niesko艅czony.

Rozk艂adem prawdopodobie艅stw zmiennej losowej skokowej, zwanym te偶 funkcj膮 rozk艂adu masy prawdopodobie艅stwa jest tablica, wz贸r lub wykres, kt贸ry przyporz膮dkowuje prawdopodobie艅stwa ka偶dej mo偶liwej warto艣ci zmiennej.

Zmienne losowe b臋dziemy oznacza膰 du偶ymi literami, najcz臋艣ciej liter膮 X, chocia偶 mog膮 by膰 u偶yte inne litery. Ma艂ych liter b臋dziemy u偶ywa膰 do oznaczenia poszczeg贸lnych warto艣ci przybieranych przez zmienne losowe. Zapis P(X=x) oznacza prawdopodobie艅stwo, 偶e zmienna losowa X przyjmuje pewn膮 okre艣lon膮 warto艣膰 x. Na przyk艂ad zapis P(X=5)=0,2 oznacza, 偶e prawdopodobie艅stwo , i偶 zmienna losowa X przyjmuje warto艣膰 5 jest r贸wne 0,2. Mo偶na u偶ywa膰 skr贸conych zapis贸w, np. P(5)=0,2

Rozk艂ad prawdopodobie艅stwa skokowej zmiennej losowej X spe艂nia nast臋puj膮ce warunki

dla wszystkich warto艣ci x ( 1 )

( 2 )

Przyk艂ad 1. Za艂贸偶my, 偶e w poni偶szym zestawieniu wymieniono mo偶liwe liczby og艂osze艅 zamieszczonych dziennie w gazecie i odpowiadaj膮ce im prawdopodobie艅stwa

X 0 1 2 3 4 5
P(X) 0,1 0,2 0,3 0,2 0,1 0,1

Jest to rozk艂ad prawdopodobie艅stw zmiennej losowej X. Mo偶na zauwa偶y膰, 偶e wszystkie prawdopodobie艅stwa s膮 nieujemne i sumuj膮 si臋 do jedno艣ci. Zmienne losowa nie przyjmuje warto艣ci wi臋kszych od 5, co oznacza, 偶e nie zamieszcza si臋 nigdy wi臋cej ni偶 5 og艂osze艅 dziennie. Prawdopodobie艅stwo zamieszczenia dw贸ch og艂osze艅 wynosi 0,3, a trzech og艂osze艅 鈥 0,2.Powstaje pytanie , sk膮d si臋 bior膮 prawdopodobie艅stwa

Dystrybuanty ( skumulowane funkcje rozk艂adu )

Skumulowan膮 funkcj膮 rozk艂adu ( dystrybuant膮 ) skokowej zmiennej losowej X jest funkcja

( 3 )

Dla przyk艂adu 1 dystrybuanta liczby og艂osze艅 zamieszczonych dziennie w gazecie wynosi

x 0 1 2 3 4 5
P(x) 0,1 0,2 0,3 0,2 0,1 0,1
F(x) 0,1 0,3 0,6 0,8 0,9 1,0

Nale偶y zauwa偶y膰, 偶e ka偶da warto艣膰 F(x) jest sum膮 wszystkich warto艣ci P(i) dla i mniejszych lub r贸wnych x. Na przyk艂ad

Oczekiwana warto艣膰 i odchylenie standardowe zmiennej losowej

Oczekiwana warto艣膰 skokowej zmiennej losowej X jest r贸wna sumie wszystkich mo偶liwych warto艣ci tej zmiennej mno偶onych przez ich prawdopodobie艅stwa

( 4 )

Wykorzystuj膮c dane z przyk艂adu 1 wyznaczamy oczekiwan膮 liczb臋 og艂osze艅 w gazecie ( zgodnie z wzorem 4 )

Obliczenie oczekiwanej ( 艣redniej ) liczby og艂osze艅 w gazecie

x P(x) X P(x)
0 0,1 0
1 0,2 0,2
2 0,3 0,6
3 0,2 0,6
4 0,1 0,4
5 0,1 0,5
1,0 3,3

Z tablicy wynika, 偶e . Mo偶emy powiedzie膰, 偶e przeci臋tnie dzienne zamieszcza si臋 2,3 og艂oszenia.

Oczekiwana warto艣膰 funkcji skokowej zmiennej losowej h(x) jest :

( 5 )

Przyk艂ad 2. Miesi臋czna sprzeda偶 pewnego produktu charakteryzuje rozk艂ad prawdopodobie艅stwa podany w poni偶szej tablicy.

Sprzeda偶 5000 6000 7000 8000 9000
P(x) 0,2 0,3 0,2 0,2 0,1 1,0

Przypu艣膰my, 偶e firma ponosi sta艂y miesi臋czny koszt produkcji r贸wny 8000 $ i 偶e na ka偶dej wyprodukowanej jednostce zarabia 2 $. Jaki jest miesi臋czny oczekiwany zysk firmy ?

Funkcja zysku ze sprzeda偶y produktu jest dla firmy funkcja h(x)=2x 鈥 8000.

Tablica pomocnicza do wyznaczenia oczekiwanego zysku

x h(x) P(x) h(x)P(x)
5 000 2 000 0,2 400
6 000 4 000 0,3 1 200
7 000 6 000 0,2 1 200
8 000 8 000 0,2 1 600
9 000 10 000 0,1 1 000
5 400 = E[h(x)]

W przypadku liniowej funkcji zmiennej losowej, obliczenie oczekiwanej warto艣ci funkcji h(x) mo偶na upro艣ci膰, korzystaj膮c ze wzoru na oczekiwan膮 warto艣膰 funkcji zmiennej losowej.

Oczekiwana warto艣膰 liniowej funkcji zmiennej losowej :

E(a X +b) = a E(x)+b ( 6 )

Gdzie a i b s膮 ustalonymi liczbami. W rozpatrywanym przyk艂adzie 2 mamy ;

E [ h (x)] = E[2x 鈥 8 000 ] = 2 E (x) 鈥 8 000 = 2 * 6 700 鈥 8 000 = 5 400 $ .

Wariancja i odchylenie standardowe zmiennej losowej

Wariancja zmiennej losowej jest oczekiwana warto艣膰 kwadratu odchylenia tej zmiennej od jej 艣redniej . Poj臋cie to jest podobne do poj臋cia wariancji w zbiorze wynik贸w obserwacji ( w pr贸bie lub populacji ) .

Wariancj膮 skokowej zmiennej losowej X jest : ( 7)

Dla przyk艂adu 1 mamy :

x P(x)
0 0,1 -2,3 5,29 0,529
1 0,2 -1,3 1,69 0,338
2 0,3 -0,3 0,09 0,027
3 0,2 0,7 0,49 0,098
4 0,1 1,7 2,89 0,289
5 0,1 2,7 7,29 0,729
2,01

Wygodny do stosowania wz贸r obliczania wariancji zmiennej losowej :

( 8 )

Zgodnie z wzorem (8) wyznaczamy dla przyk艂adu 1 wariancj臋 liczby og艂osze艅 w gazecie.

Obliczenia pomocnicze

X P(X) X P(X) X2P(X)
0 0,10 0 0
1 0,20 0,20 0,20
2 0,30 0,60 1,20
3 0,20 0,60 1,80
4 0,10 0,40 1,60
5 0,10 0,50 2,50
1,00 2,30 7,30

Dla zmiennych losowych standardowe odchylenie okre艣lamy jako dodatni pierwiastek kwadratowy z wariancji . Standardowe odchylenie zmiennej losowej wyra偶a si臋 wzorem:

( 9 )

W rozpatrywanym przyk艂adzie 1 wynosi

Wariancj臋 liniowej funkcji zmiennej losowej wyznaczy膰 mo偶na z nast臋puj膮cego wzoru :

( 10 )

gdzie a i b s膮 ustalonymi liczbami.

Wariancja jako 艣rednie kwadratowe odchylenie warto艣ci zmiennej losowej od jej warto艣ci 艣redniej jest miar膮 rozproszenia mo偶liwych warto艣ci zmiennej. Wariancja daje wyobra偶enie o zmienno艣ci a tym samym o niepewno艣ci zwi膮zanej z przysz艂ymi warto艣ciami zmiennej, kt贸re mog膮 tym bardziej odbiega膰 od przeci臋tnej, im wy偶sza jest wariancja.

Pos艂ugiwanie si臋 odchyleniem standardowym cz臋sto jest wygodniejsze z tego powodu, 偶e wariancja jest wielko艣ci膮 鈥瀔wadratow膮鈥 Odchylenie standardowe jest 艂atwiejsze do interpretacji z punktu widzenia ekonomicznego. Na przyk艂ad : standardowe odchylenie stopy przychodu z okre艣lonej lokaty kapita艂u powszechnie jest uznawane za miar臋 ryzyka zwi膮zanego z t膮 lokat膮.

Twierdzenie Czebyszewa

Znajomo艣膰 odchylenia standardowego pozwala wyznaczy膰 granice, w kt贸rych mo偶liwe warto艣ci zmiennej losowej mieszcz膮 si臋 z pewnym okre艣lonym prawdopodobie艅stwem. Granice te wyznacza twierdzenie Czebyszewa . Twierdzenie to powiada, 偶e dla dowolnej liczby k wi臋kszej od jedno艣ci prawdopodobie艅stwo, 偶e warto艣膰 zmiennej losowej odchyla si臋 od warto艣ci o mniej ni偶 o k odchyle艅 standardowych, jest nie mniejsze ni偶 1 鈥 1/k2.

Mo偶emy to twierdzenie zapisa膰 nast臋puj膮co : dla dowolnej zmiennej losowej o 艣redniej i odchyleniu standardowym oraz dla dowolnej liczby :

( 11 )

Wybrane rozk艂ady zmiennej losowej skokowej

Podstawowymi rozk艂adami zmiennej losowej skokowej s膮:

Rozk艂ad jednopunktowy

Zmienna losowa X przyjmuje tylko jedn膮 warto艣膰 x1 z prawdopodobie艅stwem r贸wnym 1, czyli :

( 12 )

艁atwo wykaza膰 , 偶e

,

Dystrybuanta F(x) w tym przypadku ma posta膰 :

F(x)= { 0 dla

{ 1 dla ( 13 )

Rozk艂ad dwupunktowy

M贸wimy, 偶e zmienna losowa X podlega rozk艂adowi X podlega rozk艂adowi dwupunktowemu, je艣li zbi贸r warto艣ci { x1 , x2 } jest dwuelementowy , przy czym :

P(X=x1)=q ( 14 )

P(X=x2)=p ( 15 )

oraz p+q=1

Szczeg贸lnym przypadkiem rozk艂adu dwu 鈥 punktowego jest tzw. Rozk艂ad zero 鈥 jedynkowy , gzie przyjmuje si臋, 偶e x1 = 0 oraz x2 = 1 .

Mamy wi臋c :

P(X=0)=q ( 16 )

P(X=1)=1 ( 17 )

Przy czym p + q = 1 , sk膮d q = 1 鈥 p

Podstawowe charakterystyki liczbowe zmiennej podlegaj膮cej rozk艂adowi zero 鈥 jedynkowemu:

E(X)=p ( 18 )

( 19 )

Dystrybuanta w tym przypadku ma posta膰 nast臋puj膮c膮 :

F(x) = { 0 dla

{ 1 鈥 p dla

{ 1 dla x > 1

Rozk艂ad dwumianowy

Przypu艣膰my, 偶e wykonujemy n niezale偶nych do艣wiadcze艅 ( np. rzucamy 10 razy kostk膮 do gry albo wykonujemy 7 rzut贸w monet膮 itp. ). Przyjmujemy, 偶e ka偶de z tych do艣wiadcze艅 mo偶e zako艅czy膰 si臋 sukcesem albo pora偶k膮, przy czym prawdopodobie艅stwo wyst膮pienia sukcesu w ka偶dym z wykonywanych do艣wiadcze艅 jest takie samo i wynosi .

Zmienn膮 losow膮 definiujemy jako liczb臋 sukces贸w uzyskanych przy wykonywaniu n do艣wiadcze艅.

Dwumianowy rozk艂ad prawdopodobie艅stwa :

( 20 )

gdzie p jest prawdopodobie艅stwem sukcesu w jednym do艣wiadczeniu, q=1-p, z kolei n jest liczb膮 do艣wiadcze艅, a x jest liczb膮 sukces贸w .

Rozk艂ad zdefiniowany wzorem ( 20 ) jest rozk艂adem dwumianowym lub rozk艂adem Bernoulliego. Nazwa pochodzi od matematyka Jacquesa Bernoulliego ( 1654 鈥 1705 ). Do艣wiadczenia Bernoulliego to ci膮gi identycznych do艣wiadcze艅 spe艂niaj膮cych nast臋ouj膮ce warunki :

  1. S膮 dwa mo偶liwe wyniki ka偶dego do艣wiadczenia, nazwane sukcesem lub pora偶k膮. Wyniki te wykluczaj膮 si臋 i dope艂niaj膮.

  2. Prawdopodobie艅stwo sukcesu oznaczone przez p, pozostaje takie samo od do艣wiadczenia do do艣wiadczenia. Prawdopodobie艅stwo pora偶ki, oznaczone przez q, r贸wne jest 1-p

  3. Do艣wiadczenia s膮 od siebie niezale偶ne. Znaczy to , 偶e wynik kt贸regokolwiek do艣wiadczenia nie ma wp艂ywu na wyniki pozosta艂ych do艣wiadcze艅 .

艢rednia, wariancja i kszta艂t rozk艂adu dwumianowego

艢rednia rozk艂adu dwumianowego jest to iloczyn liczby do艣wiadcze艅 n i prawdopodobie艅stwa sukcesu w pojedynczym do艣wiadczeniu p.

Wariancja jest iloczynem liczby do艣wiadcze艅 n , warto艣ci p oraz q . Prawdziwe s膮 poni偶sze wzory :

艢rednia rozk艂adu dwumianowego :

( 21 )

Wariancja rozk艂adu dwumianowego :

( 22 )

Odchylenie standardowe rozk艂adu dwumianowego :

( 23 )

Kszta艂t rozk艂adu prawdopodobie艅stwa dwumianowej zmiennej losowej jest symetryczny przy p=1/2. Rozk艂ad jest sko艣ny prawostronnie przy p < 陆 , a lewostronnie przy p > 陆 gdy liczba do艣wiadcze艅 n jest niewielka.

Dwumianowy rozk艂ad prawdopodobie艅stwa jest jednym z najpowszechniej stosowanych rozk艂ad贸w w badaniach statystycznych.

Rozk艂ad Poissona

Rozk艂ad Poissona jest wygodny do scharakteryzowania zmiennej losowej b臋d膮cej liczb膮 zaj艣膰 pewnego zdarzenia w okre艣lonym przedziale czasu . Tak膮 zmienn膮 jest liczba awarii urz膮dzenia przemys艂owego w ci膮gu tygodnia, liczba wypadk贸w samochodowych w ci膮gu miesi膮ca, itp. Rozk艂ad Poissona jest te偶 dobrym przybli偶eniem rozk艂adu dwumianowego, gdy liczba do艣wiadcze艅 n jest du偶a ( , a prawdopodobie艅stwo 鈥 sukcesu 鈥 ( zaj艣cia interesuj膮cego nas zdarzenia ) jest niewielkie ( .

Rozk艂ad Poissona:

dla x= 0,1,2,3,..., (24 )

gdzie jest 艣redni膮 rozk艂adu ( i r贸wnocze艣nie jego wariancji ), jest podstaw膮 logarytm贸w naturalnych ( )

Przyk艂ady

Przyk艂ad 1. Klientami sklepu spo偶ywczego s膮 kobiety i m臋偶czy藕ni > Na podstawie wcze艣niejszych bada艅 wiadomo ,偶e prawdopodobie艅stwo zakupu 偶ywno艣ci przez kobiet臋 w tym sklepie wynosi 0,6 .

  1. Co jest zmienn膮 losow膮 ?

  2. Wyznaczy膰 warto艣膰 oczekiwan膮 i wariancj臋 badanej zmiennej losowej ?

Rozwi膮zanie :

a) ) Zmienn膮 losow膮 jest p艂e膰 klienta. Przyjmuje ona warto艣膰 1 w przypadku kobiet oraz 0 , gdy do sklepu wchodzi m臋偶czyzna. Jest to przyk艂ad zmiennej zero 鈥 jedynkowej .

b) oraz

Przyk艂ad 2.

Sprzedawca pewnego dobra trwa艂ego u偶ytku kontaktuje si臋 z 8 potencjalnymi klientami dziennie. Z wcze艣niejszych do艣wiadcze艅 wiadomo , 偶e prawdopodobie艅stwo zakupu tego dobra przez potencjalnego klienta wynosi 0,10.

  1. jakie jest prawdopodobie艅stwo tego, 偶e sprzedawca przeprowadzi dok艂adnie 2 transakcje sprzeda偶y dziennie ?

  2. Jaki odsetek stanowi膰 b臋d膮 dni, w kt贸rych sprzedawca nie dokona 偶adnej transakcji sprzeda偶y ?

  3. Jakiej 艣redniej liczby sprzedanych d贸br trwa艂ego u偶ytku dziennie mo偶e si臋 spodziewa膰 sprzedawca ?

Rozwi膮zanie :

  1. Korzystaj膮c ze wzoru na prawdopodobie艅stwo w rozk艂adzie dwumianowym mamy :

Zamiast przeprowadzania do艣膰 skomplikowanych oblicze艅 mo偶na r贸wnie偶 skorzysta膰 z tablic rozk艂adu dwumianowego odczytuj膮c ( dla n=8, k=2, p=0,1

Wobec tego mamy :

b)

zatem 43 % og贸艂u dni roboczych stanowi膮 takie dni , kiedy nie zostanie dokonana 偶adna transakcja sprzeda偶y.

c)

Przyk艂ad 3.

Wadliwo艣膰 produkcji pewnego przedsi臋biorstwa wynosi 3%. Z gotowych wyrob贸w znajduj膮cych si臋 w magazynie sprzedano 40 sztuk.

  1. Jakiej 艣redniej liczby brak贸w mo偶na si臋 spodziewa膰 w sprzedanej partii towar贸w

  2. Jakie jest prawdopodobie艅stwo , 偶e dok艂adnie 5 sztuk wadliwych znajdzie si臋 w sprzedanej partii towar贸w

Rozwi膮zanie :

a)

b)

( por. tablic臋 w rozk艂adzie Poissona , dla ; )

Inne podej艣cie opiera si臋 na rachunku dystrybuant. Korzystamy z tablic dystrybuanty w tym rozk艂adzie i mamy :

Zmienna losowa ci膮g艂a i jej rozk艂ady

  1. Zmienna losowa ci膮g艂a , funkcja g臋sto艣ci, dystrybuanta, podstawowe charakterystyki

  2. Rozk艂ady zmiennej losowej ci膮g艂ej

Zmienna losowa ci膮g艂a jest to taka zmienna , kt贸ra przyjmuje wszystkie warto艣ci z pewnego okre艣lonego przedzia艂u liczbowego.

Dla zmiennej losowej ci膮g艂ej pojawia si臋 poj臋cie funkcji g臋sto艣ci. Funkcja g臋sto艣ci jest to przedzia艂ami ci膮g艂a funkcja f(x), dzi臋ki kt贸rej mo偶na okre艣li膰 prawdopodobie艅stwo tego, 偶e zmienna losowa x znajdzie si臋 w okre艣lonym przedziale.

Funkcja g臋sto艣ci spe艂nia nast臋puj膮ce warunki :

( 1)

(2)

Funkcja g臋sto艣ci mo偶e by膰 interpretowana jako podstawa do liczbowych ustale艅 鈥 艣redniej g臋sto艣ci prawdopodobie艅stwa z otoczenia punktu, zwanego 艣rodkiem przedzia艂u klasowego鈥.

Dystrybuanta dla zmiennej losowej ci膮g艂ej okre艣lana jest jako prawdopodobie艅stwo tego, 偶e zmienna losowa przyjmie warto艣ci mniejsze lub r贸wne xi

( 3 )

Dystrybuanta dla zmiennej losowej ci膮g艂ej jest ca艂k膮 z okre艣lon膮 g贸rn膮 granic膮 x , zapisan膮 w spos贸b nast臋puj膮cy :

( 4 )

Dla prawdopodobie艅stwa w przedziale ( x1 ; x2 ) nale偶y stosowa膰 formu艂臋 :

( 5)

Warto艣膰 oczekiwana zmiennej losowej ci膮g艂ej wyra偶a si臋 nast臋puj膮cym wzorem :

(6)

Wariancja zmiennej losowej ci膮g艂ej jest wyznaczona zgodnie z formu艂膮 :

(7)

Odchylenie standardowe zmiennej losowej ci膮g艂ej dane jest wzorem :

(8)

Rozk艂ady zmiennej losowej ci膮g艂ej

Rozk艂ad normalny

Rozk艂ad normalny wi膮偶e si臋 z nazwiskiem matematyka K.F. Gaussa ( 1777 鈥 1855 ) i bywa najcz臋艣ciej okre艣lany jako rozk艂ad Gaussa. Rozk艂ad normalny to jeden z najwa偶niejszych rozk艂ad贸w zmiennej losowej ci膮g艂ej. Odgrywa on w zastosowaniach statystyki ogromn膮 rol臋. M贸wimy , 偶e zmienna losowa x ma rozk艂ad normalny z parametrami i , co zapisujemy lub , je艣li jej funkcja g臋sto艣ci jest okre艣lona nast臋puj膮cym wzorem :

, dla ( 9)

gdzie :

Krzywa g臋sto艣ci prawdopodobie艅stwa rozk艂adu normalnego ma nast臋puj膮ce w艂asno艣ci :

  1. Krzywa normalna jest krzyw膮 w kszta艂cie dzwonu, symetryczn膮 wzgl臋dem prostej przechodz膮cej przez punkt , co znaczy, 偶e jest spe艂niona r贸wno艣膰 : . O艣 rz臋dnych jest oczywi艣cie osi膮 symetrii krzywej.

  2. Obszar ograniczony wykresem funkcji f(x) i osi膮 odci臋tych ma pole r贸wne jedno艣ci.

  3. Funkcja g臋sto艣ci prawdopodobie艅stwa rozk艂adu normalnego osi膮ga maksimum w punkcie . Obliczaj膮c pochodn膮 funkcji (9) i przyr贸wnuj膮c j膮 do 0 , sprawdzamy 艂atwo, 偶e warto艣膰 maksymalna tej funkcji g臋sto艣ci wynosi :

4.Krzywa g臋sto艣ci prawdopodobie艅stwa rozk艂adu normalnego ma 2 punkty przegi臋cia, po艂o偶one symetrycznie wzgl臋dem osi rz臋dnych , o odci臋tych , w kt贸rych krzywa z wkl臋s艂ej przechodzi w wypuk艂膮 lub odwrotnie.

Parametr rozk艂adu normalnego jest to 艣rednia rozk艂adu czyli miara po艂o偶enia. M贸wi o tym , gdzie le偶y centrum rozk艂adu na osi liczbowej. Poniewa偶 krzywa g臋sto艣ci normalnej jest symetryczna i ma jeden szczyt , w 艣rodku ,艣rednia jest r贸wnocze艣nie median膮 i dominant膮 rozk艂adu prawdopodobie艅stwa. Inaczej m贸wi膮c, jest te偶 punktem, w kt贸rym g臋sto艣膰 jest najwi臋ksza i kt贸ry dzieli pole pod krzyw膮 g臋sto艣ci na po艂owy, z kt贸rych ka偶da ma miar臋 陆.Standardowe odchylenie jest miar膮 zmienno艣ci , czyli rozproszenia zmiennej. Gdy standardowe odchylenie jest du偶e, wykres funkcji g臋sto艣ci jest 鈥 szeroki 鈥 , ale za to 鈥 p艂aski 鈥( Ca艂e pole pod krzyw膮 musi mie膰 miar臋 r贸wn膮 1 ). Gdy standardowe odchylenie jest ma艂e, wykres funkcji g臋sto艣ci jest 鈥 w膮ski 鈥 ale 鈥 wysoki 鈥

Na uwag臋 zas艂uguj膮 tak偶e nast臋puj膮ce w艂asno艣ci rozk艂adu normalnego :

W analizach szczeg贸lnie wa偶na jest regu艂a trzech odchyle艅 standardowych zwana tak偶e regu艂a 3 sigm, kt贸rej prawdopodobie艅stwo jest bardzo wysokie i praktycznie wynosi 1. Jest ona wykorzystywana w badaniach empirycznych w celu eliminacji obserwacji nietypowych, nie przystaj膮cych do pozosta艂ych ( w膮tpliwych , rzadkich , odstaj膮cych , ekstremalnych ) , co do kt贸rych istniej膮 przypuszczenia , 偶e pochodz膮 z innej zbiorowo艣ci. Za w膮tpliwe uznaje si臋 takie obserwacje , kt贸rych warto艣膰 r贸偶ni si臋 od 艣redniej o wi臋cej ni偶 3 odchylenia standardowe.

Rozk艂ad normalny standaryzowany

Rozk艂ad normalny z warto艣ci膮 oczekiwan膮 i odchyleniem standardowym , czyli , okre艣lony za pomoc膮 formu艂y :

( 10 )

Ka偶dy rozk艂ad normalny mo偶e by膰 transformowany do rozk艂adu normalnego poprzez procedur臋 standaryzacji zmiennej X do Z. Czasami zamiast Z stosuje si臋 liter臋 U ( unormowana ). Zmienna losowa standaryzowana wyra偶a si臋 wzorem :

( 11 )

Procedura standaryzacji ma swoje uzasadnienie w tym, 偶e tylko rozk艂ad normalny standaryzowany jest stablicowany. Najcz臋艣ciej korzysta si臋 z tablic dystrybuanty .

Przyk艂ad 1.

Za艂贸偶my , 偶e mamy 100 pojedynczych wynik贸w pomiar贸w pewnej wielko艣ci. Efekty obserwacji pogrupowano , a wyniki w postaci szeregu rozdzielczego przedzia艂owego podano w poni偶szej tablicy. Zachodzi przypuszczenie , 偶e rozk艂ad liczby wszystkich pomiar贸w ma rozk艂ad normalny .

Tab.1. Szereg rozdzielczy wynik贸w pomiaru pewnej wielko艣ci ( w mm)

Wyniki pomiar贸w Liczba wynik贸w
79-81 1 80 80
81-83 4 82 328
83-85 9 84 756
85-87 15 86 1 290
87-89 24 88 2 112
89-91 21 90 1 890
91-93 13 92 1 196
93-95 9 94 846
95-97 3 96 288
97-99 1 98 98
100 8 884

殴r贸d艂o : A. Zelia艣 : Metody statystyczne . PWE, Warszawa 2000 s. 221-222.

Parametry rozk艂adu normalnego i szacujemy na podstawie wynik贸w zamieszczonych w powy偶szej tablicy ( tab.1 ) i otrzymujemy : i . Pozosta艂e obliczenia potrzebne do ustalenia , czy jest to rozk艂ad normalny, znajduj膮 si臋 w poni偶szej tablicy :

80 1 -2,73466 0,009606 0.59 0,41
82 4 -2,11596 0,042166 2,61 1,39
84 9 -1,49726 0,129518 8,01 0,99
86 15 -0,87855 0,270864 16,76 -1,76
88 24 -0,25985 0,385683 23,86 0,14
90 21 0,35885 0,373911 23,13 -2,73
92 13 0,97755 0,246809 15,27 -2,27
94 9 1,59625 0,112704 6,97 2,03
96 3 2,21495 0,034710 2,15 0,85
98 1 2,83365 0,007274 0,45 0,55
100 99,8

Z uwagi na to , 偶e r贸偶nice mi臋dzy rozk艂adem empirycznym a teoretycznym , czyli od i= 1,2,...,10 s膮 wzgl臋dnie du偶e , to nie mo偶na przyj膮膰 , 偶e rozk艂ad liczby wynik贸w pomiar贸w nie jest rozk艂adem normalnym.

Rozk艂ad chi 鈥 kwadrat

Rozk艂ad chi 鈥 kwadrat ) zosta艂 opracowany przez statystyk贸w A. Abbego ( 1863 ), H. Helmerta ( 1875 ) , K. Pearsona ( 1900

Zak艂adaj膮c , 偶e X1, X2 , ..., Xk s膮 niezale偶nymi zmiennymi losowymi o rozk艂adzie normalnym o parametrach i , zmienna losowa okre艣lona w spos贸b nast臋puj膮cy :

( 12 )

ma rozk艂ad z k 鈥 liczb膮 stopni swobody 鈥

Zmienna losowa o rozk艂adzie chi- kwadrat przyjmuje warto艣ci dodatnie , a jej rozk艂ad zale偶y od liczby stopni swobody k . Dla ma艂ych warto艣ci k jest to rozk艂ad silnie asymetryczny , w miar臋 wzrostu k asymetria jest coraz mniejsza. Liczb臋 stopni swobody k wyznaczamy najcz臋艣ciej w spos贸b nast臋puj膮cy :

lub

gdzie :

n 鈥 liczebno艣膰 pr贸by

p 鈥 liczba szacowanych parametr贸w z pr贸by

Liczba stopni swobody jest r贸wna liczbie wszystkich parametr贸w ( kt贸ra nie musi by膰 r贸wna liczbie wynik贸w obserwacji ) pomniejszonej o liczb臋 wszystkich ogranicze艅 narzuconych na te parametry . Ograniczeniem jest ka偶da wielko艣膰 , kt贸ra zostaje obliczona na podstawie tych samych pomiar贸w

Warto艣膰 oczekiwana w rozk艂adzie wyra偶a si臋 nast臋puj膮c膮 formu艂膮 :

( 13 )

Wariancja w rozk艂adzie jest wyra偶ona formu艂膮 :

( 14 )

Odchylenie standardowe w rozk艂adzie to :

( 15 )

Dla uproszczenia zapis贸w mo偶na si臋 pos艂ugiwa膰 formu艂膮 :

, co oznacza ,偶e ma rozk艂ad o k stopniach swobody . Rozk艂ad jest rozk艂adem asymetrycznym, przy czym wraz ze wzrostem k rozk艂ad ten staje si臋 coraz bardziej zbli偶ony do symetrycznego, a dla k>30 zachodzi zale偶no艣膰 :

( 16 )

Oznacza to , 偶e wraz ze wzrostem k ( powy偶ej 30 ) rozk艂ad przechodzi w rozk艂ad asymptotycznie normalny o tych samych parametrach i .

Rozk艂ad t 鈥 Studenta

Jest to wa偶ny rozk艂ad , kt贸ry jest stosowany g艂贸wnie do ma艂ych pr贸bek . Rozk艂ad t 鈥 Studenta ( pseudonim angielskiego statystyka W. Gosseta ) jest rozk艂adem symetrycznym wzgl臋dem prostej x=0, a jego kszta艂t jest bardzo zbli偶ony do rozk艂adu normalnego standaryzowanego ( jest nieco bardziej sp艂aszczony ).

Je偶eli Z :N(0;1) i s膮 niezale偶nymi zmiennymi losowymi , to zmienna ma rozk艂ad t- Studenta o k stopniach swobody .

Warto艣膰 oczekiwana w rozk艂adzie t- Studenta ma posta膰 nast臋puj膮c膮:

dla ( 17 )

Wariancja w rozk艂adzie t- Studenta ma posta膰 nast臋puj膮c膮:

dla ( 18 )

Odchylenie standardowe w rozk艂adzie t- Studenta ma posta膰 nast臋puj膮c膮 :

dla ( 19 )

Dla k >30 zmienna o rozk艂adzie t- Studenta ma rozk艂ad zbli偶ony do rozk艂adu normalnego standaryzowanego [ N : ( 0 , 1 ) ]

Dla r贸偶nych warto艣ci k i r贸偶nych prawdopodobie艅stw 伪 stablicowane s膮 warto艣ci takie , dla kt贸rych spe艂niona jest zale偶no艣膰 dla stopni swobody.

Rozk艂ad F 鈥 Snedecora

Je偶eli zmienne i s膮 zmiennymi niezale偶nymi i maj膮 rozk艂ady o i stopniach swobody , to zmienna losowa ma rozk艂ad F 鈥 Snedecora :

( 20 )

gdzie i s膮 stopniami swobody .

Warto艣膰 oczekiwana w rozk艂adzie F wyra偶a si臋 nast臋puj膮c膮 formu艂膮 :

dla ( 21 )

Wariancja w rozk艂adzie F wyra偶a si臋 nast臋puj膮cym wzorem :

dla ( 22 )

W zale偶no艣ci od i stablicowano warto艣ci zmiennej losowej , w taki spos贸b , 偶e dla danych warto艣ci prawdopodobie艅stw 伪 zale偶no艣膰

Dob贸r pr贸by i rozk艂ady z pr贸by

Estymacja punktowa i przedzia艂owa

We wnioskowaniu statystycznym 鈥 na podstawie znanej pr贸by losowej , opisujemy za pomoc膮 statystyk nieznan膮 populacj臋, z kt贸rej zosta艂a pobrana pr贸ba.

Parametry populacji ( np. 艣rednia , odchylenie standardowe ) szacujemy korzystaj膮c ze statystyk z pr贸by . Gdy statystyka z pr贸by jest wykorzystywana do oszacowania parametru populacji , nazywa si臋 estymatorem tego parametru.

Estymatorem parametru populacji jest statystyka z pr贸by u偶ywana do oszacowania tego parametru. Ocen膮 lub szacunkiem parametru jest konkretna warto艣膰 liczbowa estymatora z danej pr贸by Je偶eli jako ocen臋 ( szacunek ) podajemy jedn膮 warto艣膰 liczbow膮, nazywamy j膮 ocen膮 punktow膮 ( szacunkiem punktowym ) parametru populacji.

艢rednia z pr贸by , jest statystyk膮 u偶ywan膮 jako estymator 艣redniej w populacji. Odchylenie standardowe z pr贸by , s艂u偶y jako estymator odchylenia standardowego w populacji. Opr贸cz tych statystyk wyst臋puj膮 r贸wnie偶 inne np. cz臋sto艣膰 ( frakcja ).

Frakcj膮 ( cz臋sto艣ci膮 ) w populacji p , jest liczba element贸w populacji nale偶膮cych do pewnej kategorii , kt贸r膮 si臋 interesujemy, podzielon膮 przez liczb臋 wszystkich element贸w populacji .

Frakcja ( cz臋sto艣膰 ) w pr贸bie wyra偶a si臋 nast臋puj膮c膮 formu艂膮 :

( 1 )

gdzie x jest liczb膮 element贸w pr贸by , kt贸re nale偶膮 do interesuj膮cej nas kategorii , a n jest liczebno艣ci膮 pr贸by.

Pobieranie pr贸by losowej

Aby otrzyma膰 pr贸b臋 losow膮 z ca艂ej populacji , powinni艣my dysponowa膰 wykazem wszystkich element贸w populacji . Taki wykaz nazywa si臋 operatem losowania . Operat losowania pozwala wybiera膰 elementy z populacji przez losowe generowanie numer贸w element贸w, kt贸re znajduj膮 si臋 w pr贸bie. Przypu艣膰my, 偶e chcemy pobra膰 prost膮 100- elementow膮 pr贸b臋 losow膮 z populacji 7 000 ludzi. Sporz膮dzamy wykaz tych 7 000 ludzi i ka偶demu przypisujemy numer identyfikacyjny. Mamy wykaz 7 000 numer贸w, kt贸re tworz膮 operat losowania. Nast臋pnie generujemy na komputerze lub w jaki艣 inny spos贸b 100 liczb losowych o warto艣ciach od 1 do 7 000 . Taka procedura daje ka偶demu ze 100 ludzi t臋 sam膮 szans臋 znalezienia si臋 w pr贸bie .

Do generowania liczb losowych mo偶e by膰 u偶yty komputer lub tablica liczb losowych.

Rozk艂ad statystyki z pr贸by jest rozk艂adem prawdopodobie艅stwa wszystkich mo偶liwych warto艣ci, jaka ta statystyka mo偶e przyj膮膰, je偶eli obliczamy je na podstawie badania losowych pr贸b o tych samych rozmiarach, pobranych z okre艣lonej populacji.

Rozk艂ad 艣redniej z pr贸by , , to rozk艂ad prawdopodobie艅stwa wszystkich warto艣ci , jakie mo偶e przybra膰 losowa zmienna , gdy pr贸ba o liczebno艣ci n jest pobierana z okre艣lonej populacji .

Centralne twierdzenie graniczne - je偶eli pobieramy pr贸b臋 z populacji o 艣redniej i sko艅czonym odchyleniu standardowym , to rozk艂ad 艣redniej z pr贸by , , d膮偶y do rozk艂adu normalnego o 艣redniej i odchyleniu standardowym , gdy liczebno艣膰 pr贸by wzrasta nieograniczenie , czyli , dla 鈥 dostatecznie du偶ych n 鈥 :

Centralne twierdzenie graniczne zas艂uguje na uwag臋 , poniewa偶 stwierdza zmierzanie rozk艂adu 艣redniej z pr贸by do rozk艂adu normalnego , niezale偶nie od rozk艂adu populacji, z kt贸rej pochodzi pr贸ba.

Trzy g艂贸wne aspekty centralnego twierdzenia granicznego

  1. Je偶eli liczebno艣膰 pr贸by jest dostatecznie du偶a , to rozk艂ad 艣redniej z pr贸by , , jest normalny

  2. Oczekiwan膮 warto艣ci膮 艣redniej jest

  3. Odchyleniem standardowym 艣redniej jest

Historia centralnego twierdzenia granicznego jest zwi膮zana z rozk艂adem normalnym jako rozk艂adem granicznym rozk艂adu dwumianowego, gdy n ro艣nie nieograniczenie.

Aby wykorzysta膰 centralne twierdzenie graniczne, powinni艣my zna膰 standardowe odchylenie w populacji, . Gdy nie jest znane, trzeba si臋 pos艂u偶y膰 jego estymatorem z pr贸by , S. W takim przypadku rozk艂ad standaryzowanej statystyki jest nast臋puj膮cy :

( 2 )

gdzie S zast臋puje nieznane i nie jest standaryzownym rozk艂adem normalnym.

Je艣li rozk艂ad w populacji jest normalny, to statystyka okre艣lona wzorem ( 2 ) ma rozk艂ad t 鈥 Studenta o n-1 stopniach swobody .

Centralne twierdzenie graniczne dla przypadku pobierania pr贸by do oszacowania frakcji element贸w danej kategorii populacji , p jest sformu艂owane nast臋puj膮co :

Gdy liczebno艣膰 pr贸by n wzrasta , to rozk艂ad frakcji z pr贸by , , zbli偶a si臋 do rozk艂adu normalnego o 艣redniej p o odchyleniu standardowym

Z centralnego twierdzenia granicznego wynika , i偶 rozk艂ad 艣redniej z pr贸by i rozk艂ad frakcji z pr贸by zbli偶aj膮 si臋 do rozk艂adu normalnego , gdy wzrasta liczebno艣膰 pr贸by .

Estymatory i ich w艂asno艣ci

Estymator jest nieobci膮偶ony , je偶eli jego warto艣膰 oczekiwana jest r贸wna parametrowi populacji , do oszacowania kt贸rego s艂u偶y. Np. 艢rednia z pr贸by jest nieobci膮偶onym estymatorem 艣redniej z populacji .

Systematyczne odchylanie si臋 warto艣ci estymatora od szacowanego parametru nazywa si臋 obci膮偶eniem estymatora .

Estymator jest efektywny , je偶eli ma niewielk膮 wariancj臋 ( a tym samym niewielkie odchylenie standardowe )

Estymator jest zgodny , je偶eli prawdopodobie艅stwo , 偶e jego warto艣膰 b臋dzie bliska warto艣ci szacowanego parametru , wzrasta wraz ze wzrostem liczebno艣ci pr贸by .

Estymator jest dostateczny , je偶eli wykorzystuje wszystkie informacje o szacowanym parametrze , kt贸re s膮 zawarte w danych ( w pr贸bie )

Przyk艂ad 1.

W wylosowanych 9 punktach sprzeda偶y w pewnym mie艣cie w okre艣lonym dniu zbadano cen臋 produktu A i otrzymano nast臋puj膮ce rezultaty :

Punkt sprzeda偶y 1 2 3 4 5 6 7 8 9
Cena w z艂 za 1 szt. ( xi) 1,15 1,18 1,16 1,20 1,12 1,19 1,17 1,15 1,14

殴r贸d艂o : Dane umowne.

Korzystaj膮c z procedury estymacji punktowej , nale偶y oszacowa膰

  1. przeci臋tn膮 cen臋 produktu A za 1 szt. W okre艣lonym dniu w ca艂ej zbiorowo艣ci ( miasto )

  2. odchylenie standardowe ceny produktu A w okre艣lonym dniu w badanym mie艣cie

Ad 1. Wiedz膮c ,偶e estymacja punktowa sprowadza si臋 do znalezienia jednej warto艣ci mog膮cej s艂u偶y膰 do oszacowania nieznanej 艣redniej ceny produktu A w ca艂ym mie艣cie zadanie sprowadza si臋 do znalezienia 艣redniej arytmetycznej na podstawie pr贸by (. Miara ta jest najbardziej u偶ytecznym estymatorem 艣redniej zbiorowo艣ci generalnej , gdy偶 ma w艂asno艣膰 nieobci膮偶ono艣ci i zgodno艣ci oraz jest relatywnie bardziej efektywna od innych 艣rednich ( mediany czy dominanty )

, co oznacza ,偶e w badanym mie艣cie 艣rednia cena jednej sztuki produktu A wynosi 1,16 zl.

Ad.2. Zadanie sprowadza si臋 , do obliczenia odchylenia standardowego ceny produktu na podstawie wynik贸w pr贸by

xi 1,15 1,18 1,16 1,20 1,20 1,19 1,17 1,15 1,14
-0,01 0,02 0,00 0,04 -0,04 0,03 0,01 -0,01 -0,02
0.0001 0,0004 0,0000 0,0016 0,0016 0,0009 0,0001 0,0001 0,0004 0.0052

殴r贸d艂o : Obliczenia w艂asne

z艂

Nale偶y zauwa偶y膰 , 偶e wz贸r na estymator S r贸偶ni si臋 od klasycznego wzoru na odchylenie standardowe , kt贸re wyznacza si臋 w ca艂ej zbiorowo艣ci ( lub na podstawie wynik贸w pochodz膮cych z du偶ej pr贸by ) wed艂ug formu艂y :

Odchylenie standardowe ceny produktu A w badanym mie艣cie wynosi艂o 0,025 z艂 . Oznacza to , 偶e cena w poszczeg贸lnych punktach sprzeda偶y r贸偶ni艂a si臋 od 艣redniego poziomu , przeci臋tnie rzecz bior膮c , o z艂.

Przyk艂ad 2.

W pewnej firmie w spos贸b losowy wybrano 15 rozm贸w telefonicznych, zbadano d艂ugo艣膰 ich trwania oraz ustalono , czy s膮 to rozmowy lokalne czy te偶 zamiejscowe . Poni偶sza tablica prezentuje zebrane na ten temat informacje :

Kolejny numer

rozmowy

Czas trwania

( w min )

Rodzaj rozm贸w

telefonicznej

1 2 miejscowa
2 12 zamiejscowa
3 10 miejscowa
4 3 miejscowa
5 5 zamiejscowa
6 6 miejscowa
7 3 miejscowa
8 5 miejscowa
9 8 miejscowa
10 4 miejscowa
11 5 miejscowa
12 4 miejscowa
13 5 miejscowa
14 4 miejscowa
15 9 zamiejscowa

Nale偶y :

  1. Oszacowa膰 przeci臋tny czas trwania wszystkich rozm贸w telefonicznych w tej firmie

  2. Oszacowa膰 odchylenie standardowe czasu trwania wszystkich rozm贸w telefonicznych w tej firmie

  3. Oszacowa膰 odsetek ( procent ) rozm贸w zamiejscowych w艣r贸d og贸艂u rozm贸w telefonicznych przeprowadzonych w tej firmie

  4. Wyznaczy膰 b艂膮d standardowy odsetka rozm贸w zamiejscowych w艣r贸d og贸艂u rozm贸w telefonicznych przeprowadzonych w tej firmie

Ad.1. , co oznacza 偶e przeci臋tny czas trwania wszystkich rozm贸w telefonicznych w tej firmie wynosi 5,67 min.

Ad.2. , co oznacza , 偶e odchylenie standardowe czasu

trwania wszystkich rozm贸w telefonicznych w tej firmie wynosi 2,85 min ( o tyle r贸偶ni si臋 , 艣rednio bior膮c , czas trwania poszczeg贸lnych rozm贸w od przeci臋tnej rozmowy ).

Ad.3. , co oznacza ,偶e rozmowy zamiejscowe stanowi膮 20 % og贸艂u wszystkich rozm贸w telefonicznych przeprowadzonych w tej firmie.

Ad.4.

B艂膮d standardowy odsetka rozm贸w zamiejscowych w tej firmie wynosi 10,3 %.

Estymacja przedzia艂owa parametr贸w

Estymacja przedzia艂owa okre艣lonego parametru z populacji generalnej polega na konstrukcji pewnego przedzia艂u liczbowego ( na podstawie wynik贸w z pr贸by losowej pobieranej ze zbiorowo艣ci generalnej ) , o kt贸rym mo偶na powiedzie膰 ,偶e z przyj臋tym z g贸ry prawdopodobie艅stwem pokryje warto艣膰 estymowanego parametru. Przedzia艂 taki nazywamy przedzia艂em ufno艣ci Neymana , natomiast prawdopodobie艅stwo , 偶e przedzia艂 ten 鈥揵臋d膮cy zmienn膮 losow膮 鈥 pokryje nieznany parametr, nazywamy wsp贸艂czynnikiem ufno艣ci i oznaczamy symbolem 1 - 伪. Poziomy wsp贸艂czynnik贸w ufno艣ci najcz臋艣ciej przyjmowane s膮 jako : 0,90;0,95 ;0,99.

Przedzia艂em ufno艣ci nazywamy przedzia艂 liczbowy, o kt贸rym przypuszczamy , 偶e mie艣ci si臋 w nim nieznany parametr populacji . Z przedzia艂em tym zwi膮zana jest miara ufno艣ci ( pewno艣ci ) , 偶e ten przedzia艂 naprawd臋 zawiera interesuj膮cy nas parametr , zwana poziomem ufno艣ci

Na spos贸b konstrukcji przedzia艂u ufno艣ci ma wp艂yw liczebno艣膰 pr贸by losowej . W zale偶no艣ci od rodzaju szacowanego parametru i liczebno艣ci pr贸by mo偶na wyr贸偶ni膰 kilka przedzia艂贸w ufno艣ci, kt贸rych spos贸b konstruowania zostanie przedstawiony na modelowych przyk艂adach .

Model I. Populacja generalna ma rozk艂ad normalny . Warto艣膰 艣rednia jest nieznana , odchylenie standardowe w populacji jest znane. Z populacji tej pobrano pr贸b臋 o liczebno艣ci n element贸w , wylosowanych niezale偶nie . W贸wczas przedzia艂 ufno艣ci dla 艣redniej populacji otrzymuje si臋 ze wzoru :

gdzie :

- 艣rednia arytmetyczna obliczona z pr贸by

poziom zmiennej standaryzowanej odczytany z tablic rozk艂adu normalnego N(0,1) przy przyj臋tym z g贸ry wsp贸艂czynniku ufno艣ci

- nadzieja matematyczna w populacji generalnej

- odchylenie standardowe w populacji generalnej

- liczebno艣膰 pr贸by

Przyk艂ad 1. Wybran膮 w spos贸b losowy 625 鈥 osobow膮 grup臋 sportowc贸w zbadano pod wzgl臋dem czasu po艣wi臋conego na trening w miesi膮cu otrzymuj膮c : i Wiadomo przy tym ,偶e czas po艣wi臋cony na trening posiada rozk艂ad normalny . Oszacowa膰 metod膮 przedzia艂ow膮 艣redni miesi臋czny czas treningu dla og贸艂u sportowc贸w przyjmuj膮c wsp贸艂czynnik ufno艣ci 0,95.Dla przyj臋tego wsp贸艂czynnika ufno艣ci 1-伪=0,95 mamy . Przedzia艂 ufno艣ci jest nast臋puj膮cy :

Ostatecznie otrzymujemy :

Otrzymany wynik interpretujemy nast臋puj膮co : przedzia艂 liczbowy od 69,216 godzin do 70,784 godzin jest jednym z tych wszystkich mo偶liwych do otrzymania przedzia艂贸w, kt贸re z prawdopodobie艅stwem 0,95 pokrywaj膮 szacowany 艣redni czas po艣wi臋cony miesi臋cznie na trening przez og贸艂 sportowc贸w .Oznacza to , 偶e gdyby艣my wielokrotnie powtarzali powy偶sze post臋powanie , to 艣rednio bior膮c w 95 przypadkach na 100 otrzymywaliby艣my przedzia艂y dobre ( tzn. pokrywaj膮ce 艣redni czas po艣wi臋cony miesi臋cznie na trening przez og贸艂 sportowc贸w ) za艣 w pozosta艂ych przypadkach 鈥 z艂e .

Model II. Populacja generalna ma rozk艂ad . Nieznana jest zar贸wno warto艣膰 艣rednia , jak i odchylenie standardowe w populacji . Z populacji tej wylosowano niezale偶nie ma艂膮 pr贸b臋 o liczebno艣ci n element贸w. Przedzia艂 ufno艣ci dla 艣redniej populacji otrzymuje si臋 w贸wczas wed艂ug wzoru :

lub wed艂ug wzoru r贸wnowa偶nego

gdzie oznacza 艣redni膮 arytmetyczn膮 obliczon膮 z pr贸by , s i s膮 odchyleniami standardowymi z pr贸by obliczonymi wed艂ug wzor贸w :

Warto艣膰 oznacza warto艣膰 zmiennej t 鈥 Studenta odczytan膮 z tablicy tego rozk艂adu dla n-1 stopni swobody w taki spos贸b , by dla danego z g贸ry prawdopodobie艅stwa 1 - 伪 by艂a spe艂niona relacja .

Model III. Populacja generalna ma rozk艂ad b膮d藕 dowolny inny rozk艂ad o 艣redniej i sko艅czonej wariancji ( nieznanej ). Z populacji tej pobrano do pr贸by n niezale偶nych obserwacji , przy czym liczebno艣膰 pr贸by jest du偶膮 ( co najmniej kilka dziesi膮tk贸w ) . Wtedy przedzia艂 ufno艣ci dla 艣redniej populacji wyznaczamy ze wzoru jak w modelu I , z t膮 tylko r贸偶nic膮 , 偶e zamiast we wzorze tym u偶ywamy odchyle艅 standardowych lub obliczonych z pr贸by. Ze wzgl臋du na du偶膮 pr贸b臋 wyniki jej grupuje si臋 w szereg rozdzielczy o r klasach i wtedy wygodnie jest oblicza膰 oraz s wed艂ug wzor贸w:

gdzie oznacza 艣rodek poszczeg贸lnego przedzia艂u klasowego, a jego liczebno艣膰. Gdy liczba przedzia艂贸w klasowych jest ma艂a , tzn. gdy d艂ugo艣膰 ka偶dego przedzia艂u klasowego jest du偶a , obliczaj膮c z powy偶szego wzoru warto艣膰 nale偶y stosowa膰 , tzw. poprawk臋 grupowania , tj. odj膮膰 od liczb臋 , a dopiero potem wyci膮gn膮膰 pierwiastek.

Uwaga : Wzory na przedzia艂y ufno艣ci dla 艣redniej w modelu I i II s膮 wyznaczone w oparciu o dok艂adny rozk艂ad statystyki , natomiast w modelu III w oparciu o jej rozk艂ad graniczny ( z du偶ej pr贸by ). Ponadto , podczas gdy przedzia艂y ufno艣ci otrzymane w oparciu o rozk艂ad normalny maj膮 przy ustalonym n sta艂膮 d艂ugo艣膰 , to przedzia艂y ufno艣ci otrzymane w oparciu o rozk艂ad Studenta maj膮 w r贸偶nych pr贸bach , opr贸cz ko艅c贸w r贸wnie偶 zmienn膮 d艂ugo艣膰.

Wsp贸艂czynnik ufno艣ci 1-伪 przyjmuje si臋 subiektywnie, jako dowolnie du偶e, bliskie 1 , prawdopodobie艅stwo. Jest ono miar膮 zaufania do prawid艂owego szacunku . Poniewa偶 du偶y wsp贸艂czynnik ufno艣ci daje szerszy przedzia艂, nie nale偶y wi臋c bez potrzeby przyjmowa膰 tego wsp贸艂czynnika zbyt wysokiego. Zwykle przyjmuje si臋 wsp贸艂czynniki ufno艣ci 1-伪 wynosz膮ce 0,90 ; 0,95 ( najcz臋艣ciej ), wreszcie 0,99 lub 0,999 w badaniach gdzie ryzyko pomy艂ki jest ma艂e.

Przyk艂ad 2 . Wytrzyma艂o艣膰 pewnego materia艂u budowlanego jest zmienn膮 losow膮 o rozk艂adzie normalnym . W celu oszacowania nieznanej 艣redniej wytrzyma艂o艣ci tego materia艂u dokonano pomiar贸w wytrzyma艂o艣ci na n=5 wylosowanych niezale偶nie sztukach tego materia艂u . Wyniki pomiar贸w by艂y nast臋puj膮ce ( w kg/cm2 ) : 20,4 ; 19,6 ; 22,1 ; 20,8 ; 21,1. Przyjmuj膮c wsp贸艂czynnik ufno艣ci 1-伪 = 0,99 nale偶y zbudowa膰 przedzia艂 ufno艣ci dla 艣redniej wytrzyma艂o艣ci tego materia艂u.

Rozwi膮zanie :

Z tre艣ci zadania wynika , 偶e ze wzgl臋du na nieznajomo艣膰 odchylenia standardowego oraz ma艂膮 pr贸b臋 mamy do czynienia z przedzia艂em ufno艣ci zbudowanym o rozk艂ad t Studenta , czyli :

Nale偶y najpierw obliczy膰 z pr贸by warto艣ci oraz .

Obliczenia pomocnicze znajduj膮 si臋 w poni偶szej tablicy

Wyniki pomiaru

wytrzyma艂o艣ci

20,4 0,4 0,16
19,6 1,2 0,44
22,1 1,3 1,69
20,8 0 0
21,1 0,3 0,09
104,0 3,38

Otrzymujemy :

kg / cm2 , kg / cm2

Nast臋pnie z tablic rozk艂adu Studenta dla 1-伪=0,99 ( czyli dla 伪=0,01 ) oraz dla n-1 =4 stopni swobody odczytujemy warto艣膰 . Podstawiaj膮c do wzoru na przedzia艂 ufno艣ci otrzymujemy :

czyli

Mo偶emy powiedzie膰 ,偶e przedzia艂 liczbowy o ko艅cach 18,9 i 22,7 kg/cm2 z ufno艣ci膮 0,99 pokrywa nieznan膮 艣redni膮 wytrzyma艂o艣膰 tego materia艂u.

Przyk艂ad 3 . Za艂贸偶my , 偶e chcemy oszacowa膰 艣redni sta偶 pracy pracownik贸w zatrudnionych w pewnej firmie przy produkcji wyrob贸w . Za pomoc膮 schematu losowania nieograniczonego niezale偶nego , wylosowano z populacji tych pracownik贸w pr贸b臋 licz膮c膮 n=100 os贸b i otrzymano nast臋puj膮ce wyniki badania tego sta偶u pracy w latach ( wyniki pogrupowano w szereg rozdzielczy ):

Sta偶 pracy w

latach xj

Liczba pracownik贸w

nj

0-2 4
2-4 10
4-6 55
6-8 25
8-10 6

Przyjmuj膮c wsp贸艂czynnik ufno艣ci 1-伪 =0,90 , zbudowa膰 przedzia艂 ufno艣ci dla 艣redniego sta偶u pracy badanej populacji pracownik贸w .

Rozwi膮zanie Z tre艣ci zadania wynika , 偶e ze wzgl臋du na du偶膮 pr贸b臋 mamy do czynienia z modelem III. Przedzia艂 ufno艣ci dla 艣redniej populacji nale偶y zbudowa膰 w oparciu o rozk艂ad normalny , wed艂ug wzoru :

przyjmuj膮c zamiast warto艣膰 jego zgodnego estymatora s z pr贸by . Obliczenia do wyznaczenia i znajduj膮 si臋 w poni偶szej tablicy :

0-2 4 1 4 19,36 77,44
2-4 10 3 30 5,76 57,60
4-6 55 5 275 0,16 8,80
6-8 25 7 175 2,56 64,00
8-10 6 9 54 12,96 77,76
100 538 285,60

Wobec tego otrzymujemy :

,

Ze wzgl臋du na ma艂膮 liczb臋 przedzia艂贸w ( h=2 lata ) nale偶y zastosowa膰 poprawk臋 na grupowanie , tzn. od odj膮膰 . Zatem . Nast臋pnie z tablicy rozk艂adu normalnego N(0,1) odczytujemy warto艣膰 Dla 1-伪 =0,90 ( tzn. dla 伪=0,1 ) odczytujemy ,偶e . Otrzymujemy nast臋puj膮cy przedzia艂 ufno艣ci dla 艣redniego sta偶u pracy : czyli . Zatem przedzia艂 liczbowy o ko艅cach 5,1 i 5,7 obejmuje z ufno艣ci膮 0,90 prawdziw膮 艣redni膮 sta偶u pracy w badanej populacji pracownik贸w w badanej firmie.

Przedzia艂 ufno艣ci dla wska藕nika struktury

Podstawowym parametrem populacji , szacowanym w przypadku bada艅 statystycznych ze wzgl臋du na cech臋 niemierzaln膮 ( jako艣ciow膮 ) jest frakcja , prawdopodobie艅stwo ( lub po przemno偶eniu przez 100 鈥 procent ) element贸w wyr贸偶nionych w populacji , zwana te偶 wska藕nikiem struktury w populacji .

Zagadnienie sprowadza si臋 do budowy przedzia艂u liczbowego , kt贸ry z okre艣lonym , z g贸ry zadanym prawdopodobie艅stwem ( wsp贸艂czynnikiem ufno艣ci ), b臋dzie zawiera艂 nieznan膮 warto艣膰 odsetka ( wska藕nika struktury, cz臋sto艣ci wzgl臋dnej lub procentu ) zbiorowo艣ci generalnej .

Wa偶nym warunkiem jest du偶a pr贸ba , n>100 , a nawet n>120. W zastosowaniach statystyki warunek ten jest znacznie 艂agodniejszy n>30. Jednak im wi臋ksza pr贸ba tym lepsze wyniki.

Gdy n jest ma艂e ( n<30), w贸wczas korzysta si臋 z dok艂adnego rozk艂adu estymatora , jakim jest rozk艂ad dwumianowy ze 艣redni膮 i odchyleniem standardowym .

Je偶eli n jest du偶e ( n>100 ) , a jest ma艂ym u艂amkiem , to mo偶na przyj膮膰 , 偶e estymator ma rozk艂ad asymptotycznie normalny o parametrach a statystyka ma asymptotyczny rozk艂ad normalny zero 鈥 jedynkowy N(0,1).

Przedzia艂 ufno艣ci dla parametru p wyra偶a si臋 wzorem :

Przyk艂ad 4. Pewna firma reklamowa pragnie sprawdzi膰 wyniki kampanii reklamowej towaru A. W tym celu przeprowadzi艂a ankiet臋 w艣r贸d 400 os贸b kupuj膮cych ten towar . Okaza艂o si臋 ,偶e 150 os贸b do kupna towaru nak艂oni艂a reklama. Przyjmuj膮c poziom ufno艣ci 1-伪 = 0,95 , oceni膰 metod膮 przedzia艂ow膮 odsetek os贸b , kt贸re zacz臋艂y kupowa膰 towar A w wyniku przeprowadzonej kampanii reklamowej .

Rozwi膮zanie

Zak艂adaj膮c , 偶e losowanie os贸b do pr贸by by艂o niezale偶ne, mo偶emy przyj膮膰 , 偶e rozk艂ad os贸b kupuj膮cych towar A na skutek przeprowadzonej kampanii reklamowej w艣r贸d 400 wybranych do badania jest dwumianowy o nieznanym parametrze p. Pr贸ba jest du偶a ( n>30 ) , a zatem przedzia艂 ufno艣ci mo偶emy wyznaczy膰 na podstawie powy偶szego wzoru:

Ostatecznie przedzia艂 ten ma posta膰 :

Mo偶na stwierdzi膰 ,偶e przedzia艂 [ 32, 8 % , 42,2 % ] z prawdopodobie艅stwem 1-伪=0,95 obejmuje procent os贸b kupuj膮cych towar A w wyniku przeprowadzonej kampanii reklamowej.

Przedzia艂 ufno艣ci dla wariancji i odchylenia standardowego

Przedzia艂 ufno艣ci dla wariancji w populacji generalnej mo偶na wyznaczy膰 , gdy cecha X charakteryzuj膮ca zbiorowo艣膰 ma rozk艂ad , przy czym parametry s膮 nieznane. Na podstawie pr贸by losowej pochodz膮cej z tej populacji budujemy przedzia艂 ufno艣ci dla nieznanej wariancji , przyjmuj膮c wsp贸艂czynnik ufno艣ci 1-伪 .Estymatorem parametru jest wariancja z pr贸by okre艣lona wzorem :

.

Przedzia艂 ufno艣ci dla mo偶e by膰 zbudowany na podstawie rozk艂adu statystyki , kt贸ra ma rozk艂ad chi 鈥 kwadrat o v=n-1 stopniach swobody. Dla przyj臋tego wsp贸艂czynnika ufno艣ci 1-伪 mo偶na znale藕膰 dwie warto艣ci i , kt贸re mo偶na zapisa膰 jako :

oraz

Przedzia艂 ufno艣ci dla wariancji okre艣lony jest wzorem :

Przedzia艂 ufno艣ci dla odchylenia standardowego mo偶na wyrazi膰 wzorem :

Przyk艂ad 4 .Wylosowano 10 bank贸w , kt贸re maj膮 swoje centrale lub odzia艂y na Podkarpaciu Oprocentowanie rocznych lokat z艂otowych w tych bankach w styczniu 2001 roku wynosi艂o : 10,9 ; 10,75 ; 11,25 ; 12,30 ; 11,25 ; 9,0 ; 11,3 ; 10,75; 12,25 ;11,2.

Zak艂adaj膮c , 偶e oprocentowanie rocznych lokat ma rozk艂ad normalny, oszacowa膰 przedzia艂owo zr贸偶nicowanie oprocentowania tych lokat we wszystkich bankach dzia艂aj膮cych na Podkarpaciu. Przyjmuj膮c poziom ufno艣ci 1-伪=0,96 , nale偶y zbudowa膰 przedzia艂 ufno艣ci dla wariancji przy znajomo艣ci parametr贸w wyznaczonych z ma艂ej pr贸by ( n=10 ). Wykorzystanie zostanie wz贸r na wariancj臋 o nast臋puj膮cej postaci :

Wyznaczymy wariancj臋 , a nast臋pnie z tablic rozk艂adu odczytujemy dla n-1=9 stopni swobody oraz dla i warto艣ci i . Tablica pomocnicza do wyznaczenia

10,9 -0,195 0,038025
10,75 -0,345 0,119025
11,25 0,155 0,024025
12,30 1,205 1,452025
11,25 0,155 0,024025
9,0 -2,095 4,389025
11,3 0,205 0,042025
10,75 -0,345 0,119025
12,25 1,155 1,334025
11,2 0,105 0,011025
7,55222

Przedzia艂 ufno艣ci ma posta膰 nast臋puj膮c膮 :

Przedzia艂 liczbowy ( 0,384 ; 2,982 ) obejmuje z prawdopodobie艅stwem 1-伪 =0,96 nieznan膮 wariancj臋 oprocentowania rocznych lokat z艂otowych wszystkich bank贸w dzia艂aj膮cych na Podkarpaciu.

Weryfikacja hipotez statystycznych

Przedzia艂em ufno艣ci nazywamy przedzia艂 liczbowy, o kt贸rym przypuszczamy , 偶e mie艣ci si臋 w nim nieznany parametr populacji . Z przedzia艂em tym zwi膮zana jest miara ufno艣ci ( pewno艣ci ) , 偶e ten przedzia艂 naprawd臋 zawiera interesuj膮cy nas parametr , zwana poziomem ufno艣ci

Na spos贸b konstrukcji przedzia艂u ufno艣ci ma wp艂yw liczebno艣膰 pr贸by losowej . W zale偶no艣ci od rodzaju szacowanego parametru i liczebno艣ci pr贸by mo偶na wyr贸偶ni膰 kilka przedzia艂贸w ufno艣ci

Hipotezy alternatywne mog膮 by膰 sformu艂owane wzgl臋dem hipotezy zerowej

Stopie艅 sformu艂owania hipotezy alternatywnej wzgl臋dem hipotezy zerowej ma wp艂yw na stopie艅 jednoznaczno艣ci podejmowanych decyzji weryfikacyjnych.

Metody weryfikacji hipotez s膮 skierowane wy艂膮cznie na sprawdzenie hipotez zerowych.

Hipotezy zerowe , decyzje weryfikacyjne oraz b艂臋dy i ich prawdopodobie艅stwa

Hipoteza zerowa

( H0)

Odrzucenie

H0

Przyj臋cie

H0

Prawdziwa

B艂膮d I 鈥 rodzaju (BI)

P(BI) =伪 , 0<伪<1

Decyzja bezb艂臋dna
Fa艂szywa Decyzja bezb艂臋dna

B艂膮d II rodzaju ( BII)

P(BII )=尾 , 尾伪

B艂膮d I rodzaju polega na odrzuceniu s膮du prawdziwego , a ryzyko pope艂nienia b艂臋du mierzone prawdopodobie艅stwem nazywa si臋 poziomem istotno艣ci i wynosi 伪.

Przyj臋cie hipotezy, gdy w rzeczywisto艣ci jest ona fa艂szywa, prowadzi do b艂臋du II rodzaju, a ryzyko pope艂nienia b艂臋du wynosi 尾.

Prawdopodobie艅stwo 1-尾 nazywa si臋 moc膮 test i jest miar膮 ryzyka odrzucenia sprawdzanej hipotezy, a wi臋c H0 , gdy prawdziwa jest H1.

W praktyce d膮偶y si臋 do minimalizacji obydwu b艂臋d贸w. Nie jest to mo偶liwe, bo dla danej liczebno艣ci pr贸by n ,zmniejszenie 伪 spowoduje wzrost 尾. Okazuje si臋 ,偶e nie mo偶na zbudowa膰 testu ( regu艂y post臋powania ) , kt贸ry dla danego n minimalizowa艂by jednocze艣nie 伪 i 尾. Poniewa偶 ustalenie 伪 jest 艂atwiejsze , obszar krytyczny K powinien by膰 tak ustalony, aby prawdopodobie艅stwo zdarzenia

Weryfikacja hipotez statystycznych

Podstawowe poj臋cia

Hipoteza statystyczna - Za艂o偶enie dotycz膮ce warto艣ci parametru lub rodzaju rozk艂adu zmiennej w zbiorowo艣ci generalnej.

Hipoteza zerowa ( H0 ) - Hipoteza formu艂owana cz臋sto w testach istotno艣ci w taki spos贸b , aby na podstawie wynik贸w pr贸by mog艂a by膰 odrzucona ( wbrew zdrowemu rozs膮dkowi ), tak aby mo偶na by艂o j膮 艂atwo odrzuci膰. Na przyk艂ad stawiamy ( hipoteza prosta ) . Cz臋艣ciej jednak chodzi o zapis lub ( hipotezy z艂o偶one ).

Hipoteza alternatywna ( H1 ) - Hipoteza odno艣nie kt贸rej przypuszczamy , 偶e jest prawdziwa ( zgodnie ze zdrowym rozs膮dkiem ). Je偶eli H0 zostanie odrzucona , w贸wczas przyjmujemy H1, w przeciwnym przypadku nie mamy podstaw do stwierdzenia , 偶e hipoteza alternatywna jest prawdziwa, np. dla nieznanej 艣redniej zbiorowo艣ci generalnej .

B艂膮d I rodzaju (伪) - Je艣li hipoteza zerowa w rzeczywisto艣ci jest prawdziwa ( cho膰 tego nie wiemy ) , ale na podstawie wynik贸w hipotez臋 t臋 odrzucamy, to pope艂niamy b艂膮d I rodzaju .

B艂膮d II rodzaju (尾) - Je艣li hipoteza zerowa w rzeczywisto艣ci jest fa艂szywa ( cho膰 tego nie wiemy ), ale na podstawie wynik贸w z pr贸by nie mamy podstaw do jej odrzucenia ( co w praktyce oznacza jej akceptacj臋 , czyli przyj臋cie ) to w贸wczas pope艂niamy b艂膮d II rodzaju.

Sprawdzian testu ( statystyka testu ) 鈥 zmienna losowa o okre艣lonym rozk艂adzie z pr贸by ( najcz臋艣ciej normalnym , t-Studenta lub chi 鈥 kwadrat ), kt贸rej warto艣膰 wpada lub nie do obszaru odrzucenia hipotezy zerowej ( H0 ) , w zale偶no艣ci od tego , jaka b臋dzie krytyczna warto艣膰 testu .

Warto艣膰 krytyczna testu - Warto艣膰 zmiennej losowej o okre艣lonym rozk艂adzie ( najcz臋艣ciej normalnym , t- Studenta lub chi 鈥 kwadrat ) , kt贸ra przy danym 伪 ( poziomie istotno艣ci ) jest por贸wnywalna z warto艣ci膮 statystyki testu dla potrzeb ustalenia , czy H0 mo偶e by膰 odrzucona czy te偶 nie .

Zbi贸r krytyczny - Zbi贸r takich warto艣ci sprawdzianu testu , kt贸re przemawiaj膮 za odrzuceniem H0.

Poziom istotno艣ci - Maksymalne prawdopodobie艅stwo pope艂nienia b艂臋du I rodzaju , na kt贸re godzi si臋 badacz przeprowadzaj膮cy test statystyczny .Zazwyczaj jest ono ma艂e i przyjmuje warto艣ci 0,01 ; 0,02 ; 0,05 ; lub 0,10 .

Test jednostronny - Sytuacja , w kt贸rej zbi贸r krytyczny hipotezy zerowej znajduje si臋 tylko na lewo lub tylko na prawo od warto艣ci oczekiwanej danej zmiennej losowej. Zbi贸r krytyczny testu usytuowany jest zatem po jednej stronie warto艣ci oczekiwanej.

Test dwustronny - Sytuacja , w kt贸rej zbi贸r krytyczny hipotezy zerowej umieszczony jest symetrycznie na lewo i na prawo od warto艣ci oczekiwanej danej statystyki testu.

Wyb贸r rodzaju testu - Zbi贸r krytyczny testu , je艣li to mo偶liwe, powinno si臋 wyznaczy膰 w taki spos贸b , aby przy ustalonym prawdopodobie艅stwie pope艂nienia b艂臋du I rodzaju minimalizowa膰 prawdopodobie艅stwo 尾 ( pope艂nienia b艂臋du II rodzaju ).

Moc testu - Prawdopodobie艅stwo odrzucenia hipotezy zerowej H0 , gdy hipoteza alternatywna H1 jest prawdziwa. Moc testu oznaczony jest przez M=1-尾.

Wykres mocy testu - wykres prawdopodobie艅stwa odrzucenia hipotezy zerowej dla wszystkich mo偶liwych warto艣ci nieznanego parametru zbiorowo艣ci generalnej.

Warto艣膰 p 鈥 minimalna warto艣膰 伪 , dla kt贸rej H0 mo偶e by膰 odrzucona na podstawie wynik贸w pr贸by Hipoteza zerowa powinna by膰 odrzucona tylko wtedy , gdy warto艣膰 p jest mniejsza od przyj臋tego dla danego testu poziomu istotno艣ci ( H0 odrzucamy , gdy warto艣膰 p < 伪 ) . Warto艣膰 p cz臋sto jest nazywana obserwowalnym poziomem istotno艣ci . Jest to miara oceniaj膮ca , na ile wyniki z pr贸by sk艂aniaj膮 do za艂o偶enia prawdziwo艣ci hipotezy zerowej. Im mniejsze p , tym jest to mniej prawdopodobne.

Uwaga ! 鈥 Komputerowy poziom istotno艣ci lub poziom prawdopodobie艅stwa jest w pakiecie Statistica oznaczony jako p. Je偶eli 伪>p , to na danym poziomie 伪 odrzucamy hipotez臋 zerow膮 , natomiast gdy 伪 < p , to na danym poziomie istotno艣ci 伪 nie ma podstaw do odrzucenia hipotezy zerowej.

Hipoteza parametryczna 鈥 za艂o偶enie odnosz膮ce si臋 do nieznanego poziomu parametru ( parametr贸w ) zbiorowo艣ci generalnej.

Hipoteza nieparametryczna 鈥 za艂o偶enia odnosz膮ce si臋 do nieznanej postaci rozk艂adu zmiennej losowej w zbiorowo艣ci generalnej ( czasami dotyczy to r贸wna艅 nieznanych warto艣ci parametr贸w tego rozk艂adu ).

Standardowa procedura testu istotno艣ci 鈥 jest to spos贸b weryfikacji hipotezy statystycznej sk艂adaj膮cy si臋 z nast臋puj膮cych po sobie czynno艣ci :

Test dla warto艣ci 艣redniej

Za艂贸偶my , 偶e cecha X posiada w populacji rozk艂ad N() i parametry tego rozk艂adu nie s膮 znane. W post臋powaniu weryfikacyjnym , gdy nieznana jest warto艣膰 drugiego parametru , tzn. , nale偶y wyr贸偶ni膰 dwa przypadki :

  1. wykorzystuje si臋 statystyk臋 Zn , kt贸rej dok艂adny rozk艂ad w okre艣lonych warunkach jest znany. W tym przypadku mamy do czynienia z ma艂膮 pr贸b膮.

  2. wykorzystuje si臋 statystyk臋 Zn, kt贸rej znany jest rozk艂ad graniczny ( asymptotyczny ). Przypadek ten dotyczy du偶ych pr贸b , tzn. gdy

W przypadku pierwszym 鈥 formu艂ujemy hipotezy : wobec

( albo , albo )

Pobieramy pr贸b臋 losow膮 prost膮 licz膮c膮 n jednostek. Je偶eli pr贸ba jest ma艂a , w praktyce n<30 , to do weryfikacji hipotezy H0 , wykorzystuje si臋 statystyk臋 :

Statystyka t ma rozk艂ad t- Studenta o v=n-1 stopniach swobody wtedy , gdy prawdziwa jest hipoteza zerowa . W celu podj臋cia decyzji wzgl臋dem H0, z tablic rozk艂adu t- Studenta odczytujemy warto艣膰 krytyczn膮 t伪,v spe艂niaj膮c膮 warunek:

gdzie : - ustalony z g贸ry poziom istotno艣ci

Zbi贸r warto艣ci jest obszarem ( zbiorem ) krytycznym. Wiadomo, 偶e dla danego 伪, n , Zn zbi贸r krytyczny K okre艣la tak偶e posta膰 hipotezy alternatywnej . Je偶eli hipoteza konkurencyjna jest postaci :

, to obszar krytyczny wyznaczony z r贸wno艣ci

natomiast dla hipotezy , zbi贸r krytyczny okre艣la r贸wno艣膰

W ka偶dym rozwa偶anym przypadku liczba stopni swobody v wynosi n-1 . Je偶eli obliczona warto艣膰 statystyki testu t znajdzie si臋 w zbiorze krytycznym K , to hipotez臋 H0 odrzucamy z prawdopodobie艅stwem 伪 i przyjmujemy hipotez臋 alternatywn膮. Gdy stwierdzimy, 偶e warto艣膰 statystyki testu nie znajduje si臋 w obszarze krytycznym ( jej warto艣膰 nale偶y do zbioru dopuszczalnego ), wstrzymamy si臋 od podj臋cia decyzji m贸wi膮c, 偶e nie ma podstaw do odrzucenia H0 na poziomie istotno艣ci 伪 .

Test dla dw贸ch 艣rednich

Rozwa偶ane s膮 dwie zbiorowo艣ci , ka偶da ze wzgl臋du na pewn膮 wybran膮 zmienn膮 X. Zak艂ada si臋 , 偶e badana cecha w ka偶dej z tych zbiorowo艣ci ma rozk艂ad normalny odpowiednio o parametrach - w pierwszej zbiorowo艣ci oraz - w drugiej zbiorowo艣ci. W celu sprawdzenia hipotezy : wobec ( mo偶e by膰 lub ) pobiera si臋 niezale偶nie z ka偶dej z tych zbiorowo艣ci pr贸by proste o liczebno艣ci odpowiednio r贸wnej n1 i n2. Je偶eli , to dla zweryfikowania wykorzystuje si臋 statystyk臋 :

Statystyka ta ma rozk艂ad t- Studenta o stopniach swobody w贸wczas, gdy prawdziwa jest H0 oraz wariancje badanej zmiennej w obu populacjach s膮 r贸wne ()

W przypadku gdy , w celu weryfikacji rozwa偶anej H0 wykorzystuje si臋 statystyk臋 o nast臋puj膮cej postaci :

Statystyka ta ma graniczny rozk艂ad normalny , czyli opieraj膮c si臋 na rozk艂adzie N(0,1) okre艣la si臋 krytyczny i dopuszczalny zbi贸r warto艣ci rozwa偶anej statystyki.

Test dla wariancji

Chcemy sprawdzi膰 hipotez臋 , 偶e wariancja w populacji , w kt贸rej badana cecha ma rozk艂ad normalny N( ), jest r贸wne liczbie . Najcz臋艣ciej w praktyce hipoteza konkurencyjna ( alternatywna ) g艂osi , 偶e wariancja jest wi臋ksza od . Sformu艂owane hipotezy mo偶emy zapisa膰 nast臋puj膮co : wobec .

W celu sprawdzenia hipotezy pobieramy pr贸b臋 prost膮 losow膮 licz膮c膮 n jednostek i wykorzystujemy statystyk臋 o postaci :

Statystyka ma rozk艂ad ( chi 鈥 kwadrat ) o v=n-1 stopniach swobody, gdy prawdziwa jest H0. Zbi贸r warto艣ci krytycznych testu wyznacza si臋 z relacji Je偶eli warto艣膰 statystyki testu znajdzie si臋 w obszarze krytycznym to z prawdopodobie艅stwem odrzucamy hipotez臋 . W przeciwnym wypadku wstrzymujemy si臋 od podj臋cia decyzji.

W przypadku , gdy rozwa偶ana jest du偶a pr贸ba, to wykorzystuje si臋 statystyk臋 u Fishera o postaci : . Statystyka ta ma graniczny rozk艂ad N ( 0,1 ) w贸wczas , gdy prawdziwa jest H0.

Test dla dw贸ch wariancji

Badamy dwie populacje o rozk艂adzie normalnym N( i . 呕aden z tych parametr贸w nie jest znany. Nale偶y sprawdzi膰 hipotez臋 wobec hipotezy alternatywnej .

Do weryfikacji hipotezy , 偶e wariancje w obu populacjach s膮 identyczne , u偶ywa si臋 wariancji oraz obliczanych z dw贸ch niezale偶nych pr贸b prostych o liczebno艣ci , odpowiednio , oraz .

Je偶eli prawdziwa jest hipoteza zerowa , tzn. , to zmienna ma rozk艂ad F-Snedecora ( lub kr贸tko rozk艂ad F ) z oraz stopniami swobody, przy czym i s膮 estymatorami wariancji z niezale偶nych pr贸b prostych pobranych ze zbiorowo艣ci o rozk艂adzie normalnym. Relacja wyznaczaj膮ca prawostronny obszar krytyczny jest postaci , gdzie warto艣膰 krytyczn膮 odczytujemy z tablic rozk艂adu F-Snedecora , dla i stopni swobody. Je偶eli powy偶sza relacja jest spe艂niona , nale偶y hipotez臋 odrzuci膰 . W przeciwnym przypadku nie ma podstaw do odrzucenia o identyczno艣ci wariancji w obu populacjach.

Gdy sprawdzeniu podlega hipoteza wobec , w贸wczas statystyk臋 F oblicza si臋 , umieszczaj膮c w liczniku wi臋ksz膮 z wariancji z obu pr贸b, nawet je艣li pochodzi ona z populacji oznaczonej numerem 2 .

Test dla wska藕nika struktury

Niech populacja generalna ma rozk艂ad dwupunktowy z parametrem p oznaczaj膮cym prawdopodobie艅stwo , 偶e badana zmienna X w populacji przyjmie wyr贸偶nion膮 warto艣膰. Parametr p ( )<p<1 ) mo偶na interpretowa膰 jako frakcj臋 element贸w populacji maj膮cych t臋 warto艣膰 okre艣lan膮 cz臋sto w literaturze wska藕nikiem struktury w populacji.

Za艂贸偶my dalej , 偶e dla takiej populacji chcemy zweryfikowa膰 hipotez臋 zerow膮 , 偶e parametr p w populacji ma okre艣lon膮 warto艣膰 . Hipoteza zerowa jest postaci Sprawdzianem tej hipotezy jest wska藕nik struktury z du偶ej pr贸by n 鈥揺lementowej

zdefiniowany jako :

( 1 )

gdzie m oznacza liczb臋 wyr贸偶nionych element贸w w pr贸bie i jest realizacj膮 zmiennej losowej X o rozk艂adzie dwupunktowym.

Statystyka ( 1 ) ma asymptotyczny ( graniczny ) rozk艂ad normalny . Je偶eli hipoteza zerowa jest prawdziwa , tzn. je艣li , to wska藕nik struktury z pr贸by ma asymptotyczny rozk艂ad normalny i statystyka :

ma asymptotyczny ( w przybli偶eniu ) rozk艂ad normalny N( 0,1 ), przy czym m oznacza liczb臋 jednostek o wyr贸偶nionej warto艣ci cechy w n 鈥 elementowej pr贸bie . Obszar krytyczny w tym te艣cie jest okre艣lony relacj膮 , gdzie jest poziomem istotno艣ci , a - warto艣ci膮 krytyczn膮.

Spos贸b weryfikacji przebiega w podobny spos贸b jak poprzednio. Mo偶na konstruowa膰 r贸wnie偶 jednostronne obszary krytyczne w zale偶no艣ci od sformu艂owania hipotezy alternatywnej.

Test dla dw贸ch wska藕nik贸w struktury

Niech badana cecha X w dw贸ch populacjach ma rozk艂ad dwupunktowy z parametrami i . Formu艂ujemy hipotez臋 , 偶e oba te parametry s膮 identyczne . Hipotez臋 zerow膮 mo偶emy zapisa膰 w spos贸b nast臋puj膮cy : a hipotez臋 alternatywn膮 albo lub . W celu weryfikacji hipotezy zerowej z obu populacji wylosowano pr贸by proste o liczebno艣ci jednostek. Niech oraz oznaczaj膮 wska藕niki struktury odpowiednio z pierwszej i drugiej pr贸by . R贸偶nica tych wska藕nik贸w struktury ma asymptotyczny rozk艂ad :

Je艣li prawdziwa jest hipoteza zerowa (), to statystyka :

ma rozk艂ad asymptotycznie normalny N ( 0,1 ) , We wzorze tym i s膮 liczebno艣ciami odpowiednio pr贸by pierwszej i drugiej , i s膮 liczb膮 element贸w wyr贸偶nionych odpowiednio w pr贸bie pierwszej i drugiej , natomiast :

, ,

Parametryczne testy istotno艣ci 鈥 Przyk艂ady

Przyk艂ad 1. W celu sprawdzenia opinii, 偶e 艣rednie spo偶ycie mas艂a w czerwcu 2001 roku w rodzinach dwuosobowych wynosi艂o 1 kg , wybrano 300 rodzin dwuosobowych. Na podstawie uzyskanych informacji obliczono kg oraz kg . Przyjmijmy, 偶e spo偶ycie mas艂a w populacji badanych rodzin ma sko艅czon膮 wariancj臋 i 艣redni膮 . Sprawd藕my zatem wobec Na podstawie charakterystyk z pr贸by nale偶y obliczy膰 warto艣膰 statystyki u , kt贸ra wynosi :

Ustalaj膮c 伪 =0,05 , odczytujemy z tablic dystrybuanty rozk艂adu normalnego , przy czym spe艂nia relacj臋 . Poniewa偶 warto艣膰 16,3268 znalaz艂a si臋 w zbiorze krytycznym , sprawdzan膮 hipotez臋 nale偶y odrzuci膰 na poziomie istotno艣ci 伪=0,05 . Przyjmujemy wi臋c g艂osz膮c膮 , 偶e przeci臋tne spo偶ycie mas艂a w czerwcu 1992 roku w populacji badanych rodzin r贸偶ni艂o si臋 od warto艣ci hipotetycznej wynosz膮cej 1 kg.

Przyk艂ad 2. W celu sprawdzenia przypuszczenia , 偶e dzienne wydatki na pieczywo na osob臋 w rodzinach trzyosobowych w Rzeszowie s膮 takie same jak w 艁a艅cucie . Wylosowano z Rzeszowa 12 rodzin , a z 艁a艅cuta 6. Zebrano odpowiednie informacje o wydatkach na pieczywo w listopadzie 2001 roku . Na podstawie zebranych danych obliczono dla :

Rzeszowa z艂 z艂

艁a艅cuta z艂 z艂

Przyjmuje si臋 , 偶e dzienne wydatki na pieczywo na osob臋 w rodzinach trzyosobowych w Rzeszowie i 艁a艅cucie maj膮 rozk艂ad normalny o takiej samej wariancji.

Hipoteza zerowa jest nast臋puj膮ca :

a alternatywna

Obliczona warto艣膰 statystyki zgodnie z wzorem wynosi t=0,796284. Z tablic rozk艂adu t-Studenta dla v=12 + 6 鈥2 stopni swobody i przyj臋tego poziomu istotno艣ci 伪=0,05 , warto艣膰 krytyczna . Zatem nie ma podstaw do odrzucenia H0 g艂osz膮cej , 偶e 艣rednie dzienne wydatki na pieczywo na osob臋 w rodzinach trzyosobowych Rzeszowa i 艁a艅cuta s膮 r贸wne.

Test dla wska藕nika struktury - Przyk艂ad 3. W celu sprawdzenia przypuszczenia , 偶e 30 % doros艂ych ludzi w Polsce popiera obecne reformy , wybrano losowo 1200 doros艂ych os贸b i zapytano je o akceptacj臋 aktualnych reform. W艣r贸d wylosowanych 362 osoby wyrazi艂y poparcie dla reform. Czy uzyskane wyniki potwierdzaj膮 nasze przypuszczenie ? Aby udzieli膰 odpowiedzi na pytanie , formu艂ujemy nast臋puj膮ce hipotezy : oraz , a nast臋pnie obliczamy warto艣膰 statystyki u , zgodnie z wzorem , i otrzymujemy :

Przyjmuj膮c , odczytujemy z tablic rozk艂adu normalnego warto艣膰 krytyczn膮 . Poniewa偶 warto艣膰 u =0,126 znajduje si臋 w obszarze dopuszczalnym , nie mamy podstaw od odrzucenia s膮du , 偶e 30 % doros艂ych os贸b w Polsce popiera aktualne reformy ( na poziomie istotno艣ci 伪=0,06 )

Testy nieparametryczne

Sprawdzanie hipotezy na podstawie testu zgodno艣ci

Populacja generalna ma dowolny rozk艂ad o dystrybuancie nale偶膮cej do zbioru rozk艂ad贸w o okre艣lonym typie postaci funkcyjnej dystrybuanty. Mog膮 to by膰 dystrybuanty typu ci膮g艂ego i skokowego. Z populacji tej losujemy niezale偶nie du偶膮 pr贸b臋 , a wyniki losowania dzielimy na r roz艂膮cznych klas o liczebno艣ci ni w ka偶dej klasie , przy czym Podzia艂 na klasy tworzy tzw. Rozk艂ad empiryczny . Na podstawie wynik贸w pr贸by stawiamy hipotez臋 , 偶e dystrybuanta populacji nale偶y do klasy okre艣lonych dystrybuant, kt贸r膮 b臋dziemy oznacza膰 przez 惟 ; tzn. , gdzie F ( x ) jest dystrybuant膮 rozk艂adu populacji. Por贸wnanie dystrybuanty F ( x) z dystrybuant膮 empiryczn膮 daje mo偶liwo艣膰 weryfikacji postawionej hipotezy. Test zgodno艣ci dla tej hipotezy jest nast臋puj膮cy : z hipotetycznego rozk艂adu nale偶膮cego do poszczeg贸lnych klas warto艣ci badanej cechy x prawdopodobie艅stwa pi, 偶e zmienna losowa x o rozk艂adzie 惟 przyjmie warto艣ci nale偶膮ce do klasy o numerze i ( i=1,2,3,...,m ) . Z kolei mno偶膮c pi przez liczebno艣膰 ca艂ej pr贸by , otrzymujemy liczebno艣ci teoretyczne , kt贸re wyst膮pi膮 w poszczeg贸lnych klasach , je偶eli postawiona hipoteza H0 jest prawdziwa. Statystyk膮 weryfikuj膮c膮 H0 jest hipoteza :

kt贸ra ma przy s艂uszno艣ci za艂o偶enia H0 rozk艂ad asymptotyczny o r-1 stopniach swobody , lub r-1-k stopniach swobody ( r 鈥 jest liczb膮 klas , k 鈥 liczb膮 parametr贸w , kt贸re wyznaczamy dla funkcji nale偶膮cej do ). Obszar krytyczny w tym te艣cie buduje si臋 prawostronnie w oparciu o rozk艂ad statystyki . Z tablic rozk艂adu , dla ustalonego z g贸ry poziomu istotno艣ci 伪 , odczytujemy warto艣膰 krytyczn膮 , by zachodzi艂o . Je偶eli , to H0 nale偶y odrzuci膰 , je偶eli , to nie ma podstaw do odrzucenia hipotezy.

Przyk艂ad 4 Losowa pr贸ba n=200 niezale偶nych obserwacji miesi臋cznych wydatk贸w na 偶ywno艣膰 rodzin trzyosobowych da艂a nast臋puj膮cy rozk艂ad tych wydatk贸w ( w tys. z艂)

Wydatki Liczba rodzin
1,0 - 1,4 15
1,4 - 1,8 45
1,8 鈥 2,2 70
2,2 鈥 2,6 50
2,6 鈥 3,0 20

Na poziomie istotno艣ci 伪=0,05 nale偶y zweryfikowa膰 hipotez臋 ,偶e rozk艂ad wydatk贸w jest normalny.

Rozwi膮zanie Stawiamy hipotez臋 , gdzie jest klas膮 wszystkich dystrybuant normalnych. Dwa parametry rozk艂adu tej dystrybuanty , 艣redni膮 i odchylenie standardowe , szacujemy z pr贸by za pomoc膮 estymator贸w tys. z艂 . , s=0,43 tys. z艂 鈥 s膮 one potrzebne do standaryzacji . Pozosta艂e obliczenia znajduj臋 si臋 w tablicy

xi ni ui F(ui) pi npi (ni-npi)2 (ni-npi)2/npi
1,4 15 -1,39 0,082 0,082 16,4 1,96 0,12
1,8 45 -1,46 0,323 0,241 48,2 10,24 0,21
2,2 70 0,46 0,677 0,354 70,8 0,64 0,01
2,6 50 1,39 0,918 0,241 48,2 3,24 0,07
3,0 20 2,32 1,00 0,082 16,4 12,96 0,79
200 1,000 200 1,20

Odpowiednia liczba stopni swobody wynosi 5-1-2=2. Z tablic rozk艂adu dla dw贸ch stopni swobody i dla przyj臋tego poziomu istotno艣ci 伪=0,05 odczytujemy warto艣膰 krytyczn膮 . Mamy , nie ma podstaw do odrzucenia hipotezy , 偶e rozk艂ad miesi臋cznych wydatk贸w w populacji rodzin trzyosobowych jest normalny.

Test zgodno艣ci 位- Ko艂mogorowa

Test zgodno艣ci Ko艂mogorowa jest mniej pracoch艂onny ni偶 test , ale mniej wszechstronny. Stosuje si臋 go jedynie do weryfikacji hipotez , 偶e populacja ma rozk艂ad ci膮g艂y .W te艣cie tym por贸wnuje si臋 dystrybuant臋 empiryczn膮 z hipotetyczn膮. Na podstawie analizy r贸偶nic mi臋dzy wymienionymi dystrybuantami buduje si臋 statystyk臋 : gdzie

Z tablic 位- Ko艂mogorowa , dla odpowiednich 伪, warto艣ci 位, kt贸re wykorzystujemy do konstrukcji obszaru krytycznego .

Test 位- Ko艂mogorowa s艂u偶y do weryfikacji nast臋puj膮cych hipotez :

  1. pewna wylosowana pr贸ba zmiennej losowej ma rozk艂ad ci膮g艂y o dystrybuancie ; na podstawie wynik贸w tej pr贸by nale偶y zweryfikowa膰 hipotez臋 , gdzie jest hipotetyczn膮 i ci膮g艂膮 dystrybuant膮 ,

  2. na podstawie dwu losowo pobranych pr贸b sprawdzi膰 hipotez臋 , 偶e obie pr贸by pochodz膮 z tej samej populacji , tzn. hipotez臋

Test istotno艣ci dla hipotezy jest nast臋puj膮cy :

  1. Wyniki pr贸by porz膮dkujemy wed艂ug rosn膮cej kolejno艣ci zmiennej xi z odpowiadaj膮cymi jej liczebno艣ciami ni

  2. Wyznaczamy dla ka偶dego xi warto艣膰 empirycznej dystrybuanty , gdzie

  3. Z rozk艂adu hipotetycznego wyznaczamy dla ka偶dej warto艣ci xi warto艣膰 hipotetycznej dystrybuanty F (x)

  4. Obliczamy bezwzgl臋dn膮 warto艣膰 r贸偶nicy , tzn. r贸偶nic臋 mi臋dzy dystrybuant膮 empiryczn膮 a hipotetyczn膮

  5. Obliczamy warto艣膰 statystyki :

oraz warto艣膰 statystyki :

  1. Dla ustalonego poziomu istotno艣ci 伪 budujemy obszar krytyczny statystyki 位 i weryfikujemy hipotez臋 .

Przyk艂ad 5 Zbadano losowo wybranych student贸w ze wzgl臋du na wysoko艣膰 wydatk贸w przeznaczonych na sport i turystyk臋 w skali rocznej i otrzymano nast臋puj膮ce wyniki ( w setkach z艂 )

Wydatki

Liczba student贸w

29,5 鈥 30 ,5 12
30,5 鈥 31,5 23
31,5 鈥 32,5 35
32,5 鈥 33,5 62
33,5 鈥 34,5 44
34,5 鈥 35,5 18
35,5 鈥 36,5 6

Na poziomie istotno艣ci 伪=0,05 zweryfikowa膰 hipotez臋 , 偶e rozk艂ad wydatk贸w na sport i turystyk臋 w grupie student贸w jest rozk艂adem normalnym.

Rozwi膮zanie : Weryfikujemy hipotez臋 gdzie jest dystrybuant膮 rozk艂adu normalnego ) . Z pr贸by obliczamy oszacowania obu parametr贸w rozk艂adu normalnego , otrzymuj膮c oraz . Poniewa偶 pr贸ba jest du偶a , warto艣ci te przyjmujemy jako estymatory i . Obliczenia konieczne do znalezienia warto艣ci empirycznej i teoretycznej dystrybuanty zosta艂y zamieszczone w poni偶szej tablicy

xj uj F(uj ) = F(x) nj Fn(x)
30 ,5 -1,71 0,044 12 12 0,060 0,016
31,5 -1,00 0,159 23 35 0,175 0,016
32,5 -0,29 0,386 35 70 0,350 0,036
33,5 0,43 0,666 62 132 0,660 0,006
34,5 1,14 0,873 44 176 0,880 0,007
35,5 1,86 0,969 18 194 0,970 0,001
36,5 2,57 0,005 6 200 1,00 0,005

Otrzymali艣my zatem D=0,036 . Poniewa偶 warto艣膰 empiryczna statystyki 位 - Ko艂mogorowa wynosi 0,509. Z tablicy rozk艂adu 位- Ko艂mogorowa ( granicznego ) odczytujemy dla przyj臋tego poziomu istotno艣ci 0,05 krytyczn膮 warto艣膰 , kt贸ra wynosi 1,358. . Nie ma podstaw do odrzucenia hipotezy zerowej , 偶e rozk艂ad wydatk贸w jest rozk艂adem normalnym .

Analiza korelacji i regresji .

Korelacja jest to wsp贸艂zale偶no艣膰 , czyli wzajemne oddzia艂ywanie lub wsp贸艂wyst臋powanie dw贸ch zjawisk lub cech tej samej zbiorowo艣ci .

Celem analizy wsp贸艂zale偶no艣ci jest stwierdzenie , czy mi臋dzy badanymi zmiennymi zachodz膮 jakie艣 zale偶no艣ci , jaka jest ich si艂a , kszta艂t i kierunek.

Wsp贸艂zale偶no艣膰 mi臋dzy zmiennymi mo偶e by膰 :

  1. funkcyjna

  2. stochastyczna ( probabilistyczna)

Zale偶no艣膰 funkcyjna 鈥 okre艣lonej warto艣ci jednej zmiennej ( X 鈥 niezale偶nej 鈥 obja艣niaj膮cej ) , odpowiada jedna i tylko jedna warto艣膰 drugiej zmiennej ( Y 鈥 zale偶na 鈥搊bja艣niana ). Zale偶no艣膰 funkcyjna ( dok艂adna ) wyst臋puje w naukach przyrodniczych , natomiast w naukach spo艂ecznych mamy do czynienia z zale偶no艣ci膮 stochastyczn膮 .

Zale偶no艣膰 stochastyczna ( probabilistyczna ) 鈥 wraz ze zmian膮 jednej zmiennej , zmienia si臋 rozk艂ad prawdopodobie艅stwa drugiej zmiennej . Szczeg贸lnym przypadkiem tej zale偶no艣ci jest zale偶no艣膰 korelacyjna ( statystyczna ) Polega na tym , 偶e okre艣lonym warto艣ciom jednej zmiennej odpowiadaj膮 艣ci艣le okre艣lone 艣rednie warto艣ci drugiej zmiennej .

Statystyczny opis wsp贸艂zale偶no艣ci mo偶e mie膰 :

Badanie wsp贸艂zale偶no艣ci dw贸ch cech ilo艣ciowych ( mierzalnych ) mo偶na przeprowadzi膰 za pomoc膮 tzw. analizy regresji prostej , kt贸ra s艂u偶y do okre艣lenia relacji mi臋dzy zmienn膮 zale偶n膮 i zmienn膮 niezale偶n膮 ( lub odwrotnie ) .

Korelacja mi臋dzy cechami mierzalnymi nosi nazw臋 kontyngencji , a tablice prezentuj膮ce takie dane nosz膮 nazw臋 tablic kontyngencyjnych . Dla potrzeb wykazania zale偶no艣ci w tablicach kontygencyjnych stosuje si臋 test niezale偶no艣ci . Test niezale偶no艣ci , znajduje zastosowanie zar贸wno dla korelacji cech mierzalnych jak i niemierzalnych .

Je艣li zbiorowo艣膰 jest liczna , to wyniki obserwacji dw贸ch cech grupujemy w tablicy kombinowanej zwanej tablic膮 korelacyjn膮 .

Tablica przedstawia rozk艂ad dwuwymiarowy czyli 艂膮czy rozk艂ad zbiorowo艣ci wed艂ug dw贸ch cech .

Y=yj

X=xi

y1 y2 yj yl ni .
x1 n11 n12 ... n 1 j ... n1 l n 1 .
x2 n21 n22 ... n2 j ... n 2 l n 2 .

.

.

.

.

.

.

.

.

.

...

...

...

.

.

.

...

...

...

.

.

.

.

.

.

xi ni1 ni2 ... nij ... nil ni .

.

.

.

.

.

.

.

.

.

...

...

...

.

.

.

...

...

...

.

.

.

.

.

.

xk nk1 nk 2 ... nk j ... nk l nk .
n . j n . 1 n . 2 ... n . j ... n . l n

W boczku tablicy znajduj膮 si臋 warianty cechy X=xi ( i = 1,2,...,k ), w g艂贸wce tablicy znajduj膮 si臋 warianty cechy Y=yj ( j= 1,2, ..., l ). W polach na przeci臋ciu wierszy i kolumn s膮 umieszczone liczebno艣ci nij , oznaczaj膮ce liczb臋 jednostek badanej zbiorowo艣ci posiadaj膮cych i-ty wariant cechy X oraz j-ty wariant cechy Y. Suma liczebno艣ci zapisana w ostatnim wierszu ( n . j ) odnosi si臋 do wariant贸w cechy Y , natomiast suma w ostatniej kolumnie ( n i . ) dotyczy wariant贸w cechy X.

Zachodzi r贸wno艣膰 : , gdzie oznacza og贸ln膮 liczebno艣膰 badanej zbiorowo艣ci .

W tablicy korelacyjnej wyr贸偶niamy rozk艂ady brzegowe i rozk艂ady warunkowe.

Rozk艂ady brzegowe pokazuj膮 roz艂o偶enie obserwacji ( liczebno艣ci ) oddzielnie dla ka偶dej z obu cech . W ostatniej kolumnie znajduje si臋 rozk艂ad brzegowy zmiennej X , natomiast w ostatnim wierszu 鈥 rozk艂ad brzegowy zmiennej Y. Podstawowymi charakterystykami tych rozk艂ad贸w s膮 艣rednie arytmetyczne i wariancje , kt贸re obliczamy jako parametry wa偶one wed艂ug wzor贸w :

,

,

Rozk艂ady warunkowe pokazuj膮 roz艂o偶enie liczebno艣ci przy warto艣ciach jednej cechy pod warunkiem , 偶e druga przyjmie okre艣lon膮 warto艣膰 . W poszczeg贸lnych kolumnach mieszcz膮 si臋 zatem rozk艂ady warunkowe cechy X , co zapisujemy X ( Y = yj ), natomiast w poszczeg贸lnych wierszach znajduj膮 si臋 rozk艂ady warunkowe Y , czyli Y ( X = xi ).

艢rednie i wariancje rozk艂ad贸w warunkowych X ( Y = yj ) obliczamy dla poszczeg贸lnych kolumn ( j= 1, 2 ,..., l ) jako :

gdzie :

- warto艣膰 cechy X lub 艣rodki przedzia艂贸w

- liczebno艣ci zawarte w j-tej kolumnie

艢rednie i wariancje rozk艂ad贸w warunkowych Y ( X = xi ) obliczamy dla poszczeg贸lnych wierszy ( i=1,2,...,k ) jako :

gdzie : - warto艣ci cechy Y lub 艣rodki przedzia艂贸w ;

- liczebno艣ci zawarte w i- tym wierszu

艢rednie i wariancje rozk艂ad贸w warunkowych pozwalaj膮 okre艣li膰 rodzaj zwi膮zku mi臋dzy badanymi zmiennymi. Rodzaje zwi膮zku mi臋dzy zmiennymi to :

Je偶eli zmiany te maj膮 zgodny kierunek , tzn. rosn膮cym warto艣ciom jednej cechy odpowiada wzrost 艣rednich warunkowych drugiej cechy , mamy do czynienia z korelacj膮 dodatni膮 , natomiast gdy rosn膮cym warto艣ciom cechy odpowiadaj膮 malej膮ce 艣rednie warunkowe drugiej cechy , m贸wimy o korelacji ujemnej.

Przyk艂ad 1. W zbiorowo艣ci student贸w II roku kierunku Informatyka i Ekonometria AE w Katowicach , kt贸rzy przyst膮pili do egzaminu ze statystyki w czerwcu 2001 roku i odnotowano dwie cechy :

  1. ocen臋 na egzaminie ze statystyki

  2. liczb臋 punkt贸w otrzymanych na egzaminie z matematyki

Wyniki obserwacji pogrupowano i zamieszczono w poni偶szej tablicy

Liczba punkt贸w z matematyki xi Ocena ze statystyki yj

Razem

n i .

2 3
20 - 24 1 6
25 - 29 2 12
30 - 34 - 9
35 - 39 - 6
40 - 44 - -
Razem n . j 3 33

Tablica przedstawia 艂膮czny rozk艂ad liczby punkt贸w z matematyki (X) i ocen ze statystyki (Y), czyli rozk艂ad dwuwymiarowy. W ostatniej kolumnie znajduje si臋 rozk艂ad brzegowy punkt贸w , czyli liczebno艣ci student贸w ( n i . ) przyporz膮dkowane poszczeg贸lnym klasom cechy X=xi . W ostatnim wierszu znajduje si臋 rozk艂ad brzegowy ocen ze statystyki , czyli liczebno艣ci student贸w ( n . j ) przyporz膮dkowane poszczeg贸lnym ocenom (Y=yj ) .

W kolumnach tablicy zawarte s膮 rozk艂ady warunkowe liczby punkt贸w X(Y=yj ) tzn. przy za艂o偶eniu , 偶e student otrzyma艂 konkretn膮 ocen膮. W wierszach znajduj膮 si臋 rozk艂ady warunkowe ocen Y(X=xi ) tzn. przy za艂o偶eniu , 偶e liczba punkt贸w mie艣ci艂a si臋 w wyodr臋bnionej klasie .

Nale偶y ustali膰 , czy badane zmienne s膮 stochastycznie zale偶ne ?

艢rednie warunkowe ocen ze statystyki : ; ; ; ;

Wariancje warunkowe ocen ze statystyki : ; ; ; ;

艢rednie warunkowe punkt贸w z matematyki : ; ; ;

Wariancje warunkowe punkt贸w z matematyki : ; ; ;

Analiza rozk艂ad贸w warunkowych ocen ze statystyki wykaza艂a , 偶e zar贸wno 艣rednie tych rozk艂ad贸w , jak i wariancje r贸偶ni膮 si臋 mi臋dzy sob膮 . Tak膮 sam膮 prawid艂owo艣膰 stwierdzamy , analizuj膮c rozk艂ady warunkowe liczby punkt贸w z matematyki . A zatem obie badane zmienne s膮 stochastycznie zale偶ne .

Obserwuj膮c zmiany 艣rednich warunkowych jednej i drugiej cechy mo偶emy stwierdzi膰 , 偶e mi臋dzy nimi istnieje zwi膮zek korelacyjny dodatni , bowiem wzrost warto艣ci jednej cechy 艂膮czy si臋 ze zwi臋kszeniem 艣rednich warunkowych drugiej cechy.

Gdy zwi膮zek badanych cech jest liniowy , to miar膮 wsp贸艂zale偶no艣ci jest wsp贸艂czynnik korelacji liniowej Pearsona . Jest on ilorazem miary 艂膮cznego zr贸偶nicowania obu cech tzw. kowariancji , oraz iloczynu odchyle艅 standardowych ka偶dej z cech.

Kowariancja jest 艣redni膮 arytmetyczn膮 iloczynem odchyle艅 warto艣ci zmiennych X i Y ich 艣rednich , co zapiszemy dla danych w szeregach :

dla danych w tablicy

Kowariancja pokazuje jedynie kierunek wsp贸艂zale偶no艣ci ( korelacja dodatnia , ujemna ) . Por贸wnanie jej do iloczynu odchyle艅 standardowych daje miernik unormowany , przyjmuj膮cy warto艣ci z przedzia艂u < -1; +1>. Znak wsp贸艂czynnika korelacji informuje o kierunku zwi膮zku, natomiast warto艣膰 bezwzgl臋dna o jego sile , a zatem :

r(xy) = -1 - oznacza , 偶e mi臋dzy cechami istnieje zwi膮zek funkcyjny ujemny

-1 < r(xy ) <0 - oznacza , 偶e mi臋dzy cechami istnieje zwi膮zek korelacyjny ujemny

r( xy ) = 0 - oznacza , 偶e cechy s膮 niezale偶ne ( brak zwi膮zku )

0 < r ( xy ) < 1 鈥 oznacza , 偶e mi臋dzy cechami istnieje zwi膮zek korelacyjny dodatni

r ( xy ) = 1 鈥 艣wiadczy o istnieniu zwi膮zku funkcyjnego dodatniego

Wsp贸艂czynnik Pearsona oblicza si臋 wed艂ug r贸偶nie przekszta艂conych wzor贸w . Przy obliczeniach dokonanych na podstawie szereg贸w najcz臋艣ciej stosowane s膮 poni偶sze wzory :

gdzie :

- zaobserwowane warto艣ci cechy X

- zaobserwowane warto艣ci cechy Y

- kolejne pary obserwacji

, - 艣rednie arytmetyczne

, - odchylenia standardowe

Niekiedy wygodnie jest korzysta膰 ze wzoru o postaci :

Wsp贸艂czynnik korelacji podniesiony do kwadratu nazywa si臋 wsp贸艂czynnikiem determinacji , informuje on , jaka cz臋艣膰 zmienno艣ci jednej z cech jest wyja艣niana kszta艂towaniem si臋 drugiej cechy . Z kolei dope艂nienie tego wsp贸艂czynnika do jedno艣ci tzw. wsp贸艂czynnik indeterminacji jest interpretowany jako ta cz臋艣膰 zmienno艣ci jednej z cech , kt贸ra nie jest wyja艣niana przez drug膮 , a zatem mo偶e by膰 spowodowana czynnikami nie uj臋tymi w badaniu .

Wsp贸艂czynnik korelacji Pearsona jest symetryczny , czyli przy jego obliczeniu nie ma potrzeby rozstrzyga膰 , kt贸ra cecha jest przyczyn膮 , a kt贸ra skutkiem . Je偶eli chcemy interpretowa膰 wsp贸艂czynnik determinacji , musimy zwraca膰 uwag臋 na to , jakie powi膮zanie cech jest logicznie uzasadnione .

Dla danych pogrupowanych w tablicy korelacyjnej wsp贸艂czynnik korelacji obliczamy jako parametr wa偶ony liczebno艣ciami rozk艂ad贸w warunkowych ( ni j ) . Wz贸r ma posta膰 nast臋puj膮c膮 :

gdzie :

- warto艣膰 cechy X ( i= 1,2,...,k )

- warto艣膰 cechy Y ( j= 1,2, ..., l )

W analizie wsp贸艂zale偶no艣ci wa偶nym zagadnieniem jest rozstrzygni臋cie , czy korelacja stwierdzona w pr贸bie ma tak偶e miejsce w populacji , z kt贸rej pobrano pr贸b臋 . W ocenie tego faktu mo偶e pom贸c test istotno艣ci wsp贸艂czynnika korelacji Pearsona .

Za艂o偶enia testu :

Badane zmienne ( X,Y ) populacji generalnej maj膮 dwuwymiarowy rozk艂ad normalny o nieznanym wsp贸艂czynniku korelacji . Z populacji tej wylosowano n 鈥 elementow膮 pr贸b臋 na podstawie kt贸rej obliczono wsp贸艂czynnik korelacji .

Weryfikacja hipotezy zerowej :

Wobec hipotezy alternatywnej :

lub ,

Do weryfikacji hipotezy stosujemy :

test dla lub test dla n < 122

Przy za艂o偶eniu prawdziwo艣ci hipotezy zerowej omawiane statystyki maj膮 odpowiednio rozk艂ad normalny N(0,1 ) oraz rozk艂ad t- Studenta 0 n-1 stopniach swobody.

Funkcja regresji - to narz臋dzie do badania mechanizmu powi膮za艅 mi臋dzy zmiennymi . Funkcja regresji to analityczny wyraz przyporz膮dkowania 艣rednich warto艣ci zmiennej zale偶nej konkretnym warto艣ci膮 zmiennej niezale偶nej . Wyb贸r postaci analitycznej nie jest problemem 艂atwym .Wyboru postaci analitycznej dokonujemy :

  1. na podstawie wst臋pnej analizy materia艂u statystycznego

  2. wykresy rozrzutu

  3. na podstawie 藕r贸de艂 poza statystycznych

Do opisu w spos贸b syntetyczny wsp贸艂zale偶no艣ci wykorzystuje si臋 odpowiednie funkcje , kt贸re nale偶y dopasowa膰 do smugi punkt贸w przedstawionej na diagramie korelacyjnym . W praktyce przyjmuje si臋 , 偶e je艣li smuga punkt贸w uk艂ada si臋 wzd艂u偶 linii prostej , to dopasowujemy do niej funkcj臋 liniow膮 , kt贸r膮 oznaczymy symbolem :

( 1 )

Wsp贸艂czynniki regresji szacuje si臋 za pomoc膮 metody najmniejszych kwadrat贸w. MNK polega na takim oszacowaniu parametr贸w funkcji ( 1 ) , by dla danych z pr贸by by艂 spe艂niony warunek :

gdzie :

- oznaczaj膮 warto艣ci empiryczne zmiennej Y

- oznaczaj膮 warto艣ci teoretyczne wyznaczone na podstawie r贸wnania ( 1 )

Istot膮 MNK jest taki wyb贸r warto艣ci i dla kt贸rych funkcja kryterium osi膮ga minimum. W tym celu obliczamy odpowiednie pochodne cz膮stkowe wzgl臋dem argument贸w i przyr贸wnujemy je do zera , a mianowicie :

( 2 )

Uwzgl臋dniaj膮c wprowadzone oznaczenia , uk艂ad r贸wna艅 (2) zapiszemy w postaci :

( 3 )

Uk艂ad r贸wna艅 (3) nazywa si臋 uk艂adem r贸wna艅 normalnych . Rozwi膮zuj膮c uk艂ad r贸wna艅 mo偶na otrzyma膰 wzory na warto艣膰 i .

Mi臋dzy wsp贸艂czynnikiem regresji a warto艣ci膮 wprowadzonego wsp贸艂czynnika korelacji istnieje 艣cis艂a zale偶no艣膰 . Przekszta艂caj膮c odpowiednio wz贸r na obliczanie wsp贸艂czynnika otrzymamy :

=

Okazuje si臋 , 偶e wsp贸艂czynnik korelacji jest 艣ci艣le zwi膮zany ze wsp贸艂czynnikiem liniowej funkcji regresji i dlatego nazywa si臋 go liniowym wsp贸艂czynnikiem korelacji .

Oceny parametr贸w a0 i a1 s膮 to estymatory nieobci膮偶one i zgodne parametr贸w i .

Przedzia艂y ufno艣ci dla parametr贸w regresji s膮 nast臋puj膮ce \:

Dla parametru

Dla parametru

gdzie :

, - estymatory parametr贸w i

- ocena standardowego b艂臋du estymatora

- ocena standardowego b艂臋du estymatora

- nieobci膮偶ony estymator wariancji sk艂adnika losowego, dany wzorem

- warto艣膰 statystyki t- Studenta odczytana z tablic rozk艂adu Studenta przy danym poziomie istotno艣ci i stopniach swobody

Gdy pr贸ba jest wi臋ksza od 30 czyli n>30 , w贸wczas przedzia艂y ufno艣ci dla parametr贸w regresji s膮 nast臋puj膮ce :

Dla parametru

Dla parametru

gdzie :

- odczytuje si臋 z tablic dystrybuanty rozk艂adu normalnego

Test hipotezy o zachodzeniu liniowego zwi膮zku mi臋dzy X a Y

Sprawdzianem zachodzenia liniowego zwi膮zku mi臋dzy zmiennymi X i Y :

gdzie : - jest ocen膮 ( estymatorem ) wsp贸艂czynnika kierunkowego linii regresji

- jest ocen膮 standardowego b艂臋du estymatora

Je艣li hipoteza zerowa jest prawdziwa to sprawdzian ma rozk艂ad t o n-2 stopniach swobody . Sprawdzian t jest szczeg贸lnym przypadkiem sprawdzianu :

Jest on zbudowany zgodnie ze schematem : ocena parametru 鈥 hipotetyczna warto艣膰 parametru / ocena standardowego b艂臋du estymatora .

test ze statystyki 鈥 odpowied藕 鈥揳

Zad. 1. Czy opis statystyczny oraz wnioskowanie statystyczne losowej pr贸by kraj贸w europejskich rozpatrywanych ze wzgl臋du na rozmiary zad艂u偶enia w 2001 roku dotycz膮 tej samej zbiorowo艣ci statystycznej

  1. tak

  2. nie

  3. i tak i nie

  4. trudno powiedzie膰

Zad.2. W odpowiedzi na pytanie 鈥 dlaczego korzystamy z Internetu 鈥 Katedra Marketingu AE w Katowicach uzyska艂a m.in. nast臋puj膮ce dane statystyczne : poszukiwanie informacji na w艂asne potrzeby ( 80 %), komunikacja z innymi (75 % ), edukacja ( 58%), rozrywka (58,6%), praca/biznes ( 44,3 % ), zdobywanie informacji o produktach (40,5%), spos贸b sp臋dzania wolnego czasu (37,5%), zakupy (9,2%). Czy liczby podane (w procentach) to :

  1. cz臋sto艣ci empiryczne

  2. prawdopodobie艅stwa

  3. miary opisowe

  4. indywidualne dane statystyczne

Zad. 3. Kt贸ry z aksjomat贸w A.N. Ko艂mogorowa jest pewnikiem tego, 偶e prawdopodobie艅stwo zdarzenia niemo偶liwego jest r贸wne zero:

  1. pierwszy

  2. drugi

  3. trzeci

  4. 偶aden

Zad.4. Poni偶sze dane dotycz膮 zat艂oczenia ( liczby pieszych) w s艂ynnych alejach handlowych w 13 wybranych miastach w dzie艅 powszedni ( wtorek ) oraz dzie艅 weekendowy ( sobota ) :

Lp. Nazwa miasta

Liczba pieszych

wtorek

Liczba pieszych

sobota

1 Bruksela 3792 3871
2 Genewa 3182 3633
3 Hongkong 10424 8752
4 Londyn 8789 9239
5 Madryt 4280 5250
6 Moskwa 4289 1712
7 Nowy Jork 7028 4586
8 Pary偶 10692 5511
9 Szanghaj 2456 4104
10 Sydney 6380 11890
11 Tokio 6393 5067
12 Warszawa 11892 14351
13 Zurych 4672 5549

Czy pozycyjna asymetria rozk艂adu zat艂oczenia w badanych miastach by艂a w dzie艅 powszedni i w sobot臋 taka sama oraz dodatnia :

  1. nie ; tak

  2. tak ; tak

  3. tak, nie;

  4. nie , nie ?

Zad. 5. Dla 52 wylosowanych gmin pewnego wojew贸dztwa zbadano rozmiary bezrobocia i uzyskano , 偶e w 1999 roku 艣rednia stopa bezrobocia wynosi艂a 8,2 % , z przeci臋tnym zr贸偶nicowaniem 3,3 %. Czy precyzja na podstawie uzyskanych danych i przy 1- 伪 = 0,95 , oszacowanego przeci臋tnego poziomu stopy bezrobocia dla ca艂ego wojew贸dztwa pozwala na wnioskowanie :

  1. bezpieczne

  2. nie w pe艂ni bezpieczne

  3. zdecydowanie niebezpieczne

  4. trudno powiedzie膰 ?

Zad.6. Na reprezentatywnej pr贸bie losowej 1167 doros艂ych Polak贸w na pocz膮tku 2000 roku COBS przeprowadzi艂 sonda偶 opinii dotycz膮cy zabezpieczenia finansowego na przysz艂o艣膰. Uzyskano 35 % pozytywnych odpowiedzi. Z jakim wzgl臋dnym b艂臋dem precyzji, przy

1-伪 = 90 , mo偶na by uog贸lni膰 ten wynik na ca艂膮 populacj臋 doros艂ych Polak贸w i ile nale偶a艂oby os贸b wylosowa膰 do nast臋pnego badania , aby b艂膮d precyzji nie przekroczy艂 3 %.

  1. 6,5 % ; 678

  2. 5,6 %; 876

  3. 0,65 % ; 76

  4. 0,065 % ; 927 ?

Zad. 7.Wp艂aty 11 polskich bank贸w ( w mln z艂 ) przeznaczone dla klient贸w upad艂ego Banku Staropolskiego by艂y nast臋puj膮ce : [ 136,4 114,7 33,5 28,5 26,7 26,0 23,6 21,7 18,6 16,7 16 ,7 ]. W oparciu o te dane, przyjmuj膮c poziom istotno艣ci 伪=0,01, stwierdzi膰 , czy przypuszczenie o przeci臋tnym przekazie w艣r贸d wszystkich bank贸w w wysoko艣ci 30,0 mln z艂 nale偶y :

  1. nie odrzuci膰

  2. odrzuci膰

  3. przyj膮膰

  4. brak decyzji ?

Zad.8. Firma buduj膮c nowy obiekt, musi przewidzie膰 miejsca na parkingu dla pojazd贸w pracownik贸w i go艣ci. W艣r贸d 200 pracownik贸w stwierdzono, 偶e 150 z nich przyje偶d偶a do pracy samochodem. Przyjmuj膮c poziom istotno艣ci 0,05 sprawdzi膰 przypuszczenie, 偶e parking dla pracownik贸w powinien stanowi膰 65 % powierzchni parkingowej . Czy decyzja taka by艂aby :

  1. jednoznaczna

  2. niejednoznaczna

  3. jednoznaczna, ale ...

  4. niejednoznaczna , ale ... ?

Zad. 9. W zwi膮zku ze zr贸偶nicowaniem opinii o celowo艣ci budowy ro偶nej wielko艣ci supermarket贸w zbadano zale偶no艣膰 pomi臋dzy wielko艣ci膮 zakup贸w w 艣rednich i du偶ych domach handlowych. Otrzymano m.in. informacje o 艣rednim tygodniowym zakupie przeci臋tnego klienta :

W pierwszym przypadku zbadano 1000 klient贸w, w drugim 3000 os贸b. Czy badan膮 zale偶no艣膰 nale偶y okre艣li膰 jako :

  1. niewielk膮

  2. umiarkowan膮

  3. wysok膮

  4. bardzo wysok膮 ?

Zad.10. W 1999 roku w por贸wnaniu z 1998 r warto艣膰 eksportu dw贸ch towar贸w wzros艂a o 50 mln z艂. W omawianym okresie cena towaru I wzros艂a o 8 % , a towaru II o 10 % . O ile przeci臋tnie wzr贸s艂 eksport z tytu艂u wzrostu cen, je偶eli w 1998 roku eksport towaru I osi膮gn膮艂 warto艣膰 60 mln z艂 , a towaru II 80 mln z艂 :

  1. 9,1 %

  2. 10,91 %

  3. 109,1%

  4. 1% ?


Wyszukiwarka

Podobne podstrony:
05.niezaleznosc stochastyczna i regresja I rodzaju, STATYSTYKA
RODZAJE CECH STATYSTYCZNYCH (zaliczenie), PDF i
Rodzaje badan statystycznych, ekonomia, logika, biznes, info
B艂臋dem pierwszego rodzaju, Wiedza, Statystyka
Referat Badania statystyczne, rodzaje i etapy Podstawy statystyki,ekonomiki i organizacjix
Metodologia z elelmentami statystyki dr Izabela Krejtz wyklad 1 Rodzaje skal pomiarowych
Statystyka SUM w4
RODZAJE WYSI艁KU FIZYCZNEGO
statystyka 3
rodzaje ooznaczen i ich ochrona
Weryfikacja hipotez statystycznych
rodzaje struktur rynkowych 2
Zaj III Karta statystyczna NOT st
Metodologia SPSS Zastosowanie komputer贸w Brzezicka Rotkiewicz Podstawy statystyki
metody statystyczne w chemii 8
rodzaje diet
Rodzaje zanieczyszcze艅 艣rodowiska

wi臋cej podobnych podstron