plik


ÿþ1 Agata BoratyDska WYKAADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE) Warszawa 2014 Agata BoratyDska WykBady ze statystyki matematycznej 2 Literatura W. Niemiro Rachunek prawdopodobieDstwa i statystyka mate- matyczna, SNS 1999 J. Koronacki i J. Mielniczuk Statystyka WNT 2004 J. Józwiak i J. Podgórski, Statystyka od podstaw, PWE 1994 H. Kassyk-Rokicka, Statystyka, zbiór zadaD, 2005 lub inne wyda- nia W. Krysicki Rachunek prawdopodobieDstwa i statystyka mate- matyczna w zadaniach, cz. 2. PWN 1998 D. Silvey Wnioskowanie statystyczne, PWN R. ZieliDski Siedem wykBadów wprowadzajcych do statystyki matematycznej, PWN www.impan.gov.pl/ rziel/7ALL.pdf A. BoratyDska Zadania ze statystyki matematycznej, akson.sgh.waw.pl/ aborata/ekonomia/Zadsek2.pdf A. BoratyDska WykBady ze statystyki matematycznej, akson.sgh.waw.pl/ aborata/ekonomia/wykladSM.pdf J. Ciecielg i K. Marek Statystyka matematyczna, zbiór zadaD, WNE A. Jokiel-Rokita i R. Magiera, Modele i metody statystyki mate- matycznej w zadaniach, Oficyna Wydawnicza GiS, WrocBaw 2005 A.D. Aczel, Statystyka w zarzdzaniu, PWN W. ZieliDski Tablice statystyczne. C.R. Rao Statystyka i prawda, PWN 1994 Agata BoratyDska WykBady ze statystyki matematycznej 3 Statystyka jest bardziej sposobem my[lenia lub wnioskowania ni| pczkiem recept na mBócenie danych w celu odsBonicia od- powiedzi C. R. Rao ... statystyka jest nauk o tym, jak wykorzystywa informacje do analizy i wytyczania kierunków dziaBania w warunkach nie- pewno[ci. V. Barnett Comparative Statistical Inference Nauka nie stara si wyja[nia, a nawet niemal nie stara si interpretowa, zajmuje si ona gBównie budow modeli. Mo- del rozumiany jest jako matematyczny twór, który, po doda- niu sBownej interpretacji, opisuje badane zjawiska. Jedynym i wBa[ciwym uzasadnieniem takiego tworu matematycznego jest oczekiwanie, |e sprawdzi si on w dziaBaniu. John von Neumann KBamstwo, wierutne kBamstwo, statystyka Liczby nie kBami ale kBamcy licz Ch. H. Grosvenor Prawa naukowe nie s formuBowane na mocy autorytetów ani uzasadniane przez wiar czy [redniowieczn filozofi. Jedynym sdem odwoBawczym dla nowej wiedzy jest statystyka P.C. Mahanalobis Agata BoratyDska WykBady ze statystyki matematycznej 4 STATYSTYKA - nauka po[wicona metodom badania i anali- zowania zjawisk masowych; polega na systematyzowaniu obserwo- wanych cech ilo[ciowych i jako[ciowych oraz przedstawianiu wy- ników w postaci zestawieD tabelarycznych, wykresów, diagramów itp. Zajmuje si zbieraniem, przetwarzanie, przedstawianiem da- nych oraz wniskowaniem na ich podstawie. STATYSTYKA MATEMATYCZNA - dziaB matematyki stosowanej oparty na rachunku prawdopodobieDstwa, zajmuje si badaniem zbiorów i wnioskowaniem o pewnych charakterystykach cech (zmiennych losowych) na podstawie znajomo[ci podzbiorów i obserwacji warto[ci zmiennej losowej w postaci próby losowej. Agata BoratyDska WykBady ze statystyki matematycznej 5 STATYSTYKA OPISOWA, WSTPNA ANALIZA DANYCH. populacja - zbiór obiektów z wyró|nion cech, zbiorowo[ pod- dawana badaniu. cecha - wielko[ losowa charakteryzujca obiekty danej populacji lub interesujca badacza zmienna losowa, cecha ilo[ciowa (np waga, ocena, wiek, zarobki) i jako[ciowa (kolor oczu, pBe, wyksztaBcenie) jednostka badania - element populacji poddany badaniu próba - wybrana cz[ populacji poddana badaniu, zbiór jedno- stek badania jednostka cecha X cecha Y cecha Z . . . 1 x1 y1 z1 . . . 2 x2 y2 z2 . . . 3 x3 y3 z3 . . . . . . . . . . . . . . . . . . badanie peBne - obejmuje caB populacj (np. spis powszechny) badanie reprezentacyjne - obejmuje cz[ populacji Wnioskowanie o caBej populacji na podstawie próby losowej wy- maga metod rachunku prawdopodobieDstwa. Agata BoratyDska WykBady ze statystyki matematycznej 6 PREZENTACJA DANYCH Szereg rozdzielczy punktowy (tablica kontyngencji) warto[ci cechy liczno[ci (liczba jednostek) x1 n1 x2 n2 . . . . . . xk nk PRZYKAAD 1. W grupie 20 studentów oceny z egzaminu ze sta- tystyki byBy nastpujce: 2 3 3.5 4 4.5 4 5 3 3 4 3.5 3 3 3.5 3 2 4 5 3.5 3.5 Dane w szeregu ocena liczba studentów 2 2 3 6 3.5 5 4 4 4.5 1 5 2 Razem 20 Przejrzystym sposobem prezentacji jest wykres sBupkowy Agata BoratyDska WykBady ze statystyki matematycznej 7 Szereg rozdzielczy przedziaBowy przedziaB [rodek przedziaBu liczno[ci czsto[ci n1 (c0, c1] c1 n1 f1 = ¯ n n2 (c1, c2] c2 n2 f2 = ¯ n . . . . . . . . . . . . nk (ck-1, ck] ck nk fk = ¯ n Uwagi: ci-1+ci " ci = ¯ 2 " Najcz[ciej klasy o jednakowej szeroko[ci lub o zbli|onej liczno[ci " " 3 " Liczba klas k speBnia n k n 4 " liczb klas mo|na te| dobiera ustalajc szeroko[, jedna z reguB to 1 3 b 2, 64 · IQR · n- gdzie IQR - rozstp midzykwartylowy " Je|eli liczba klas jest równa k i klasy s jednakowej dBugo[ci, to dBugo[ b speBnia Xn:n - X1:n b k gdzie X1:n - najmniejsza obserwacja Xn:n - najwiksza obserwacja Agata BoratyDska WykBady ze statystyki matematycznej 8 PRZYKAAD 2. Powierzchni mieszkaD w pewnym osiedlu podaje tabela 32,45 33,21 34,36 35,78 37,79 38,54 38,91 38,96 39,50 39,67 39,80 41,45 41,55 42,27 42,40 42,45 44,25 44,50 44,70 44,83 44,90 45,10 45,90 46,52 47,65 48,10 48,55 48,90 49,00 49,24 49,55 49,65 49,70 49,90 50,90 51,40 51,50 51,65 51,70 51,80 51,98 52,00 52,10 52,30 53,65 53,89 53,90 54,00 54,10 55,20 55,30 55,56 55,62 56,00 56,70 56,80 56,90 56,95 57,13 57,45 57,70 57,90 58,00 58,50 58,67 58,80 59,23 63,40 63,70 64,20 64,30 64,60 65,00 66,29 66,78 67,80 68,90 69,00 69,50 73,20 76,80 77,10 77,80 78,90 79,50 82,70 83,40 84,50 84,90 85,00 86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 112,70 118,90 przedziaB [rodek liczba mieszkaD czsto[ci 30 - 40 35 11 0.11 40 - 50 45 23 0.23 50 - 60 55 33 0.33 60 - 70 65 12 0.12 70 - 80 75 6 0.06 80 - 90 85 8 0.08 90 - 100 95 3 0.03 100 - 110 105 2 0.02 110 - 120 115 2 0.02 razem 100 1 Agata BoratyDska WykBady ze statystyki matematycznej 9 Histogram - jest to wykres sBupkowy, którego podstaw stano- wi przedziaBy klasowe, a wysoko[ci sBupków sa proporcjonalne do liczno[ci ni poszczególnych klas. Je|eli wysoko[ci s równe liczno[ciom klas to mamy histogram liczno[ci, je|eli s równe czsto[ciom to histogram czsto[ci. W sytuacji, gdy klasy nie maj równej dBugo[ci wysoko[ sBupków okre[la si wg wzoru fi hi = bi gdzie fi - to czsto[, a bi - szeroko[ klasy. (porównaj histogramy - przykBad 1,2,3) Aczc punkty o wspóBrzdnych (ci, ni) otrzymujemy Baman ¯ liczno[ci, a Bczc punkty o wspóBrzdnych (¯ fi) albo (ci, hi) ci, ¯ Baman czsto[ci. W szeregu rozdzielczym mo|emy równie| podawa liczno[ci i cz- sto[ci skumulowane. przedziaB liczno[ci czsto[ci skumulowane cni skumulowane cfi n1 (c0, c1] n1 f1 = n (c1, c2] n1 + n2 f1 + f2 . . . . . . . . . (ck-1, ck] n1 + n2 + . . . + nk = n f1 + f2 + . . . + fk = 1 Agata BoratyDska WykBady ze statystyki matematycznej 10 Je|eli wysoko[ci sBupków histogramu s równe liczno[ciom (cz- sto[ciom) skumulowanym to otrzymujemy histogram liczno[ci (czsto[ci) skumulowanych. Aczc punkty o wspóBrzdnych (ci, cni) otrzymujemy Baman liczno[ci skumulowanych, a Bczc punkty o wspóBrzdnych (ci, cfi) otrzymujemy Baman czsto[ci skumulowanych. Agata BoratyDska WykBady ze statystyki matematycznej 11 CHARAKTERYSTYKI PRÓBKOWE MIARY POAO{ENIA ¯ Zrednia arytmetyczna X " z próby losowej X1, X2, . . . , Xn (dane surowe) X1 + X2 + . . . + Xn ¯ X = n " dane z szeregu rozdzielczego punktowego k 1 ¯ X = xini n i=1 " dane z szeregu rozdzielczego przedziaBowego k 1 ¯ X cini ¯ n i=1 PRZYKAAD 1 cd. 2 · 2 + 6 · 3 + 5 · 3.5 + 4 · 4 + 1 · 4.5 + 2 · 5 ¯ X = = 3.5 20 PRZYKAAD 2 cd. dla danych z szeregu rozdzielczego ¯ X = 1 (11·35+23·45+33·55+12·65+6·75+8·85+3·95+2·105+2·115) = 58.70 100 Uwaga: je|eli dostpne s dane surowe zaleca si korzystanie ze wzoru pierwszego. Agata BoratyDska WykBady ze statystyki matematycznej 12 Mediana Med z próby losowej jest to liczba, taka |e co najmniej 50% obserwacji przyjmuje warto[ nie wiksz od niej i co najmniej 50% obserwacji warto[ nie mniejsz od niej. Wyliczamy j w nastpujcy sposób: " dane surowe: ustawiamy rosnco, i-t obserwacj w cigu ustawionym rosnco oznaczamy symbolem Xi:n i nazywamy i-t statystyk pozycyjn ñø ôø X gdy n nieparzyste n+1 òø :n 2 Med = 1 ôø óø n (X + X ) gdy n parzyste n+2 :n :n 2 2 2 " dane z szeregu rozdzielczego przedziaBowego ëø öø M-1 b n íø Med cL + - niøø nM 2 i=1 gdzie cL - dolna granica klasy mediany b - szeroko[ klasy mediany nM - liczno[ klasy mediany M - numer klasy X10:20+X11:20 3,5+3,5 PRZYKAAD 1 cd. Med = = = 3, 5 2 2 PRZYKAAD 2 cd. dla danych z szeregu rozdzielczego M = 3, n3 = 33, cL = 50, b = 10 10 Med 50 + (50 - 34) = 54, 85 33 Agata BoratyDska WykBady ze statystyki matematycznej 13 Moda (dominanta) Mo - warto[ najcz[ciej powtarzajca si w próbie (czsto zakBada si, |e nie mo|e by to warto[ najwiksza ani najmniejsza) Przy danych z szeregu rozdzielczego nMo - nMo-1 Mo cL + · b (nMo - nMo-1) + (nMo - nMo+1) gdzie nMo - liczno[ najliczniejszej klasy zwanej klas mody, cL - lewy koniec klasy mody PRZYKAAD 1 cd. Mo = 3 PRZYKAAD 2 cd. 33 - 23 Mo 50 + · 10 = 53, 2 33 - 23 + 33 - 12 PRZYKAAD 3 cd. 0, 0006771 - 0, 0004583 Mo 250+ ·200 = 354, 56 2 · 0, 0006771 - 0, 0004583 - 0, 0004774 Agata BoratyDska WykBady ze statystyki matematycznej 14 PRZYKAAD 4. Miesiczne zarobki zasadnicze pracowników z wy|- szym wyksztaBceniem w pewnej firmie zarobki liczba osób 2500 6 3000 8 3100 7 3500 4 4000 3 5000 2 12000 1 Razem 31 ¯ X = 3506 Med = X16:31 = 3100 Mo = 3000 Uwaga: [rednia jest nieodporna na obserwacje odstajce Agata BoratyDska WykBady ze statystyki matematycznej 15 Kwartyle Pierwszy kwartyl (dolny kwartyl) Q1- to taka warto[ ce- chy, |e co najmniej 25% obserwacji przyjmuje warto[ nie wiksz od niej i co najmniej 75% obserwacji warto[ nie mniejsz od niej. Drugi kwartyl = Mediana Trzeci kwartyl (kwartyl górny) Q3- to taka warto[ cechy, |e co najmniej 75% obserwacji przyjmuje warto[ nie wiksz od niej i co najmniej 25% obserwacji warto[ nie mniejsz od niej. W praktyce dolny kwartyl wyznacza si jako median podpróby zBo|onej z obserwacji o warto[ciach mniejszych od mediany, a górny kwartyl jako median z podpróby zBo|onej z obserwacji wikszych od mediany. PRZYKAAD 1 cd. X5:20 + X6:20 Q1 = = 3 2 X15:20 + X16:20 Q3 = = 4 2 Agata BoratyDska WykBady ze statystyki matematycznej 16 Przy danych z szeregu rozdzielczego ëø öø M1-1 b n ìø íø - øø Q1 cL + ni÷ø nM1 4 i=1 gdzie cL - dolna granica klasy kwartyla b - szeroko[ klasy kwartyla nM1 - liczno[ klasy kwartyla M1 - numer klasy ëø öø M3-1 b 3n ìø íø - øø Q3 cL + ni÷ø nM3 4 i=1 gdzie cL - dolna granica klasy kwartyla b - szeroko[ klasy kwartyla nM3 - liczno[ klasy kwartyla M3 - numer klasy n PRZYKAAD 2 cd. Za Q1 odpowiada obserwacja o numerze = 25, 4 std klasa kwartyla jest klasa druga M = 2 10 Q1 40 + (25 - 11) = 46.09 23 3 Za Q3 odpowiada obserwacja o numerze n = 75, std klas kwar- 4 tyla jest klasa czwarta M = 4 10 Q3 60 + (75 - 65) = 66.67 12 Agata BoratyDska WykBady ze statystyki matematycznej 17 Kwartyle dziel prób na cztery równe cz[ci (ze wzgldu na licz- no[), w ka|dej jest w przybli|eniu 25% obserwacji. Porównanie wskazników dla danych surowych i szeregu rozdziel- czego miara dane surowe szereg rozdzielczy [rednia 59,58 58,70 mediana 55,25 54,85 Q1 47,88 46,09 Q3 67,29 66,67 Kwantyl próbkowy rzdu p ñø Xnp:n+Xnp+1:n ôø òø gdy np " Z 2 Qp = lub Qp = X[np]+1:n ôø óø X[np]+1:n w pp Agata BoratyDska WykBady ze statystyki matematycznej 18 MIARY ROZPROSZENIA Rozstp czyli odlegBo[ midzy najwiksz i najmniejsz obser- wacj r = Xn:n - X1:n Rozstp midzykwartylowy IQR = Q3 - Q1 podaje dBugo[ odcinka, na którym le|y 50% [rodkowych warto[ci w uporzdkowanej niemalejco próbie. Uwaga: rozstp jest funkcj tylko kraDcowych obserwacji, jest nieodporny na obserwacje odstajce, tej wady pozbawiony jest rozstp midzy- kwartylowy Wariancj z próby losowej X1, X2, . . . , Xn (dane surowe) nazywamy liczb n 1 Æ ¯ S2 = (Xi - X)2 n i=1 ëø öø n 1 íø ¯ øø = Xi2 - nX2 n i=1 Dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy k 1 Æ ¯ S2 ni(ci - X)2 ¯ n i=1 Agata BoratyDska WykBady ze statystyki matematycznej 19 Przy danych pogrupowanych w szeregu rozdzielczym stosuje si jeszcze poprawk zwizan z zaBo|eniem rozkBadu równomiernego danych na poszczególnych przedziaBach k k 1 1 ¯ ¯ S2 = ni(ci - X)2 + ni(ci - ci-1)2 ¯ n 12n i=1 i=1 " " Æ Æ ¯ ¯ Odchylenie standardowe S = S2 lub S = S2 1 n ¯ Odchylenie przecitne d = |Xi - X| i=1 n W sytuacji gdy chcemy porówna rozrzut dwóch lub wicej prób korzystamy ze wspóBczynnika zmienno[ci Æ S V = 100% ¯ X PRZYKAAD 1 cd. r = 5 - 2 = 3 IQR = 4 - 3 = 1 1 Æ S2 = 2(2 - 3, 5)2 + 6(3 - 3, 5)2 + 5(3, 5 - 3, 5)2 20 +4(4 - 3, 5)2 + 1(4, 5 - 3, 5)2 + 2(5 - 3, 5)2 = 0, 63 " Æ S = 0, 658 = 0, 79 1 d = {2|2 - 3, 5| + 6|3 - 3, 5| + 5|3, 5 - 3, 5| 20 +4|4 - 3, 5| + 1|4, 5 - 3, 5| + 2|5 - 3, 5|} = 0, 6 Agata BoratyDska WykBady ze statystyki matematycznej 20 PRZYKAAD 2 cd. Dla danych z szeregu rozdzielczego r 120 - 30 = 90 IQR 66, 67 - 46, 09 = 20, 58 Æ S2 331, 31 Æ S 18, 20 ¯ ¯ S2 = 339, 64 S = 18, 43 d 13, 96 Agata BoratyDska WykBady ze statystyki matematycznej 21 WYKRES RAMKOWY, PUDEAKO Z WSAMI Pozwala na jednym rysunku przedstawi wiadomo[ci dotyczce po- Bo|enia, rozproszenia i ksztaBtu rozkBadu empirycznego badanej ce- chy. Na wykresie zaznacza si kwartyle, [redni, median, najwik- sz i najmniejsz obserwacj, obserwacje odstajce. Obserwacje odstajce s to obserwacje o warto[ciach x < x" lub x > x" gdzie 3 x" = min{Xi : Xi " [Q1 - IQR, Q1]} 2 3 x" = max{Xi : Xi " [Q3, Q3 + IQR]} 2 Agata BoratyDska WykBady ze statystyki matematycznej 22 WSKAyNIKI ASYMETRII WspóBczynnik asymetrii (klasyczny) M3 A = S3 gdzie M3 jest trzecim momentem centralnym równym dla danych surowych n 1 ¯ M3 = (Xi - X)3, n i=1 dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy k 1 ¯ M3 ni(ci - X)3 ¯ n i=1 Pozycyjny miernik asymetrii Q3 - 2Med + Q1 A2 = Q3 - Q1 WspóBczynnik sko[no[ci ¯ X - Mo A1 = S Asymetria dodatnia (prawostronna) - wskazniki asymetrii dodatnie Asymetria ujemna (lewostronna) - wskazniki asymetrii ujemne 3,5-3,5 PRZYKAAD 1 cd. A = 0, 08, A1 = = 0 0,79 58,70-50,10 PRZYKAAD 2cd. A = 1, 10 A1 = = 0, 47 18,20 3506-3000 PRZYKAAD 3cd. A1 = = 0, 3 1671,57 Agata BoratyDska WykBady ze statystyki matematycznej 23 INDEKSY STATYSTYCZNE Zbiór warto[ci danej cechy lub warto[ci okre[lonego zjawiska za- obserwowany w ró|nych (ale chronologicznych) momentach czasu nazywamy szeregiem czasowym. PRZYKAAD. cena akcji w kolejnych dniach stycznia, zarobki w pewnej gaBzi przemysBu w kolejnych latach, wielko[ produkcji w kolejnych miesicach Indeksy statystyczne sBu| do badania dynamiki zjawiska na podstawie danych z kolejnych okresów czasowych (na podstawie szeregu czasowego). yt - poziom zjawiska (warto[ cechy) w chwili (okresie) t, t " {0, 1, 2, . . . , n} "t = yt - yt-1 - przyrost absolutny yt-yt " ´t = - przyrost wzgldny wzgldem warto[ci w chwili t". yt " INDEKSY PROSTE - mierniki tempa zmian zjawiska yt Indeks BaDcuchowy dynamiki it|t-1 = yt-1 Tempo zmian warto[ci zjawiska w okresie t w stosunku do okresu t - 1 jest równe (it|t-1 - 1)100% yt " Indeks jednopodstawowy dynamiki it|t = , gdzie t" jest yt " ustalon chwil (ustalonym okresem) czasu. Agata BoratyDska WykBady ze statystyki matematycznej 24 Tempo zmian warto[ci zjawiska w okresie t w stosunku do okresu " t" jest równe (it|t - 1)100% Zwizki midzy indeksami: " it|t it|t-1 = , " it-1|t je[li t > t" to t it |t" = it|t-1, t=t"+1 je[li t < t" to t" 1 it |t" = . it|t-1 t=t +1 Zrednie tempo zmian warto[ci zjawiska ëø öø 1 ëø öø 1 1 n n yn n íø íø øø r = +g - 1 = it|t-1øø - 1 = - 1 = in|0 n - 1 y0 t=1 Zrednie tempo zmian warto[ci zjawiska okre[la tempo zmian zjawi- ska jakie powinno wystpowa przez caBy okres (0, n), aby przyrost z okresu (0, n) rozBo|y równomiernie w czasie. Zatem yn = y0(r + 1)n. Agata BoratyDska WykBady ze statystyki matematycznej 25 AGREGATOWE INDEKSY WARTOZCI, ILOZCI I CEN. Indeksy agragatowe oceniaj dynamik zjawiska w niejedno- rodnej zbiorowo[ci (np. dynamika cen ró|nych artykuBów, dyna- mika spo|ycia ró|nych produktów, dynamika sprzeda|y, produkcji kilku dóbr). Dane z dwóch okresów (momentów) czasowych: t = 0 - okres pod- stawowy i t = 1 okres badany produkt cena jednostki ilo[ warto[ t = 0 t = 1 t = 0 t = 1 t = 0 t = 1 1 p10 p11 q10 q11 w10 = p10q10 w11 = p11q11 2 p20 p21 q20 q21 w20 = p20q20 w21 = p21q21 . . . . . . . . . . . . . . . . . . . . . j pj0 pj1 qj0 qj1 wj0 = pj0qj0 wj1 = pj1qj1 . . . . . . . . . . . . . . . . . . . . . k pk0 pk1 qk0 qk1 wk0 = pk0qk0 wk1 = pk1qk1 Agregatowy indeks warto[ci k wj1 j=1 Iw = k wj0 j=1 informuje o Bcznej zmianie warto[ci wszystkich produktów w mo- mencie badanym do momentu podstawowego Agata BoratyDska WykBady ze statystyki matematycznej 26 Agregatowy indeks cen okre[la wpByw zmian cen na dyna- mik warto[ci (gdyby ilo[ci w obu momentach czasu byBy niezmie- nione), mówi o przecitnych zmianach cen wszystkich rozwa|anych produktów Agregatowy indeks cen Laspeyresa pj1 k pj0qj0 pj1qj0 k j=1 pj0 j=1 Ip = = L k pj0qj0 k pj0qj0 j=1 j=1 Agregatowy indeks cen Paaschego k pj1qj1 j=1 Ip = P k pj0qj1 j=1 Agregatowy indeks cen Fishera Ip = IpPIp F L Agregatowy indeks ilo[ci okre[la wpByw zmian ilo[ci na dyna- mik warto[ci (gdyby w obu momentach ceny byBy niezmienione), informuje o przecitnych zmianach ilo[ci poszczególnych produk- tów w obu porównywanych momentach czasu Agregatowy indeks ilo[ci Laspeyresa qj1 k pj0qj1 k pj0qj0 j=1 qj0 j=1 Iq = = L k pj0qj0 k pj0qj0 j=1 j=1 Agregatowy indeks ilo[ci Paaschego k pj1qj1 j=1 Iq = P k pj1qj0 j=1 Agata BoratyDska WykBady ze statystyki matematycznej 27 Agregatowy indeks ilo[ci Fishera Iq = IqP Iq F L Zwizki midzy indeksami Iw = IpP Iq = IqP Ip = IpFIq L L F Agata BoratyDska WykBady ze statystyki matematycznej 28 MODEL STATYSTYCZNY, PODSTAWOWE ZADANIA STATYSTYKI MATEMATYCZNEJ ZADANIE z rachunku prawdopodobieDstwa Rzucamy niezale|nie 100 razy symetryczn monet. Oblicz: prawdopodobieDstwo wyrzucenia 60 orBów warto[ oczekiwan liczby wyrzuconych orBów Rozwizanie: Model probabilistyczny: X - liczba wyrzuconych orBów, zmienna losowa o rozkBadzie dwu- mianowym ëø öø ëø 100 1öø100 ìø ÷ø íø øø íø øø P (X = 60) = 60 2 EX = n¸ = 50 Agata BoratyDska WykBady ze statystyki matematycznej 29 ZADANIE ze statystyki matematycznej Rzucono niezale|nie 100 razy pewna monet uzyskujc 60 orBów. Polecenia: 1. oszacuj prawdopodobieDstwo uzyskania orBa w pojedynczym rzucie; 2. czy moneta jest symetryczna Co znamy? Model probabilistyczny z dokBadno[ci do parametru X - liczba wyrzuconych orBów, obserwowana zmienna losowa o rozkBadzie dwumianowym ëø öø 100 ìø ÷ø íø øø P¸(X = x) = (¸)x (1 - ¸)100-x x ¸ " (0, 1) - nieznany parametr Wynik obserwacji X = 60, na jego podstawie chcemy wnioskowa o nieznanym parametrze ¸. Agata BoratyDska WykBady ze statystyki matematycznej 30 Zagadnienie estymacji - szacowanie nieznanego parametru na podstawie wyniku obserwacji; estymacja punktowa - podanie oszacowania w postaci liczbowej; estymacja przedziaBowa - podanie oszacowania w postaci przedzia- Bu nazywanego przedziaBem ufno[ci Testowanie hipotez statystycznych - weryfikacja hipotezy dotyczcej nieznanej wielko[ci rozkBadu obserwowanej zmiennej lo- sowej na podstawie wyniku obserwacji Polecenia: wyznacz estymator lub przedziaB ufno[ci parametru ¸ 1 zweryfikuj hipotez H : ¸ = 2 Agata BoratyDska WykBady ze statystyki matematycznej 31 MODEL STATYSTYCZNY (X , FX , P) X - przestrzeD warto[ci obserwowanej zmiennej losowej X FX - Ã-ciaBo podzbiorów P - rodzina rozkBadów prawdopodobieDstwa indeksowanych pew- nym parametrem ¸ P = {P¸ : ¸ " ˜} Statystyk nazywamy zmienn losow T bdc funkcj obser- wowanej zmiennej losowej X. RozkBad statystyki zale|y od rozkBa- du zmienne X Wnioskowanie statystyczne: " estymacja nieznanych parametrów: punktowa i przedziaBowa " testowanie hipotez statystycznych " predykcja (przewidywanie) - przewidywanie warto[ci zmiennej losowej nieobserwowanej Y za pomoc obserwowanej zmiennej X, rozkBady zmiennej Y i X zale| od tego samego parametru. Agata BoratyDska WykBady ze statystyki matematycznej 32 PEWNE WA{NE ROZKAADY RozkBad Ç2 Niech Zi <" N(0, 1), i = 1 . . . k, Zi niezale|ne RozkBadem Ç2 z k stopniami swobody nazywamy rozkBad prawdo- podobieDstwa zmiennej losowej k Y = Zi2 i=1 i oznaczamy Y <" Ç2 k gsto[ ëø öø 1 k 1 íø pk(x) = x2 -1 exp - xøø 1(0,")(x) k 2 22“(k) 2 EY = k i V arY = 2k -1 kwantyl rzdu p - F (p) - jest to liczba taka, |e P {Y Ç2 k -1 F (p)} = p Ç2 k warto[ krytyczna rzdu ± -1 Ç2(±, k) = F (1 - ±) Ç2 k - jest to liczba, taka |e prawdopodobieDstwo zdarzenia Y > Ç2(±, k) jest równe ±. Agata BoratyDska WykBady ze statystyki matematycznej 33 RozkBad t-Studenta Niech Z <" N(0, 1) i Y <" Ç2 oraz Z i Y niezale|ne, wtedy rozkBad k zmiennej losowej Z T = Y k nazywamy rozkBadem t-Studenta z k stopniami swobody i ozna- czamy T <" tk gsto[ ëø öø k+1 2 “ x2 -k+1 2 ìø ÷ø "1 íø øø fk(x) = · 1 + k 2 kÀ “ 2 ET = 0 gdy k > 1 k V arT = gdy k > 2 k-2 kwantyl rzdu p - Ft-1(p) - jest to liczba taka, |e P {T k Ft-1(p)} = p k warto[ krytyczna dwustronna rzdu ± ± t(±, k) = Ft-1 1 - k 2 - jest to liczba, taka |e prawdopodobieDstwo zdarzenia |T | > t(±, k) jest równe ±. Agata BoratyDska WykBady ze statystyki matematycznej 34 RozkBad F (Fishera-Snedecora) Niech Y <" Ç2 i V <" Ç2 oraz zmienne Y i V s niezale|ne, wtedy k r rozkBad zmiennej losowej Y/k F = V/r nazywamy rozkBadem F z k i r stopniami swobody i oznaczamy F <" Fk,r gsto[ k k+r r “ r x2 -1 2 2 pk,r(x) = 1(0,")(x) k+r k r k 2 “ “ r 2 2 x + k gdy x > 0 -1 kwantyl rzdu p - FFk,r(p) warto[ krytyczna rzdu ± -1 F (±, k, r) = FFk,r(1 - ±) - jest to liczba, taka |e prawdopodobieDstwo zdarzenia F > F (±, k, r) jest równe ±. Agata BoratyDska WykBady ze statystyki matematycznej 35 RozkBady pewnych statystyk w modelu normalnym X1, X2, . . . , Xn i.i.d. N(µ, Ã2), µ " R, à > 0 1 n ¯ X = Xi i=1 n 1 n ¯ S2 = (Xi - X)2 i=1 n - 1 WBasno[ci ¯ " X i S2 s niezale|ne; Ã2 ¯ " X <" N(µ, ) n 1 1 n ¯ EX = E Xi = nEX1 = µ i=1 n n 1 n 1 Ã2 ¯ V arX = V ar Xi = nV arX1 = i=1 n n2 n (Xi-µ)2 n " Zmienna ma rozkBad Ç2 i=1 n Ã2 ¯ (n-1)S2 (Xi-X)2 n " = <" Ç2 i=1 n-1 Ã2 Ã2 2 (n-1)S2 " E = n - 1 i V ar(n-1)S = 2(n - 1) std Ã2 Ã2 2Ã4 ES2 = Ã2 i V arS2 = n - 1 Agata BoratyDska WykBady ze statystyki matematycznej 36 " ¯ (n-1)S2 X-µ " n <" N(0, 1) i <" Ç2 zatem n-1 à Ã2 " ¯ X-µ ¯ " n X - µ à T = = n <" tn-1 (n-1)S2 S Ã2(n-1) " Niech X1, X2, . . . , Xn i.i.d. N(µ1, Ã2) i Y1, Y2, . . . , Ym i.i.d. N(µ2, Ã2) Niech 1 n 2 ¯ SX = (Xi - X)2 i=1 n - 1 i 1 m 2 ¯ SY = (Yi - Y )2 i=1 m - 1 Wtedy 2 2 (n - 1)SX (m - 1)SY <" Ç2 <" Ç2 n-1 m-1 Ã2 Ã2 i zmienne sa niezale|ne, std 2 (n-1)SX 2 SX Ã2(n-1) = <" Fn-1,m-1 2 2 (m-1)SY SY Ã2(m-1) Agata BoratyDska WykBady ze statystyki matematycznej 37 ZAGADNIENIE ESTYMACJI Zagadnienie estymacji - szacowanie nieznanego parametru lub funkcji na podstawie wyników obserwacji; X1, X2, . . . , Xn - niezale|ne zmienne losowe o tym samym rozkBa- dzie (i.i.d.) P¸ - próba losowa ¸ " ˜ - nieznany parametr, ˜ †" R(Rk) Estymatorem parametru ¸ nazywamy dowoln funkcj Æ ¸(X1, X2, . . . , Xn), której warto[ci nale| do przestrzeni ˜, i której celem jest oszacowanie parametru ¸. CHARAKTERYSTYKI PRÓBKOWE - estymatory w oparciu o dystrybuant empiryczn Model: (R, F)n, gdzie F rodzina dystrybuant na prostej rzeczywistej x = (x1, x2, ..., xn) - próbka losowa z rozkBadu o dystrybuancie F k-ta statystyka pozycyjna z próby losowej x1, x2, ..., xn jest równa k-tej warto[ci, gdy obserwacje ustawimy w cig rosncy. Oznaczenie: Xk:n W szczególno[ci x1:n = min{x1, x2, ..., xn} xn:n = max{x1, x2, ..., xn} Agata BoratyDska WykBady ze statystyki matematycznej 38 Dystrybuanta empiryczna liczba xi, takich |e xi t Fn(x, t) = Fn(t) = n 1 1 Fn(t) = £1(-",t](xi) = £1[xi:n,")(t) n n gdzie ñø òø 1 gdy Xi " (-", t] 1(-",t](Xi) = óø 0 w przeciwnym przypadku jest zmienn losow dwupunktow, PF(1(-",t](Xi) = 1) = F (t) Dystrybuanta empiryczna jest statystyk jako funkcja próby lo- sowej i jest dystrybuant rozkBadu jednostajnego skupionego w punktach x1, x2, ..., xn jako funkcja zmiennej t. WBasno[ci Fn jako statystyki: 1. 1 EFFn(t) = EF £1(-",t](Xi) n 1 = · nEF1(-",t](Xi) = F (t) n 1 2. V arFn(t) = F (t)(1 - F (t)) n Agata BoratyDska WykBady ze statystyki matematycznej 39 3. CTG " Fn(t) - F (t) n -’! N(0, 1) F (t)(1 - F (t)) ñø üø ôø ôø ôø ôø òø " ýø Fn(t) - F (t) P x : n z -’! ¦(z) ôø ôø ôø ôø óø þø F (t)(1 - F (t)) dla ka|dego z. 4. Twierdzenie Gliwenki Cantellego Dla prawie wszystkich x sup |Fn(t) - F (t)| -’! 0, t gdy n -’! " Charakterystyki próbkowe: [rednia - estymator warto[ci oczekiwanej mediana próbkowa - estymator mediany kwantyl próbkowy - estymator kwantyla rozkBadu wariancja z próby - estymator wariancji itd Agata BoratyDska WykBady ze statystyki matematycznej 40 PrzykBad 4: Dane - 40 strat spowodowanych wichurami: warto[ liczebno[ 2 12 3 4 4 3 5 4 6 4 8 2 9 1 15 1 17 1 22 1 23 1 24 2 25 1 27 1 32 1 43 1 Agata BoratyDska WykBady ze statystyki matematycznej 41 METODY WYZNACZANIA ESTYMATORÓW EMM (estymacja metod momentów) X1, X2, . . . , Xn i.i.d z rozkBadu P¸, ¸- nieznany parametr 1. ¸ " R (jednowymiarowa przestrzeD parametrów), rozwi| (nie- wiadom jest ¸): ¯ E¸X = X 2. ¸ = (¸1, ¸2) " R2, rozwi| ukBad (niewiadom jest ¸): ñø ¯ òø E¸X = X óø Æ V ar¸X = S2 3. ¸ = (¸1, ¸2, . . . , ¸k) (k-wymiarowa przestrzeD parametrów), roz- wi| ukBad (niewiadom jest ¸): ñø ôø ¯ ôø E¸X = X ôø ôø ôø ôø ôø ôø Æ ôø ôø V ar¸X = S2 ôø ôø òø 1 ¯ E¸(X - µ)3 = (Xi - X)3 ôø n ôø ôø ôø ôø ôø . . . . . . ôø ôø ôø ôø ôø 1 ôø ¯ óø E¸(X - µ)k = (Xi - X)k n gdzie µ = E¸X. Agata BoratyDska WykBady ze statystyki matematycznej 42 PrzykBad 1. X = (X1, X2, . . . , Xn), Xi <" Ex(¸) i s niezale|ne, ¸ > 0 EMM(¸) =? 1 +" E¸Xi = x¸e-¸xdx = 0 ¸ Rozwizujemy równanie: 1 ¯ = X ¸ std 1 Æ EMM(¸) = ¸ = ¯ X PrzykBad 2. X = (X1, X2, . . . , Xn), Xi <" Gamma(±, ²) i s niezale|ne, ±, ² > 0 EMM(±) =? i EMM(²) =?. ²± p±,²(x) = x±-1e-²x gdy x > 0 “(±) ± E±,²Xi = ² ± V ar±,²Xi = ²2 Agata BoratyDska WykBady ze statystyki matematycznej 43 Otrzymujemy ukBad: ñø ± ôø ¯ ôø = X òø ² ôø ± Æ ôø óø = S2 ²2 Std: ¯ ¯ X X2 Æ ² = i ± = Æ Æ Æ S2 S2 PrzykBad 3. Wyznaczy EMM parametrów w rozkBadzie P areto(¸, »), ¸ > 2, » > 0. Rozwizanie: X = (X1, X2, . . . , Xn), Xi <" P areto(¸, ») i s niezale|ne ¸»¸ p¸,»(x) = , x > 0 (» + x)¸+1 Otrzymujemy ukBad: » ¯ = X ¸ - 1 »2¸ = S2 (¸ - 1)2(¸ - 2) Std: 2S2 Æ Æ ¯ Æ ¸ = » = X(¸ - 1). ¯ S2 - X2 Agata BoratyDska WykBady ze statystyki matematycznej 44 EMK (estymacja metod kwantyli) X1, X2, . . . , Xn i.i.d z rozkBadu P¸, ¸- nieznany parametr 1. ¸ " R (jednowymiarowa przestrzeD parametrów), rozwi| (nie- wiadom jest ¸): 1 q2(¸) = Q2 Ð!Ò! F¸(Q2) = 1 1 1 2 2. ¸ = (¸1, ¸2), rozwi| ukBad (niewiadom jest ¸): q4(¸) = Q4 i q4(¸) = Q4 1 1 3 3 lub ukBad równowa|ny: 1 3 F¸(Q4) = i F¸(Q4) = 1 3 4 4 3. ¸ = (¸1, ¸2, ¸3). Otrzymujemy ukBad: 1 1 3 F¸(Q4) = i F¸(Q2) = i F¸(Q4) = 1 1 3 4 2 4 1 3 5 7 4. ¸ = (¸1, ¸2, ¸3, ¸4). Rozwa|amy kwantyle rzdu , , i . 8 8 8 8 Agata BoratyDska WykBady ze statystyki matematycznej 45 PrzykBad 1. X1, X2, . . . , Xn i.i.d, Xi <" Ex(¸), ¸ > 0 EMK(¸) =? 1 1 1 F¸ q2 = 1 - exp -¸q2 = Ð!Ò! q2 = - ln 1 1 1 2 ¸ 2 Rozwizujemy równanie: 1 1 - ln = Q2 1 ¸ 2 std 1 1 Æ EMK(¸) = ¸(X) = - ln Q2 2 1 Agata BoratyDska WykBady ze statystyki matematycznej 46 PrzykBad 2. Niech X1, X2, . . . , Xn i.i.d z rozkBadu W eibull(c, Ä), EMK(c) =? i EMK(Ä) =? Dystrybuanta w rozkBadzie Weibulla ma posta: Fc,Ä(x) = 1 - exp (-cxÄ) x > 0 Otrzymujemy ukBad: ñø -cQÄ ôø 1 ôø 1 ôø òø 4 1 - e = 4 . ôø -cQÄ ôø 3 ôø 3 óø 4 1 - e = 4 Std ñø ôø - ln 0.75 = cQÄ òø 1 4 ôø óø - ln 0.25 = cQÄ 3 4 ëø öø Q4 Ä ln 0.75 1 ìø ÷ø ìø ÷ø = íø øø Q4 ln 0.25 3 Estymatory maj posta: ëø ln 0.75öø íø øø Ä = log Æ Q 1 4 ln 0.25 Q 3 4 ln 0.75  = - Æ QÄ 1 4 Agata BoratyDska WykBady ze statystyki matematycznej 47 ENW (estymacja metod najwikszej wiarogodno[ci) Niech X1, X2, . . . , Xn i.i.d. z rozkBadu o gsto[ci f¸(x), gdzie ¸ jest nieznanym parametrem. Funkcj wiarogodno[ci nazywamy funkcj zmiennej ¸ równ L(¸, x) = f¸(x1)f¸(x2) . . . f¸(xn) gdzie x = (x1, x2, . . . , xn) jest próbk zaobserwowanych warto[ci zmiennych X1, X2, . . . , Xn Estymatorem najwikszej wiarogodno[ci parametru ¸ (ENW (¸)) nazywamy argument maksimum funkcji L ENW (¸) = arg max L(¸, x). ¸ Zachodzi: arg max¸ L(¸, x) = arg max¸ ln L(¸, x). ENW (g(¸)) = g(ENW (¸)) Je|eli ¸ = (¸1, . . . , ¸k) jest parametrem cigBym i L jest funkcj ró|niczkowaln, to ENW wyznaczamy rozwizujc ukBad równaD: "L(¸, x) = 0, j = 1, 2, . . . , k "¸j lub równowa|ny ukBad: " ln L(¸, x) = 0, j = 1, 2, . . . , k. "¸j Agata BoratyDska WykBady ze statystyki matematycznej 48 PRZYKAAD 1. X <" bin(n, ¸) ëø öø n ìø ÷ø íø øø L(¸, x) = ¸x(1 - ¸)n-x x ëø öø "L(¸, x) n ìø ÷ø íø øø = ¸x-1(1 - ¸)n-x-1(x - n¸) = 0 "¸ x X ENW (¸) = n Agata BoratyDska WykBady ze statystyki matematycznej 49 PRZYKAAD 2. X1, X2, . . . , Xn i.i.d Ex(¸), ¸ > 0 Funkcja wiarogodno[ci ëø öø n íø L(¸, x) = ¸n exp -¸ xiøø i=1 n ln L = n ln ¸ - ¸ xi i=1 " ln L(¸,x) n n Pochodna = - xi Rozwizujemy równanie i=1 "¸ ¸ n n - xi = 0 ¸ i=1 1 ENW (¸) = ¯ X PRZYKAAD 3. X1, X2, . . . , Xn i.i.d N(µ, Ã), niech v = Ã2 n ëø öø ëø öø 2 n 1 1 íø øø íø øø L(µ, v) = exp - (xi - µ)2 2Àv 2v i=1 n n n 1 ln L = - ln(2À) - ln v - (xi - µ)2 2 2 2v i=1 Po obliczeniu pochodnych czstkowych otrzymujemy ukBad ñø 1 ôø òø 22v n (xi - µ) = 0 i=1 n 1 ôø n óø - + (xi - µ)2 = 0 2v 2v2 i=1 n 1 2 ¯ Æ ¯ ENW (µ) = X ENW (Ã2) = S2 = Xi - X . n i=1 Agata BoratyDska WykBady ze statystyki matematycznej 50 WAASNOZCI ESTYMATORÓW, PORÓWNYWANIE ESTYMATORÓW X = (X1, X2, . . . , Xn) - obserwowana zmienna losowa P¸ - rozkBad zmiennej X, ¸ -nieznany parametr Æ ¸ - estymator ¸,  - estymator funkcji g(¸) 1. Obci|enie estymatora Obci|enie estymatora parametru ¸: Æ Æ B¸(¸) = E¸¸(X) - ¸ Obci|enie estymatora funkcji g(¸): B¸() = E¸(X) - g(¸) Æ Estymator ¸ ( ) jest estymatorem nieobci|onym Æ Ð!Ò! "¸ " ˜ E¸¸(X) = ¸ (E¸(X) = g(¸)) PRZYKAADY: X1, X2, . . . , Xn i.i.d z rozkBadu o nieznanej dystrybuancie F i nie- znanych EXi = µ i V arXi = Ã2 Fn - dystrybuanta empiryczna (estymator F ) ¯ X - estymator µ Æ S2, S2 - estymatory Ã2 Agata BoratyDska WykBady ze statystyki matematycznej 51 EFn(t) = F (t) =Ò! Fn(t) estymator nieobci|ony dystrybuanty F (t) n 1 1 ¯ EX = E Xi = nEX1 = µ n n i=1 ¯ =Ò! X - estymator nieobci|ony warto[ci oczekiwanej ëø öø n 1 íø ¯ øø ES2 = E (Xi - X)2 n - 1 i=1 ëø öø n 1 n n 2 íø ¯ øø ¯ = E Xi2 - nX2 = EX1 - EX2 n - 1 n - 1 n - 1 i=1 ëø ëø öøöø n Ã2 ìø ìø íø ES2 = Ã2 + µ2 - íø øøøø + µ2÷ø÷ø = Ã2 n - 1 n =Ò! S2 jest estymatorem nieobci|onym wariancji ëø öø n - 1 n - 1 Æ íø øø ES2 = E S2 = Ã2 n n n - 1 1 Æ B(S2) = Ã2 - Ã2 = - Ã2 n n Æ S2 - estymator obci|ony 1 Æ B(S2) = - Ã2 -’! 0 gdy n -’! +" n Agata BoratyDska WykBady ze statystyki matematycznej 52 Mówimy, |e estymator jest asymptotycznie nieobci|ony gdy Æ " ¸ " ˜ lim B¸(¸) = 0 n’!+" 2. Ryzyko estymatora (bBd [redniokwadratowy) Funkcj R(¸, ) = E¸((X) - g(¸))2 nazywamy ryzykiem estymatora  przy kwadratowej funkcji straty lub bBdem [redniokwadratowym. 2 R(¸, ) = E¸((X) - g(¸))2 = B¸() + V ar¸() Mówimy, |e estymator 1 jest lepszy ni| 2 Ð!Ò! "¸ R(¸, 1) R(¸, 2) i "¸0 R(¸0, 1) < R(¸0, 2). Je|eli  jest estymatorem nieobci|onym funkcji g(¸), tzn. E¸() = g(¸) dla ka|dego ¸ " ˜, to R(¸, ) = V ar¸(). WNIOSEK: Przy estymatorach nieobcia|onych miernikiem jako[ci estymatora jest jego wariancja. Agata BoratyDska WykBady ze statystyki matematycznej 53 PRZYKAAD 1. X1, X2, . . . , Xn i.i.d P oiss(¸), ¸ > 0 ENW (¸) =? xi ¸ L(¸, x) = e-n¸ xi! ln L(¸, x) = -n¸ + xi ln ¸ - ln xi! " ln L(¸, x) xi = -n + "¸ ¸ Xi ¯ Æ ENW (¸) = ¸ = = X n ¯ Æ E¸X = ¸ =Ò! ¸ estymator nieobci|ony ¸ Æ Æ R(¸, ¸) = V ar¸¸ = n Agata BoratyDska WykBady ze statystyki matematycznej 54 PRZYKAAD 2. X1, X2, . . . , Xn i.i.d N(µ, Ã2), oba parametry nieznane Æ Porównamy ryzyka estymatorów wariancji S2 i S2 R(µ, Ã, S2) = V arµ,ÃS2 ëø öø n ¯ Ã4 (Xi - X)2 ÷ø íø øø = V arµ,à ìø i=1 (n - 1)2 Ã2 Ã4 2Ã4 = 2(n - 1) = (n - 1)2 (n - 1) 2 Æ Æ Æ R(µ, Ã, S2) = V arµ,ÃS2 + Bµ,Ã(S2) ëø öø ëø öø 2 n - 1 -1 øø íø øø = V arµ,à íø S2 + Ã2 n n ëø n - 1öø2 2Ã4 Ã4 2n - 1 íø øø = + = Ã4 n (n - 1) n2 n2 Zatem Æ " µ, à R(µ, Ã, S2) < R(µ, Ã, S2) Agata BoratyDska WykBady ze statystyki matematycznej 55 X = (X1, X2, . . . , Xn), p¸(x) - gsto[ rozkBadu zmiennej X Informacj Fishera nazywamy funkcj ëø öø " ln p¸(X)÷ø2 íø øø In(¸) = E¸ ìø "¸ ñø ëø öø 2 "p¸(x) ôø ôø ôø ôø "¸ ôø íø øø ôø p¸(x)dx dla zmiennej cigBej ôø X òø p¸(x) In(¸) = ëø öø 2 ôø "P¸(x) ôø ôø ôø ôø "¸ ôø íø øø ôø P¸(x) dla zmiennej dyskretnej óø x P¸(x) Je|eli p¸(x) jest dwukrotnie ró|niczkowaln funkcj zmiennej ¸, to ëø öø "2 ln p¸(X)÷ø íø øø In(¸) = -E¸ ìø . "¸2 Je|eli X1, X2, . . . , Xn i.i.d. z rozkBadu o gsto[ci f¸(x), to In(¸) = nI1(¸), gdzie I1(¸) jest informacj Fishera w oparciu o zmienn X1. Agata BoratyDska WykBady ze statystyki matematycznej 56 NIERÓWNOZ INFORMACYJNA Przy pewnych warunkach regularno[ci, je|eli  jest estymato- rem nieobci|onym funkcji ró|niczkowalnej g(¸), to (g (¸))2 " ¸ " ˜ V ar¸ . In(¸) Efektywno[ estymatora niobci|onego (X1, X2, . . . , Xn) funkcji ró|niczkowalnej g(¸): (g (¸))2 eff¸((X1, X2, . . . , Xn) = In(¸)V ar¸() g (¸) ( )2 Wielko[ nazywamy dolnym ograniczeniem Cramera-Rao In(¸) Agata BoratyDska WykBady ze statystyki matematycznej 57 PRZYKAAD 1 cd. X1, X2, . . . , Xn i.i.d P oiss(¸), ¸ > 0 ¸ ¯ ¯ ENW (¸) = X i V ar¸X = n Wyznaczymy dolne ograniczenie Cramera Rao P¸(x) = e-¸ ¸x x! ln P¸(x) = -¸ + x ln ¸ - ln x! 2 In(¸) = nI1(¸) = nE¸ " ln P¸(X) "¸ " ln P¸(X) x = -1 + "¸ ¸ ëø X - ¸öø2 1 n øø In(¸) = nE¸ íø = n E¸(X - ¸)2 = ¸ ¸2 ¸ Dolne ograniczenie Cramera Rao (g (¸))2 1 ¸ = = In(¸) In(¸) n Agata BoratyDska WykBady ze statystyki matematycznej 58 3. Zgodno[ estymatora (X1, X2, . . . , Xn) = n funkcji g(¸) dla ka|dego µ > 0 i ¸ " ˜ lim P¸ (|n - g(¸)| > µ) = 0 n’!+" 4. Asymptotyczna normalno[ (X1, X2, . . . , Xn) istnieje Ã(¸) > 0 takie, |e dla ka|dego z ëø öø " n - g(¸) íø øø lim P¸ ìø n < z÷ø = ¦(z) n’!+" Ã(¸) gdzie ¦ jest dystrybuant rozkBadu normalnego N(0, 1) ëø öø Ã2(¸)÷ø ìø íø øø n <" N g(¸), przy du|ym n n " n - g(¸) n -’! N(0, 1) przy n -’! +" Ã(¸) Wielko[ Ã2(¸) nazywamy wariancj asymptotyczn. Agata BoratyDska WykBady ze statystyki matematycznej 59 PRZYKAADY X1, X2, . . . , Xn i.i.d z rozkBadu dystrybuancie F i EXi = µ i V arXi = Ã2 1. Z praw wielkich liczb wynika ¯ X -’! µ przy n -’! +" S2 -’! Ã2 przy n -’! +" Fn(t) -’! F (t) przy n -’! +" 2. Z CTG wynika ¯ " X - µ n -’! N(0, 1) przy n -’! +" à " Fn(t) - F (t) n -’! N(0, 1) przy n -’! +" F (t)(1 - F (t)) Æ 3. Niech Qp = X[np]:n. Je|eli funkcja gstosci f¸ jest cigBa i speBnia f¸(qp) = 0, to ëø öø " p(1 - p)÷ø ìø Æ íø øø (Qp - qp) n -’! N 0, przy n -’! +" 2 f¸ (qp) Agata BoratyDska WykBady ze statystyki matematycznej 60 Lemat DELTA Je|eli cig Zn rzeczywistych zmiennych losowych speBnia " (Zn - ¸) n -’! N(0, Ã2) dla pewnego Ã2 i g(¸) jest ró|niczkowaln funkcj ¸ i g (¸) = 0, to " (g(Zn) - g(¸)) n -’! N(0, [g (¸)]2Ã2). PRZYKAAD 1. X1, X2, . . . , Xn i.i.d., EXi = µ i V arXi = Ã2 ¯ X2 - estymator parametru µ2 Z CTG " ¯ (X - µ) n -’! N(0, Ã2) przy n -’! +" Niech g(µ) = µ2 Z lematu DELTA " ¯ (X2 - µ2) n -’! N 0, 4Ã2µ2 Agata BoratyDska WykBady ze statystyki matematycznej 61 PRZYKAAD 2. 1 1 X1, X2, . . . , Xn i.i.d. Ex(¸), ¸ > 0, E¸X = , V ar¸X = ¸ ¸2 1 ENW (¸) = ¯ X Z CTG ëø öø " 1 1 ¯ íø øø (X - ) n -’! N 0, przy n -’! +" ¸ ¸2 Niech 1 g(t) = t wtedy ëø 1 1 1 1öø ¯ íø øø g (t) = - =Ò! g(X) = , g( ) = ¸, g = -¸2 ¯ t2 X ¸ ¸ Z lematu DELTA ëø öø ëø öø " 1 1 íø íø øø - ¸øø n -’! N 0, · ¸4 ¯ X ¸2 Agata BoratyDska WykBady ze statystyki matematycznej 62 ASYMPTOTYCZNA ZGODNOZ I NORMALNOZ ENW 1. Niech X1, X2, . . . , Xn, . . . bd i.i.d z rozkBadu o gsto[ci f¸, gdzie ¸ jest nieznanym parametrem. Niech gsto[ci f¸ maj wspólny no[nik i przestrzeD ˜ bdzie przedziaBem otwartym. Je|eli ukBad równaD " ln L(¸, Xi) £n = 0 i=1 "¸ ma dokBadnie jedno rozwizanie, to jest ono ENW (¸) i jest to estymator zgodny. "3 ln L(¸,x1,...,xn) 2. Je|eli dodatkowo istnieje , i speBnione s zaBo- "¸3 |enia umo|liwiajce zamian kolejno[ci operacji ró|niczkowa- " "2 nia po lub i caBkowania . . . dx i I(¸) > 0 jest okre[lona, "¸ "¸2 Æ Æ to ¸n = ¸(X1, X2, . . . , Xn) = ENW (¸) jest asymptotycznie normalny i ëø öø " 1 ìø ÷ø Æ íø øø (¸n - ¸) n -’! N 0, przy n -’! +". I1(¸) 3. (Z Lematu DELTA) Przy powy|szych zaBo|eniach je|eli g jest Æ ró|niczkowalna i g (¸) = 0 i ¸n = ENW (¸), to " Æ (g(¸n) - g(¸)) n -’! N(0, [g (¸)]2I-1(¸)). Agata BoratyDska WykBady ze statystyki matematycznej 63 Mówimy, |e estymator n jest estymatorem asymptotycznie efektywnym parametru g(¸) je|eli jest estymatorem asympto- tycznie normalnym o wariancji asymptotycznej Ã2(¸) = [g (¸)]2I-1(¸) Je[li 1 i 2 s dwoma estymatorami asymptotycznie normalnymi funkcji g(¸) o wariancjach asymptotycznych odpowiednio równych 2 2 Ã1(¸) i Ã2(¸), to asymptotyczn efektywno[ci wzgldn nazywamy stosunek 2 Ã2(¸) as.ef(1, 2) = . 2 Ã1(¸) Agata BoratyDska WykBady ze statystyki matematycznej 64 PRZYKAAD. X1, X2, . . . , Xn i.i.d P oiss(¸), ¸ > 0 ¸ 1 ¯ ¯ Znamy: ENW (¸) = X, V ar¸X = , I1(¸) = n ¸ " ¯ (X - ¸) n -’! N(0, ¸) Chcemy estymowa funkcj g(¸) = e-¸ = P¸(X1 = 0) Rozwa|amy dwa estymatory: ¯ 1 = e-X n liczba Xi, takich |e Xi = 0 1 2 = = 1(Xi = 0) n n i=1 RozkBady asymptotyczne Niech h(t) = e-t, wtedy h (t) = -e-t i z lematu DELTA " ¯ e-X - e-¸ n -’! N 0, ¸e-2¸ Niech ñø òø 1 gdy Xi = 0 Yi = óø 0 w pp Wtedy E¸Yi = e-¸ i V ar¸Yi = e-¸(1 - e-¸) Agata BoratyDska WykBady ze statystyki matematycznej 65 oraz n 1 2 = Yi n i=1 Z CTG " 2 - e-¸ n -’! N 0, e-¸(1 - e-¸) Porównujemy wariancje asymptotyczne " ¸ > 0 e-¸(1 - e-¸) > ¸e-2¸ =Ò! as.ef(1, 2) > 1 Estymator 1 jest bardziej efektywny ni| estymator 2. Agata BoratyDska WykBady ze statystyki matematycznej 66 ESTYMACJA PRZEDZIAAOWA, PRZEDZIAAY UFNOZCI X1, X2, . . . , Xn - próbka losowa z rozkBadu z nieznanym parame- trem ¸ PrzedziaBem ufno[ci dla parametru ¸ na poziomie ufno[ci 1-± nazywamy przedziaB ¯ [¸(X1, X2, . . . , Xn), ¸(X1, X2, . . . , Xn)], którego koDce s statystykami (funkcjami obserwowanej zmiennej losowej) i który speBnia warunek ¯ "¸ P¸ ¸(X1, X2, . . . , Xn) ¸ ¸(X1, X2, . . . , Xn) 1-±. ± - maBa liczba np. 0,1, 0,05, 0,01. ¯ Warunek P¸(¸ " [¸, ¸]) = 1 - ± nale|y rozumie tak: ¯ losowy przedziaB [¸, ¸] pokrywa nieznan liczb ¸ z du|ym prawdopodobieDstwem. Pojcie przedziaBu ufno[ci precyzuje ide estymacji z okre[lon do- kBadno[ci. Zamiast pojedynczego oszacowania nieznanego para- metru, podajemy doln i górn granic oszacowania. Nie mo|emy gwarantowa, |e parametr le|y na pewno midzy tymi granicami, ale mo|emy wymaga by tak byBo z odpowiednio du|ym prawdo- podobieDstwem. Agata BoratyDska WykBady ze statystyki matematycznej 67 Model I. X1, X2, . . . , Xn i.i.d. z rozkBadu N(µ, Ã2), µ " R nieznane, à > 0 znane. ¯ ENW (µ) = EMM(µ) = X - estymator punktowy Ã2 ¯ X <" N(µ, ) n " ¯ X-µ U = n <" N(0, 1), U - funkcja centralna à szukamy z, tak aby ëø öø ¯ " X - µ ìø íø øø P n z÷ø = 1 - ± à ± ± z = u1- - kwantyl rzdu 1 - w rozkBadzie normalnym N(0, 1) 2 2 Rozwi|my nierówno[ (wyznaczamy µ) ¯ " X - µ ± n u1- 2 à Otrzymujemy à à ¯ ¯ ± ± X - u1- " µ X + u1- " 2 2 n n Zatem ëø öø à à ìø ÷ø ¯ ¯ ± ± øø - ± íø P X - u1- " µ X + u1- " = 1 2 2 n n Agata BoratyDska WykBady ze statystyki matematycznej 68 PrzedziaB îø ùø à à ïø úø ¯ ¯ ± ± ûø ðø - u1- " , X + u1- " X 2 2 n n jest przedziaBem ufno[ci dla parametru µ na poziomie ufno[ci 1 - ±. 2d - dBugo[ przedziaBu ufno[ci à ± 2d = 2u1- " 2 n d nazywamy bBdem oszacowania 1 - ± ro[nie =Ò! 2d ro[nie n ro[nie =Ò! 2d maleje Aby otrzyma przedziaB z maksymalnym bBdem d0 na zadanym poziomie ufno[ci 1 - ± nale|y wzi prób losow o liczebno[ci ëø öø 2 à íø ± n u1- øø 2 d0 Agata BoratyDska WykBady ze statystyki matematycznej 69 Model II. X1, X2, . . . , Xn i.i.d. z rozkBadu N(µ, Ã2), µ " R nieznane, à > 0 nieznane. ¯ X - estymator punktowy parametru µ 1 n ¯ S2 = (Xi - X)2 - estymator punktowy parametru Ã2 i=1 n-1 Ã2 ¯ X <" N(µ, ) n " ¯ X-µ n <" N(0, 1) à " ¯ X-µ T = n <" tn-1, T - funkcja centralna, S tn-1 - rozkBad t-Studenta z n - 1 stopniami swobody Analogicznie, jak poprzednio szukamy liczby z tak aby ëø öø ¯ " X - µ ìø íø øø P n z÷ø = 1 - ± S z = t(±, n - 1) - warto[ krytyczna rzdu ±, lub równowa|nie ± kwantyl rzdu 1 - w rozkBadzie t-Studenta z n - 1 stopniami 2 swobody Rozwizujemy nierówno[ (wyznaczamy µ) ¯ " X - µ n t(±, n - 1) S Agata BoratyDska WykBady ze statystyki matematycznej 70 PrzedziaB îø ùø S S ïø úø ¯ ¯ ðø - t(±, n - 1) , X + t(±, n - 1) X " " ûø n n jest przedziaBem ufno[ci dla parametru µ na poziomie ufno[ci 1 - ±. Aby wyznaczy liczebno[ próbki potrzebn do uzyskania przedzia- Bu o danej dBugo[ci postpujemy zgodnie z dwuetapow procedur Steina. PrzedziaB ufno[ci dla wariancji (n-1)S2 <" Ç2 - funkcja centralna n-1 Ã2 Ç2 - rozkBad chi kwadrat z n - 1 stopniami swobody n-1 Szukamy liczb a, b tak, aby ëø öø (n - 1)S2 ìø íø øø P a b÷ø = 1 - ± Ã2 ± ± a = Ç2(1 - , n - 1) - warto[ krytyczna rzdu 1 - lub równo- 2 2 ± wa|nie kwantyl rzdu w rozkBadzie chi kwadrat z n-1 stopniami 2 swobody ± b = Ç2(±, n - 1) - warto[ krytyczna rzdu lub równowa|nie 2 2 ± kwantyl rzdu 1 - w rozkBadzie chi kwadrat z n - 1 stopniami 2 swobody Agata BoratyDska WykBady ze statystyki matematycznej 71 Rozwizujemy nierówno[ci (wyznaczamy Ã2) ± (n - 1)S2 ± Ç2(1 - , n - 1) Ç2( , n - 1) 2 Ã2 2 PrzedziaB îø ùø (n - 1)S2 (n - 1)S2 ïø úø ðø ûø , ± Ç2(±, n - 1) Ç2(1 - , n - 1) 2 2 jest przedziaBem ufno[ci dla parametru Ã2 na poziomie ufno[ci 1 - ±. Agata BoratyDska WykBady ze statystyki matematycznej 72 ASYMPTOTYCZNE PRZEDZIAAY UFNOZCI Model III. X1, X2, . . . , Xn i.i.d. z dowolnego rozkBadu o skoDczonej warto[ci oczekiwanej i wariancji, zakBadamy, |e n du|e (n > 50) Cel: przedziaB ufno[ci dla warto[ci oczekiwanej EXi = µ. Korzystamy z Centralnego twierdzenia granicznego przy n -’! +" ¯ " X - µ n <" N(0, 1) S Postpujemy analogicznie jak w modelu I PrzedziaB îø ùø S S ïø úø ¯ ¯ ± ± ûø ðø - u1- " , X + u1- " X 2 2 n n jest przybli|onym przedziaBem ufno[ci dla parametru µ na poziomie ufno[ci 1 - ±. Agata BoratyDska WykBady ze statystyki matematycznej 73 Niech X1, X2, . . . , Xn i.i.d. z rozkBadu o gsto[ci f¸(x), ¸ - nieznany parametr Æ Æ Niech ¸ = ENW (¸) i ¸ ma asymptotyczny rozkBad normalny z wariancj asymptotyczn I-1(¸). Wtedy Æ ¸ <" N(¸, (nI(¸))-1) dla du|ych n. Æ Je[li dodatkowo I(¸) jest estymatorem zgodnym funkcji I(¸), to Æ Æ ¸ - ¸ nI(¸) -’! N(0, 1). Otrzymujemy asymptotyczny przedziaB ufno[ci dla ¸ na poziomie ufno[ci 1 - ± postaci îø ùø 1 1 ïø úø ïøÆ Æ úø ± ± ¸ - u1- , ¸ + u1- . ðø ûø 2 2 Æ Æ nI(¸) nI(¸) Model IV. Wykonujemy n niezale|nych do[wiadczeD typu sukces - pora|ka (np. sonda| opinii publicznej - pytanie o preferowanie pewnej wielko[ci lub nie, kontrola jako[ci - pojawienie si braku lub nie), n du|e. Obserwowana zmienna losowa Y ma rozkBad dwupunktowy P (Y = 1) = p P (Y = 0) = 1 - p p " (0, 1) - prawdopodobieDstwo sukcesu w pojedynczym do[wiad- czeniu, nieznany parametr nazywany te| wskaznikiem struktury Agata BoratyDska WykBady ze statystyki matematycznej 74 Niech X oznacza liczb sukcesów w n próbach X <" bin(n, p) X p = ENW (p) = Æ n " (p - p) n -’! N(0, p(1 - p)) Æ przy n -’! +" " p - p Æ n <" N(0, 1) p(1 - p) Æ Æ Zatem ëø öø " p - p Æ ìø ÷ø ìø ± P n u1- ÷ø H" 1 - ± íø øø 2 p(1 - p) Æ Æ Rozwizujemy nierówno[ " p - p Æ ± n u1- , 2 p(1 - p) Æ Æ wyznaczamy p. PrzedziaB îø ùø p(1 - p) p(1 - p)úø Æ Æ Æ Æ ïø ïø úø ± ± p - u1- " , p + u1- " Æ Æ ðø ûø 2 2 n n jest przybli|onym przedziaBem ufno[ci dla parametru p na poziomie ufno[ci 1 - ±. Agata BoratyDska WykBady ze statystyki matematycznej 75 " Æ Æ ± " 2d = 2u1- p(1-p) - dBugo[ przedziaBu ufno[ci n 2 Zauwa|my, |e dla ka|dego p " (0, 1) zachodzi Æ ëø 1 1öø 1 íø øø p(1 - p) 1 - = Æ Æ 2 2 4 Zatem dla ka|dego p Æ 1 ± d u1- " 2 2 n Aby otrzyma przedziaB z maksymalnym bBdem d0 na zadanym poziomie ufno[ci 1 - ± nale|y wzi prób losow o liczebno[ci ëø öø 2 1 íø ± n u1- øø 2 2d0 Agata BoratyDska WykBady ze statystyki matematycznej 76 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Pikna teoria zniszczona przez zBo[liwy wstrtny fakcik T. H. Huxley Hipotez statystyczn nazywamy dowolne przypuszczenie do- tyczce rozkBadu prawdopodobieDstwa obserwowanej zmiennej lo- sowej lub charakterystyki tego| rozkBadu, o prawdziwo[ci którego wnioskujemy na podstawie zaobserwowanych warto[ci tej zmiennej losowej. PRZYKAADY: 1) Przypu[my, |e czas |ycia pewnego elementu X jest zmienn losowa o rozkBadzie wykBadniczym Ex(¸), ¸ > 0 - nieznane Obserwujemy X1, X2, . . . , Xn i.i.d. Ex(¸) 1 H0 : EX = = 100 ¸ 2) Pomiary i ich dokBadno[ obserwujemy X1, X2, . . . , Xn i.i.d. N(µ, Ã2), oba parametry nie- znane H0 : à 1 3) ¸ - prawdopodobieDstwo spBaty kredytu przez klienta w pewnej grupie ryzyka, nieznane obserwujemy X1, X2, . . . , Xn i.i.d. bin(1, ¸) H0 : ¸ 0.8 Agata BoratyDska WykBady ze statystyki matematycznej 77 4) µ1 - [redni plon z ha przy I metodzie nawo|enia µ2 - [redni plon z ha przy II metodzie nawo|enia Obie wielko[ci nieznane Obserwujemy: X1, X2, . . . , Xn i.i.d. z rozkBadu o EX = µ1 (plony przy I metodzie nawo|enia) Y1, Y2, . . . , Ym i.i.d. z rozkBadu o EX = µ2 (plony przy II metodzie nawo|enia) H0 : µ1 = µ2 5) Interesuje nas wielko[ roszczenia X w pewnej grupie klientów towarzystwa ubezpieczeniowego Obserwujemy: X1, X2, . . . , Xn wielko[ci roszczeD dla losowo wy- branych klientów H0 : X <" WykBadniczy Agata BoratyDska WykBady ze statystyki matematycznej 78 Hipoteza prosta - wyznacza dokBadnie jeden rozkBad (1) Hipoteza zBo|ona - wyznacza rodzin rozkBadów (2,3,4,5) Hipoteza parametryczna - dotyczy parametrów rozkBadu (1,2,3,4) Hipoteza nieparametryczna - dotyczy postaci rozkBadu (5) Z hipotez H0 czsto wi|emy jeszcze drug hipotez nazywan hipotez alternatywn (kontr hipotez) H1, jest to hipo- teza, któr jeste[my skBonni akceptowa po odrzuceniu hipotezy H0. Hipotez H0 nazywamy te| hipotez zerow. Testem statystycznym nazywamy metod postpowania, któ- ra ka|dej warto[ci obserwowanej zmiennej losowej przyporzdko- wuje jedna z dwóch decyzji: odrzuci hipotez H0 (na korzy[ H1), nie ma podstaw do odrzucenia hipotezy H0. Agata BoratyDska WykBady ze statystyki matematycznej 79 X <" P¸, ¸ " ˜, H0 : ¸ " ˜0 H1 : ¸ " ˜1 gdzie ˜0, ˜1 ‚" ˜ i ˜0 )" ˜1 = " X = K *" A K - zbiór krytyczny, zbiór wyników obserwacji przy których od- rzucamy H0; A - zbiór afirmacji, zbiór wyników, przy których nie odrzucamy H0. Je[li mamy podany zbiór K to mamy podany test statystyczny Najcz[ciej test ma posta: K = {T (x) > c} co oznacza odrzu H0, gdy obliczona warto[ funkcji T (x) jest wiksza ni| c. Funkcj T nazywamy statystyk testow, a staB c warto[ci krytyczn. Agata BoratyDska WykBady ze statystyki matematycznej 80 PRZYKAAD 1. Chcemy sprawdzi, czy moneta jest symetryczna. W tym celu rzu- camy monet 400 razy. Niech X oznacza liczb orBów, X <" bin(400, p) p - nieznane 1 1 H0 : p = H1 : p = 2 2 test: K = {|X - 200| > 19, 6} T = |X - 200| - statystyka testowa; 19,6 - warto[ krytyczna Agata BoratyDska WykBady ze statystyki matematycznej 81 BAD PIERWSZEGO I DRUGIEGO RODZAJU decyzja H0 prawdziwa H0 - faBszywa odrzuci H0 bBd decyzja I rodzaju poprawna nie odrzuca H0 decyzja bBd poprawna II rodzaju P¸(K), ¸ " ˜0 - prawdopodobieDstwo bBdu I rodzaju P¸(A) = 1 - P¸(K), ¸ " ˜1 - prawdopodobieDstwo bBdu II ro- dzaju Najlepszym testem byBby test, który minimalizuje prawdopodo- bieDstwa popeBnienia obu bBdów jednocze[nie. Taki test nie istnie- je, przy ustalonej liczebno[ci próby losowej zmniejszanie prawdopo- dobieDstwa bBdu I rodzaju powoduje wzrost prawdopodobieDstwa bBdu II rodzaju i na odwrót. Test jest na poziomie istotno[ci ± , je[li " ¸ " ˜0 P¸(K) ± Poziom istotno[ci ± ustala statystyk, zabezpiecza si przed zbyt du|ym prawdopodobieDstwem bBdu I rodzaju. Agata BoratyDska WykBady ze statystyki matematycznej 82 PRZYKAAD 1cd. Przy prawdziwo[ci hipotezy H0 mamy Z CTG ëø 1öø íø øø X <" N (200, 400 · 4 Pp=2(|X - 200| > 19, 6) 1 ëø öø |X - 200| íø øø = Pp=2 ìø > 1, 96÷ø = 2(1 - ¦(1, 96)) = 0, 05 1 10 jest to test na poziomie istotno[ci 0,05. Wielko[ P¸(K) nazywamy moc testu przy alternatywie ¸ " ˜1 (testy buduje si tak aby moc byBa jak najwiksza) Funkcja mocy testu ² : ˜1 -’! [0, 1] ²(¸) = P¸(K) Agata BoratyDska WykBady ze statystyki matematycznej 83 ALGORYTM TESTOWANIA HIPOTEZY STATYSTYCZNEJ 1) okre[li model statystyczny (np. próba losowa X1, X2, . . . , Xn pochodzi z rozkBadu normalnego o nieznanej warto[ci oczekiwanej µ i wariancji Ã2 = 4) 2) postawi hipotez zerow H0 i alternatyw H1 (np. H0 : µ = 0, H1 : µ = 0); 3) przyj poziom istotno[ci (np. ± = 0, 05); 4) poda posta statystyki testowej T , obszaru krytycznego, wy- znaczy warto[ krytyczn (posta statystyki T , zbioru K i war- to[ci krytycznej zale|y od obu hipotez i poziomu istotno[ci ±); 5) obliczy warto[ statystyki testowej dla danych warto[ci próby losowej; 6) podj decyzj: je[li T (X1, X2, . . . , Xn) " K - odrzuci H0 je[li T (X1, X2, . . . , Xn) " K - nie ma podstaw do odrzucenia H0, / czyli otrzymane dane nie daj wystarczajcych argumentów do odrzucenia H0. Agata BoratyDska WykBady ze statystyki matematycznej 84 p-warto[ (p-value) X <" P¸, ¸ " ˜, H0 : ¸ = ¸0, ± - poziom istotno[ci Test K = {T (X) > c±} x - obserwowana warto[ zmiennej X t = T (x) p-warto[ jest równa P¸0(T (X) > t) Wnioskowanie: Je[li p-warto[ < ±, to hipotez H0 odrzucamy. Je[li p-warto[ > ±, to nie ma podstaw do odrzucenia H0. Agata BoratyDska WykBady ze statystyki matematycznej 85 PORÓWNYWANIE TESTÓW X <" P¸, ¸ " ˜, H0 : ¸ " ˜0 H1 : ¸ " ˜1 gdzie ˜0, ˜1 ‚" ˜ i ˜0 )" ˜1 = " Mówimy, |e test o obszarze krytycznym K1 jest mocniejszy ni| test o obszarze krytycznym K2 (oba testy na tym samym poziomie istotno[ci ±) dla testowania hipotezy H0 przy alternatywie H1 Ð!Ò! " ¸ " ˜0 P¸(K1) ± i P¸(K2) ± i " ¸ " ˜1 P¸(K1) P¸(K2) i " ¸1 " ˜1 P¸1(K1) > P¸1(K2). Test o obszarze krytycznym K" nazywamy testem jednostaj- nie najmocniejszym dla testowania hipotezy H0 przy alterna- tywie H1 na poziomie istotno[ci ± Ð!Ò! jest to test na poziomie istotno[ci ± oraz " K †" X speniajacego warunek P¸(K) ± gdy ¸ " ˜0 zachodzi " ¸ " ˜1 P¸(K") P¸(K). Agata BoratyDska WykBady ze statystyki matematycznej 86 LEMAT NEYMANA-PEARSONA Niech X bdzie obserwowan zmienn losowa i P0, P1 dwo- ma rozkBadami prawdopodobieDstwa o gsto[ciach odpowied- nio równych f0 i f1. Niech ñø üø ôø ôø òø ýø f1(x) K" = x : > c i P0(K") = ±. ôø ôø óø þø f0(x) Wtedy test o obszarze krytycznym K" jest testem najmocniej- szym dla testowania hipotezy H0 : X <" P0 przy alternatywie H1 : X <" P1 na poziomie istotno[ci ±. Agata BoratyDska WykBady ze statystyki matematycznej 87 TESTY OPARTE NA ILORAZIE WIAROGODNOZCI X <" P¸, ¸ " ˜, H0 : ¸ " ˜0 H1 : ¸ " ˜1 gdzie ˜0, ˜1 ‚" ˜ i ˜0 )" ˜1 = " i ˜0 *" ˜1 = ˜ sup¸"˜1 L(¸, X) sup¸"˜ L(¸, X) ›1(X) = lub ›(X) = sup¸"˜0 L(¸, X) sup¸"˜0 L(¸, X) Test o obszarze krytycznym postaci K1 = {x : ›1(x) > »1} lub K = {x : ›(x) > »} , gdzie »1, » speBniaj warunki " ¸ " ˜0 P¸(K1) ±, " ¸ " ˜0 P¸(K) ± nazywamy testem opartym na ilorazie wiarogodno[ci dla testowania hipotezy H0 przy alternatywie H1 na poziomie istotno- [ci ±. Przy prostej hipotezie i prostej alternatywie test oparty na ilora- zie wiarogodno[ci o rozmiarze ± pokrywa si z testem Neymana- Pearsona o tym rozmiarze. Agata BoratyDska WykBady ze statystyki matematycznej 88 TESTOWANIE HIPOTEZ - PORÓWNANIE Z NORM Model I. X1, X2, . . . , Xn próba losowa z rozkBadu normalnego N(µ, Ã2), à znane Hipoteza zerowa H0 : µ = µ0 ¯ X - estymator parametru µ Statystyka testowa ¯ " X - µ0 U = n à Poziom istotno[ci ± Alternatywa Zbiór krytyczny ± H1 : µ = µ0 K1 = { |U| > u1- } 2 H2 : µ > µ0 K2 = { U > u1-± } H3 : µ < µ0 K3 = { U < -u1-± } Agata BoratyDska WykBady ze statystyki matematycznej 89 Model II. X1, X2, . . . , Xn próba losowa z rozkBadu normalnego N(µ, Ã2), µ, à nieznane Hipoteza zerowa H0 : µ = µ0 ¯ X - estymator parametru µ 1 n ¯ S2 = (Xi - X)2 estymator parametru Ã2 i=1 n-1 Statystyka testowa ¯ " X - µ0 T = n S Przy H0 prawdziwej statystyka T ma rozkBad t-Studenta z n - 1 stopniami swobody Poziom istotno[ci ± Alternatywa Zbiór krytyczny H1 : µ = µ0 K1 = { |T | > t(±, n - 1) } H2 : µ > µ0 K2 = { T > t(2±, n - 1) } H3 : µ < µ0 K3 = { T < -t(2±, n - 1) } Agata BoratyDska WykBady ze statystyki matematycznej 90 Model II 2 Hipoteza zerowa: H0 : Ã2 = Ã0 Statystyka testowa: (n - 1)S2 Ç2 = 2 Ã0 Przy H0 prawdziwej statystyka Ç2 ma rozkBad chi-kwadrat z n - 1 stopniami swobody 2 " Alternatywa: H1 : Ã2 = Ã0 Zbiór krytyczny ma posta ± ± K1 = Ç2 < Ç2 1 - , n - 1 (" Ç2 > Ç2 , n - 1 2 2 ± czyli hipotez H0 odrzucamy gdy Ç2 < Ç2(1 - , n - 1) lub 2 Ç2 > Ç2(±, n - 1) 2 2 " Alternatywa: H2 : Ã2 > Ã0 Zbiór krytyczny ma posta K2 = {Ç2 > Ç2(±, n - 1)} 2 " Alternatywa: H3 : Ã2 < Ã0 Zbiór krytyczny ma posta K3 = {Ç2 < Ç2(1 - ±, n - 1)} czyli hipotez H0 odrzucamy gdy Ç2 < Ç2(1 - ±, n - 1) Agata BoratyDska WykBady ze statystyki matematycznej 91 Model III. X1, X2, . . . , Xn próba losowa z rozkBadu o nieznanej warto[ci ocze- kiwanej EXi = µ i skoDczonej ale nieznanej wariancji. ZakBadamy, |e n du|e (n 100) Hipoteza zerowa H0 : µ = µ0 ¯ X - estymator parametru µ 1 n ¯ S2 = (Xi - X)2 estymator wariancji i=1 n-1 Statystyka testowa ¯ " X - µ0 U = n S Przy hipotezie H0 prawdziwej statystyka U ma asymptotyczny rozkBad normalny, tzn U -’! N(0, 1) przy n -’! +" Poziom istotno[ci ± Alternatywa Zbiór krytyczny ± H1 : µ = µ0 K1 = { |U| > u1- } 2 H2 : µ > µ0 K2 = { U > u1-± } H3 : µ < µ0 K3 = { U < -u1-± } Agata BoratyDska WykBady ze statystyki matematycznej 92 Model IV. Wykonujemy n niezale|nych do[wiadczeD typu sukces - pora|ka, zakBadamy |e n du|e. Obserwowana zmienna losowa Y ma rozkBad dwupunktowy P (Y = 1) = p P (Y = 0) = 1 - p p " (0, 1) - prawdopodobieDstwo sukcesu w pojedynczym do[wiad- czeniu, nieznany parametr nazywany te| wskaznikiem struktury Niech X oznacza liczb sukcesów w n do[wiadczeniach X <" bin(n, p) Hipoteza zerowa H0 : p = p0 X p = - estymator punktowy parametru p Æ n Statystyka testowa: " p - p0 Æ U" = n p0(1 - p0) Przy prawdziwo[ci hipotezy H0 z CTG wynika, |e " p - p0 Æ U" = n <" N(0, 1) gdy n -’! +" p0(1 - p0) Alternatywa Zbiór krytyczny ± H1 : p = p0 K1 = { |U"| > u1- } 2 H2 : p > p0 K2 = { U" > u1-± } H3 : p < p0 K3 = { U" < -u1-± } Agata BoratyDska WykBady ze statystyki matematycznej 93 TESTOWANIE HIPOTEZ - PORÓWNANIE DWÓCH POPU- LACJI W praktyce istotn role odgrywaj testy, za pomoc których mo|na porównywa cech w dwóch populacjach ze wzgldu na interesuj- cy parametr, najcz[ciej jest to warto[ oczekiwana wariancja wskaznik struktury (procent populacji speBniajacy zadane warun- ki) PRZYKAAD: 1) czy plon przecitny przy dwóch sposobach nawo|enia jest jed- nakowy 2) czy przecitna cena pewnego towaru w sklepach Warszawy jest wy|sza ni| w sklepach Krakowa 3) czy czas wykonania pewnego detalu przy dwóch sposobach pro- dukcji jest jednakowy 4) czy poparcie dla Pana A wzrosBo w cigu miesica 5) czy margaryna Rama i Flora s kupowane tak samo czsto 6) czy dwie metody pomiarowe s jednakowo dokBadne Agata BoratyDska WykBady ze statystyki matematycznej 94 Model I. 2 X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkBadu normalnego N(µ1, Ã1); 2 X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkBadu normalnego N(µ2, Ã2); Parametry µ1, µ2 s nieznane, Ã1, Ã2 s znane, wszystkie obserwo- wane zmienne s niezale|ne. Hipoteza zerowa: H0 : µ1 = µ2, Poziom istotno[ci ± n1 1 ¯ X1 = X1,i - estymator parametru µ1 n1 i=1 n2 1 ¯ X2 = X2,i - estymator parametru µ2 n2 i=1 2 2 2 2 Ã1 Ã2 Ã1 Ã2 ¯ ¯ ¯ ¯ X1 <" N(µ1, ) i X2 <" N(µ2, ), zatem X1-X2 <" N µ1 - µ2, + n1 n2 n1 n2 Statystyka testowa: ¯ ¯ X1 - X2 Un1,n2 = 2 2 Ã1 Ã2 + n1 n2 Przy hipotezie H0 prawdziwej Un1,n2 <" N(0, 1) Alternatywa Zbiór krytyczny ± H1 : µ1 = µ2 K1 = { |Un1,n2| > u1- } 2 H2 : µ1 > µ2 K2 = { Un1,n2 > u1-± } H3 : µ1 < µ2 K3 = { Un1,n2 < -u1-± } Agata BoratyDska WykBady ze statystyki matematycznej 95 Model II. 2 X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkBadu normalnego N(µ1, Ã1); 2 X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkBadu normalnego N(µ2, Ã2); Parametry µ1, µ2, Ã1, Ã2 s nieznane, ale Ã1 = Ã2, wszystkie ob- serwowane zmienne s niezale|ne. Hipoteza zerowa: H0 : µ1 = µ2 n1 1 ¯ X1 = X1,i - estymator parametru µ1 n1 i=1 n2 1 ¯ X2 = X2,i - estymator parametru µ2 n2 i=1 2 2 Ã1 Ã2 ¯ ¯ X1 <" N(µ1, ) i X2 <" N(µ2, ), zatem n1 n2 ëø ëø öøöø 1 1 2 ¯ ¯ íø øøøø X1 - X2 <" N µ1 - µ2, Ã1 íø + n1 n2 n1 1 2 ¯ S1 = (X1,i - X1)2 - estymator wariancji w oparciu o i=1 n1-1 prób X1,1, X1,2, . . . , X1,n1 n2 1 2 ¯ S2 = (X2,i - X2)2 - estymator wariancji w oparciu o i=1 n2-1 prób X2,1, X2,2, . . . , X2,n1 2 2 (n1-1)S1+(n2-1)S2 2 S" = - estymator wariancji w oparciu o dwie n1+n2-2 próby Agata BoratyDska WykBady ze statystyki matematycznej 96 Statystyka testowa: ¯ ¯ X1 - X2 Tn1,n2 = 1 1 S" n1 + n2 Przy hipotezie H0 prawdziwej T ma rozkBad t-Studenta z n1+n2-2 stopniami swobody Alternatywa Zbiór krytyczny H1 : µ1 = µ2 K1 = { |Tn1,n2| > t(±, n1 + n2 - 2) } H2 : µ1 > µ2 K2 = { Tn1,n2 > t(2±, n1 + n2 - 2) } H3 : µ1 < µ2 K3 = { Tn1,n2 < -t(2±, n1 + n2 - 2) } Agata BoratyDska WykBady ze statystyki matematycznej 97 Model III. 2 X1,1, X1,2, . . . , X1,n1 - i.i.d. z rozkBadu o EX = µ1 i V arX = Ã1; 2 X2,1, X2,2, . . . , X2,n2 - i.i.d. z rozkBadu o EX = µ2 V arX = Ã2; Parametry µ1, µ2, Ã1, Ã2 s nieznane, wszystkie obserwowane zmien- ne s niezale|ne, n1, n2 du|e. Hipoteza zerowa: H0 : µ1 = µ2 n1 1 ¯ X1 = X1,i - estymator parametru µ1 n1 i=1 n2 1 ¯ X2 = X2,i - estymator parametru µ2 n2 i=1 Æ2 1 n1 (X1,i - X1)2 estymator wariancji w oparciu o prób ¯ S1 = - n1 i=1 X1,1, X1,2, . . . , X1,n1 Æ2 1 n2 (X2,i - X2)2 estymator wariancji w oparciu o prób ¯ S2 = - n2 i=1 X2,1, X2,2, . . . , X2,n1 Statystyka testowa: ¯ ¯ X1 - X2 U = 2 2 Æ Æ S1 S2 + n1 n2 Przy hipotezie H0 prawdziwej U <" N(0, 1) przy n1, n2 -’! +" Alternatywa Zbiór krytyczny ± H1 : µ1 = µ2 K1 = { |U| > u1- } 2 H2 : µ1 > µ2 K2 = { U > u1-± } H3 : µ1 < µ2 K3 = { U < -u1-± } Agata BoratyDska WykBady ze statystyki matematycznej 98 Hipoteza o równo[ci wariancji w modelu normalnym 2 X1,1, X1,2, . . . , X1,n1 - próba losowa z rozkBadu normalnego N(µ1, Ã1); 2 X2,1, X2,2, . . . , X2,n2 - próba losowa z rozkBadu normalnego N(µ2, Ã2); Parametry µ1, µ2, Ã1, Ã2 s nieznane, wszystkie obserwowane zmien- ne s niezale|ne. Hipoteza zerowa: H0 : Ã1 = Ã2 n1 1 2 2 ¯ S1 = (X1,i - X1)2 - estymator wariancji Ã1 i=1 n1-1 n2 1 2 2 ¯ S2 = (X2,i - X2)2 - estymator wariancji Ã2 i=1 n2-1 Statystyka testowa: 2 S1 F = 2 S2 Przy H0 prawdziwej F <" Fn1-1,n2-1 2 2 " Alternatywa: H1 : Ã1 = Ã2 Zbiór krytyczny ma posta ± ± K1 = F < F 1 - ; n1 - 1, n2 - 1 (" F > F ; n1 - 1, n2 - 1 2 2 2 2 " Alternatywa: H2 : Ã1 > Ã2 Zbiór krytyczny ma posta K2 = {F > F (±; n1 - 1, n2 - 1)} 2 2 " Alternatywa: H3 : Ã1 < Ã2 Zbiór krytyczny ma posta K3 = {F < F (1 - ±; n1 - 1, n2 - 1)} Agata BoratyDska WykBady ze statystyki matematycznej 99 Model IV. Wykonujemy n1 niezale|nych do[wiadczeD typu sukces - pora|ka, w których prawdopodobieDstwo sukcesu jest równe p1, i n2 nieza- le|nych do[wiadczeD typu sukces - pora|ka, w których prawdopo- dobieDstwo sukcesu jest równe p2 p1, p2 " (0, 1) nieznane, n1, n2 du|e Niech X1 oznacza liczb sukcesów w n1 próbach, X2 oznacza liczb sukcesów w n2 próbach X1 <" bin(n1, p1), X2 <" bin(n2, p2) Hipoteza zerowa H0 : p1 = p2 X1 X2 p1 = i p2 = - estymatory parametrów p1 i p2 Æ Æ n1 n2 X1+X2 p" = - estymator prawdopodobieDstwa sukcesu przy zaBo|e- n1+n2 niu, |e H0 prawdziwa p1-p2 Æ Æ " Un1,n2 = - statystyka testowa 1 1 p"(1-p") +n n1 2 Przy prawdziwo[ci H0 " Un1,n2 <" N(0, 1) przy n1, n2 -’! +" Alternatywa Zbiór krytyczny " ± H1 : p1 = p2 K1 = { |Un1,n2| > u1- } 2 " H2 : p1 > p2 K2 = { Un1,n2 > u1-± } " H3 : p1 < p2 K3 = { Un1,n2 < -u1-± } Agata BoratyDska WykBady ze statystyki matematycznej 100 Test analizy wariancji Rozwa|amy k prób losowych X1,1, X1,2, . . . , X1,n1 X2,1, X2,2, . . . , X2,n2 . . . . . . . . . Xk,1, Xk,2, . . . , Xk,nk PRZYKAAD: Xi,j cena pewnego produktu w i-tym mie[cie, i roz- wa|amy k miast. ZAAO{ENIA: " Xi,j, i = 1, 2, . . . , k, j = 1, 2, . . . , ni s niezale|ne " Xi,j <" N(mi, Ã2), " m1, m2, . . . , mk, à s nieznane Hipoteza zerowa: H0 : m1 = m2 = . . . = mk n = n1 + n2 + . . . + nk ni 1 ¯ Xi = Xi,j ni j=1 p ni p 1 1 ¯ ¯ X = Xi,j = niXi n n i=1 j=1 i=1 Agata BoratyDska WykBady ze statystyki matematycznej 101 Test oparty na ilorazie wiarogodno[ci odrzuca H0 gdy k ¯ ¯ ni(Xi - X)2/(k - 1) i=1 F = > F (±, k - 1, n - k) ni k ¯ (Xi,j - Xi)2/(n - k) i=1 j=1 gdzie F (±, k - 1, n - k) warto[ krytyczna w rozkBadzie Fk-1,n-k rzdu ±. 1 k ¯ ¯ ni(Xi - X)2 - estymator wariancji midzygrupowej i=1 k-1 ni 1 k ¯ (Xi,j - Xi)2 - estymator wariancji wewntrz grup j=1 i=1 n-k ni ni k k k ¯ ¯ ¯ ¯ (Xi,j - X)2 = ni(Xi - X)2 + (Xi,j - Xi)2 i=1 j=1 i=1 i=1 j=1 Tabela testu analizy wariancji yródBo Sumy Stopnie warto[ zmienno[ci kwadratów swobody statystyki F k ¯ ¯ midzy próbkami ni(Xi - X)2 k - 1 i=1 ni k ¯ wewntrz próbek (Xi,j - Xi)2 n - k j=1 i=1 ni k ¯ Razem (Xi,j - X)2 n - 1 j=1 i=1 Agata BoratyDska WykBady ze statystyki matematycznej 102 PRZYKAAD. Porównano zyski ze sprzeda|y pewnego towaru w czterech mia- stach. Wylosowano po 10 sklepów i otrzymano wyniki: miasto [redni zysk A 88 B 94 C 91 D 89 ni k 2 Xi,j = 328135 i=1 j=1 Testem analizy wariancji zweryfikuj hipotez o równo[ci przecit- nego zysku w tych miastach H0 : m1 = m2 = m3 = m4 ¯ X = 90, 5 4 ¯ ¯ 10(Xi - X)2 = 210 i=1 4 10 4 10 4 2 ¯ ¯ (Xi,j - Xi)2 = Xi,j - 10Xi2 = 315 i=1 j=1 i=1 j=1 i=1 Agata BoratyDska WykBady ze statystyki matematycznej 103 yródBo Sumy Stopnie warto[ zmienno[ci kwadratów swobody statystyki F midzy próbkami 210 3 wewntrz próbek 315 36 Razem 525 39 8 F (0, 05, 3, 36) = 2, 87 8 > 2, 87 Wniosek: odrzucamy hipotez H0 Agata BoratyDska WykBady ze statystyki matematycznej 104 TESTOWANIE HIPOTEZ O ZGODNOZCI Niech X1, X2, . . . , Xn i.i.d. z rozkBadu o nieznanej dystrybuancie F H0 : F = F0, F0 ustalona I. Test KoBmogorowa ZaBo|enie: F0 - cigBa, [ci[le rosnca dystrybuanta Statystyka testowa: Dn = sup |Fn(t) - F0(t)|, t"R gdzie Fn(t) = Fn(X1, X2, . . . , Xn, t) jest dystrybuant empirycz- n. + - Dn = max(Dn , Dn ) gdzie i i - 1 + - Dn = max - zi Dn = max zi - zi = F0(xi:n) i=1...n i=1...n n n w przypadku szeregu przedziaBowego + - Dn = max |Fn(ci) - F0(ci)| Dn = max |F0(ci) - Fn(ci-1)| i=1...k i=1...k TEST: Je|eli Dn > c(±, n), to hipotez H0 odrzucamy. Wybór c(±, n): RozkBad statystyki Dn przy prawdziwo[ci hipotezy H0 nie zale|y od postaci F0. Agata BoratyDska WykBady ze statystyki matematycznej 105 Zatem c(±, n) s stablicowane. Dla n du|ych korzystamy z warto[ci przybli|onych, kilka z nich podaje Tabela poni|ej. ± 0.20 0.10 0.05 0.01 " " " " c 1.07/ n 1.22/ n 1.36/ n 1.63/ n PRZYKAAD. Dane ze szkodami spowodowanymi przez wichury H0 : F jest dystrybuant z rozkBadu o gsto[ci ñø òø 0 gdy x 1.5 f0(x) = 1 óø exp(-x-1.5) gdy x > 1.5 7.5 7.5 Dystrybuanta rozkBadu z hipotezy ñø ôø òø 0 gdy x 1.5 F0(x) = ôø óø - exp -x-1.5 gdy x > 1.5 1 7.5 Agata BoratyDska WykBady ze statystyki matematycznej 106 Test KoBmogorowa - Lillieforsa Niech X1, X2, . . . , Xn i.i.d. z rozkBadu o nieznanej dystrybuancie F H0 : F jest dystrybuant rozkBadu normalnego Niech + - Dn = max(Dn , Dn ) gdzie i i - 1 + - Dn = max ( - zi) Dn = max (zi - ) zi = F0(xi:n) i=1...n i=1...n n n i ëø öø ¯ Xi:n - X ìø ÷ø íø øø zi = ¦ S n n 1 1 ¯ ¯ X = Xi S2 = (Xi - X)2 n n - 1 i=1 i=1 Obszar krytyczny testu: K = {Dn > Dn(±)} D(±) Dn(±) = " 0.85 " n - 0.01 + n ± 0.1 0.05 0.01 D(±) 0.819 0.895 1.035 Agata BoratyDska WykBady ze statystyki matematycznej 107 II. Test zgodno[ci chi-kwadrat Test zgodno[ci chi-kwadrat sBu|y do weryfikacji hipotezy o postaci rozkBadu obserwowanej zmiennej losowej X. 1. Cecha X ma rozkBad dyskretny o k mo|liwych warto[ciach. Powtarzamy n- krotnie do[wiadczenie losowe, które ma k mo|li- wych wyników w1, w2, . . . , wk. X w1 w2 . . . wk P (X = wi) p1 p2 . . . pk gdzie pi = 1. Hipoteza zerowa: H0 : p1 = p0, p2 = p0, . . . , pk = p0 1 2 k gdzie p0, p0, . . . , p0 s znane. 1 2 k X1, X2, . . . , Xn - obserwacje cechy X. n Ni = 1(Xj = wi), i = 1, 2, . . . , k. j=1 - zliczamy ile razy w próbce X1, X2, . . . , Xn pojawiBa si warto[ wi. Wyniki do[wiadczeD prezentuje tabela: Agata BoratyDska WykBady ze statystyki matematycznej 108 X w1 w2 . . . wk liczba do[wiadczeD N1 N2 . . . Nk Wektor (N1, N2, . . . , Nk) <" Mult(n, p1, p2, . . . , pk). Oczekiwana liczba pojawienia si wyniku wi w próbie n-elementowej przy prawdziwej hipotezie H0 ENi = np0 i Posta statystyki testu chi-kwadrat: (wielko[ obserwowana - wielko[ oczekiwana)2 Ç2 = wielko[ oczekiwana Test: odrzucamy H0 gdy k (Ni - np0)2 i Ç2 = > Ç2(±, k - 1) np0 i=1 i Agata BoratyDska WykBady ze statystyki matematycznej 109 PRZYKAAD: Chcemy sprawdzi czy kostka do gry jest symetryczna. Rzucamy kostk 300 razy. Wyniki podaje tabela wynik wi 1 2 3 4 5 6 liczba rzutów Ni 45 55 60 40 48 52 1 H0 : p0 = , i = 1, 2, 3, 4, 5, 6 i 6 1 np0 = 300 · - warto[ oczekiwana i 6 Warto[ statystyki testowej: 6 (Ni - np0)2 i Ç2 = = 5, 16 emp np0 i=1 i Ç2 = 11, 07 0,95,5 Ç2 < Ç2(0, 05, 5) emp Wniosek: nie ma podstaw do odrzucenia hipotezy H0,zatem mo|- na sdzi, |e kostka jest symetryczna. Agata BoratyDska WykBady ze statystyki matematycznej 110 2. Cecha X ma rozkBad cigBy Test zgodno[ci chi-kwadrat mo|e by stosowany w przypadku ce- chy o rozkBadzie cigBym. X1, X2, . . . , Xn próba losowa z rozkBadu cigBego Hipoteza zerowa: H0 : X1, X2, . . . , Xn i.i.d. F gdzie F jest znan dystrybuant rozkBadu cigBego. Wybieramy liczby -" = a0 < a1 < a2 < . . . < ak = " i definiujemy n Ni = 1(ai-1 < Xj ai), i = 1, 2, . . . , k j=1 PrawdopodobieDstwo P (ai-1 < Xj ai) = F (ai) - F (ai-1) = p0 i jest znane. Nastpnie stosujemy test chi-kwadrat dla przypadku rozkBadu dyskretnego. Agata BoratyDska WykBady ze statystyki matematycznej 111 UWAGI: 1) Test zgodno[ci chi-kwadrat jest testem asymptotycznym, licz- no[ próby losowej n musi by du|a, dla ka|dej klasy np0 > 5. i 1 2) PodziaB na klasy (ai-1, ai) dokonuje si tak, aby p0 H" . i k 3) Testu mo|emy u|ywa do weryfikacji hipotezy, |e rozkBad ob- serwowanej zmiennej nale|y do pewnej rodziny rozkBadów indek- sowanych skoDczenie wymiarowym parametrem. Parametry esty- mujemy korzystajc z danych. Je[li u|ywamy danych do estymacji nieznanych parametrów rozkBadu wystpujcego w hipotezie zero- wej, to dla ka|dego estymowanego parametru odejmujemy jeden stopieD swobody, zatem test odrzuca hipotez zerow, gdy k (Ni - np0)2 i Ç2 = > Ç2(±, k - d - 1) np0 i=1 i gdzie d jest liczb estymowanych parametrów. Agata BoratyDska WykBady ze statystyki matematycznej 112 PRZYKAAD. Poni|sza tabela przedstawia liczby roszczeD zgBoszo- nych w cigu roku dla 500 niezale|nych polis z pewnej grupy ryzyka w towarzystwie ubezpieczeniowym: liczba roszczeD liczba polis 0 420 1 60 2 20 > 2 0 X - obserwowana zmienna losowa - liczba roszczeD dla jednej polisy H0 : X <" P oiss(»), » > 0 jest nieznane. Æ ¯ » = ENW (») = X = 0.2 i p0 = P (X = 0) H" e-0.2 = 0, 82 500 · p0 = 410 1 1 p0 = P (X = 1) H" 0.2e-0.2 = 0, 16 500 · p0 = 80 2 2 p0 = P (X > 1) H" 1 - 0.2e-0.2 - e-0.2 = 0, 02 500 · p0 = 10 3 3 Warto[ statystyki testowej 3 (Ni - np0)2 i Ç2 = = 21, 73 np0 i=1 i Warto[ krytyczna Ç2(0, 05, 3 - 1 - 1) = 3, 84. Hipotez H0 od- rzucamy Agata BoratyDska WykBady ze statystyki matematycznej 113 TEST CHI-KWADRAT NIEZALE{NOZCI (X, Y ) - dwuwymiarowa zmienna losowa o rozkBadzie dyskretnym, tzn. (X, Y ) " {1, 2, . . . , r} × {1, 2, . . . , s}; Niech pi,j = P (X = i '" Y = j) s pi" = P (X = i) = pi,j j=1 r p" j = P (Y = j) = pi,j. i=1 (X1, Y1), (X2, Y2), . . . , (Xn, Yn) próba losowa n Ni,j = 1(Xl = i '" Yl = j) l=1 s r Ni" = Ni,j and N" j = Ni,j. j=1 i=1 Dane przedstawiamy w tabeli zwanej tablic kontyngencji. Agata BoratyDska WykBady ze statystyki matematycznej 114 x|y 1 2 . . . s Ni," 1 N1,1 N1,2 . . . N1,s N1," 2 N2,1 N2,2 . . . N2,s N2," . . . . . . . . . . . . . . . . . . r Nr,1 Nr,2 . . . Nr,s Nr," N" ,j N" ,1 N" ,2 . . . N" ,s n Hipoteza zerowa: H0 : X i Y s niezale|ne H0 : pi,j = pi" · p" j, i = 1, 2, . . . , r, j = 1, 2, . . . , s. Jest to hipoteza o zgodno[ci z pewnym rozkBadem, zastosujemy test chi-kwadrat. Nieznanymi parametrami s: pi" i p" j, i = 1, 2, . . . , r, j = 1, 2, . . . , s Ich estymatory najwikszej wiarogodno[ci to: Ni" N" j pi" = p" j = Æ Æ n n Estymujemy zatem r - 1 + s - 1 parametrów Estymatory parametrów pi,j s postaci Ni" N" j pi,j = pi" · p" j = · Æ Æ Æ n n Agata BoratyDska WykBady ze statystyki matematycznej 115 Statystyka testu chi-kwadrat ma posta Ni" N" j 2 r s Ni,j - n Ç2 = . Ni" N" j i=1 j=1 n Je|eli n d|y do " to rozkBad statystyki Ç2 d|y do rozkBadu Ç2 (r-1)(s-1) Hipotez H0 odrzucamy gdy Ç2 > Ç2(±, (r - 1)(s - 1)) Agata BoratyDska WykBady ze statystyki matematycznej 116 STATYSTYKA BAYESOWSKA MODEL BAYESOWSKI " X1, X2, . . . , Xn - dane np. próba losowa z rozkBadu P¸ o gsto[ci f¸(x) = f(x|¸) " {P¸ : ¸ " ˜} - rodzina rozkBadów, ¸ - nieznany parametr " dodatkowa wiedza- rozkBad a priori   na przestrzeni ˜, zatem ¸ <"   i oznaczmy przez À(¸) - gsto[ rozkBadu   wzgldem pewnej miary na ˜ Wtedy f(x1, x2, . . . , xn|¸) jest gsto[ci rozkBadu warunkowego i f(x1, x2, . . . , xn, ¸) = f(x1, x2, . . . , xn|¸)À(¸) jest gsto[ci rozkBadu Bcznego obserwowanej zmiennej X = (X1, X2, . . . , Xn) i zmiennej ¸. RozkBad  x zadany przez gsto[ (wzgldem miary na ˜) f(x1, x2, . . . , xn|¸)À(¸) À(¸|x) = , m(x) gdzie m(x) = f(x1, x2, . . . , xn|¸)À(¸)d¸ ˜ oznacza gsto[ rozkBadu brzegowego zmiennej X w punkcie x = (x1, x2, . . . , xn), nazywamy rozkBadem a posteriori. RozkBad a priori obrazuje nasz wiedz o nieznanym parametrze przed wykonaniem badania statystycznego Agata BoratyDska WykBady ze statystyki matematycznej 117 RozkBad a posteriori zawiera caB wiedz o obserwowanym zjawi- sku, zawiera wiedz wstpn o parametrze ¸ i wiedz pBync z obserwacji, jest podstaw wnioskowania bayesowskiego. Zadania statystyki bayesowskiej: estymacja parametru ¸ przedziaB ufno[ci weryfikacja hipotez o parametrze. Agata BoratyDska WykBady ze statystyki matematycznej 118 ESTYMACJA 1. Bayesowski estymator najwikszej wiarogodno[ci pa- rametru ¸ - moda rozkBadu a posteriori parametru ¸ BENW (¸)(x) = arg sup À(¸|x) 2. Estymator bayesowski przy zadanej funkcji straty Niech L(¸, a) bdzie funkcj straty jak ponosi statystyk wybiera- jc za warto[ estymatora a, gdy prawdziw warto[ci parametru jest ¸. PrzykBady: Niech g(¸) - wielko[ estymowana L(¸, a) = (g(¸) - a)2 - kwadratowa funkcja straty; L(¸, a) = w(¸)(g(¸)-a)2 - uogólniona kwadratowa funkcja straty; L(¸, a) = |g(¸) - a| - moduBowa funkcja straty; L(¸, a) = exp(c(g(¸) - a)) - c(g(¸) - a) - 1 - funkcja straty linex (liniowo-wykBadnicza) Miernik jako[ci estymatora  - ryzyko a posteriori Rx( , (x)) = E[L(¸, (X))|X = x] = L(¸, (x))À(¸|x)d¸, ˜ E(h(¸)|x) - oznacza warto[ oczekiwan funkcji h(¸), gdy ¸ ma rozkBad a posteriori przy X = x i rozkBadzie a priori  . B Estymator   nazywamy estymatorem bayesowskim Ð!Ò! B "x Rx( ,  (x)) = inf Rx( , a) a Agata BoratyDska WykBady ze statystyki matematycznej 119 Przy kwadratowej funkcji straty B  (x) = E(g(¸)|x) (o ile ta warto[ oczekiwana istnieje i jest skoDczona i ryzyko bay- esowskie jest skoDczone). Dowód: Rx( , a) = E((g(¸) - a)2|x) = E(g2(¸)|x) - 2aE(g(¸)|x) + a2 Jest to kwadratowa funkcja zmiennej a i osiga minimum dla a = E(g(¸)|x). Przy moduBowej funkcji straty B  (x) = med( x) PRZEDZIAAY UFNOZCI HPD Bayesowskim przedziaBem ufno[ci HPD dla parametru ¸ na poziomie ufno[ci 1 - ± nazywamy zbiór A ‚" ˜, taki |e "¸ " A À(¸|x) > k± i   (A|x) 1 - ± Agata BoratyDska WykBady ze statystyki matematycznej 120 PRZYKAAD: X1, X2, . . . , Xn - i.i.d. N(¸, Ã2), ¸ - nieznane, à znane ¸ <" N(µ, Ä2) - rozkBad a priori 2 RozkBad a posteriori N(µ", Ä" ) gdzie ëø öø n µ -1 x + n 1 ¯ 2 Ã2 Ä2 íø øø µ" = i Ä" = + n 1 + Ã2 Ä2 Ã2 Ä2 Estymator bayesowski parametru ¸ przy kwadratowej funkcji sraty n µ x + ¯ Ã2 Ä2 ÆB ¸ (x1, x2, . . . , xn) = µ" = n 1 + Ã2 Ä2 Bayesowski przedziaB ufno[ci dla ¸ na poziomie ufno[ci 1 - ± ± ± µ" - u1- Ä", µ" - u1- Ä" 2 2

Wyszukiwarka

Podobne podstrony:
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 6
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 2
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 3
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 7
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 5
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 1
wykład S1 Statystyka matematyczna
Mikołaj Rybaczuk Materiały do ćwiczeń i wykładów ze statystyki Politechnika BIałostocka
Wykład ze statystyki dobry
Wislicki W Zadania ze statystyki matematycznej
Wyklady ze statystyki
wykład statystyka matematyczna cz 4
wyklad 1 wprowadzenie statystyki oisowe

więcej podobnych podstron