PiS15 W04: PODSTAWY STATYSTYKI MATEMATYCZNEJ 1. Różne pojęcia statystyki 2. Badanie statystyczne 3. Populacja generalna i cecha statystyczna 4. Wnioskowanie statystyczne 5. Próba a próba reprezentatywna 6. Operat losowania Przykład 1 7. Rozkład teoretyczny a rozkład empiryczny 8. Twierdzenie o rozkładzie średniej arytmetycznej Przykład 2 9. CTG - centralne twierdzenie graniczne K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 1 Przykład 3 10. CTG dla sumy 11. Rozkład t-Studenta, jego własności i zastosowanie Przykład 4 12. Rozkład frakcji i sumy z próby Przykład 5 13. Rozkład chi-kwadrat, jego własności i zastosowanie Przykład projektu zaliczeniowego cz. 2 K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 2 1. Różne pojęcia statystyki A. Statystyka jako nauka dostarcza metod pozyskiwania, przetwarzania, zestawiania, analizy i prezentacji danych doty- czących wyników doświadczeń, obserwacji zjawisk losowych lub procesów masowych. Wiele nauk zajmuje się obserwacją otaczającego nas świa- ta lub też posługuje się eksperymentem dla potwierdzenia swoich teorii. Takie badanie przebiega zazwyczaj według schematu: zebranie dużej ilości danych, ich analiza i interpre- tacja. Badaczowi potrzebny jest wtedy zestaw metod, które umożliwią mu operowanie na dużych zbiorach danych. Tworzeniem i rozwijaniem takich użytecznych narzędzi zajmuje się właśnie statystyka. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 3 B. Statystyka opisowa - zespół metod, nie używających probabilistyki, służących do wydobycia dostępnej informacji zawartej w zbiorze danych uzyskanych podczas badania sta- tystycznego, jako wyniku realizacji zjawiska lub doświadcze- nia losowego. Celem stosowania metod statystyki opisowej jest podsu- mowanie zbioru danych i wyciągnięcie pewnych podstawo- wych wniosków dotyczących przedmiotu badań. Przedmiotem badań statystyki opisowej są: 1. miary położenia: np. średnia, dominanta (moda), kwartyle, 2. miary dyspersji: np. wariancja, odchylenie standardowe, 3. miary asymetrii, 4. miary współzależności. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 4 C. Statystyka matematyczna (SM) - sformalizowany ze- spół metod, używający probabilistyki, algebry liniowej i ana- lizy matematycznej, służący do wnioskowania o własnościach wyodrębnionych populacji będących przedmiotem badań, na podstawie analizy danych częściowych, otrzymanych w eks- perymencie lub z obserwacji pewnego zjawiska. SM dostarcza teoretycznych podstaw do konstrukcji pro- cedur statystycznych, w celu uzyskania wiarogodnej informa- cji o własnościach badanej populacji, na podstawie danych częściowych. W SM dane częściowe stanowią próby losowe. Probabili- stycznymi modelami tych prób są jedno- lub wielowymiaro- we ciągi zm. l. Na przykład, (X1, Y1), (X2, Y2),..., (Xn, Yn) two- rzy dwuwymiarową próbę losową (X, Y)n o liczebności n. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 5 D. Statystyka jako funkcja - każda zm. l. U będąca funkcją próby losowej Xn = (X1, X2,..., Xn), tj. U = f(Xn). Sta- tystyki służą do poznania mechanizmu generującego obser- wacje. Probabilistyka dostarcza twierdzeń dotyczących rozkładów statystyk. Są one podstawą metod statystycznych. Podstawowe statystyki: n 1 Xn = Xi ,
średnia arytmetyczna n i=1 jeżeli modelem cechy jest zm. l. X~B(p), to średnia arytm. nazywa się frakcją jednostek wyróżnionych w Pn próbie i jest oznaczana , K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 6 n 1 2 Sn = n (X - X )2 , i wariancja z próby n -1 i=1 odchylenie standardowe z próby Sn, kowariancja z próby, n 1 Cov(X,Y) = n n (X - X )(Yi - Y ) , i n -1 i=1 współczynnik korelacji Pearsona n n n i=1(X - X )(Yi - Y ) i R(X,Y) = 2 n n n n i=1(X - X ) i=1(Y - Y )2 i i K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 7 2. Badanie statystyczne BS to szereg czynności, związanych z pozyskiwaniem i przetwarzaniem danych, zmierzających do jak najlepszego poznania rozkładu wyróżnionych cech w populacji general- nej, których modelami są zm. losowe X, Y, Z. BS może być pełne (obejmuje całą populację) lub czę- ściowe (dotyczy pewnych elementów populacji - próby) . Czynniki, które przemawiają na korzyść badań częściowych: populacja może być nieskończona, badanie może być niszczące, wysokie koszty. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 8 3. Populacja generalna i cecha statystyczna Populacja generalna (zbiorowość statystyczna) to zbiór elementów zwanych jednostkami statystycznymi, podlegają- cych BS. Jednostki populacji są do siebie podobne pod względem badanych cech, ale nie są identyczne. Cechy statystyczne to te właściwości populacji general- nej, które są przedmiotem BS. Cecha statystyczna może być: mierzalna (ilościowe) - np. wzrost, waga, wiek niemierzalna (jakościowe) - np. kolor oczu, płeć Zróżnicowanie wartości cechy statystycznej powoduje, że można mówić o jej rozkładzie w populacji. Modelami bada- nych cech statystycznych są zmienne losowe. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 9 4. Wnioskowanie statystyczne WS to sformalizowany zespół metod i procedur służących do uogólniania wyników badania próby na całą populację oraz szacowania błędów wynikających z takiego uogólnienia. Wyróżniamy dwie grupy metod uogólniania wyników, de- finiujące jednocześnie dwa działy WS: Estymacja - szacowanie wartości nieznanych parametrów rozkładu badanych cech. Weryfikacja hipotez statystycznych - sprawdzanie po- prawności przypuszczeń na temat rozkładu badanych cech w jednej lub kilku populacjach. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 10 5. Próba a próba reprezentatywna Próbą losową z populacji badanej ze względu na jedną ce- chę, której modelem jest zm. l. X, lub kilka cech, powiedzmy X i Y nazywamy: w przypadku jednej cechy ciąg zm. l. X1, X2,& , Xn oznaczany X lub Xn, w przypadku dwóch cech ciąg par zm. l. (X1, Y1), (X2, Y2),& , ( Xn, Yn) oznaczany (X, Y) każda z określonym rozkładem prawdopodobieństwa. Jeżeli badamy dwie populacje ze względu na wspólną ce- chę, to próbą losową są dwa ciągi: X1,1,& , X1,n i X2,1,& , X2,m. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 11 Jeżeli zm. l.-owe w próbie są niezależne i o identycznym rozkładzie (i.i.d.) co badana cecha lub cechy, to mówimy, że jest to prosta próba losowa. Próbą reprezentatywną nazywamy taką próbę, która za- chowuje strukturę populacji ze względu na badane cechy. Sposobem pobierania prób zajmuje się dział statystyki zwany metody reprezentacyjne. Prosta próba losowa gwarantuje re- prezentatywność. Liczbę n jednostek wybranych do próby nazywamy li- czebnością próby. Liczebność próby zależy m.in. od przyjęte- go błędu, zwanego poziomem ufności. Jeżeli n Ł 30 to próbę nazywamy małą próbą. W przeciw- nym przypadku próbę nazywamy dużą próbą. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 12 6. Operat losowania Wykaz wszystkich elementów populacji nazywamy opera- tem losowania. Operat losowania pozwala wybierać elementy z populacji przez losowe generowanie numerów elementów, które znajdą się w próbie. Do generowania liczb losowych może być użyty komputer lub tablica liczb losowych. Przykład 1. Wylosować próbę losową złożoną z 10 elemen- tów spośród 600 korzystając z tablicy liczb losowych, której fragment jest podany w ramce: 10480 15011 01536 02011 81647 91646 69179 14194 22368 46573 25595 85393 30995 89198 27982 53402 24130 48360 22527 97265 76393 64809 15179 24830 K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 13 42167 93093 06243 61680 07856 16376 93440 53537 37570 39975 81837 16656 06121 91782 60468 81305 77921 06907 11008 42751 27756 53498 18602 70659 Rozwiązanie. Liczba 600 składa się z trzech cyfr i liczby trzycyfrowe większe od 600 są ignorowane, a w ich miejsce bierzemy liczbę następną, o ile należy do zakresu. Arbitralnie ustalamy, że wybieramy liczby złożone z trzech pierwszych cyfr liczb pięciocyfrowych zestawionych w tablicy i, że poru- szamy się po kolejnych wierszach, aż otrzymamy 10 loso- wych numerów. W ten sposób otrzymujemy kolejno: 104, 150, 15, 20, 816 (ignorujemy), 916 (ignorujemy), 691 (ignorujemy), 141, 223, 465, 255, 853 (ignorujemy), 309, 891 (ignorujemy), 279. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 14 7. Rozkład teoretyczny a rozkład empiryczny Probabilistycznym modelem badanej cechy jest zm. l. X. Rozkład badanej cechy X w populacji nazywamy rozkładem teoretycznym. Rozkład ten zwykle nie jest znany i w bada- niach statystycznych zwykle przyjmujemy, że jest to pewien rozkład spośród określonej rodziny rozkładów zależnej od nieznanych parametrów, np. X ~ N(m, s), X ~ B(p). Rozkład cechy lub kilku cech w próbie nazywamy rozkła- dem empirycznym. Rozkład ten poznajemy na podstawie BS opisującego wartości przyjmowane przez cechę lub cechy, zwykle przy pomocy dystrybuanty empirycznej, częstości ich występowania lub odpowiednich statystyk z próby. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 15 Niech (X1, X2,& , Xn) będzie jedno-cechową próbą prostą. Dystrybuantą empiryczną nazywamy następująca funkcję: dla każdego x R, Fn(x) = {i: Xi Ł x}/n, gdzie A oznacza liczebność zbioru A. UWAGI: 1. W klasycznej SM zakładamy, że dane są próbami pro- stymi. 2. Rozróżniamy rozkład prawdop. w populacji i rozkład próby losowej oraz średnią, wariancję, odch. standardowe, kowariancję, współczynnik korelacji, tzw. teoretyczne, tj. w populacjach od empirycznych, tj. w próbach losowych. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 16 8. Twierdzenie o rozkładzie średniej arytmetycznej Jeżeli cechę w populacji generalnej opisuje zm. l. X o roz- Xn kładzie N(m, s), to średnia arytmetyczna z próby prostej X1, X2,& , Xn ma rozkład normalny N(m, s/n), tj. X ~ N(m4) X ~ N n ,s n 14243 144(m444) 4 4 2,s/ 3 załałożene teza i Dowód tego tw. wynika z tw. o sumie niezależnych zm. l. o rozkładach normalnych. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 17 Twierdzenie o rozkładzie sumy zm. l. Jeśli X1, X2,& , Xn są niezależnymi zm. l. o rozkładach normalnych N(mi, si), to dla n = 1, 2,& 2 (X1 + X2 +...+ X )~ N(m1 + m2 +...+ mn, s1 + s2 +...+ s2) 2 1444444n 244444444444n 44444 3 teza Wniosek. Dla prostej próby losowej X ~ N(m,s/ n) n , a po standaryzacji średniej X - m n n ~ N(0,1) . s K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 18 Uwaga. W statystyce twierdzenia probabilistyki są stosowane w drugą stronę, tzn. z pewnej wiedzy zawartej w tezie twier- dzenia chcemy wnioskować o prawdziwości założenia. Wnioskowanie to nazywamy wnioskowaniem redukcyj- nym, w odróżnieniu od dedukcyjnego dowodzenia prawdy stosowanego w naukach formalnych. Wnioskowanie redukcyjne nie jest niezawodne, niemniej jest najczęściej stosowane w naukach empirycznych. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 19 Przykład 2. Czasy TA i TB oczekiwania pasażerów na autobu- sy linii A i B są zm. l. o rozkładach normalnych, tj. TA ~ N(mA, sA), TB ~ N(mB, sB). Przyjmując, że mA = 10 min., sA = 3min., mB = 15 min., sB = 4min., wyznaczyć dla losowo wybranego pasażera, który co- dziennie dojeżdża do pracy korzystając z obydwu linii: a) rozkład całodziennego czasu TD wyczekiwania na auto- busy, tj. łącznie w drodze do pracy i z powrotem, b) prawdop. zdarzenia, że całodzienny czas wyczekiwania wynosi ponad 1 godz., K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 20 c) Pewien pasażer powiedział, że czekając na autobusy stracił pewnego dnia łącznie tylko 30 min. Czy to moż- liwe ? Rozwiązanie. a) Ponieważ TD = 2 TA + 2 TB, więc na podsta- wie tw. o rozkładzie sumy niezależnych zm. l. o rozkładach normalnych TD ~ N(mD, sD), gdzie mD = 2mA + 2mB = 50 min., sD =(2sA2 + 2sB2) = 52 min. b) P(TD > 60 ) = 1 - P(TD Ł 60 ) = 1 - F(2) 0,08. c) P(TD Ł 30 ) = F(-52) 0,0000. Zdarzenie to jest prawie niemożliwe. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 21 9. CTG - centralne twierdzenie graniczne Jeżeli X1, X2,& , Xn jest próbą prostą z populacji X o warto- ści oczekiwanej m i skończonym odchyleniu standardowym Xn s, to rozkład średniej z próby dąży do rozkładu normalne- go o wartości oczekiwanej m i odchyleniu standardowym s/n, gdy liczebność próby wzrasta nieograniczenie, czyli dla dostatecznie dużych n Xn nĄ N(m, s / n) ~ Siła CTG polega na tym, że rozkład populacji może być inny niż normalny, a nawet może być nieznany. Twierdzenie o standaryzowanym rozkładzie średniej arytmetycznej nazywa się tw. Lindeberga-Levy ego. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 22 Przykład 3. Producent folii aluminiowych twierdzi, że 75- metrowe rulony mają przeciętną długość 75,05m oraz odchy- lenie standardowe 0,12 m. Aby tę tezę sprawdzić, hurtownik zamierza na losowej próbie złożonej z 36 rulonów przepro- wadzić badania polegające na dokonaniu pomiarów długości wylosowanych rulonów. a) Przy założeniu, że producent udzielił prawdziwej in- formacji, opisać rozkład średniej arytmetycznej z próby. b) Przy założeniu, że producent udzielił prawdziwej in- formacji, obliczyć prawdop. zdarzenia, że średnia arytme- tyczna z próby będzie mniejsza niż 75m. c) W wyniku pomiarów otrzymano średnią arytmetyczną 74,97m. Czy na tej podstawie hurtownik może podważać tezę producenta ? K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 23 Odp.: a) Ponieważ liczebność próby n = 36, więc na podsta- X36 N(75,05; 0,02)[m] wie CTG wiemy, że P(X < 75) 0,0062 b) . c) Jest mało prawdop., aby średnia arytmetyczna z próby była mniejsza niż 75 m, oczywiście przy założeniu, że producent udzielił prawdziwej informacji. Jeżeli przyjmie się, że w wy- niku badań zrealizowała się bardzo mało prawdop. wartość x = 74,97, to hurtownikowi trudno będzie utrzymać tezę producenta jako prawdziwą. Wniosek. Doświadczenie dostarczyło podstaw do odrzu- cenia tezy producenta na rzecz stwierdzenia, że prawdziwa długość rulonów jest średnio mniejsza niż 75,05 m lub odchy- lenie standardowe s jest większe niż 0,12m. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 24 10. CTG dla sumy Jeżeli X1, X2,& , Xn jest próbą prostą z populacji X o skoń- czonej wartości oczekiwanej m i odchyleniu stand. s, to dla dostatecznie dużych n n Xi (nĄ) N(nm,s n) ~
i=1 X ~ N(m, s/ n) Dowód. Spełnione są założenia CTG, więc . Ponieważ X1 +& + Xn = n , więc dla dostatecznie dużych n X suma n ma prawie rozkład normalny oraz X E(n ) = nE( ) = nm, D2(n ) = n2D2( ) = n2 s2/n = n s2. X X X X Stąd odch. standardowe wynosi sn. Co kończy dowód. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 25 11. Rozkład t-Studenta, jego własności i zastosowa- nie Żeby zastosować CTG, powinniśmy znać s w populacji. W praktyce, jeżeli s nie jest znane, to korzystamy z jego es- tymatora Sn z próby. W tym przypadku standaryzowana staty- styka: Xn - m tn = Sn / n nie ma stand. rozkładu normalnego. Rozkład statystyki tn jest bardziej płaski w środku i ma dłuższe ogony niż stand. rozkład normalny. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 26 Tw. Jeżeli rozkład cechy X w populacji jest normalny, to sta- tystyka tn ma rozkład t-Studenta1 o n -1 stopniach swobody. Zapis X~t(n) oznacza, że zm. l. X ma rozkład t-Studenta o n stopniach swobody. Własności: Jeżeli X~t(n), to EX = 0 oraz D2X = n/(n-2). Zastosowanie: W estymacji i weryfikacji hipotez dotyczą- cych wartości oczekiwanej przy nieznanej wariancji. 1 William Sealy Gosset (1876 1937), statystyk angielski. Publikował pod pseu- donimem Student, stąd nazwa wprowadzonego przez niego - w roku 1908 - rozkładu. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 27 Kwantyle rozkładu t-Studenta są stablicowane. http://pl.wikisource.org/wiki/Tablica_rozk%C5%82adu_t-Studenta Rys. 1. Krzywe gęstości rozkładu t-Studenta. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 28 Przykład 4. Rozkład płac pracowników w firmie FIA jest normalny z wartością oczekiwaną m = 2000 PLN. Spośród pracowników tej firmy wylosowano 25 osób. Obliczyć praw- dop. zdarzenia, że średnia płaca wylosowanych pracowników jest większa od 1800 PLN, jeśli: a) wariancja płacy pracowników firmy FIA jest znana i wynosi s2 = 14400 PLN2; b) jedynie wariancja płacy z próby jest znana i wynosi s2 = 19600 PLN2. Wsk. Jeśli s jest znane, to zastosować tw. o rozkładzie śred- niej arytmetycznej; jeśli s jest nieznane, to zastosować roz- kład t-Studenta. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 29 12. Rozkład frakcji i sumy z próby Jeżeli X ~ B(p), to CTG nazywamy tw. de Moivre a2. Tw. o rozkładzie frakcji z próby. Gdy liczebność n próby X1, X2,& , Xn wzrasta, to średnia arytmetyczna Kn n Pn = Kn = i=1 Xi , gdzie n zwana frakcją z próby ma rozkład zbieżny do rozkładu nor- malnego z wartością oczekiwaną p i wariancją p(1-p)/n, tj. 2 Abraham de Moivre (1667 1754) was a French-born mathematician who pio- neered the development of analytic geometry and the theory of probability. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 30 Pn ~ N(p, p(1- p) / n) nĄ Ponadto suma Kn ~ B(n, p) ~ N(np, np(1- p)) (nĄ) . Jeżeli p = 0,5, to rozkład sumy Kn jest symetrycznym roz- kładem dwumianowym i zbieżność do rozkładu normalnego jest bardzo szybka. Jeżeli parametr p jest bliski 0 (lub 1), to rozkład dwumia- nowy jest silnie asymetryczny. Przy rosnącym n asymetria zanika. W praktyce przyjmujemy, że przybliżenie rozkładem normalnym jest dobre, gdy liczebność n jest na tyle duża, że wartości np ą 2(np(1-p)) należą do przedziału (0, n). K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 31 Przykład 5. Pobieramy próbę o liczebności n = 12 z popula- cji, w której frakcja jednostek wyróżnionych p = 0,1. a) Jaki jest rozkład liczby jednostek wyróżnionych w pró- bie, tj. statystyki Kn ? b) Czy rozsądne jest aproksymowanie statystyki Kn roz- kładem normalnym ? c) Obliczyć prawdop. zdarzenia Kn ł 2. d) Obliczyć wartości oczekiwane i wariancje statystyk Kn i Pn . Odp.: b) Nie. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 32 13. Rozkład chi-kwadrat, jego własności i zastoso- wanie Jeżeli X1, X2,& , Xn jest próbą prostą z populacji o rozkładzie normalnym, to statystyka 2 (n -1)Sn c2 = n s2 ma rozkład chi-kwadrat o n-1 stopniach swobody. Piszemy cn2~ c2(n-1). Własności. Jeżeli X~c2(k), to EX = k, D2(X) = 2k, mo(X) = k-2 dla k > 2. K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 33 Zastosowanie. Statystyka chi-kwadrat ma zastosowanie w es- tymacji i weryfikacji hipotez dotyczących wariancji. Uwaga. Jeżeli cecha X w populacji generalnej ma rozkład normalny, to średnia arytmetyczna i wariancja z próby są nie- zależnymi zm. l. mimo, że pochodzą z tej samej próby. Krzywe gęstości Wykresy dystrybuant K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 34 Przykład projektu zaliczeniowego cz. 2 Uwaga. Należy przytaczać wzory i składnie funkcji wykorzystywanych w roz- wiązaniach. Udzielać pełnych odpowiedzi. Sporządzić tabelę ocen według wzoru. W przypadku braku rozwiązania punktu, pod jego numerem, w polu uzyskano wpisać 0 . Punkt a b c Aącznie do uzyskania 3 3 3 9 uzyskano Producent detali informuje, że długość X określonego typu detalu ma rozkład N(20; 0,2) [mm]. Norma długości tego detalu wynosi 20,00ą0,4 [mm]. W celu sprawdzenia informacji producenta wylosowana zostanie próba losowa i) 15 elementowa, ii) 180 elementowa. a) Co wynika z faktu, że średnia z próby będzie mniejsza od 19,9mm ? b) Co wynika z faktu, że wariancja z próby będzie większa od 0,1[mm]2 ? c) Co wynika z faktu, że empiryczny wskaznik normy długości bę- dzie mniejszy od 0,9 ? K.J. Andrzejczak, PiS15 W04: Podstawy statystyki matematycznej 35