Statystyka jest nauką traktującą o ilościowych metodach badania zjawisk (procesów) masowych. POPULACJA (zbiorowość generalna) na którą składają się wszystkie jednostki tworzące wyodrębnioną całość statystyczną i będące przedmiotem badania statystycznego. Każda jednostka ma takie same prawdopodobieństwo dostania się do próby. POPULACJA SKOŃCZONA zbiór elementów populacji jest skończony np. ludność polski, osoby na tej sali POPULACJA NIESKOŃCZONA posiada nieskończoną liczbę elementów (zbiorowość, rzuty monetą) PRÓBA STATYSTYCZNA -jednostki wybrane w określony sposób z populacji.* *próba powinna być reprezentatywna!(Wszystkie jednostki mają taką samą możliwość/prawdopodobieństwo znalezienia się w próbie. Rodzaje badań statystycznych: PEŁNE- obejmuje wszystkie elementy zbiorowości generalnej np. spis powszechny. CZĘŚCIOWE - obejmuje tylko pewną część zbiorowości. Przyczyny prowadzenia badań częściowych: - Populacja jest nieskończona (leki) - Badania mają charakter niszczący (badanie wytrzymałości) - Skończona, ale bardzo liczna populacja (szacunkowe wyniki wyborów) STATYSTYKA OPISOWA - zajmuje się opracowaniem danych dotyczących zbiorowości czy próby bez posługiwania się rachunkiem prawdopodobieństwa (deterministyczne) STATYSTYKA MATEMATYCZNA - wnioskowanie statystyczne - pozwala ustalić prawidłowości i podejmować decyzje dot. całej zbiorowości na postawie próby dobranej w sposób losowy (o znalezieniu się danej jednostki populacji w próbie decyduje przypadek) przy zastosowaniu rachunku prawdopodobieństwa. Cechy statystyczne Niemierzalne (jakościowe) Mierzalne (ilościowe) Cech jakościowych nie można mierzyć lecz tylko wyrazić słownie : płeć kierunek studiów kolor oczu Cechy ilościowe można mierzyć i mogą być wyrażone za pomocą licz lub w różnych miarach np. wzrost cena, wiek Cechy mierzalne - skokowe - quasi osiągalne - ciągłe Zmienne skokowe mogą wyrażać się tylko określonymi liczbami zmieniającymi się w sposób skokowy bez wartości pośrednich. Zmienne ciągłe mogą przyjmować każdą wartość z określonego przedziału liczbowego (temperatura) Quasi osiągalne -> ceny -> coś jest skokowe, ale może przyjąć wiele wartości. Biorąc pod uwagę liczbę cech podanych w badaniu zbiorowości, statystycznie możemy podzielić na jednowymiarowe (jedno-cechowe) i wielowymiarowe (wielo-cechowe). Zmienna losowa i jej rozkład Niech E będzie zbiorem zdarzeń elementarnych pewnego doświadczenia. Funkcje X(e) przyporządkowującą każdemu zdarzeniu elementarnemu e ϵ E i tylko jedną liczbę X(e)=x nazywamy ZMIENNĄ LOSOWĄ. Zmienna losowa jest przekształceniem zdarzenia losowego w wartość liczbową. Przykład: rzucamy dwoma monetami, jeżeli wypadnie orzeł wygrywamy 1 zł, jeśli reszka nic nie wygrywamy. Zbiór zdarzeń elementarnych i wartości wygranej (0;0)=2, (0;R)=1, (R;0)=1, (R;R)=0. Rozkładem prawdopodobieństwa skokowej zmiennej losowej nazywamy zbiór par z {(xi,pi)}=1,2….ni, gdzie xi jest wartością zmiennej zaś pi prawdopodobieństwem, z jakim zmienna X przybiera wartości xi.
Wartość zmiennej losowej (xi) Prawdopodobieństwa (pi) Wartość dystrybuanty zmiennej losowej to prawdopodobieństwo, że zmienna losowa przyjmie wartość nie większą od określonego poziomu F(xi)= P(X ≤ xi) Wartość zmiennej losowej(xi)
Prawdopodobieństwo (pi) Wartość dystrybuanty F(xi) F(1) = P (X ≤ 1) = 0,75 F(2) = P (X ≤ -2) = 0 F(3) = P (X ≤ 10) = 1 Momenty rozkładu prawdopodobieństwa zmiennej losowej skokowej. O Moment zwykły rzędu r: E(Xr) = $\sum_{i = 1}^{k}{\text{xi}\ \text{pi} = \text{mr}}$ m- wartość oczekiwana Średnia O Moment centralny rzędu r: µr = E[X-(X)]r= $\sum_{i = 1}^{k}{(\text{xi} - m)^{r}\text{pi}}$ Wariancja – średnia zróżnicowania; Pi – prawdopodobieństwo, że X=xi Moment zwykły rzędu pierwszego to wartość oczekiwana E(X) zmiennej losowej X. E(X) = $\sum_{i = 1}^{k}{\text{xi},\text{pi}}$ Moment centralny drugiego rzędu to wariancja D2X D2(X) = $\sum_{i = 1}^{k}{\left( \text{xi} - m \right)2\ \text{pi}}$ = E(X2) – E(X)2= m2 – m12 Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji – D(X) = $\sqrt{D^{2}(X)}$ Własności wartości oczekiwanej 1. Jeśli c jest stałą wartością to: E(cx)= cE (X) 2. Jeżeli X1 i X2 są dwiema zmiennymi losowymi, każda o wartości oczekiwanej wnoszącej odpowiednio E(X1) i E(X2) to zachodzi: E(X1 + X2) = E(X1) + E(X2) Własność wariancji Jeżeli c jest stałą wartością to: D2(c) = 0, D2(x+c) = D2(X), D2(cX) = c2D2 Dominanta to taka wartość zmiennej losowej, której wystąpienie jest najbardziej prawdopodobne. Mediana i kwartale Medianą zmiennej losowej nazywamy wartość M zmiennej losowej X spełniającej nierówność: P(X ≤ M) ≥ $\frac{1}{2}$ i P(X ≥ M) ≥ $\frac{1}{2}$ F(Q1) = P(X ≤ Q1) = 0,25 M= F(M)= P(X ≤ M) = 0,5 M=Q2 F(Q3) = P (X ≤ Q3) = 0,75 Współczynnik skośności AS = $\frac{E\left( X \right) - \ \text{xd}}{D(X)}$ AS = $\frac{1 - 1}{0,71}$ = 0 -> rozkład symetryczny Współczynnik asymetrii A(X) = $\frac{u^{3}}{D^{3\ (x)}}$ D(x) – odchylenie
Obciążenie to wynosi
Czyli wariancja z próby daje zaniżone oszacowania wariancji w populacji. Obciążenie to wraz ze wzrostem liczebności próby maleje do zera.
Efektywność Zgodność
Dokonujemy wnioskowania o całej populacji na podstawie próby wybranej w sposób losowy. Podstawa wnioskowania statystycznego jest wiedza fragmentaryczna o populacji. Dlatego metody wnioskowania statystycznego nie określają własności populacji z całkowitą pewnością. Można jednak określić precyzję prowadzonego wnioskowania. Jednym elementów wnioskowania statystycznego jest estymacja punktowa, Polega ona na wyznaczeniu konkretnych wartości parametru rozkładu cechy statystycznej na podstawie próby losowej. Miary precyzji estymacji punktowej Błąd względny określa precyzję estymacji – precyzję oszacowania parametru
Estymacja wskaźnika struktury Wskaźnik struktury $w = \frac{m}{n}$ m – liczba elementów wyróżnionych, n – liczebność zbiorowości Średni błąd szacunku parametru $\hat{D}\left( w \right) = \sqrt{\frac{w(1 - w)}{n}}$ Średni błąd szacunku średniej Estymacja przedziałowa - przy ustalonej liczebności próby przyjęte prawdopodobieństwo P=1-α wpływa na to, jaka będzie rozpiętość zbudowanego przedziału liczbowego. Im większy poziom ufności, czyli częstość poprawnych oszacowań, tym otrzymujemy przedział o większej rozpiętości. Uzyskujemy więc większe zaufanie do wyniku, ale kosztem utraty precyzji oszacowania Przedział ufności dla frakcji
Przedział wartości dla średniej Precyzję oszacowania możemy mierzyć błędem maksymalnym wynoszącym połowę przedziału ufności Minimalna liczebność próby dla frakcji Minimalna liczebność próby dla średniej Weryfikacja Hipoteza zerowa (H0) jest zawsze w postaci twierdzenia lub równości Dla hipotez parametrycznych występują trzy rodzaje hipotez alternatywnych Hipotezy statystyczne weryfikujemy konfrontując wyniki próby losowej z treścią danej hipotezy. Narzędziem do weryfikacji hipotezy jest test statystyczny, będący procedurą prowadzoną do przyjęcia bądź odrzucenia hipotezy zerowej. Przy weryfikacji hipotez występują dwa rodzaje błędów
Prawdopodobieństwo popełnienia błędu I rodzaju nazywamy poziomem istotności α. SPOSÓB POSTĘPOWANIA
Zasady budowy testów istotności: W populacji generalnej badana jest cecha X. H0 dotyczy rozkładu tej cechy. Na podstawie próby losowej prostej X1,...,Xn należy sprawdzić hipotezę H0. Budowa testu najogólniej ujmując jest następująca: |
Xd = E(X) = M – rozkład symetryczny modalny Xd < M < E(X) E(X)< M < xd Rozkład zero-jedynkowy Rozkład ten opisuje zjawisko dwu stanowe, w którym jeden ze stanów umownie jest określany jako „sukces”, drugi jako „porażka”. Symbolizuje je odpowiednio liczby 1 i 0.
Dystrybuanta jest postaci 0 dla x< 0 F(X) = q dla 0≤ x < 1 p dla x ≥ 1 E(x) = 0*q + 1*p= p D2(x) = (0-p)2q + (1-p)2q= pq N – liczna prób p= co jest sukcesem?, q= co jest porażką? Jakie jest prawdopodobieństwo p + q=1! Ile razy występuje sukces (k) ? n- małe np. 5, 0,15, „p” duże np. 0,5 0,2 0,005) => Schemat Bernoulliego N – duże np. 200, 1000 , „p” małe no 0,001 => Schemat Poisson Rozkład Bernoulliego Nazywamy je także rozkładem dwumianowym, opisuje wielokrotne (n-krotne) występowanie tego samego zjawiska dwustanowego. Rezultatem jest pewna liczba K (k≤n) „sukcesów” oraz liczba (n-k) porażek. P(x = k) = ($\ \frac{n}{k}\ $) *pk * qn-k Podstawowe parametry w rozkładzie Bernoulliego E(x)=np.; D2(x)= np. Rozkład Poissona Jest to rozkład dostosowany do małych prawdopodobieństw otrzymania sukcesu w pojedynczym doświadczeniu i dużej liczby doświadczeń. P(x = k) = $\frac{{(\text{np})}^{k}}{k!}$* e(-np.) Podstawowe parametry w rozkładzie Poissona: E(x) = np = λ; D2(x) = np. = λ Rozkład zmiennej losowej ciągłej Dla zmiennej losowej ciągłej niemożliwe jest przypisanie wszystkim jej wartościom odpowiednich prawdopodobieństw, gdyż wartości tych jest nieskończenie wiele. Rozkład zmiennej losowej ciągłej można przedstawić za pomocą: f(x) <- funkcja gęstości tylko dla zmiennej losowej ciągłej Zmienna losowa typu ciągłego przyjmuje wielkości liczbowe, które nie są przeliczalne; są opisywane za pomocą przedziałów liczbowych. Stąd, mimo, że xo jest możliwą wartością zmiennej losowej ciągłej zachodzi warunek. ^ P(X =xo) =0 xo €R Natomiast można określić prawdopodobieństwo, że zmienna losowa przyjmie wartości z określonego przedziału <x1;x2>. P(x1 ≤X ≤ x2) = P(X≤ x2) – P(X≤x1) = F(X2) – F(X1) Funlcja gęstości opisuje przyrastanie wartości dystrybuanty wraz ze wzrostem wartości zmiennej, jest ona pochodną dystrybuanty: f(x) = F’(x) = Δx$\frac{\lim}{\text{Δx}}$> 0 $\frac{F\left( x + \ \text{Δx} \right) - \ F(x)}{\text{Δx}}$ Wartości funkcji gęstości: f (x) ≥ 0
Dystrybuanta Suma zmiennych o rozkładzie normalnym jest zawsze zmienną również o rozkładzie normalnym. Podstawowe wzory rachunku całkowego dla Podstawowe parametry rozkładu zmiennej losowej ciągłej
Statystyka testująca dla jednej frakcji: Rozkład dwupunktowy, wnioskowanie na podstawie dużej próby (n>120) Statystyka ta ma rozkład N(0,1) Przykład. Z przygotowanej do sprzedaży partii skrzynek z jabłkami w pewnej hurtowni wybrano losowo 200 skrzynek jabłek i 146 z nich zakwalifikowano jako I gatunek. Możemy podpisać umowę na dostawę jabłek, jeżeli jabłka pierwszego gatunku stanowią więcej niż 70% prawdopodobieństwem 0,95. H0: odsetek jabłek I gatunku wynosi 0,7 H1: odsetek jabłek I gatunku jest wyższy niż 0,7: H1: P> 0,7 Weryfikacja hipotezy o równości dwóch wskaźników struktury Cecha X ma w dwóch populacjach rozkład dwupunktowy , wnioskowanie na podstawie dużych prób n1 ≥120 i n2 ≥120, gdzie: Funkcja testująca ma rozkład N(0,1) Przykład? Czy można stwierdzić że w hurtowni I odsetek jabłek I gatunku jest niższy niż w II na poziomie istotności α= 0,05. H0: Odsetek jabłek I gatunku jest taki sam w hurtowni I i w hurtowni II H0: P1= P2 H1: Odsetek jabłek I gatunku jest niższy w hurtowni I niż hurtowni II H1: P1 <P2 Weryfikacja hipotezy o wartości średniej w populacji Cecha posiada rozkład normalny, wnioskowanie na podstawie próby małej n<30, Funkcja testująca ma rozkład T-Studenta o v= n - 1 stopniach swobody Próba duża n>30. Funkcja testująca ma rozkład N(0,1) Weryfikacja hipotezy o wartości średniej w dwóch populacjach Cecha X ma w obu populacjach rozkłady normalne, występują małe próby n < 30 Funkcja testująca rozkład t-Studenta z (n1+n2 – 2) stopniami swobody. Cecha X ma dowolny rozkład i występują duże próby n > 30. Funkcja testująca ma rozkład N(0,1) |
Średni czas oczekiwania Średnio czas oczekiwania wynosi dwie i pół minuty Wyznaczanie mediany Najważniejsze rozkłady ciągłe 1. Rozkład normalny Rozkład normalny dla Standaryzacja Każdą zmienną o dowolnym rozkładzie prawdopodobieństwa, z wartością oczekiwaną E(X) oraz wariancją D2(x) można przekształcić do takiej postaci, aby utworzona nowa zmienna posiadała wartość oczekiwaną równa 0 oraz wariancję równą 1 Reguła standaryzacji: Twierdzenie Crammera Rozważmy ciąg niezależnych zmiennych losowych {x1, x2, x3…, xn}, każda o rozkładzie normalnym o parametrach (mi, σi) dla i=1,2…,n. Zmienna powstała przez sumowanie tych zmiennych, czyli losowa $Y = \ \sum_{i = 1}^{n}x_{1}$
Suma zmiennych o rozkładzie normalnym jest zawsze zmienna Prawa wszelkich liczb oraz twierdzenia graniczne mówią co dzieje się z prawdopodobieństwami zdarzeń, gdy liczba doświadczeń jest bardzo duża. Określają one prawidłowości stochastyczne, czyli dotyczące zdarzeń masowych. Prawa wielkich liczb mówią o zbieżności stochastycznej ciągu zmiennych losowych. Złote twierdzenie Bernoulliego określa zbieżność stochastyczną ciągu liczb $\frac{k}{n}$ do liczby p. Przy dostatecznie dużym n odchylenie pomiędzy częścią występowania danego zdarzenia a prawdopodobieństwem zaistnienia tego zdarzenia jest bardzo małe $\operatorname{}{\mathrm{(|}\frac{k}{n}}\mathrm{-}\mathrm{p}\mathrm{| < \varepsilon}\mathrm{) = 1}$ (złudzenie d’Alemberta). Twierdzenia graniczne Przykładem twierdzenia lokalnego jest przybliżenie Poissona. Gdy wraz ze wzrostem liczby doświadczeń maleje prawdopodobieństwo pojedynczego „sukcesu” i n∙p=λ to prawdopodobieństwo w rozkładzie dwumianowym można przybliżać prawdopodobieństwami z rozkłady Piossona. Przykładem rozkładu integralnego jest twierdzenie Moivre’a-Laplace’a. Gdy wraz ze wzrostem liczby doświadczeń prawdopodobieństwo pojedynczego „sukcesu” nie ulega zmianie to dystrybuanta graniczna rozkładu dwumianowego jest dystrybuanta rozkładu normalnego o parametrach N(np, $\sqrt{\text{npq}}$ ). Jeżeli zmienna losowa Tn= $\sum_{i = l}^{n}x_{i}$ , gdzie xi są zmiennymi losowymi o identycznych rozkładach z E(X)=m i D2(X)=σ2 to dystrybuanta rozkładu normalnego o parametrach (n∙m, $\sqrt{n}$∙σ) jest dystrybuantą graniczną zmiennej losowej Tn. Na tej podstawie wyznacza się graniczny rozkład średniej n niezależnych losowych o dowolnych jednakowych rozkładach Vn=$\frac{T_{n}}{n}\text{.\ }$Vn ma graniczny rozkład normalny N(m, $\frac{\sigma}{\sqrt{n}}$). Wnioskowanie statystyczne Wnioskowanie statystyczne dotyczy zasad i metod uogólnienia wyników otrzymanych z próby losowej na całą populację, w której ta próba została pobrana. Wnioskowanie nieparametryczne dotyczy kształtu rozkładu. Wnioskowanie parametryczne dotyczy jedynie konkretnych wartości parametrów opisujących dany rozkład. Wyróżnia się dwie podstawowe metody wnioskowania statystycznego: Statystyczna próba losowa Największe prawdopodobieństwo wystąpienia mają próby o strukturze zbliżonej do populacji. Teoria estymacji Własności estymatorów Weryfikacja hipotezy o różnicy średnich dla dwóch prób zależnych Porównujemy średni poziom pewnej cechy przed i po pewnym dodatkowym działaniu na elementach tej samej populacji. Z populacji losujemy n-elementową próbę i dla każdej wylosowanej jednostki mamy parę wyników:xi, yi. Takich par wyników nie można traktować jak dwóch prób losowych. Gdyż wyniki mogą być ze sobą skorelowane, np. waga tych samych losowo wybranych osób przed i po diecie. W teście tym bada się różnice wartości cechy przed i po eksperymencie: Ho: Eksperyment nie wpłynął na średni poziom badanej cechy, średnia różnic wynosi0 H0: mz = 0 Funkcja testująca: Funkcja testująca rozkład t-studenta o v= n – 1 stopniach swobody. Nieparametryczne testy istotności – testy zgodności. Testy zgodności weryfikują hipotezy dotyczące postaci rozkładu populacji generalnej. Celem testu jest weryfikacja hipotezy zerowej zakładającej określoną postać dystrybuanty rozkładu cechy statystycznej, co zapisujemy: H0: F(x) = F0(x). Wobec hipotezy alternatywnej, która może mieć jedynie postać: H1: F(x) ≠ F0(x), gdzie F0(x) jest dystrybuantą hipotetycznego rozkładu prawdopodobieństwa. Jeżeli cecha statystyczna ma rozkład zbieżny lub zbliżony do założonego, to rozkład empiryczny cechy otrzymany na podstawie próby losowej, nie powinien różnic się znacznie od rozkładu hipotetycznego. Najczęściej stosowane tety nieparametryczne we wnioskowaniu o rozkładzie populacji: Test Chi-kwadrat oraz test λ-Kołmogorowa pozwalają sprawdzić, czy rozkład cechy jest podobny do jednego ze znanych rozkładów prawdopodobieństwa. Test zgodności λ-Kołmogorowa stosowany jest jedynie do rozkładów typu ciągłego. Natomiast test Kołmogorowa–Smirnowa pozwala zbadać zgodność dwóch rozkładów cechy statystycznej, bez konieczności ustalania postaci tych rozkładów. Test zgodności Chi-kwadrat (X2 ) - Można stosować do rozkładów ciągłych i skokowych - Losujemy dużą próbę - Budujemy szereg rozdzielczy z k klasami, - Liczebność empiryczna i hipotetyczna dowolnej i-tej klasy ni powinna wynosić, co najmniej 8, (5) jeśli warunek ten nie jest spełniony to łączymy sąsiadujące klasy. Budowa testu Określamy hipotezę zerową i alternatywną: H0:F(x) = F0(x). H1: F(x) ≠ F0(x), Zakładając prawdziwość hipotezy zerowej obliczamy prawdopodobieństwa teoretyczne pi, że zmienna losowa X przyjmuje wartości z i-tej klasy, czyli: Pi = F0(xi) – F0(xi-1). Wyznaczamy liczebności teoretyczne i-tej klasy: ni = np. Obliczamy miarę rozbieżności pomiędzy rozkładem hipotetycznym dotyczącym populacji generalnej a rozkładem empirycznym, zaobserwowanym w próbie. Badane są różnice pomiędzy liczebnościami empirycznymi i teoretycznymi za pomocą testu X2 ,statystyka ta ma rozkład X2 z v= k – r - 1stopniami swobody, gdzie r jest liczbą oszacowanych parametrów z próby. Z tablic rozkładu X2 odczytujemy wartość krytyczną X2 α. podejmujemy decyzję: jeżeli X2 ≥X2α wówczas odrzucamy H0 na korzyść H1, jeżeli X2 < X2 α wówczas zachodzi brak podstaw do odrzucenia H0. Test zgodności Kołmogorowa-Smirnowa Pozwala ustalić czy istnieje zgodność rozkładów cechy statystycznej w dwóch różnych populacjach, bez konieczności ustalania postaci tych rozkładów. Procedura weryfikacyjna jest podobna do testu λ-Kołmogorowa. Hipotezy H0: G1(X) = G2(X) H1: G1(X) ≠G2(X) Funkcja testowa gdzie: |
---|