Rozkład empiryczny cechy.
Podstawą do jakichkolwiek analiz statystycznych badanej cechy jest określenie tzw. empirycznego rozkładu cechy. Polega ono na uporządkowanym, uszeregowanym rosnąco wartościom, przyjmowanym przez tę cechę odpowiednio zdefiniowanych częstości ich występowania.
Podać definicję i opisać właściwości funkcji rozkładu zmiennej losowej oraz dystrybuanty.
Funkcje rozkładu zmiennej losowej: przyporządkowuje wartościom tej zmiennej losowej wartości prawdopodobieństw, z jakimi one występują, suma tych prawd. równa się 1. Własności D=R; f=<0;1> jest ograniczona. Zmienna losowa X jest typu skokowego, jeśli może przyjmować skończoną lub nieskończoną, ale przeliczoną liczbę wartości. Zmienna losowa X jest typu ciągłego, jeśli możliwe wartości należą do przedziału ze zbioru liczb rzeczywistych.
F. dystrybuanty: przyporządkowuje wartościom zmiennej losowej wartości prawdopodobieństwa tego ze wartości zmiennej losowej. Przyjmuje wartość nie większą od wartości argumentu, własność jest ograniczona 0<=F(x)
Co to jest standaryzowany układ normalny i jak przeprowadza się proces standaryzacji?
Jest to rozkład normalny, który uległ przekształceniu a po którym ma parametr E(U)=o; DZ(U)=1. Jego dystrybuanta jest stablicowana. Standaryzacja jest to przekształcenie, którego celem może być prowadzenie różnych rozkładów zmiennej o różnym przeciętnym poziomie i stopniu zróżnicowania dla porównywalności. Standaryzację przeprowadza się w następujący sposób: od wartości zmiennej odejmuje się jej wartość oczekiwaną i otrzymaną różnicę dzieli się przez odchylenie standardowe.
Jakie testy są używane do weryfikacji hipotezy H0=µ1=µ2 i jakie są kryteria wyboru?
- test T-studenta, jeżeli populacja ma rozkład normalny o nieznanych parametrach;
- test U, jeżeli populacja generalna ma dowolny rozkład o nie znanych parametrach (duża próba) lub gdy populacja generalna ma rozkład normalny o nieznanym u, ale znanym δ (mała próba).
Co to jest hipoteza? Omów rodzaje weryfikowanych hipotez.
Przez hipotezę statystyczną rozumie się dowolne przypuszczenie, co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na podstawie wyników próby losowej. Do weryfikacji hipotez służą testy istotności. Postać tych testów a w szczególności statystyk będących sprawdzianami Ho zależy od tego, jakiego parametru dotyczy hipoteza oraz jakimi informacjami o populacji generalnej dysponujemy.
Jakie czynniki i w jaki sposób wpływają na długość przedziału ufności dla wartości oczekiwanej?
Zależy od poziomu istotności α, odchylenia standardowego δ i liczebności próby N. Od α i δ zależy wprost proporcjonalnie, czyli wraz ze wzrostem parametru rośnie długość przedziału ufności, od N zależy odwrotnie proporcjonalnie ze wzrostem liczebności maleje długość przedziału. Dt=2µαS/√N
Omówić dowolnie wybrany rozkład zmiennej losowej skokowej, przedstawić na wykresie.
f(x), F(x)
Zmienna losowa przyjmuje dwie wartości 1, 2 każda z wartości przyjmuje z prawdopodobieństwem ½.
Od czego zależy wartość i położenie obszaru krytycznego?
Wielkość od wielkości wartości krytycznej (Uα), a odchylenie od wielkości poziomu istotności α, im większe α tym mniejszy obszar krytyczny. Położenie od stosowanego testu zgodności, np. przy rozkładzie normalnym jest dwustronny, a przy rozkładzie χ prawostronny. Położenie zależy też od rodzaju weryfikowanej hipotezy - lewostronnej, prawostronnej i obustronnej.
Wypisz hipotezy, które można weryfikować testem T-studenta. Jakie założenia należy przyjąć o populacjach generalnych?
Ho: µ = µ0 - populacja ma rozkład normalny o nieznanych parametrach, mała próba
Ho: µ1 = µ2 - mała próba, wariancje jednakowe
Podać cechy dobrego estymatora.
Nieobciążony - przy wielokrotnym losowaniu próby średnie z wartości przyjmowanych przez estymator nieobciążony równa jest wartości szacowanego parametru;
Efektywny - najefektywniejszy jest ten, który ma najmniejszą wariancję;
Dostateczny (wystarczający) - jeżeli do jego konstrukcji użyto wszystkie elementy próby;
Zgodny - jeśli wraz ze wzrostem wartości próby wartość estymatora jest bliższa wartości estymowanego parametru. Jeżeli dla każdego ε > 0 lim P{<θα z daszkiem - θ>≤ε}=1 to θ jest estymatorem zgodnym. Jeżeli rozpatrujemy próby (n > rośnie) Es zgodny - jego wartość pokrywa się z wartością nieznaną.
Jaka jest interpretacja współczynnika korelacji i regresji jakie wartości mogą przyjmować te parametry?
Współczynnik korelacji określa siłę zależności między zmiennymi. Współczynnik regresji mówi o ile wzrośnie zmiana zależności, jeżeli zmienna niezależna zmieni się o 1.
xy∈(-1,1)
Jeżeli rozkład ma częstość empiryczną sukcesu w dużych próbach, jakie są parametry tego rozkładu?
Ma rozkład normalny o parametrach: μ - wartość oczekiwana i σ - odchylenie standardowe.
Omówić definicję prawdopodobieństwa.
klasyczna - prawdopodobieństwo zdarzenia A jest to stosunek zdarzeń sprzyjających temu zdarzeniu, do ilości wszystkich zdarzeń elementarnych.
aksjomatyczna - niech Ω będzie daną przestrzenią zdarzeń elementarnych. Jeżeli każdemu zdarzeniu A przestrzeni Ω zostanie przyporządkowana dokładnie jedna liczba P(A) spełniająca warunki P(A)≥0; P(Ω)=1 dla każdej pary wyłączających się zdarzeń A,B P(AB)=P(A)+P(B) to mówimy, że na zdarzeniach przestrzeni Ω zostało określone prawdopodobieństwo zdarzenia A, warunki nazywamy aksjomatami
statystyczna - jeżeli przy wielorakiej realizacji doświadczeń w wyniku których może wystąpić zdarzenie A, częstość tego zdarzenia wyraża wyraźnie prawidłowość, oscyluje wokół pewnej nieznanej liczby, jeżeli wahania częstotliwości przejawiają tendencję malejącą w miarę wzrostu liczby doświadczeń, to liczba P nazywa się prawdopodobieństwem zdarzenia A.
Cechy rozkładu normalnego.
Symetryczny względem prostej x=µ; osiąga jedno maximum w punkcie, ma dwa punkty przecięcia dla x=µ - σ i µ + σ; EX=µ=H0. Dowód na jego symetryczność jest określony do zera dla x do +∞ i -∞. Przekształcenie standaryzacja prowadzi do powstania innego rozkładu normalnego.
O czym informują kwantyle i mediany w próbie?
Kwantyle dzielą uporządkowaną rosnąco zbiorowość na 4 części liczące po 25% obserwacji środkowej. Dla zmiennej losowej ciągłej mediana dzieli pole pod wykresem na dwie równe części.
Co to jest obszar krytyczny, od czego zależy jego wielkość i położenie pod krzywą rozkładu statystyki testowej?
Jest to taki obszar przestrzeni próby, że jeśli wynik prób znajduje się w tym obszarze to sprawdzoną hipotezę zerową odrzucamy, jeśli natomiast wynik próby znajduje się poza tym obszarem to hipotezę H0 przyjmujemy (nie odrzucamy).
Podaj interpretację parametru współzmienności zmiennej losowej, dwuwymiarowej.
Współczynnik determinacji exy mówi nam, w jakiej części wartości jednej zmiennej jest zdeterminowana wartość drugiej zmiennej.
Współczynnik regresji βxy mówi o ile wzrośnie zmiana zależności, jeżeli zmienna niezależna zmieni się o 1.
Co można powiedzieć o zmiennej w próbie, jeśli wszystkie miary przyjmują tę samą wartość?
Jeżeli wszystkie miary przyjmują tę samą wartość to znaczy, że brak jest zróżnicowania w próbie, czyli wszystkie wartości cechy są jednakowe.
Dlaczego w testach istotności nie przyjmujemy H0?
W testach istotności uwzględnia się tylko prawdopodobieństwo α popełnienia błędu 1 rodzaju. Pomija się przyjęcie hipotezy fałszywej(błędu II rodzaju β) nie mówi się o przyjęciu tej hipotezy, ale o tym, że wyniki danej próby nie dają podstaw do jej odrzucenia. Jeżeli wynik znajduje się na obszarze krytycznym odrzuca się H0, a prawdziwa jest H1, bo w pewnych testach możliwe jest określenie prawdopodobieństwa β popełnienia błędu II rodzaju. Można, zatem w pewnych przypadkach, po określeniu obszaru krytycznego dla wartości α wyznaczyć prawdopodobieństwo takiego błędu.
Rozkład normalny.
Określony jest przez swoje parametry: μ i σ; funkcja jest zbieżna do 0 dla -∞; +∞; podlega prawu trzech sigm; symetryczny względem prostej przechodzącej przez μ; funkcja rozkładu posiada jedno maximum lokalne μ0, które pokrywa się z wartością oczekiwaną (EX); każdy rozkład normalny X : N (μ,σ) można sprowadzić do postaci tzw. standaryzowanego rozkładu normalnego, którego funkcja gęstości i dystrybuanta została stablicowana (μ=0 σ=1)⇒ N(0,1); wykresem funkcji gęstości rozkładu normalnego jest krzywa Grensa symetryczna względem prostej o równaniu x=μ z dwoma punktami przegięcia μ-σ i μ+σ
Podać interpretację parametrów współzależności zmiennej losowej.
Kowariancja cos(xy) - moment centralny II rzędu jest równa zeru, jeśli zmienne x, y niezależne - wartość liczbowa jest nieistotna
CXY = EXY - EX - EY
Jeśli jest różna od zera, jest zależność; kiedy jej wartość jest dodatnia to jedna zmienna wpływa na drugą pozytywnie, (jeśli I rośnie to II też); kiedy jest ujemna: jedna wpływa na drugą i jej wzrost powoduje malenie II i na odwrót.
Współczynnik korelacji δxy: przyjmuje wartość z przedziału <-1,1>; jest ujemna, kiedy korelacja δxy=cos(x,y)/DXDY; określa natężenie zależności między dwiema zmiennymi lub jej brak; im bliżej -1 lub 1, tym większe natężenie zależności; kiedy równe 0, to brak zależności.
Jak zmienia się długość przedziału ufności dla prawdopodobieństwa sukcesu, gdy liczebność próby wzrośnie o...?
Kiedy n (liczebność próby) rośnie, to długość przedziału maleje o tyle samo.
Jaki rozkład ma średnia arytmetyczna próby? Czy jej rozkład zależy od rozkładu cechy w populacji?
W pewnej próbie δ=0,5 a stosunki korelacji są równe 0,7 i 0,8 (e=x,y) jak można zinterpretować ich wartość?
δ=0,5 - zależności pozytywne i słabe; exy=0,7 i exy=0,8 zmienna X i Y wpływają na siebie nieznacznie (słabo).
weryfikalne - zerowe
nie weryfikalne - alternatywne
Zmienna losowa
Funkcja, która przyporządkowuje wartości liczbowe zdarzeniom elementarnym, Xi:Pi; X-wartości zmiennej losowej, i-kolejność, P-prawdopodobieństwo wystąpienia. Funkcja rozkładu prawdopodobieństw - przypisanie p kolejnym zmiennym losowym - rozkład zmiennej losowej.
Zmienna losowa skokowa
Cechy jakościowe, zbiór przeliczalny (skończony lub nie)
Zmienna losowa ciągła
Cechy ilościowe, zbiór liczb rzeczywistych
Wartość oczekiwana
Mówi, czego możemy się spodziewać po danym rozkładzie; moment zwykły I - rzędu m1=EX, m1=∑x1p1. Odchylenie standardowe - rzeczywiste odchylenia od wartości oczekiwanej.
Rozkład Bernoulliego
Zmienna losowa ma rozkład dwumianowy, jeśli przyjmuje wartości k = 0,1,2...n z prawdopodobieństwem określonym wzorem. Parametrem tego rozkładu jest n - liczba doświadczeń, p - prawdopodobieństwo sukcesu. Rezultatem doświadczenia może być A - sukces lub A' - porażka. Doświadczenie to powtarzamy wielokrotnie (n) tak, że prawdopodobieństwo sukcesu pozostaje w pojedynczych próbach stałe i równe p. Liczba zaobserwowanych sukcesów to k=0,1,2,...,n EX - np. D2X - np.(1-p)
H0 o niezależności
Dotyczy dwóch cech w jednej próbie, kiedy między zmiennymi jest brak zależności.
Ho o zgodności
Zmienna ma rozkład zgodny z określonym rozkładem teoretycznym. Wtedy Ho: x - rozkład normalny, Bernouliego, Possona. Zmienna ma jednakowy rozkład w dwóch populacjach. Wtedy Ho; Xα ma rozkład jak X. Do weryfikacji używa się testu tylko χ2 I - rozkład empiryczny, II - rozkład teoretyczny (zakładamy, że H0 jest prawdziwe). Test χ2 o niezależności.
Test χ2 o zgodności. Próba z jednej populacji musi być dwuwymiarowa. Przy odrzuceniu hipotezy - dwie zmienne mogą być zależne istotne lub wysokoistotne.
Do czego służą testy statystyczne?
Służą do weryfikacji hipotez, czyli do wnioskowania o postawionej hipotezie statystycznej (H0) na podstawie danych, które prowadzą do jednego z dwóch wniosków:
Wniosek H0 kwestionujemy, czyli odrzucamy
H0 nie odrzucamy a tym samym uznajemy za prawdziwe.
Jakie dwa rodzaje błędów grożą przy weryfikacji hipotezy?
Jeśli H0 odrzucamy, jesteśmy narażeni na błąd I - go rodzaju polegający na odrzuceniu hipotezy prawdziwej wyrażony przez α poziom istotności
Jeśli H0 nie odrzucamy, narażeni jesteśmy na błąd II - go rodzaju, który polega na nie odrzuceniu hipotezy fałszywej
Statystyka - opracowane pytania 4
1