Pojęcie zmiennej losowej, zmienna losowa skokowa i ciągła. Rozkład normalny (definicje)
Zmienna losowa - Zmienna losowa, to funkcja, która zdarzeniom losowym przypisuje liczby. Na przykład, losując z pewnej populacji jednego osobnika przypisujemy mu jego wagę.
Zmienna losowa X to funkcja mierzalna z przestrzeni probabilistycznej Ω do zbioru liczb rzeczywistych. Mierzalność rozumiemy względem σ-ciała zdarzeń w Ω i σ-ciała zbiorów borelowskich w R.
Tradycyjnie, zmienne losowe zapisujemy przy użyciu wielkich liter z końca alfabetu, odmiennie niż zazwyczaj zapisuje się funkcje.
Czasem rozważa się zmienne losowe o wartościach zespolonych.
Podział zmiennych losowych:
a) Zmienna losowa X jest ciągła jeżeli jej dystrybuanta FX ma postać:
dla pewnej funkcji f mierzalnej względem σ-ciała zbiorów mierzalnych względem miary Lebesgue'a na prostej, która przyjmuje wartości niedodatnie na zbiorze miary zero. Całkę rozumiemy tu jako całkę niewłaściwą Lebesgue'a. Funkcję f nazywamy funkcją gęstości rozkładu zmiennej losowej X.
2. Zmienna losowa X jest ciągła, jeżeli jej dystrybuanta FX jest ciągła. Jest to równoważne ze stwierdzeniem, że P(X = a) = 0 dla dowolnej liczby
.
b) Zmienna losowa ma rozkład czysto skokowy (czysto dyskretny) wtedy i tylko wtedy, gdy jej dystrybuanta F(x) spełnia warunek:
Zmienna losowa jest typu skokowego (dyskretnego), gdy istnieje skończony lub przeliczalny zbiór
taki, że
oraz
, gdzie:
- skoki
- punkty skokowe.
Praktycznie - najczęściej wyjdą w wyniku liczby całkowite.
Można to zapisać również w ten sposób:
,
gdzie
- ciąg liczb
Rozkład normalny, zwany też rozkładem Gaussa, jest jednym z najważniejszych rozkładów funkcji. Pełni ważną rolę zarówno w statystyce, jak i naukach przyrodniczych.
Funkcja gęstości, która mówi jak prawdopodobna jest każda wartość zmiennej losowej. Równoważnymi sposobami zdefiniowania rozkładu normalnego są: momenty, kumulanty, funkcja charakterystyczna, funkcja tworząca momenty i funkcja tworząca kumulanty. Wszystkie kumulanty rozkładu normalnego wynoszą 0 oprócz pierwszych dwóch.
Wartość średnia zmiennej lososwej i wariancja zmiennej losowej (definicje)
Kowariancja i współczynnik korelacji.
Kowariancja cov (X,Y) jest to liczba określająca zależność liniową między zmiennymi losowymi X i Y. Jeżeli zmienne losowe X i Y są niezależne i istnieją ich wartości oczekiwane, to cov(X,Y) = 0.
Kowariancja- suma iloczynów odchyleń od średniej.
Wielkość liczbowa przyporządkowana dwóm zmiennym losowym X i Y według wzoru: cov(X,Y) = E(X − EX)(Y − EY). Wygodniejszym, równoważnym wzorem jest: cov(X,Y) = EXY − EXEY gdzie: E jest wartością oczekiwaną. Kowariancja charakteryzuje zależność liniową między zmiennymi losowymi: jeżeli cov(X,Y) = 0, to X i Y nazywamy zmiennymi losowymi nieskorelowanymi.
Współczynnik korelacji jest miernikiem siły zależności między badanymi zmiennymi. Przyjmuje wartości < -1; 1 >.
Współczynnik korelacji jest liczbą niemianowaną, należy do przedziału < -1; 1 >.
Im korelacja jest silniejsza (bliższe jedynki), tym linie regresji są położone bliżej siebie. r=1 r=-1
Interpretujemy dwa elementy współczynnika korelacji:
1. znak współczynnika korelacji;
2. wartość współczynnika korelacji;
Jeżeli chodzi o znak to:
• jeżeli współczynnik korelacji > 0, to większym wartościom jednej cechy odpowiadają większe wartości drugiej
cechy; jest to zależność dodatnia (rosnąca, stymulująca);
• jeżeli współczynnik korelacji < 0, to większym wartościom jednej cechy odpowiadają mniejsze wartości drugiej
cechy; jest to zależność ujemna (malejąca, limitująca);
• jeżeli współczynnik korelacji = 0, to bez względu na wartość przyjmowane przez jedna z cech, średnia wartość
drugiej cechy jest taka sama; są to cechy nieskolerowane
Jeżeli g= +1 , to istnieją takie liczby a i b, że Y = aX + b - zależność między cechami jest ściśle liniowa.
Jeżeli g= 1, to a > 0, oraz jeżeli g = -1 to a <0.
W związku z tym współczynnik korelacji traktowany jest jako miernik liniowej zależności między cechami X oraz Y.
Wartość współczynnika korelacji interpretowana jest ; że im |g| jest bliższe 1, tym bardziej liniowa jest zależność
między cechami.
Pojecie estymatora. Co to jest estymator nieobciążony, obciążony, asymptatycznie obciążony i asymptatycznie nieobciążony.
Estymator jest narzędziem wnioskowania statystycznego. Estymator jest to funkcja wyników z próby, czyli statystyka
służąca do oszacowania nieznanej wartości parametru populacji. Wartość estymatora z konkretnej próby jest liczbą
zwaną oceną parametru. Estymatorem może być zatem każda wielkość otrzymana dla wyników próby, czyli: średnia arytmetyczna, dominanta, kolejne kwartyle, rozstęp, odchylenie standardowe i wiele innych. Estymator jako funkcja wyników próby losowej, będących zmiennymi losowymi, jest zmienną losową. Rozkład prawdopodobieństwa
estymatora zależy od rozkładu populacji i od sposobu losowania próby (schemat losowania). Szczególnie ważne są dwa parametry rozkładu: a)wartość oczekiwana (momenty), b)wariancja.
Jest wiele metod znajdowania estymatora.
Najczęściej stosowane to: a)metoda momentów, b)metoda największej wiarygodności, c)metoda kwadratów.
Estymator jest nieobciążony, jeśli wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru:
Mówimy, że estymator Tn parametru O jest nieobciążony gdy spełniona jest relacja: E(Tn)=O
Estymator jest obciążonym, jeśli różnica pomiędzy wartością oczekiwaną rozkładu estymatora a wartością szacowanego parametru jest zależna funkcyjnie od estymatora:
Estymator Tn jest obciążony, a parametr E(Tn)-O=b(Tn) nazywamy obciążeniem estymatora
Estymator nazywamy asymptotycznie nieobciążonym, jeśli obciążenie estymatora dąży do zera przy rosnącej liczebności próby:
Każdy estymator nieobciążony jest oczywiście estymatorem asymptotycznie nieobciążonym.
Asymptotyczny nieobciążony tzn. Lim(n->8) b(Tn)=0. Zgodny spełnia relacje Lim(n->8) P{ |Tn-O|<}=1, dla dowolnego >0.
Metoda momentu uzyskiwania estymatorów.
Pojęcie przedziału ufności. Przedział ufności dla średniej normalnej gdy sigma δ jest znana. Przedział ufności dla średniej normalnej gdy sigma δ jest nieznana. Przedział ufności dla wariancji.
PRZEDZIAŁ UFNOŚCI - jest przedziałem o końcach zależnych od próby, który z pewnym z góry zadanym
prawdopodobieństwem pokrywa nieznaną wartość parametru Õ
Przedział ufności dla wariancji
Poniższy wzór pozwala wyznaczyć przedział ufności dla wariancji w populacji o rozkładzie normalnym N(m, σ)
gdzie:
n to liczebność próby losowej
s to odchylenie standardowe z próby
i
to statystyki spełniające odpowiednio równości:
gdzie χ2 ma rozkład chi-kwadrat z n - 1 stopniami swobody
Na długość przedziału ufności wpływa:
1. liczebność próby - gdy zwiększymy ilość obserwacji (rośnie n), to zwiększa się precyzja oceny, co wyraża się
skróceniem przedziału. Prowadzący może mieć wpływ na długość przedziału ufności, ponieważ to on decyduje o
ilości obserwacji.
2. poziom ufności - aby zwiększyć precyzję oszacowania należy zmniejszyć poziom ufności bowiem nastąpi
skrócenie długości przedziału. Aby zwiększyć dokładność należy zwiększyć współczynnik ufności co spowoduje
rozszerzenie przedziału.
3. wariancja cechy - im większa tym większy przedział
Pojęcie hipotezy statystycznej. Pojecie statystyki testowej. Pojecie zbioru krytycznego. Błąd I-go rodzaju, błąd II-go rodzaju.
Hipotezą statystyczną nazywamy dowolne przypuszczenie dotyczące rozkładu prawdopodobieństwa cechy. Hipotezy statystyczne są formalnym zapisem przypuszczeń merytorycznych sformułowanych w trakcie rozwiązywania problemów naukowych i praktycznych. Testowaną hipotezę statystyczną oznacza się symbolem H0 i nazywa się hipotezą zerową. Obserwujemy cechę X w pewnej populacji. Hipoteza - to przypuszczenie dotyczące rozkładu prawdopodobieństwa tej cechy. Prawdziwość tego przypuszczenia jest oceniana na podstawie wyników próby losowej.
Jest to każdy sąd (przypuszczenie) dotyczące populacji wydany bez przeprowadzenia badania wyczerpującego.
Podział hipotez statystycznych
Hipotezy statystyczne można podzielić na:
parametryczne - hipoteza dotyczy wartości parametru rozkładu
nieparametryczne - hipoteza dotyczy postaci funkcyjnej rozkładu
Według innego kryterium podział przebiega następująco:
proste - hipoteza jednoznacznie określa rozkład danej populacji, czyli odpowiadający jej podzbiór zbioru Ω zawiera jeden element (rozkład)
złożone - hipoteza określa całą grupę rozkładów, zaś odpowiadający jej podzbiór zbioru Ω zawiera więcej niż jeden element
Błąd pierwszego rodzaju - w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych - błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa. Błąd pierwszego rodzaju znany też jest jako: błąd pierwszego typu, błąd przyjęcia lub alfa-błąd.
Oszacowanie prawdopodobieństwo popełnienia błędu pierwszego rodzaju oznaczamy symbolem α (mała grecka litera alfa) i nazywamy poziomem istotności testu.
Błędem I rodzaju - błąd we wnioskowaniu polegający na odrzuceniu hipotezy, gdy w rzeczywistości jest ona
prawdziwa.
Błąd drugiego rodzaju (błąd drugiego typu, błąd przyjęcia, beta-błąd) - w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych - polegające na nieodrzuceniu hipotezy zerowej, która jest w rzeczywistości fałszywa.
Oszacowanie prawdopodobieństwo popełnienia błędu drugiego rodzaju oznaczamy symbolem β (mała grecka litera beta) i nazywane jest mocą testu.
Błędem II rodzaju - błąd we wnioskowaniu polegający na nie odrzuceniu hipotezy, gdy w rzeczywistości jest ona
fałszywa
Weryfikacja hipotezy dotycząca wartości średniej, testy istotności dla wariancji.
Weryfikacją hipotez nazywamy sprawdzanie sądów o populacji, sformułowanych bez zbadania jej całości.
3