Czwarta prezentacja
Funkcje rozkładu prawdopodobieństwa cech nieciągłych
Rozkład zero-jedynkowy - jest rezultatem takiego doświadczenia, w wyniku którego określone zdarzenie A wystąpi lub nie wystąpi:
P(A) = p to P(Ā) = 1-p = q
Dla doświadczeń, gdzie sukces jest tylko jeden:
Średnia (wartość oczekiwana)
Wariancja ၳ2 = pq = p(1-p)
Odchylenie standardowe
Dla doświadczeń, gdzie sukcesów jest więcej niż jeden:
Średnia (wartość oczekiwana)
xi- kolejna wartość zmiennej losowej
Wariancja ၳ2 = ၓ (xi - E(X))2pi
Rozkład Pascala (ujemny rozkład dwumianowy)
Jeśli r-liczba sukcesów, k-liczba porażek, p-prawdopodobieństwo sukcesu w badanych próbach to: opisuje, jakie jest prawdopodobieństwo, że w k + r próbach wystąpi r sukcesów.
Rozkład geometryczny jest dyskretnym rozkładem prawdopodobieństwa opisującym prawdopodobieństwo zdarzenia, że proces Bernoulliego odniesie pierwszy sukces dokładnie w k-tej próbie. k musi być liczbą naturalną dodatnią.
P(X=1)=
Rozkład geometryczny to szczególny przypadek ujemnego rozkładu dwumianowego dla r = 1.
Średnia (wartość oczekiwana)
Wariancja
Rozkład Poissona
x- oczekiwna wartość zmiennej losowej
(średnia liczba zajścia zdarzenia r w populacji)
n-liczba prób
p-prawdopodobieństwo sukcesu
e-podstawa logarytmu naturalnego 2,718
Średnia (wartość oczekiwana)= wariancja X= ၳ2=np
Rozkład hipergeometryczny
Zmienna losowa o tym rozkładzie określa liczbę elementów jednego typu występujących w n-elementowej próbie wylosowanej z urny zawierającej m elementów tego typu wśród N wszystkich elementów.
P(x) =
k - liczba sukcesów
m - liczba elementów danego typu
n - liczba prób
N - liczba wszystkich elementów
Średnia (wartość oczekiwana)
Wariancja
5 Prezentacja
Ogólnie zmienne zaliczamy do jednej z dwóch kategorii:
1. zmienne zależne mogą być jedynie mierzone lub rejestrowane przez badacza, nie ma on wpływu na to jakie wartości przyjmują.
2. zmienne niezależne,takie zmienne, których wartości możemy dobierać i zmieniać w doświadczeniu (są to zmienne manipulowane przez badacza).
Rozkład empiryczny a teoretyczny
Rozkład otrzymany na podstawie badania populacji lub jej części nazywamy rozkładem empirycznym.
Oczywiście istnieją też rozkłady teoretyczne - przykłady to rozkłady normalne, dwumianowy czy Poissona.
Rozkłady teoretyczne są dobrze przebadane i w pewnym sensie wiemy o nich wszystko, a w każdym razie wszystko, co nas interesuje.
Zmienna losowa jest to funkcja przyporządkowująca wartości liczbowe wynikom doświadczenia.
- skokowa (dyskretna),
- ciągła.
Zmienna losowa skokowa (dyskretna) - jest to zmienna przyjmująca skończoną lub co najwyżej przeliczalną liczbę wartości. Zmienna taką jest na przykład rzut monetą, rzut kostką.
Zmienna losowa ciągła to zmienna, której zbiór możliwych do realizacji jest nieskończony i nieprzeliczalny. Zmienną taką jest na przykład wzrost, waga, wiek.
Do funkcji opisujących rozkład zmiennej losowej należą:
funkcja rozkładu prawdopodobieństwa,
dystrybuanta dla zmiennej losowej,
funkcja gęstości.
Dystrybuanta zmiennej losowej X nazywamy funkcje F(x)=P(X<x)
Tak zdefiniowana dystrybuanta ma następujące własności:
0≤F(x)≤1
F(x) jest funkcją niemalejącą
F(x) jest funkcją przynajmniej lewostronnie ciągłą
Rozkład zmiennej losowej można scharakteryzować za pomocą parametrów rozkładu:
moment zwykły rzędu k zmiennej losowej,
moment zwykły rzędu pierwszego (wartość oczekiwana),
moment centralny rzędu k zmiennej losowej,
moment centralny rzędu pierwszego i drugiego (wariancja),
współczynnik asymetrii,
współczynnik skupienia,
mediana zmiennej losowej X to wartość Me spełniająca nierówność P(X≤Me)≥0,5 i P(X ≥Me) ≥0,5
kwantyl rzędu p zmiennej losowej X to wartość Kp spełniajaca nierówność P(X≤ Kp)≥p i P(X ≥ Kp) ≥1-p, 0<p<1
Ćwiczenia 6
Reguła trzech sigm (odchyleń standardowych):
Na jej podstawie można stwierdzić, że:
Około 68,3 % obserwacji mieści się w granicach jednego odchylenia stand (wokół średniej)
Około 95,5 % obserwacji mieści się w granicach dwóch odchyleń standardowych
Około 99,7 % obserwacji mieści się w granicach trzech odchyleń standardowych
Przedział ufności
Pozwalają nam na oszacowanie wartości prawdziwych parametrów, opisujących zbiór, gdy tylko z pomiarów znamy ich wartości dla próbki oraz ich średnie błędy.
Najczęściej przyjmuje się pewną formę zapisu wartości wyliczonej dla próbki i jej średniego błędu np. = 25 ± 2.
Obok prawdopodobieństwa, że nie popełniamy błędu, czyli twz. współczynnika ufności.
Im większy jest błąd stand. Szacowanego parametru tym mniejszy współczynnik ufności.
Poziom istotności wskazuje, na jaki mały błąd „wyrażamy” zgodę np. poziom 0,01 świadczy, że jesteśmy skłonni popełnić jeden błąd na 100 badań.
Ma on zastosowanie w tych przypadkach, gdy rozkład zmiennej nie jest normalny (a jest np. prawoskośny), natomiast wartość logarytmu zmiennej losowej ma rozkład normalny.
ĆWICZENIA 7
Ćwiczenia 8 i reszta
Rozkład Gamma - to ciągły rozkład prawdopodobieństwa, którego gęstość jest uogólnieniem rozkładu Erlanga na dziedzinę dodatnich liczb rzeczywistych. Zdefiniowany jest przez funkcję Gamma.
၇(x+1) = x ၇(x)
Rozkład ၣ2
Jest szczególnym przypadkiem rozkładu Gamma.
Funkcja gęstości prawdopodobieństwa wyraża się wzorem:
Przebieg rozkładu zależny jest od liczby przypadków n, określanych mianem liczby stopni swobody.
Rozkład Studenta (rozkład t)
Rozkład Studenta jest funkcją zależną od wyników pomiarów Xi, a niezależną od ၳ2.
Rozkład Studenta z n liczbą stopni swobody jest rozkładem zmiennej
losowej t postaci:
Z - zmienna losowa zestandaryzowana, czyli mająca standardowy rozkład normalny ၭ=0, ၳ2=1
U - zmienna losowa o rozkładzie ၣ2 o n stopniach swobody
Zastosowanie rozkładów prawdopodobieństwa Studenta i ၣ2
Umożliwiają generalizowanie wielu istniejących w przyrodzie rozkładów cech, wyliczanie prawdopodobieństwa wystąpienia danej cechy oraz odchylenia od oczekiwanego wzorca.
Pozwalają na standaryzowanie istniejących realnie w przyrodzie rozkładów.
Hipotez zerowa |
Decyzje |
|
|
Przyjąć H0 |
Odrzucić H0 |
Hipoteza zerowa prawdziwa |
decyzja prawidłowa |
błąd I rodzaju |
Hipoteza zerowa fałszywa |
błąd II rodzaju |
decyzja prawidłowa |
Poziom istotności - to prawdopodobieństwo popełnienia błędu I rodzaju (odrzucenia prawdziwej H0). Oznaczany jest jako ၡ , a najczęściej przyjmowane wartości to 0,05 oraz 0,01 i 0,001
Moc testu - to prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona prawdziwa. Równe jest 1-ၢ. Przy niezmienionym poziomie istotności możemy zwiększyć moc testu odpowiednio zwiększając liczebność próby.
p
=
x
__
SD
=
pq
=
x
__
σ2 =
_
X=
σ2=
√χ2/n
Do porównania obserwacji i oczekiwań
Do porównania dwóch rozkładów
ANOVA
Do porównania wielu średnich
Chi2-test
Kolmogorov - Smirnov-test
Chi2-test
F-test
Do porównania
dwóch wariancji
t-test
Do porównania dwóch średnich
Testy nieparametryczne
Testy parametryczne
rozkład normalny pomiarów
rozkład normalny różnic m. parami pomiarów
Jaki rodzaj testu zastosować?
4. Odnalezienie przy danym poziomie istotności obszarów krytycznych i w oparciu o nie podjęcie decyzji o odrzuceniu lub nie hipotezy zerowej
3. Przyjęcie odpowiedniego poziomu istotności:
p ≤ 0.05
2. Wybór odpowiedniego do postawionej hipotezy zerowej testu i obliczenie jego wartości w oparciu o dane pochodzące z próby
1. Formułowanie hipotezy zerowej H0 oraz odpowiadającej jej hipotezy alternatywnej H1 :
H0 : nie ma różnicy
H1 : istnieje różnica
Etapy procesu weryfikacji hipotez statystycznych
σ12 + σ22 - wariancje
μ1, μ2 - średnie populacji
√σ12 + σ22
μ1 - μ2
t = √n
Testy t - Studenta
zmienna ma rozkład t-Studenta o liczbie stopni swobody n-1
sd - odchylenie standardowe różnic
d - średnia różnica,
t =
1. Dla zmiennych powiązanych:
Porównywanie różnic między średnimi
liczba stopni swobody n1 + n2 - 2
σ2 - wariancja
Test Fishera - Snedecora
σ22
σ12
F =
Testowanie hipotezy o braku różnic między wariancjami
k - liczba obserwacji, k-1 liczna stopni swobody, N - wielkość próby
k
1
frekwencja oczekiwana
χ2 = N ∑
(frekwencja oczekiwana - frekwencja obserwowana)2
k
1
wartość oczekiwana
χ2 = ∑
(wartość oczekiwana - wartość obserwowana)2
Test χ2
Porównywanie rozkładów cech
N - liczba przypadków
SS - suma kwadratów odchyleń od średniej
N - k
SS wewnątrz grup
=
σ2 wewnątrz grup
k - liczba grup
σ2 - wariancja
k - 1
SS między grupami
=
σ2 między grupami
σ2 wewnątrz grup
σ2 między grupami
F =
1. Klasyfikacja pojedyncza
Analiza wariancji (ANOVA)
Z
=
√n
√U
Z
t =
e-x/2 x(n-2)/2
2n/2 Γ(n/2)
1
f(x) =
Ograniczenia testów nieparametrycznych:
trudniej jest odrzucić hipotezę zerową, łatwiej popełnić błąd II rodzaju
do odrzucenia hipotezy zerowej potrzeba jest zwykle próby o większej liczebności
Ograniczenia testów parametrycznych:
rozkład normalny pomiarów
rozkład normalny różnic między parami pomiarów
Symulacja Monte Carlo
Do analizy struktury
Test Wilkoxona dla par wiązanych
U-test
test Kruskala- Wallisa
Test znaków
Test Monte Carlo
Do porównania obserwacji i oczekiwań
Do porównania dwóch średnich
Testy nieparametryczne
W teście tym różnicom przypisujemy rangi. Osobno sumujemy rangi dodatnie i ujemne. Mniejsza z otrzymanych sum to wartość testu Wilcoxona (T), która porównana z odpowiednią wartością teoretyczną w tablicach decyduje o odrzuceniu hipotezy zerowej.
Test Wilcoxona dla par wiązanych
Do porównań z tablicami bierzemy mniejszą wartość U.
n1, n2 - liczebność prób, R1, R2 -suma rang prób 1 i 2.
- R2
2
n2 (n2 + 1)
n1 n2 +
U2 =
- R1
2
n1 (n1 + 1)
n1 n2 +
U1 =
U - test
Statystyka ma rozkład χ2 o liczbie stopni swobody k-1
k
i = 1
- 3(N+1)
ni
Ri2
Σ
N (N + 1)
12
KW =
N - liczba obserwacji, Ri - suma rang w każdej grupie, k - liczba grup, ni - liczba obserwacji w grupie,
Test Kruskala-Wallisa