pracowanie do zagadnień z RPiS
Definicja prawdopodobieństwa
Jeśli zdarzenie E rozkłada się na n wykluczających się wzajemnie i jednakowo możliwych zdarzeń elementarnych, spośród których m sprzyja zajściu interesującego nas zdarzenia A, to prawdopodobieństwem zdarzenia A nazywa się ułamek, w którego liczniku znajduje się liczba zdarzeń sprzyjających zajściu zdarzeniu A, a w mianowniku liczba wszystkich możliwych zdarzeń.
.
Prawdopodobieństwo można rozpatrywać jako funkcję, którą nazywamy rozkładem prawdopodobieństwa na S (s - rodzina zdarzeń elementarnych). Spełnia ona następujący układ aksjomatów :
, gdzie Ω to zdarzenie pewne
dla każdego ciągu zdarzeń
zachodzi
Własności dystrybuanty
Dystrybuantą zmiennej losowej X nazywamy funkcję
. Każda dystrybuanta pozwala jednoznacznie określić rozkład prawdopodobieństwa i odwrotnie.
Własności dystrybuanty:
F jest niemalejąca
F jest lewostronnie ciągła
Sprawdzić , czy funkcja
może być dystrybuantą rozkładu prawdopodobieństwa
Ad.1) niemalejąca
Ad.2)
Ad.3) F(x) =
a>b => F(b)-F(a)=
-
=
P(<a,b))=F(b)-F(a)
A=<a,b) F <- dystrybuanta
Udowodnić, że jeśli P jest rozkładem prawdopodobieństwa na R1 to funkcja określona wzorem
ma własności:
1. F jest niemalejąca
2.
3. F jest lewostronnie ciągła
Ad.1) Niech x1<x2 będą dowolnymi punktami a
,
dowolnymi zdarzeniami
więc jest niemalejąca
Ad.2)
{xn} dowolny ciąg rosnący
Ad.3)
(xn} - ciąg rosnący
, a więc jest lewostronnie ciągła
Definicja prawdopodobieństwa warunkowego
Jeżeli
to.
.
Dowód:
Niech A1,A2,... będą zdarzeniami wykluczającymi się.
=
Udowodnić, że P(Ø)=0
Prawdop. zdarzenia niemożliwego wynosi 0.
Dowód : Skoro :
to :
C.N.D.
Udowodnić, że P(A)= 1- P(A)
Prawdop. zdarzenia przeciwnego wyraż się:
:
Udowodnić, że dla dowolnych dwóch zdarzeń
A i B - dowol. Zdarz
Dowód:
,
i
oraz
i
- wzajemnie się wykluczają
Udowodnić, że jeśli
, to
Dowód :
a skoro z założenia
to
(stąd dla dowolnego A,
)
Sformułować i udowodnić twierdzenie o prawdopodobieństwie zupełnym
Jeżeli zdarzenia Ai (i=1,2,3,...zb. przeliczalny) tworzą układ zupełny zdarzeń oraz
dla każdego i to dla każdego zdarzenia Bj zachodzi równość :
Dowód:
oraz
0 <- układ zupełny
A więc
,
a skoro
to
C.N.D.
Sformułować i udowodnić twierdzenie Bayesa
Jeżeli zdarzenia Ai (i=1,2,3,...) tworzą układ zupełny zdarzeń oraz
i B jest dowolnym zdarzeniem, takim że
to dla każdego zdarzenia Aj zachodzi równość
- ukł. zupełny
Dowód: Skoro
i
to
Definicja zmiennej losowej
Zmienna losowa x, y, z- jest to funkcja rzeczywista X (
) określona na przestrzeni
zdarzeń elementarnych mająca następującą własność: dla każdej liczby rzeczywistej
zbiór zdarzeń elementarnych w, dla których
jest zdarzeniem, czyli jest elementem rodziny S
Mówimy ,że mamy do czynienia ze zm. los. typu SKOKOWEGO jeżeli jej zb. wartości jest co najwyżej przeliczalny, natomiast mamy do czynienia ze zm. los. typu CIĄGŁEGO jeżeli jej zb. wartości jest zb. nie przeliczalnym.
Udowodnić, że
Dowód:
Niech :
Skoro
to
,
a więc
Rozkład Bernoulliego (dwumianowy)
Zmienna losowa ma rozkład Bernoulliego jeśli liczba sukcesów k w n próbach tego doświadczenia
, przy spełnionych warunkach
.
W rozkładzie Bernoulliego wcześniejsze doświadczeni nie mają wpływu na następne.
Wartość oczekiwana
Wariancja
Rozkład Poissona (zm. los. (typu skokowego))
Zmienna losowa ma rozkład Poissona jeśli zmienna X przyjmuje wartości k=0,1,2,3,... i ich prawdopodobieństwo wynosi
, gdzie
.
Wartość oczekiwana
Wariancja
Rozkład normalny
Zmienna losowa o wartości oczekiwanej
i wariancji
ma rozkład normalny jeżeli jej funkcja gęstości wyraża się wzorem
Dystrybuanta
Zmienne losowe niezależne X, Y.
Rozkład jednostajny
Zmienna losowa typu ciągłego ma rozkład jednostajny na przedziale <a,b> jeżeli jej funkcja gęstości wyraża się wzorem
Dystrybuanta
Wartość oczekiwana -> m=
Wariancja ->
Rozkład wykładniczy
Zmienna losowa ma rozkład wykładniczy jeśli jej funkcja gęstości wyraża się wzorem :
. gdzie
Dystrybuanta
Wartość oczekiwana ->
Wariancja ->
Napisać funkcję gęstości zmiennej losowej o rozkładzie normalnym z wartością oczekiwaną 5 i odchyleniem standardowym 7
Parametry zmiennych losowych ( średnia, wariancja, odchylenie standardowe, mediana
i wartość modalna)
ŚREDNIA(wartość oczekiwana) E(x)=m
informuje wokół jakiego punktu najczęściej skupiają się wartości zm. losowej
dla zm. losowej typu:
-skokowego
-ciągłego
Wariancja - miara rozproszenia
Odchylenie standardowe -
, pierwiastek z wariancji ,
różnica między wartościami zm. losowej , a wartością oczekiwaną
Mediana
-zm. los. typu skokowego
- zm. los. typu ciągłego
Moda (wartość modalna, dominanta) - wartość zmiennej losowej, której prawdopodobieństwo wystąpienia jest największe (f. gęstości osiąga max)
-zm. skokowa
-zm. ciągła
Udowodnić, że jeśli zmienna losowa X ma wartość oczekiwaną m i odchylenie standardowe σ, to zmienna losowa
ma wartość oczekiwaną 0 i odchylenie standardowe 1
, (gdzie X- zm. los.
Twierdzenie Poissona
Niech zmienna losowa Xn ma rozkład Bernoulliego określony wzorem:
k=0,1,…,n. Jeśli prawdopodobieństwo
maleje do 0 w ten sposób, że od pewnego n0 dla każdego
jest spełniony warunek
, gdzie
jest wielkością stałą, to
. (
- prawdopodobieństwo sukcesu dla określonej zmiennej losowej Xn)
Innymi słowy jeśli wykonujemy dużą liczbę doświadczeń zgodnych ze schematem Bernoulliego, a prawdopodobieństwo sukcesu jest bliskie 0, to zamiast liczyć z rozkładu Bernoulliego liczymy z rozkładu Poissona.
Zmienne losowe typu skokowego. Rozkład zmiennej losowej typu skokowego.
Nie wiem dokładnie czy o to chodzi pytanie bardzo ogólnikowe :P
Zmienne losowe typu skokowego , np.: rzut kostką, zbiór wartości jest przeliczalny. Oznaczenie prawdopodobieństwa to określenie prawdopodobieństw dla każdego ze zdarzeń.
Zmienne losowe typu ciągłego. Rozkład zmiennej losowej typu ciągłego.
Zmienne losowe typu ciągłego ,(zbiorem wartości jest zbiór liczb rzeczywistych). Są one charakteryzowane przez funkcję gęstości .
Rozkładami zmiennych losowych typu ciągłego są: jednostajny, normalny,wykładniczy.
Słabe prawo wielkich liczb
Niech {Xn} będzie ciągiem zmiennych losowych, takim, że dla każdej zmiennej losowej
istnieje wartość oczekiwana
. Jeśli
to mówimy, iż dla ciągu losowego {Xn} zachodzi słabe prawo wielkich liczb.
Mocne prawo wielkich liczb
Niech {Xn} będzie ciągiem losowym takim ,że dla każdej zm. los.
istnieje wartość oczekiwana
,jeśli
,to mówimy, iż dla ciągu losowego {Xn} zachodzi mocne prawo wielkich liczb.
Słabe prawo wielkich liczb Markowa
Jeśli ciąg losowy {Xn}jest taki, że
, to dla ciągu losowego {Xn} zachodzi słabe prawo wielkich liczb.
Mocne prawo wielkich liczb Kołmogorowa
Jeżeli {Xn} jest ciągiem zmiennych losowych niezależnych o wariancjach
i spełniony jest warunek
( szereg jest zbieżny ) to dla ciągu losowego {Xn} zachodzi mocne prawo wielkich liczb.
Twierdzenie Lindberga-Levy'ego
Jeżeli {Xn} jest ciągiem niezależnych zmiennych losowych o jednakowych rozkładach mających wartość średnia m i wariancję
to ciąg losowy {Un} gdzie
jest zbieżny według dystrybuanty do zmiennej losowej o rozkładzie normalnym N(0,1), czyli dla każdego U zachodzi relacja :
Statystyka
30. Określenie populacji i próby
Populacja (generalna) to zbiór jednorodnych obiektów różniących się od siebie jedynie wartościami badanej cechy.
Próbą jest część populacji spełniająca następujące warunki: musi być reprezentatywna i losowa .
Struktura próby musi być taka jak struktura badanej populacji.
Modelem matematycznym próby jest ciąg zmiennych losowych
populacja
próba
n- l. obserwacji (duża)
Zasady budowy szeregów rozdzielczych
przedz. klasowe |
liczebność |
częstość |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
prawdop. uzyskania przedziału
Zasady:
przedziały powinny być liczbami “okrągłymi” (prawostronnie otwarte)
o liczbie i długości przedziałów klasowych decyduje specjalista zajmujący się daną dziedziną
R - rozstęp R=xmax-xmin
- orientacja l. przedz.
k - ilość przedziałów
h - długość przedziałów
Definicja i własności estymatorów punktowych
Estymatorem parametru Q nazywamy funkcję
, która ma tę własność, że prawdopodobieństwo zdarzenia
jest tym bliższe jedności, im większa jest liczebność próbki.
Estymacja - proces szacowania danych (na podstawie obserwacji)
Estymator - otrzymane oszacowanie
Estymacja punktowa, własności estymatorów ( niech estymator
oznacza estymator parametru Q):
nieobciążany
zgodny
oznacza to, że gdy liczebność próby rośnie, prawdopodobieństwo, że wartość estymatora
różni się od wartości parametru Q, zbliża się do 1
najefektywniejszy ,czyli posiadał najmniejszą wariancję . Oznacza to, że jego wartości są bardziej skupione wokół jego wartości średniej niż innych estymatorów
Wyprowadzić wzór na estymator wartości oczekiwanej
ESTYMATOR WARTOŚCI OCZEKIWANEJ
- środek przedziału klasowego ,
- liczebność przedziału
Udowodnić, że średnia arytmetyczna jest nie obciążonym estymatorem wartości oczekiwanej
Średnia arytmetyczna jest estymatorem:
zgodnym, na podstawie twierdzenia Chinczyna
nie obciążonym
najefektywniejszym (zakładamy, że rozkład cechy w populacji ma rozkład normalny)
Wyprowadzić wzór na przedział ufności dla wartości oczekiwanej na podstawie próby z populacji o rozkładzie normalnym ze znanym odchyleniem standardowym
odchylenie standardowe
stąd wynika:
co daje:
Omówić zasady testowania hipotez statystycznych
Weryfikacją hipotez nazywamy sprawdzanie sądów o populacji, sformułowanych bez zbadania jej całości. Przebieg procedury weryfikacyjnej wygląda następująco:
a) Sformułowanie hipotezy zerowej i alternatywnej
Hipoteza zerowa (H0) - Jest to hipoteza poddana procedurze weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero. Przykładowo wnioskując o parametrach hipotezę zerową zapiszemy jako: H0: θ1 = θ2 .
Hipoteza alternatywna (H1) - hipoteza przeciwstawna do weryfikowanej. Możemy ją zapisać na trzy sposoby w zależności od sformułowania badanego problemu:
H1: θ1 ≠ θ2
H1: θ1 > θ2
H1: θ1 < θ2
b) Wybór statystyki testowej
Budujemy pewną statystykę W, która jest funkcją wyników z próby losowej W = f(x1, x2, ..., xn) i wyznaczamy jej rozkład przy założeniu, że hipoteza zerowa jest prawdziwa. Funkcję W nazywa się statystyką testową lub funkcją testową.
c) Określenie poziomu istotności α
Na tym etapie procedury weryfikacyjnej przyjmujemy prawdopodobieństwo popełnienia błędu I rodzaju, który polega na odrzuceniu hipotezy zerowej wtedy, gdy jest ona prawdziwa. Prawdopodobieństwo to jest oznaczane symbolem α i nazywane poziomem istotności. Na ogół przyjmujemy prawdopodobieństwo bliskie zeru, ponieważ chcemy aby ryzyko popełnienia błędu było jak najmniejsze. Najczęściej zakładamy, że poziom istotności α≤ 0.1 (np. α=0.01 ; α=0.05 ; α=0.1)
d) Wyznaczenie obszaru krytycznego testu
Obszar krytyczny - obszar znajdujący się zawsze na krańcach rozkładu. Jeżeli obliczona przez nas wartość statystyki testowej znajdzie się w tym obszarze to weryfikowaną przez nas hipotezę H0 odrzucamy. Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności α, natomiast jego położenie określane jest przez hipotezę alternatywną.
Obszar krytyczny od pozostałej części rozkładu statystyki odzielony jest przez tzw. wartości krytyczne testu (wα), czyli wartości odczytane z rozkładu statystyki przy danym α, tak aby spełniona była relacja zależna od sposobu sformułowania H1:
P{|w|≥wα} = α gdy H1: θ1 ≠ θ2 (obszar dwustronny)
P{w ≥wα} = α gdy H1: θ1 > θ2 (obszar prawostronny)
P{w ≤wα} = α gdy H1: θ1 < θ2 (obszar lewostronny)
e) Obliczenie statystyki na podstawie próby
Wyniki próby opracowujemy w odpowiedni sposób, zgodnie z procedurą wybranego testu i są one podstawą do obliczenia statystyki testowej. Większość statystyk testowych, mających dokładny rozkład normalny, t-Studenta lub graniczny rozkład normalny, obliczamy w następujący sposób:
gdzie:
W - Statystyka testowa
a - Statystyka obliczona z próby
b - Hipotetyczna wartość parametru(ów)
c - Odchylenie standardowe rozkładu statystyki
f) Podjęcie decyzji
Wyznaczoną na podstawie próby wartość statystyki porównujemy z wartością krytyczną testu.
Jeżeli wartość ta znajdzie się w obszarze krytycznym to hipotezę zerową należy odrzucić jako nieprawdziwą. Stąd wniosek, że prawdziwa jest hipoteza alternatywna.
Jeżeli natomiast wartość ta znajdzie się poza obszarem krytycznym, oznacza to, że brak jest podstaw do odrzucenia hipotezy zerowej. Stąd wniosek, że hipoteza zerowa może, ale nie musi, być prawdziwa.
Reguły postępowania przy weryfikacji hipotez są określane mianem testów statystycznych.
Podać przykład testu statystycznego dla wartości średniej
Przypuśćmy, że mamy dokonać oceny jakości partii zapałek, liczącej 10000 pudełek. Producent twierdzi, iż w każdym pudełku są 54 zapałki.
Zakładamy, że sprawdzono 100 pudełek i średnia ilość w nich wyniosła 51,21 , a odchylenie standardowe w próbce równa się 2,45. Niech współczynnik istotności na poziomie którego weryfikujemy hipotezę H0 (m=54) wynosi 0,002. Wstawiając do wzoru otrzymujemy :
i w tablicach rozkładu normalnego odczytujemy t~3
Hipotezę odrzucamy, gdy
, a więc
,
czyli hipotezę odrzucamy.
Omówić test zgodności
Test zgodności służy do sprawdzenia hipotezy statystycznej dotyczącej postaci funkcji gęstości lub dystrybuanty rozkładu populacji generalnej. Hipotezy te możemy podzielić na dwie grupy:
hipotetyczny rozkład populacji generalnej jest przez hipotezę całkowicie określony
parametry hipotetycznego rozkładu należy oszacować z próby
Zakładamy, że populacja ma rozkład o nieznanej dystrybuancie F(x). Z populacji tej wylosowano dużą n-elementową próbę. Wyniki próby są przedstawione w postaci szeregu rozdzielczego o k przedziałach klasowych.
Formułujemy hipotezy: H0 : F(X) = F0(X)
H1 : F(X) <> F0(X) , gdzie F(X) oznacza dystrybuantę pewnego rozkładu hipotetycznego. Parametry tego rozkładu nie muszą być znane , w razie konieczności ich miejsce wstawiamy ich oszacowania z próby. Możemy podać następujący algorytm postępowania:
Z rozkładu hipotetycznego, sformułowanego w hipotezie zerowej H0, wystarczy dla każdego przedziału klasowego prawdopodobieństwo teoretycznego przyjmowania wartości z tego przedziału przez badaną cechę
pi=P(xi <= ξ <= xi+1)= F0(xi+1) - F0(xi)
Wyznaczamy dla każdego przedziału liczebności teoretyczne n*pi , które powinny wystąpić w n-elementowej próbie, gdyby rozkład populacji był zgodny z rozkładem określonym w hipotezie zerowej H0.
Wyznaczymy różnice pomiędzy liczebnościami empirycznymi i teoretycznymi ni-npi oraz wartość statystyki testowej
Jeżeli rozkład empiryczny nie będzie zgodny z rozkładem hipotetycznym należy spodziewać się, że różnice ni-npi pomiędzy liczebnościami empirycznymi i teoretycznymi będą znaczne. Postać statystyki testowej sugeruje, że wówczas będzie ona przyjmować duże wartości. Duże wartości statystyki
będą oznaczały, że hipotezę zerową należy odrzucić.
Niech
oznacza wartość statystyki testowej wyznaczoną na podstawie wyników próby. Hipotezę zerową odrzucamy, gdy prawdziwa jest nierówność
, gdzie
jest wartością odczytaną z tablic rozkładu CHI dla ustalonego poziomu istotności
i (k-r-1) stopni swobody ( r - liczba szacowanych z prób parametrów rozkładu hipotetycznego, niezbędnych do wyznaczenia prawdopodobieństw teoretycznych pi).
LUB Omówić test zgodności
test zgodności χ2
pkt.
χ2 = suma ( ni2 / npi ) - n χ2α - rozk.chi.odw ( α, k-c-1 ) k-przedziałów c-ilosc szacowanych parametrów (2)
(jak przedział ma mniej niż 8 prób to łączymy przedziały)
szereg
xi - sr przedzialu
ui = ( xi - a ) / d a-srodek najliczniejszego przedziału d-szerokość przedziału
przedziły | ni | xi | ui | ui * ni | ui2 ni
u sr = suma(ui ni) / suma(ni) su2 = suma(ui2 ni) / suma(ni) - u sr2 x sr = a + d * u sr s2x = d2 * su2 s - odchylenie
przedzialy | ni | zi = (xi - x sr) / s (ostatni ∞) | F(zi) | F(zi) - F(zi-1) (ostatni 1- F(zk) ) - i to jest pi | ni^2/suma(ni)*pi
i to do χ2 = ... F(zi) - rozkład.normalny.s(zi)
Omówić test zgodności λ-Kołmogorowa
Z populacji o nieznanej lecz ciągłej dystrybuancie F(X) wylosowano duża próbę prosta n-elementową, na podstawie której zbudowano szereg rozdzielczy. Będziemy weryfikować hipotezę H0 : F(X)=F0(X) wobec hipotezy alternatywnej, iż tak nie jest. F0(X) oznacza hipotetyczna dystrybuantę badanej populacji. Wszystkie parametry dystrybuanty muszą być określone. Statystyka testowa oparta jest o różnicę wartości dystrybuanty hipotetycznej F0(X) i empirycznej Fn(X), której wartości wyznaczać będziemy ze wzoru
(j w indeksie dolnym).
Algorytm postępowania:
Dla każdego prawego końca przedziału klasowego obliczamy wartości dystrybuanty empirycznej i hipotetycznej.
Obliczamy wartość statystyki Dn = supx |Fn(X) - F0(X)| , która następnie przekształcamy do postaci
(statystyka testowa o rozkładzie Kołmogorowa). Można się spodziewać, że duże wartości statystyki
będą świadczyły o dużych różnicach pomiędzy wartościami dystrybuanty empirycznej i hipotetycznej.
Weryfikacja hipotezy sprowadza się do :
sformułowania hipotez
obliczenia dystrybuanty
obliczenia wartości statystyki
porównaniu z danymi z tablic:
(wtedy odrzucamy)
jeżeli rozkład empiryczny
to
~ 0
LUB
test zgodności Kołmogorowa (tylko rozkłady ciągłe próby >100) znane parametry
λ = sqrt (n) * sup (Fn(x) - F(x)) Fn(x) - dystrybuanta empiryczna
λ0,1 = 1,224 λ0,05 = 1,358 λ0,01 = 1,627 if λ > λα to odrzucamy
Omówić sposób konstrukcji prostej regresji
Wyznaczanie prostej regresji ma zastosowanie w prognozowaniu wartości y dla x nie podlegających pomiarowi.
→
→
następnie te pochodne przyrównujemy do 0 :
otrzymujemy:
Regresja wielokrotna
Regresja wielokrotna opisuje zależność jednej zmiennej od wielu innych zmiennych, dalej radźcie sobie sami :P
Współczynnik korelacji
i na koniec parę słów o współczynniku korelacji
Badamy związek pomiędzy wartościami zmiennych losowych
i
, czy istnieje zależność i jaki jest jej kształt. Współczynnik korelacji
mierzy siłę zależności między
i
(teoretyczna wartość
). Jeśli
jest zbiorem obserwacji to
jest estymatorem
otrzymanym w wyniku oszacowania współczynnika korelacji na podstawie próby.
hipotezy na temat
weryfikujemy na podstawie wyników statystyki T-Studenta