KOMBINATORYKA
Wariacja bez powtórzeń - uporządkowany zbiór składający się z k różnych elementów spośród n różnych elementów:
Wariacja z powtórzeniami - uporządkowany zbiór składający się z k elementów spośród n różnych elementów
Permutacje bez powtórzeń - uporządkowany zbiór składający się z n różnych elementów
Permutacje z powtórzeniami - uporządkowany zbiór składający się z n elementów wśród których niektóre powtarzają się n1,n2,...,nk razy
Kombinacje bez powtórzeń - zbiór składający się z k różnych elementów wybranych spośród n różnych elementów
Kombinacje z powtórzeniami - zbiór składający się z k elementów wybranych spośród n różnych elementów
DEFINICJE PRAWDOPODOBIEŃSTWA
Def (aksj.) :Prawdopodobieństwo jest pewną funkcją określoną na zbiorze zdarzeń i przyjmującą wartości liczbowe rzeczywiste. Prawdopodobieństwo zdarzenia A będziemy oznaczać przez P(A). Poniżej podajemy trzy podstawowe właściwości prawdopodobieństwa :
1) O ≤ P(A) ≤ 1
2) P(Ω) = 1
3) P(A∪B) = P(A) + P(B) jeżeli A ∩ B = ∅
Tw : P(A∪B) = P(A) + P(B) - P(A ∩ B)
Tw : P( A) + P(A) = 1
Tw : P(∅) = 0
Def (klas.) : Prawdopodobieństwem zdarzenia A nazywamy stosunek liczby zdarzeń elementarnych sprzyjających zajściu zdarzenia A, do liczby wszystkich zdarzeń elementarnych. (Zdarzenia elementarne muszą być jednakowo prawdopodobne).
Def (stat.) : Jeżeli przy wielokrotnym powtarzaniu jakiegoś doświadczenia, w wyniku którego może zajść zdarzenie A, częstość tego zdarzenia zaczyna oscylować dookoła pewnej liczby P, to liczbę P można przyjąć za prawdopodobieństwo zdarzenia A.
Def :Jeśli P(B) > 0, to prawdopodobieństwem warunkowym zdarzenia A przy warunku, że zaszło zdarzenie B, będziemy nazywać iloraz prawdopodobieństwa zdarzeń A i B, przez prawdopodobieństwo zdarzenia B :
Def : Zbiór zdarzeń A1,A2, ... An nazywamy układem zupełnym jeżeli zdarzenia te są parami rozłączne, a ich suma jest zdarzeniem pewnym.
Tw : Jeżeli zdarzenia A1,A2, ... An tworzą układ zupełny zdarzeń to dla każdego zdarzenia A
P(A) = P(A|A1) P(A1) + P(A|A2)P(A2) + ... + P(A|An)P(An)
P(A) występujące w tym wzorze często jest nazywane prawdopodobieństwem zupełnym.
Tw (Bayes) : Niech zdarzenia A1,A2 ... An tworzą układ zupełny zdarzeń. Podobnie niech zdarzenia B1,B2 ... Bm tworzą inny układ zupełny zdarzeń. Załóżmy dodatkowo że każde P(Ai) > 0 i P(Bj) > 0. Wówczas dla każdego i oraz j mamy :
W podanym twierdzeniu zdarzenia B1, ... ,Bm nazywa się zwykle przyczynami, zdarzenia A1, ... ,An zaś skutkami. Prawdopodobieństwa P(B1), ... ,P(Bm) noszą nazwę prawdopodobieństw a priori przyczyn, prawdopodobieństwa warunkowe P(Bj|Ai) są nazywane prawdopodobieństwami a posteriori przyczyn. Prawdopodobieństwa a posteriori odpowiadają sytuacjom, gdy jest znany skutek, nie znana zaś jest przyczyna, która go spowodowała.
Def : Zdarzenia A i B nazywamy niezależnymi, jeżeli P(A∩B) = P(A) P(B)
Def : Zdarzenia A1,A2, ... An nazywamy niezależnymi en bloc, jeżeli dla dowolnego zespołu różnych wskaźników r1, r2, ... ,rm (m ≤ n) wybranego spośród liczb 1,2, ... n jest spełniona relacja :
P(Ar1∩ Ar2∩...∩Arn) = P(Ar1) ⋅ P(Ar1) ⋅... ⋅ P(Ar1)
JEDNOWYMIAROWE ZMIENNE LOSOWE
Zmienną losową nazywamy dowolną funkcję X określoną na zbiorze zdarzeń elementarnych Ω, o wartościach ze zbioru liczb rzeczywistych mająca następujące właściwości:
Dla dowolnej, ustalonej liczby rzeczywistej x zbiór zdarzeń elementarnych ω, dla których spełniona jest nierówność X(ω)<x; jest zdarzeniem, czyli:
{ω:X(ω)<x}∈ζ dal każdego x∈R
Dystrybuantą zmiennej losowej X nazywamy funkcję FX określoną na całym zbiorze R liczb rzeczywistych równaniem:
FX(x)=P(X<x), x∈R
Zależności związane z dystrybuantą:
Własności dystrybuanty:
F1.
F2.
F3. jest funkcją niemalejącą
F4. jest funkcją (co najmniej) lewostronnie ciągłą
F5. prawdopodobieństwo P(a≤X≤b) przyjęcia przez zmienną losową X wartości z przedziału <a,b> wyraża się za pomocą dystrybuanty nastęująco:
P(a≤X≤b)=F(b)-F(a)
F6. prawdopodobieństwo P(X=x0)przyjęcia przez zmienną losową X dowolnej, ustalonej wartości x0 wyraża się za pomocą dystrybuanty równością:
P(X=x0)=F(x0+0)-F(x0)
F7. jeżeli G jest dowolną funkcją o wartościach rzeczywistych mającą własność F2,F3,F4, to funkcja G jest dystrybuantą zmiennej losowej.
Rozkład prawdopodobieństwa
Wartość xj może odpowiadać kilku punktom próbkowym i zbiór tych punktów tworzy zdarzenie, że X=xj którego prawdopodobieństwo N
. Układ relacji:
określa rozkład prawdopodobieństwa zmiennej losowej X. Jasne jest, że:
Wartością średnią (oczekiwaną)
zmiennej losowej skokowej X jest
wartość średnią funkcji zmiennej losowej skokowej X obliczmy ze wzoru:
Wartością średnią (oczekiwaną) zmiennej losowej ciągłej X jest
przy założeniu zbieżności całki
wartość średnią funkcji zmiennej losowej ciągłej X obliczamy ze wzoru
W szczególności
. Jeżeli szereg
jest rozbieżny, to mówimy, że X nie ma skończonej wartości średniej (rozkład Cauchy).
Jeżeli X1, X2, …,Xn są zmiennymi losowymi mającymi wartości oczekiwane, to wartość oczekiwana ich sumy istnieje i jest sumą ich wartości oczekiwanych:
Jeżeli X i Y są wzajemnie niezależnymi zmiennymi losowymi ze skończonymi wartościami oczekiwanymi, to ich iloczyn jest zmienną losową ze skończoną wartością oczekiwaną oraz:
Moment rzędu k
Niech X będzie zmienną losową o rozkładzie f(xj) i niech
będzie liczbą całkowitą. Jeżeli wartość oczekiwana zmiennej losowej Xr, to znaczy:
istnieje, to nazywamy ją r-tym momentem zmiennej losowej X. Jeżeli szereg nie jest bezwzględnie zbieżny, to mówimy, że r-ty moment nie istnieje.
Wariancją V(X) (lub D2(X))
zmiennej losowej X jest:
Wariancja jest z grubsza licząc miarą rozrzutu.
Własności wariancji (a, b, c - stałe względem zdarzenia elementarnego ):
Odchylenie standardowe
jest to pierwiastek z wariancji, czyli
Nierówność Czebyszewa
Mała wariancja wskazuje na to, że wszelkie odchylenia od wartości średniej są mało prawdopodobne. Niech X będzie zmienną losową z wartością średnią μ=E(X) i wariancją V(X). Wówczas dla każdego t>0
Nierówność Kołmogorowa
Niech X1, …, Xn będą wzajemnie niezależnymi zmiennymi o wartościach oczekiwanych k=E(Xk) i wariancjach V(XK)=σk2. Oznaczmy:
Sk=X1+…+Xk
oraz
k=E(Sk)=1+…+k, σk2=V(Sk)=σ12+…+σk2
Dla każdego t>0 prawdopodobieństwo jednoczesnej realizacji n nierówności
jest co najmniej 1-t-2. Dla n=1 twierdzenie to sprowadza się do nierówności Czebyszewa.
Kwantyl rzędu p
Jeżeli
P(X≥a)=ε
to mówimy, że a jest kwantylem rzędu 1-ε, co zapisujemy jako:
κ1-ε=a
Mediana
Kwantyl rzędu 0,5.
FUNKCJA CHARAKTERYSTYCZNA
przedstawia się wzorem:
Własności funkcji charakterystycznych
funkcja jest funkcją rzeczywistą wtedy i tylko wtedy, gdy rozkład zmiennej losowej X jest symetryczny względem x=0.
operacje liniowe na wielkościach losowych (własności transformaty)
dodawanie wielkości niezależnych odpowiada mnożeniu funkcji charakterystycznych i splatania gęstości prawdopodobieństwa
Z podobnego rozumowania:
odwracanie (twierdzenie o jednoznaczności)
relacje między rozkładami (twierdzenie o ciągłości)
momenty rozkładu (twierdzenie MacLaurina)
Jeżeli istnieje k-ty moment zmiennej losowej X o funkcji charakterystycznej X(v), to jest k-krotnie różniczkowalna (w sposób ciągły), oraz zachodzi równość:
oraz jeśli można rozwinąć X(v) w szereg Maclaurina, to:
Jeżeli funkcja charakterystyczna jest okresowa, to mamy do czynienia z wielkością dyskretną
Funkcja charakterystyczna sumy zmiennych losowych Z=X+Y gdzie zmienne losowe X i Ysą niezależne o funkcjach charakterystycznych X(v) i Y(v) ma postać:
Funkcja charakterystyczna sumy zmiennych losowych Y=X1+X2+…+Xk gdzie zmienne losowe Xi są niezależne o funkcji charakterystycznej X(v) ma postać:
Funkcja charakterystyczna sumy nieznanej liczby składników Y=X1+X2+…+XN gdzie zmienne losowe Xi są niezależne o funkcji charakterystycznej X(v) natomiast rozkład prawdopodobieństwa liczby składników jest P(N=k) ma postać:
Czyli funkcja charakterystyczna sumy jest złożeniem funkcji tworzącej liczby składników oraz funkcji tworzącej:
Pochodna funkcji charakterystycznej jest postaci:
Funkcja tworząca
Niech a0, a1, a2, … będzie ciągiem liczb rzeczywistych. Jeżeli szereg:
jest zbieżny w pewnym przedziale -s0<s<s0, to funkcję A(s) nazywamy funkcją tworzącą ciągu {aj}.
Funkcja tworząca jest modyfikacją funkcji charakterystycznej, przy czym
. U Konorsa z=s i funkcja tworząca to GX(z).
WIELOWYMIAROWE ZMIENNE LOSOWE
Łączny rozkład prawdopodobieństwa, gdy zmienna losowa (X,Y):
dyskretna
ciągła
Dystrybuanta
F(x1,…, xn), n-wymiarowej zmiennej losowej (X1,…,Xn) nazywamy funkcję
Dla zmiennej losowej typu ciągłego mamy
gdzie f jest gęstością prawdopodobieństwa zmiennej losowej n-wymiarowej
Dla n=2 mamy dystrybuantę postaci:
skokową
ciągła
dla
Własności dystrybuanty:
,
,
Dla dowolnych punktów: (x1, y1), (x2, y2) takich, że x1<=x2 i y1<=y2, zachodzi nierówność:
Dystrybuanty brzegowe X, Y
Gęstościami prawdopodobieństwa rozkładów brzegowych odpowiednio zmiennych losowych X oraz Y są:
dla X, Y ciągłych
dla X, Y dyskretnych
Zmienne losowe X, Y typu ciągłego są niezależne, jeśli dla wszystkich x, y:
Zmienne losowe X, Y typu skokowego są niezależne, jeśli dla wszystkich i, k:
gdzie
,
,
Wartość przeciętną
funkcji g(X, Y) zmiennej losowej (X, Y)
typu skokowego
typu ciągłego
Rozkład warunkowy zmiennej losowej X pod warunkiem zajścia y ma postać:
tj.
Współczynnik kowariancji
Kowariancja zmiennych losowych X i Y jest zdefiniowana równaniem
Definicja ta ma sens, o ile X i Y mają skończone wariancje.
Jeżeli X1, …, Xn są zmiennymi losowymi o skończonych wariancjach V1, …, Vn, oraz Sn=X1+…+Xn, to
gdzie ostatnia suma zawiera każdą z
par (Xj,Xk) dla których j<k, dokładnie raz.
Współczynnik korelacji
zmiennych losowych określamy wzorem:
gdzie E(XY) - wartość przeciętna zmiennej losowej (X,Y),
- wariancja zmiennej losowej Y
Współczynnik korelacji jest to kowariancja zmiennych X i Y unormowanych, czyli:
Jeżeli współczynnik korelacji jest
>0 to X i Y są dodatnio skorelowane czyli typowe odchylenia obu zmiennych są w te same strony
<0 to X i Y są ujemnie skorelowane czyli typowe odchylenia obu zmiennych są w przeciwne strony
=0 to X i Y są niekorelowane
czyli najchętniej obie zmienne losowe są powyżej swoich średnich to korelacja jest dodatnia, jeśli obie są po różnych to korelacja jest dodatnia, jeśli obie są po różnych stronach średnich to korelacja jest ujemna.
Własności współczynnika korelacji:
- czyli jedna zmienna losowa jest liniową funkcją drugiej
Niezależność implikuje brak korelacji, ale zazwyczaj nie jest odwrotnie
Wariancja sumy wielkości losowych
dla zmiennych niezależnych =
dla dowolnych zmiennych
gdzie R - macierz współczynników korelacji.
Wartość średnia momentu rozkładu
Prosta regresji liniowej
informuje jak jest związana zmienna losowa X ze zmienną Y. Im związek ten jest większy, tym odchyłka od prostej regresji mniejsza.
Mamy daną zmienną losową (X,Y), gdzie X i Y są skorelowane. Chcemy przedstawić jedną zmienną jako liniową funkcję drugiej tzn Y=aX+b z minimalnym błędem. Jest to tzw. przybliżenie modelem liniowym. Szukamy więc takich współczynników a* i b*, aby średniokwadratowa odchyłka prostej od wartości rzeczywistych była minimalna czyli:
Najlepsze przybliżenie daje prosta regresji Y względem X, która ma postać:
PRAWO WIELKICH LICZB
Niech {Xk} będzie ciągiem wzajemnie niezależnych zmiennych losowych o wspólnym rozkładzie. Jeżeli wartość oczekiwana
istnieje, oraz dla każdego >0 przy
to mówimy, że dla ciągu tego zachodzi słabe prawo wielkich liczb.
W przypadku, gdy przy tym samym założeniu zachodzi:
to mówimy, że dla ciągu tego zachodzi mocne prawo wielkich liczb.
ESTYMATORY
Estymacja - ocena nieznanych parametrów bądź ich funkcji, które charakteryzują rozkład badanej cechy populacji
Statystyka - dowolna funkcja g(X1,…,Xn) będąca funkcją próby losowej X1,…,Xn. Statystyka jako funkcja borelowska jest także zmienną losową, mającą pewien własny rozkład zależny od postaci funkcji g i rozkładów zmiennych X1,…,Xn.
Estymatorem parametru
jest każda statystyka
, której wartości przyjmujemy jako oceny nieznanego parametru
. Dla uzyskania estymatora o możliwie „optymalnych” własnościach jest pożądane aby miał on pewne narzucone własności:
Zgodność - wymagamy, aby ze wzrostem liczności próbki wzrastała dokładność oszacowania parametru q. Dla każdego >0 wymagamy więc:
Estymator
nazywamy estymatorem zgodnym parametru
.
Nieobciążalność - estymator
nazywamy estymatorem nieobciążonym parametru
, jeśli dla każdego n mamy:
Jeśli natomiast istnieje wartość średnia estymatora lecz
, wtedy
nazywamy estymatorem obciążonym parametru
, a różnicę
- obciążeniem estymatora
W przypadku gdy
wtedy estymator
nazywamy estymatorem asymptotycznie nieobciążonym parametru
.
Jeżeli zatem
i
są dwoma estymatorami nieobciążonymi parametru
mającymi wariancje
i
spełniające warunek
- co oznacza, że skupienie wartości estymatora
wokół
jest większe niż skupienie wartości
to mówimy, że
jest estymatorem efektywniejszym parametru
niż estymator
. Estymator nieobciążony n parametru , który ma najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów danego parametru nazywamy estymatorem efektywnym.
STATYSTYKA MATEMATYCZNA
Hipoteza statystyczna
Jest to każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości, które wnioskuje się w oparciu o pobraną próbkę. Przypuszczenia te najczęściej dotyczą postaci rozkładu lub wartości jego parametrów. Hipotezy które dotyczą wyłącznie wartości parametru określonej klasy rozkładów nazywamy parametrycznymi.
Test statystyczny
Metoda postępowania, która każdej możliwej realizacji próbki x1,…,xn przyporządkowuje - z ustalonym prawdopodobieństwem - decyzję przyjęcia albo odrzucenia sprawdzanej hipotezy.
Statystyka testowa
W celu zbudowania testu do weryfikacji postawionej hipotezy H, spośród funkcji zmiennych losowych X1,…,Xn należy wybrać najbardziej odpowiednią δ(X1,…,Xn).
Błędna decyzja odnośnie hipotezy:
Decyzja |
Hipoteza H |
|
|
jest prawdziwa |
jest fałszywa |
przyjąć weryfikowaną hipotezę H |
decyzja poprawna |
decyzja błędna (błąd I rodzaju) |
Odrzucić hipotezę H |
decyzja błędna (błąd II rodzaju) |
decyzja poprawna |
Poziom istotności testu prawdopodobieństwo błędu pierwszego rodzaju
Weryfikacja hipotezy o wartości przeciętnej w populacji generalnej
Hipotezę orzekającą, że wartość przeciętna m jest równa liczbie m0, zapisujemy H(m=m0). Niech hipotezą alternatywną będzie H1(m=m1), gdzie
.
Jeśli cecha X ma rozkład normalny N(m, σ), przy czym σ jest znane, i przyjmujemy poziom istotności , to wyznaczamy takie, aby:
Jeśli zaobserwowana w n-elementowej próbce wartość
jest taka, że
, to odrzucamy hipotezę H(m=m0). W przypadku
nie ma podstaw do odrzucenia hipotezy.
Weryfikacja hipotezy o wariancji
Niech cecha X ma rozkład normalny N(m,σ), przy czym s jest nieznane. Hipotezę H(σ2=σ02), tzn. że wariancja równa jest liczbie σ02, weryfikujemy korzystając z faktu, że zmienna losowa
ma rozkład 2 o n-1 stopniach swobody. Niech hipotezą alternatywną będzie H1(σ2>σ02). Przyjmujemy poziom istotności . W tablicach znajdujemy 2 takie, że
czyli
Hipotezę odrzucamy, jeśli
Weryfikacja hipotezy dotyczącej postaci rozkładu. Test zgodności 2
Wysuwamy hipotezę, że dystrybuantą zmiennej losowej X jest F(x). Niech całkowity zakres zmienności zmiennej losowej X będzie rozbity na skończoną liczbę l zbiorów:
Niech pk oznacza prawdopodobieństwo:
obliczane przy założeniu, że dystrybuantą jest F(x), nk zaś niech będzie liczbą wartości w n-elementowej próbce, które znalazły się w k. Jeśli weryfikowana hipoteza jest prawdziwa, to zmienna losowa
ma przy
rozkład 2 o l-1-r stopniach swobody, gdzie r jest liczbą parametrów wyznaczanych na podstawie próbki.
Metoda postępowania przy weryfikacji jest następująca. Przyjmujemy poziom istotności . Wyznaczamy 2 takie, że:
Jeśli zaobserwowana w próbce wartość zaobs2 zmiennej losowej 2 jest taka, że zaobs2>=2, to odrzucamy hipotezę, że dystrybuantą zmiennej losowej X jest F(x). Jeśli zaobs2<2, to nie mamy podstaw do odrzucenia hipotezy
Test zgodności - test do weryfikacji hipotezy prostej albo złożonej dotyczącej zgodności pomiędzy rozkładem zbioru wartości w próbie i rozkładem teoretycznym tj. hipotezy postaci:
H:{dystrybuantą badanej cechy jest F0(x)}
Test c2 Pearsona
Weryfikacja hipotezy H:F0(x), gdy F0 jest całkowicie określona (hipoteza prosta). Rozważania dotyczą zmiennej losowej (cechy) X ciągłej albo skokowej.
Tworzymy szereg rozdzielczy z próbki x1,…,xn w rezultacie czego otrzymujemy następujący podział próbki na k klas:
Nr klasy |
Granice klas |
Liczności ni doświadczalne |
1 |
g0…g1 |
n1 |
1 |
g1…g2 |
n2 |
… |
… |
… |
K |
gk-1…gk |
nk |
Jeżeli hipoteza H jest prawdziwa, to prawdopodobieństwo pi „sukcesu”, że X przyjmie wartość należącą do i-tej klasy (i=1,…,k) można obliczyć z zależności:
Tak więc wartość przeciętna liczby sukcesów spośród n niezależnych doświadczeń, które wpadną do i-tej klasy jest równa np1; wartości te dla i=1…k nazywamy licznościami hipotetycznymi w odróżnieniu od liczności doświadczalnych ni.
Za miarę rozbieżności pomiędzy grupami liczności, tzn. pomiędzy wynikami z doświadczenia i z hipotezy przyjął Pearson wartość cd2
statystyki
zależnej od zmiennych losowych Ni, których wartości ni w innej próbce mogą być inne, spełniających warunek
Zasadnicze znaczenie tej statystyki polega na tym, że jej rozkład - przy ustalonym k i założeniu prawdziwości hipotezy - gdy
ma rozkład
tzn. o k-1 stopniach swobody
ROZKŁADY ZMIENNYCH LOSOWYCH
Nazwa rozkładu |
Gęstość rozkładu pX(x) |
Funkcja ϕ(t) charakterystyczna |
Uwagi |
Bernoulliego (dwumianowy) |
|
|
Dyskretny EX = np. VX = np.(1-p) |
hipergeometryczny Prawd. że k spośród n wylosowanych z N-elementowej populacji posiada jakąś cechę, jeśli M z N ją posiada na pewno |
|
|
Dyskretny. EX = np.
VX = |
Pascala (ujemny dwumianowy) Ilość dośw. Potrzebna do uzyskania k sukcesów |
|
|
Dyskretny EX=v/p VX=v(1-p)/p2 |
Poissona Rozkład graniczny dla (1) i (2)
|
|
|
Dyskretny EX = λ VX = λ |
Wykładniczy Czas bezawaryjnej pracy elementu |
|
|
Ciągły EX = λ VX = λ2 BEZPAMIĘCIOWOŚĆ |
Erlanga Suma n niezależnych losowych o rozkładzie wykładniczym |
|
|
Ciągły Szczególny przypadek rozkładu Γ |
Gamma
|
|
|
Ciągły EX=α1=λp VX = λ2p Gdy p∈R Γ(p+1)=pΓ(p) |
Beta
|
|
|
Ciągły EX = p/(p+q) VX = pq/((p+q)2+(p+q+1)) |
Normalny (gaussowski)
standaryzowany:
|
|
|
Ciągły EX = μ VX = σ2 |
Laplace'a |
|
|
Ciągły EX = μ VX = 2λ2 |
Cauchy
|
|
|
Ciągły Nie ma wartości średniej |