Teoria1

KOMBINATORYKA

Wariacja bez powtórzeń - uporządkowany zbiór składający się z k różnych elementów spośród n różnych elementów:

Wariacja z powtórzeniami - uporządkowany zbiór składający się z k elementów spośród n różnych elementów

Permutacje bez powtórzeń - uporządkowany zbiór składający się z n różnych elementów

Permutacje z powtórzeniami - uporządkowany zbiór składający się z n elementów wśród których niektóre powtarzają się n₁,n₂,...,n_k razy

Kombinacje bez powtórzeń - zbiór składający się z k różnych elementów wybranych spośród n różnych elementów

0x01 graphic

Kombinacje z powtórzeniami - zbiór składający się z k elementów wybranych spośród n różnych elementów

0x01 graphic

DEFINICJE PRAWDOPODOBIEŃSTWA

Def (aksj.) :Prawdopodobieństwo jest pewną funkcją określoną na zbiorze zdarzeń i przyjmującą wartości liczbowe rzeczywiste. Prawdopodobieństwo zdarzenia A będziemy oznaczać przez P(A). Poniżej podajemy trzy podstawowe właściwości prawdopodobieństwa :

1) O ≤ P(A) ≤ 1

2) P(Ω) = 1

3) P(A∪B) = P(A) + P(B) jeżeli A ∩ B = ∅

Tw : P(A∪B) = P(A) + P(B) - P(A ∩ B)

Tw : P( A) + P(A) = 1

Tw : P(∅) = 0

Def (klas.) : Prawdopodobieństwem zdarzenia A nazywamy stosunek liczby zdarzeń elementarnych sprzyjających zajściu zdarzenia A, do liczby wszystkich zdarzeń elementarnych. (Zdarzenia elementarne muszą być jednakowo prawdopodobne).

Def (stat.) : Jeżeli przy wielokrotnym powtarzaniu jakiegoś doświadczenia, w wyniku którego może zajść zdarzenie A, częstość tego zdarzenia zaczyna oscylować dookoła pewnej liczby P, to liczbę P można przyjąć za prawdopodobieństwo zdarzenia A.

Def :Jeśli P(B) > 0, to prawdopodobieństwem warunkowym zdarzenia A przy warunku, że zaszło zdarzenie B, będziemy nazywać iloraz prawdopodobieństwa zdarzeń A i B, przez prawdopodobieństwo zdarzenia B :

Def : Zbiór zdarzeń A₁,A₂, ... A_n nazywamy układem zupełnym jeżeli zdarzenia te są parami rozłączne, a ich suma jest zdarzeniem pewnym.

Tw : Jeżeli zdarzenia A₁,A₂, ... A_n tworzą układ zupełny zdarzeń to dla każdego zdarzenia A

P(A) = P(A|A₁) P(A₁) + P(A|A₂)P(A₂) + ... + P(A|A_n)P(A_n)

P(A) występujące w tym wzorze często jest nazywane prawdopodobieństwem zupełnym.

Tw (Bayes) : Niech zdarzenia A₁,A₂ ... A_n tworzą układ zupełny zdarzeń. Podobnie niech zdarzenia B₁,B₂ ... B_mtworzą inny układ zupełny zdarzeń. Załóżmy dodatkowo że każde P(A_i) > 0 i P(B_j) > 0. Wówczas dla każdego i oraz j mamy :

0x01 graphic

W podanym twierdzeniu zdarzenia B₁, ... ,B_m nazywa się zwykle przyczynami, zdarzenia A₁, ... ,A_n zaś skutkami. Prawdopodobieństwa P(B₁), ... ,P(B_m) noszą nazwę prawdopodobieństw a priori przyczyn, prawdopodobieństwa warunkowe P(B_j|A_i) są nazywane prawdopodobieństwami a posteriori przyczyn. Prawdopodobieństwa a posteriori odpowiadają sytuacjom, gdy jest znany skutek, nie znana zaś jest przyczyna, która go spowodowała.

Def : Zdarzenia A i B nazywamy niezależnymi, jeżeli P(A∩B) = P(A) P(B)

Def : Zdarzenia A₁,A₂, ... A_nnazywamy niezależnymi en bloc, jeżeli dla dowolnego zespołu różnych wskaźników r₁, r₂, ... ,r_m (m ≤ n) wybranego spośród liczb 1,2, ... n jest spełniona relacja :

P(A_r1∩ A_r2∩...∩A_rn) = P(A_r1) ⋅ P(A_r1) ⋅... ⋅ P(A_r1)

JEDNOWYMIAROWE ZMIENNE LOSOWE

Zmienną losową nazywamy dowolną funkcję X określoną na zbiorze zdarzeń elementarnych Ω, o wartościach ze zbioru liczb rzeczywistych mająca następujące właściwości:

Dla dowolnej, ustalonej liczby rzeczywistej x zbiór zdarzeń elementarnych ω, dla których spełniona jest nierówność X(ω)<x; jest zdarzeniem, czyli:

{ω:X(ω)<x}∈ζ dal każdego x∈R

Dystrybuantą zmiennej losowej X nazywamy funkcję F_X określoną na całym zbiorze R liczb rzeczywistych równaniem:

F_X(x)=P(X<x), x∈R

Zależności związane z dystrybuantą:

0x01 graphic

Własności dystrybuanty:

F1.

F2.

F3. jest funkcją niemalejącą

F4. jest funkcją (co najmniej) lewostronnie ciągłą

F5. prawdopodobieństwo P(a≤X≤b) przyjęcia przez zmienną losową X wartości z przedziału <a,b> wyraża się za pomocą dystrybuanty nastęująco:

P(a≤X≤b)=F(b)-F(a)

F6. prawdopodobieństwo P(X=x₀)przyjęcia przez zmienną losową X dowolnej, ustalonej wartości x₀ wyraża się za pomocą dystrybuanty równością:

P(X=x₀)=F(x₀+0)-F(x₀)

F7. jeżeli G jest dowolną funkcją o wartościach rzeczywistych mającą własność F2,F3,F4, to funkcja G jest dystrybuantą zmiennej losowej.

Rozkład prawdopodobieństwa

Wartość x_j może odpowiadać kilku punktom próbkowym i zbiór tych punktów tworzy zdarzenie, że X=x_j którego prawdopodobieństwo N
. Układ relacji:

określa rozkład prawdopodobieństwa zmiennej losowej X. Jasne jest, że:

Wartością średnią (oczekiwaną)

zmiennej losowej skokowej X jest

wartość średnią funkcji zmiennej losowej skokowej X obliczmy ze wzoru:

Wartością średnią (oczekiwaną) zmiennej losowej ciągłej X jest

0x01 graphic

przy założeniu zbieżności całki

wartość średnią funkcji zmiennej losowej ciągłej X obliczamy ze wzoru

0x01 graphic

W szczególności
. Jeżeli szereg
jest rozbieżny, to mówimy, że X nie ma skończonej wartości średniej (rozkład Cauchy).

Jeżeli X1, X2, …,Xn są zmiennymi losowymi mającymi wartości oczekiwane, to wartość oczekiwana ich sumy istnieje i jest sumą ich wartości oczekiwanych:

Jeżeli X i Y są wzajemnie niezależnymi zmiennymi losowymi ze skończonymi wartościami oczekiwanymi, to ich iloczyn jest zmienną losową ze skończoną wartością oczekiwaną oraz:

Moment rzędu k

Niech X będzie zmienną losową o rozkładzie f(x_j) i niech
będzie liczbą całkowitą. Jeżeli wartość oczekiwana zmiennej losowej X^r, to znaczy:

istnieje, to nazywamy ją r-tym momentem zmiennej losowej X. Jeżeli szereg nie jest bezwzględnie zbieżny, to mówimy, że r-ty moment nie istnieje.

Wariancją V(X) (lub D²(X))

zmiennej losowej X jest:

Wariancja jest z grubsza licząc miarą rozrzutu.

Własności wariancji (a, b, c - stałe względem zdarzenia elementarnego ):

0x01 graphic

Odchylenie standardowe

jest to pierwiastek z wariancji, czyli

Nierówność Czebyszewa

Mała wariancja wskazuje na to, że wszelkie odchylenia od wartości średniej są mało prawdopodobne. Niech X będzie zmienną losową z wartością średnią μ=E(X) i wariancją V(X). Wówczas dla każdego t>0

Nierówność Kołmogorowa

Niech X₁, …, X_n będą wzajemnie niezależnymi zmiennymi o wartościach oczekiwanych _k=E(X_k) i wariancjach V(X_K)=σ_k². Oznaczmy:

S_k=X₁+…+X_k

oraz

_k=E(S_k)=₁+…+_k, σ_k²=V(S_k)=σ₁²+…+σ_k²

Dla każdego t>0 prawdopodobieństwo jednoczesnej realizacji n nierówności

jest co najmniej 1-t^-2. Dla n=1 twierdzenie to sprowadza się do nierówności Czebyszewa.

Kwantyl rzędu p

Jeżeli

P(X≥a)=ε

to mówimy, że a jest kwantylem rzędu 1-ε, co zapisujemy jako:

κ_1-ε=a

Mediana

Kwantyl rzędu 0,5.

FUNKCJA CHARAKTERYSTYCZNA

przedstawia się wzorem:

0x01 graphic

Własności funkcji charakterystycznych

funkcja  jest funkcją rzeczywistą wtedy i tylko wtedy, gdy rozkład zmiennej losowej X jest symetryczny względem x=0.
operacje liniowe na wielkościach losowych (własności transformaty)

dodawanie wielkości niezależnych odpowiada mnożeniu funkcji charakterystycznych i splatania gęstości prawdopodobieństwa
Z podobnego rozumowania:

odwracanie (twierdzenie o jednoznaczności)

relacje między rozkładami (twierdzenie o ciągłości)
momenty rozkładu (twierdzenie MacLaurina)

Jeżeli istnieje k-ty moment zmiennej losowej X o funkcji charakterystycznej _X(v), to  jest k-krotnie różniczkowalna (w sposób ciągły), oraz zachodzi równość:

0x01 graphic

oraz jeśli można rozwinąć _X(v) w szereg Maclaurina, to:

Jeżeli funkcja charakterystyczna jest okresowa, to mamy do czynienia z wielkością dyskretną

Funkcja charakterystyczna sumy zmiennych losowych Z=X+Y gdzie zmienne losowe X i Ysą niezależne o funkcjach charakterystycznych _X(v) i _Y(v) ma postać:

Funkcja charakterystyczna sumy zmiennych losowych Y=X₁+X₂+…+X_k gdzie zmienne losowe X_i są niezależne o funkcji charakterystycznej _X(v) ma postać:

Funkcja charakterystyczna sumy nieznanej liczby składników Y=X₁+X₂+…+X_N gdzie zmienne losowe X_i są niezależne o funkcji charakterystycznej _X(v) natomiast rozkład prawdopodobieństwa liczby składników jest P(N=k) ma postać:

Czyli funkcja charakterystyczna sumy jest złożeniem funkcji tworzącej liczby składników oraz funkcji tworzącej:

Pochodna funkcji charakterystycznej jest postaci:

Funkcja tworząca

Niech a₀, a₁, a₂, … będzie ciągiem liczb rzeczywistych. Jeżeli szereg:

jest zbieżny w pewnym przedziale -s₀<s<s₀, to funkcję A(s) nazywamy funkcją tworzącą ciągu {a_j}.

Funkcja tworząca jest modyfikacją funkcji charakterystycznej, przy czym
. U Konorsa z=s i funkcja tworząca to G_X(z).

WIELOWYMIAROWE ZMIENNE LOSOWE

Łączny rozkład prawdopodobieństwa, gdy zmienna losowa (X,Y):

dyskretna

0x01 graphic

ciągła

Dystrybuanta

F(x₁,…, x_n), n-wymiarowej zmiennej losowej (X1,…,Xn) nazywamy funkcję

Dla zmiennej losowej typu ciągłego mamy

0x01 graphic

gdzie f jest gęstością prawdopodobieństwa zmiennej losowej n-wymiarowej

Dla n=2 mamy dystrybuantę postaci:

skokową
ciągła
dla

Własności dystrybuanty:

,
,
Dla dowolnych punktów: (x₁, y₁), (x₂, y₂) takich, że x₁<=x₂ i y₁<=y₂, zachodzi nierówność:

Dystrybuanty brzegowe X, Y

Gęstościami prawdopodobieństwa rozkładów brzegowych odpowiednio zmiennych losowych X oraz Y są:

dla X, Y ciągłych

0x01 graphic

dla X, Y dyskretnych

0x01 graphic

Zmienne losowe X, Y typu ciągłego są niezależne, jeśli dla wszystkich x, y:

Zmienne losowe X, Y typu skokowego są niezależne, jeśli dla wszystkich i, k:

gdzie

Wartość przeciętną

funkcji g(X, Y) zmiennej losowej (X, Y)

typu skokowego
typu ciągłego

Rozkład warunkowy zmiennej losowej X pod warunkiem zajścia y ma postać:

tj.

Współczynnik kowariancji

Kowariancja zmiennych losowych X i Y jest zdefiniowana równaniem

Definicja ta ma sens, o ile X i Y mają skończone wariancje.

Jeżeli X₁, …, X_n są zmiennymi losowymi o skończonych wariancjach V₁, …, V_n, oraz S_n=X₁+…+X_n, to

gdzie ostatnia suma zawiera każdą z
par (X_j,X_k) dla których j<k, dokładnie raz.

Współczynnik korelacji

zmiennych losowych określamy wzorem:

gdzie E(XY) - wartość przeciętna zmiennej losowej (X,Y),
- wariancja zmiennej losowej Y

Współczynnik korelacji jest to kowariancja zmiennych X i Y unormowanych, czyli:

Jeżeli współczynnik korelacji jest

>0 to X i Y są dodatnio skorelowane czyli typowe odchylenia obu zmiennych są w te same strony
<0 to X i Y są ujemnie skorelowane czyli typowe odchylenia obu zmiennych są w przeciwne strony
=0 to X i Y są niekorelowane

czyli najchętniej obie zmienne losowe są powyżej swoich średnich to korelacja jest dodatnia, jeśli obie są po różnych to korelacja jest dodatnia, jeśli obie są po różnych stronach średnich to korelacja jest ujemna.

Własności współczynnika korelacji:

- czyli jedna zmienna losowa jest liniową funkcją drugiej

Niezależność implikuje brak korelacji, ale zazwyczaj nie jest odwrotnie

Wariancja sumy wielkości losowych
dla zmiennych niezależnych =

dla dowolnych zmiennych

gdzie R - macierz współczynników korelacji.

Wartość średnia momentu rozkładu

0x01 graphic

Prosta regresji liniowej

informuje jak jest związana zmienna losowa X ze zmienną Y. Im związek ten jest większy, tym odchyłka od prostej regresji mniejsza.

Mamy daną zmienną losową (X,Y), gdzie X i Y są skorelowane. Chcemy przedstawić jedną zmienną jako liniową funkcję drugiej tzn Y=aX+b z minimalnym błędem. Jest to tzw. przybliżenie modelem liniowym. Szukamy więc takich współczynników a* i b*, aby średniokwadratowa odchyłka prostej od wartości rzeczywistych była minimalna czyli:

Najlepsze przybliżenie daje prosta regresji Y względem X, która ma postać:

PRAWO WIELKICH LICZB

Niech {X_k} będzie ciągiem wzajemnie niezależnych zmiennych losowych o wspólnym rozkładzie. Jeżeli wartość oczekiwana
istnieje, oraz dla każdego >0 przy

0x01 graphic

to mówimy, że dla ciągu tego zachodzi słabe prawo wielkich liczb.

W przypadku, gdy przy tym samym założeniu zachodzi:

0x01 graphic

to mówimy, że dla ciągu tego zachodzi mocne prawo wielkich liczb.

ESTYMATORY

Estymacja - ocena nieznanych parametrów bądź ich funkcji, które charakteryzują rozkład badanej cechy populacji

Statystyka - dowolna funkcja g(X₁,…,X_n) będąca funkcją próby losowej X₁,…,X_n. Statystyka jako funkcja borelowska jest także zmienną losową, mającą pewien własny rozkład zależny od postaci funkcji g i rozkładów zmiennych X₁,…,X_n.

Estymatorem parametru
jest każda statystyka
, której wartości przyjmujemy jako oceny nieznanego parametru
. Dla uzyskania estymatora o możliwie „optymalnych” własnościach jest pożądane aby miał on pewne narzucone własności:

Zgodność - wymagamy, aby ze wzrostem liczności próbki wzrastała dokładność oszacowania parametru q. Dla każdego >0 wymagamy więc:

Estymator
nazywamy estymatorem zgodnym parametru
.

Nieobciążalność - estymator
nazywamy estymatorem nieobciążonym parametru
, jeśli dla każdego n mamy:

Jeśli natomiast istnieje wartość średnia estymatora lecz
, wtedy
nazywamy estymatorem obciążonym parametru
, a różnicę

- obciążeniem estymatora

W przypadku gdy

wtedy estymator
nazywamy estymatorem asymptotycznie nieobciążonym parametru
.

Jeżeli zatem
i
są dwoma estymatorami nieobciążonymi parametru
mającymi wariancje
i
spełniające warunek

- co oznacza, że skupienie wartości estymatora
wokół
jest większe niż skupienie wartości

to mówimy, że
jest estymatorem efektywniejszym parametru
niż estymator
. Estymator nieobciążony n parametru , który ma najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów danego parametru  nazywamy estymatorem efektywnym.

STATYSTYKA MATEMATYCZNA

Hipoteza statystyczna

Jest to każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości, które wnioskuje się w oparciu o pobraną próbkę. Przypuszczenia te najczęściej dotyczą postaci rozkładu lub wartości jego parametrów. Hipotezy które dotyczą wyłącznie wartości parametru określonej klasy rozkładów nazywamy parametrycznymi.

Test statystyczny

Metoda postępowania, która każdej możliwej realizacji próbki x₁,…,x_n przyporządkowuje - z ustalonym prawdopodobieństwem - decyzję przyjęcia albo odrzucenia sprawdzanej hipotezy.

Statystyka testowa

W celu zbudowania testu do weryfikacji postawionej hipotezy H, spośród funkcji zmiennych losowych X₁,…,X_nnależy wybrać najbardziej odpowiednią δ(X₁,…,X_n).

Błędna decyzja odnośnie hipotezy:

Decyzja	Hipoteza H
Decyzja		jest prawdziwa	jest fałszywa
przyjąć weryfikowaną hipotezę H	decyzja poprawna	decyzja błędna (błąd I rodzaju)
Odrzucić hipotezę H	decyzja błędna (błąd II rodzaju)	decyzja poprawna

Poziom istotności testu prawdopodobieństwo  błędu pierwszego rodzaju

Weryfikacja hipotezy o wartości przeciętnej w populacji generalnej

Hipotezę orzekającą, że wartość przeciętna m jest równa liczbie m0, zapisujemy H(m=m₀). Niech hipotezą alternatywną będzie H₁(m=m₁), gdzie
.

Jeśli cecha X ma rozkład normalny N(m, σ), przy czym σ jest znane, i przyjmujemy poziom istotności , to wyznaczamy _ takie, aby:

0x01 graphic

Jeśli zaobserwowana w n-elementowej próbce wartość
jest taka, że 0x01 graphic
, to odrzucamy hipotezę H(m=m₀). W przypadku
nie ma podstaw do odrzucenia hipotezy.

Weryfikacja hipotezy o wariancji

Niech cecha X ma rozkład normalny N(m,σ), przy czym s jest nieznane. Hipotezę H(σ₂=σ₀²), tzn. że wariancja równa jest liczbie σ₀², weryfikujemy korzystając z faktu, że zmienna losowa

0x01 graphic

ma rozkład ₂ o n-1 stopniach swobody. Niech hipotezą alternatywną będzie H₁(σ₂>σ₀²). Przyjmujemy poziom istotności . W tablicach znajdujemy _² takie, że

czyli

0x01 graphic

Hipotezę odrzucamy, jeśli

Weryfikacja hipotezy dotyczącej postaci rozkładu. Test zgodności ²

Wysuwamy hipotezę, że dystrybuantą zmiennej losowej X jest F(x). Niech całkowity zakres zmienności zmiennej losowej X będzie rozbity na skończoną liczbę l zbiorów:

Niech p_k oznacza prawdopodobieństwo:

obliczane przy założeniu, że dystrybuantą jest F(x), nk zaś niech będzie liczbą wartości w n-elementowej próbce, które znalazły się w _k. Jeśli weryfikowana hipoteza jest prawdziwa, to zmienna losowa

0x01 graphic

ma przy
rozkład ² o l-1-r stopniach swobody, gdzie r jest liczbą parametrów wyznaczanych na podstawie próbki.

Metoda postępowania przy weryfikacji jest następująca. Przyjmujemy poziom istotności . Wyznaczamy _² takie, że:

Jeśli zaobserwowana w próbce wartość _zaobs² zmiennej losowej ² jest taka, że _zaobs²>=_², to odrzucamy hipotezę, że dystrybuantą zmiennej losowej X jest F(x). Jeśli _zaobs²<_², to nie mamy podstaw do odrzucenia hipotezy

Test zgodności - test do weryfikacji hipotezy prostej albo złożonej dotyczącej zgodności pomiędzy rozkładem zbioru wartości w próbie i rozkładem teoretycznym tj. hipotezy postaci:

H:{dystrybuantą badanej cechy jest F₀(x)}

Test c2 Pearsona

Weryfikacja hipotezy H:F0(x), gdy F0 jest całkowicie określona (hipoteza prosta). Rozważania dotyczą zmiennej losowej (cechy) X ciągłej albo skokowej.

Tworzymy szereg rozdzielczy z próbki x₁,…,x_n w rezultacie czego otrzymujemy następujący podział próbki na k klas:

Nr klasy	Granice klas	Liczności n_i doświadczalne
1	g₀…g₁	n₁
1	g₁…g₂	n₂
…	…	…
K	g_k-1…g_k	n_k

Jeżeli hipoteza H jest prawdziwa, to prawdopodobieństwo pi „sukcesu”, że X przyjmie wartość należącą do i-tej klasy (i=1,…,k) można obliczyć z zależności:

Tak więc wartość przeciętna liczby sukcesów spośród n niezależnych doświadczeń, które wpadną do i-tej klasy jest równa np1; wartości te dla i=1…k nazywamy licznościami hipotetycznymi w odróżnieniu od liczności doświadczalnych ni.

Za miarę rozbieżności pomiędzy grupami liczności, tzn. pomiędzy wynikami z doświadczenia i z hipotezy przyjął Pearson wartość cd2

0x01 graphic

statystyki

0x01 graphic

zależnej od zmiennych losowych Ni, których wartości ni w innej próbce mogą być inne, spełniających warunek 0x01 graphic

Zasadnicze znaczenie tej statystyki polega na tym, że jej rozkład - przy ustalonym k i założeniu prawdziwości hipotezy - gdy
ma rozkład
tzn. o k-1 stopniach swobody

ROZKŁADY ZMIENNYCH LOSOWYCH

Nazwa rozkładu	Gęstość rozkładu p_X(x)	Funkcja ϕ(t) charakterystyczna	Uwagi
Bernoulliego (dwumianowy)			Dyskretny EX = np. VX = np.(1-p)
hipergeometryczny Prawd. że k spośród n wylosowanych z N-elementowej populacji posiada jakąś cechę, jeśli M z N ją posiada na pewno			Dyskretny. EX = np. VX =
Pascala (ujemny dwumianowy) Ilość dośw. Potrzebna do uzyskania k sukcesów			Dyskretny EX=v/p VX=v(1-p)/p²
Poissona Rozkład graniczny dla (1) i (2)			Dyskretny EX = λ VX = λ
Wykładniczy Czas bezawaryjnej pracy elementu			Ciągły EX = λ VX = λ² BEZPAMIĘCIOWOŚĆ
Erlanga Suma n niezależnych losowych o rozkładzie wykładniczym			Ciągły Szczególny przypadek rozkładu Γ
Gamma			Ciągły EX=α₁=λp VX = λ²p Gdy p∈R Γ(p+1)=pΓ(p)
Beta			Ciągły EX = p/(p+q) VX = pq/((p+q)²+(p+q+1))
Normalny (gaussowski) standaryzowany:			Ciągły EX = μ VX = σ²
Laplace'a			Ciągły EX = μ VX = 2λ²
Cauchy	;λ>0		Ciągły Nie ma wartości średniej