Statystyka - zajmuje się zbieraniem i przetwarzaniem informacji
- nauka poświęcona metodom badania (analizowania) zjawisk masowych i polega na systematyzowaniu obserwowanych cech ilościowych i jakościowych oraz przedstawieniu wyników w postaci zestawień tabelarycznych, wykresów itp. ; posługuje się rachunkiem prawdopodobieństwa Statystyka matematyczna - dział matematyki stosowanej opartej na rachunku prawdopodobieństwa
- zajmuje się badaniem zbiorów na podstawie znajomości własności ich części.
Populacja -
Wnioski o populacji
zjawisko
masowe
- pytania dotyczące
całej zbiorowości
Próba - część
Wnioski z próby
zbiorowości
(uogólnienie)
Populacja - zbiór obiektów z wyróżnioną cechą (cechami); określenie tej cechy jest bardzo istotne.
Próba - wybrana część populacji podlegająca pełnemu badaniu.
- statyczna
część, wybrana, ustalona część zbiorowości
-
z próby przenosimy wnioski na populację
Cecha - wielkość losowa charakteryzująca obiekty danej populacji
-
statystyka opisuje mechanizm losowy pewnej zbiorowości na podstawie cechy Rodzaje cech:
1) cecha jakościowa - cecha przyjmująca wartości nie będące liczbami (np. kolor, płeć) - opis struktury tych cech (% udział)
2) cecha (ilościowa) skokowa - cecha przyjmująca pewne wartości liczbowe i nie przyjmująca wartości pośrednich (np. ilość bakterii, ilość pracowników) →in. dyskretne 3) cecha (ilościowa) ciągła - cecha przyjmująca wartości z pewnego przedziału liczbowego (np. waga, zarobki) Opis przypadkowości cech:
Zmienna losowa = cecha - wielkość o wartościach rzeczywistych, określona na zbiorze zdarzeń elementarnych.
• rozkład zmiennej losowej skokowej:
X1
X2
X3 ...
p1
p2
p3 ...
Przykład: rzut kostką, ilość pracowników
- nie przyjmuje ona żadnych wartości między X1 a X2
Dystrybuanta - za jej pomocą opisuje się rozkład zmiennej losowej, ukazuje prawdopodobieństwo zdarzeń, że zmienna przyjmie wartość poniżej danej wartości
funkcja
gęstości
Rozkład zmiennej losowej: zbiór wartości zmiennej losowej oraz prawdopodobieństwa z jakim są te wartości przyjmowane.
• charakterystyki liczbowe zmiennych losowych:
Wartość oczekiwana (średnia) - EX zmiennej losowej X jest liczbą charakteryzującą położenie zbioru jej wartości.
Wariancja - D2X zmiennej losowej jest liczbą charakteryzującą rozrzut zbioru jej wartości wokół wartości średniej EX.
Odchylenie standardowe - DX zmiennej losowej X jest liczbą charakteryzującą rozrzut zbioru jej wartości wokół wartości średniej EX.
DX = D2X
Frakcja - in. wskaźnik struktury, udział wyróżnionych przez nas elementów w całości.
Jeżeli A jest danym podzbiorem zbioru wartości zmiennej losowej X, to frakcją nazywamy liczbę: p = {
P X ∈ }
A
Rozkład dwumianowy (Bernoulliego) B(n; p).
Zmienna losowa X ma rozkład B(n; p), jeżeli:
n - ilość wylosowanych obiektów
p - prawdopodobieństwo sukcesów
n
P n;k {X = k} = ( ) pk(1 - p)n-k
k∈<0; n)
k
EX = np
D2X = np(1 - p)
Porażka: q = 1 - p
q - prawdopodobieństwo porażki w jednej próbie
Rozkład normalny N( µ,δ 2)
Zmienna losowa X ma rozkład normalny o wartości średniej µ i wariancji δ 2, jeżeli jej funkcja gęstości wyraża się wzorem:
1
δ
x − µ )2
-
µ ,δ2(x) =
e -1/2(
∞ < x < ∞
δ
Π
2
δ
- służy do badania zjawisk ciągłych
Standaryzacja - sprowadzenie od pewnego standardu.
Jeżeli X ~ N (µ , δ2) to:
x − µ
Z =
~ N(0; 1)
δ
a − µ b − µ
b − µ
a − µ
P{x∈(a; b)} = P{Z∈
;
} = F
- F
δ
δ
δ
δ
δ - odchylenie standardowe
F - dystrybuanta standardowego rozkładu normalnego
Prawo trzech sigm:
P{ | X - µ | < δ } = 0,68268 ≈ 0,68
- prawdopodobieństwo trafienia na wartość z przedziału <µ - δ ; µ + δ> wynosi około 68%
P { | X - µ | < 2δ } = 0,95550 ≈ 0,95
P { | X - µ | < 3δ } = 0,99730 ≈ 0,997
99,7%
95%
68%
δ
δ
δ
δ
δ
δ
µ - δ
µ
µ + δ
X
Rozkład Poissona: Po(λ)
Zmienna losowa X ma rozkład Po(λ ), gdy:
k
λ
P { X = k } =
-λ
e
k = 0, 1, 2, ...
k!
EX = λ
D2X = λ
- stosuje się go do opisu zjawisk rzadkich (liczba sukcesów jest niewielka, liczba powtórzeń jest nieskończona
Estymacja Parametrów Rozkładu Cech:
oszacowanie
przybliżenie
• Estymujemy parametr θ rozkładu cechy X.
1. zebrane
informacje:
Próba: X1, X2, ..., Xn
Estymator (punktowy) jest funkcją próby:
∧
∧
θ = θ (X1; X2; ...; Xn)
w
"rozsądny" sposób przybliżający wartość parametru θ.
sposób "rozsądny" = wiarygodny
Przedział ufności (estymator przedziałowy) - jest podziałem o końcach zależnych od próby, który z pewnym z góry zadanym prawdopodobieństwem pokrywa nieznaną wartość parametru θ.
P { θ ∈ (θ ( X1; ...; Xn ) , θ ( X1; ...; Xn ) ) } = 1 - α
Poziom ufności - ustalone prawdopodobieństwo 1 - α
Żądanie: jak najkrótszy przedział
Na długość d przedziału ufności wpływają:
1) liczność próby ( n↑ ⇒ d↓ )
2) poziom
ufności ( 1 - α↑ ⇒ d↑ )
3) wariancja,
zróżnicowanie cechy ( δ2↓ ⇒ d↓ )
Estymacja parametrów cechy X o rozkładzie normalnym N(µ ; δ2) Próba (prosta): X1, X2, .., Xn
• Estymator (punktowy) średniej - średnia arytmetyczna n
1
X 1 + ... + X
X =
X
n
∑ =
n
i
i=1
n
X - średnia arytmetyczna
• Estymator (punktowy) wariancji - wariancja próbkowa: n
1
S 2 =
∑( X X 2)
i −
n −1 i=1
• Suma kwadratów odchyleń od średniej:
n
n
2
2
2
var X =
( X
∑ − X) = X
∑ − nX
i
i
i 1
=
i 1
=
• Estymator (punktowy) odchylenia standardowego:
2
S = S
Przedział ufności dla średniej w rozkładzie normalnym:
- wariancja
δ2 jest nieznana
-
wybieramy poziom ufności 1 - α
(
S
X − t
;
S
X
α
+ t
)
( , n− )
1
(α , n− )
1
n
n
t(α, ν) jest stablicowaną wartością krytyczną rozkładu t - Studenta z ν stopniami swobody.
------------------------------------
Przykład. Na podstawie próby 1.1; 1.2; 0.8; 0.9; 1.2; 1.0; 1.3; 0.7; 0.8 oszacować wartość średnią rozkładu obserwowanej cechy.
X = 1.0
var X =
1
.
1
(
−
)
0
.
1
2 + ... + 0
.
1
(
−
)
0
.
1
2 = 36
.
0
2
36
.
0
S =
= 04
.
0
2
S = S =
2
.
0
10 −1
Poziom ufności: 1- α = 0.95
α = 0.05
t(0.05;9) = 2.2622
S
2
.
0
t
=
(0.05;9)
2622
.
2
= 1
.
0 4
n
10
(1 - 0.14 ; 1+ 0.14) = ( 0.86 ; 1.14)
Wniosek: Średnia wartość cechy jest jakąś liczbą z przedziału (0.86 ; 1.14). Zaufanie do tego wniosku wynosi 95%.
-----------------------------------
• Estymacja prawdopodobieństwa sukcesu p:
p - frakcja, wskaźnik struktury
Próba: X1; X2; ...: Xn (Xi = 0 lub Xi = 1)
n
k = ∑ X - ilość sukcesów (jedynek) i
i=1
Wniosek: Frakcja obiektów jest około wartości k .
∧
∧
∧
p 1
( −
p + U
*
p )
α
- przedział ufności
1−
n
2
∧
k
Estymator punktowy: p =
n
U α - kwantyl standardowego rozkładu normalnego N(0; 1) 1− 2
Weryfikacja Hipotez Statystycznych:
--------------------------
Przykład. Producent detali twierdzi, że wadliwość jego produkcji nie przekracza 2%. Odbiorca chce sprawdzić czy może wierzyć producentowi. Jak ma to zrobić?
1. zakładamy, że partia ma wadliwość 2%
2. pobierana jest próba elementów z partii towaru (np. 100 szt.) k
P{X = k}
P{X > k}
0
0,135335
1,0000
1 0,270671 0,864665
2
0,270670
0,593994
3
0,180447 0,323324
.
.
.
.
.
.
.
.
.
3. wnioskowanie: zaobserwowano k = 7 wadliwych (na 100 szt.)
• przypuszczenie jest słuszne i próba "pechowa"
• próba jest "dobra", a przypuszczenie złe Uznać twierdzenie producenta za nieprawdziwe!
Zaobserwowano co najmniej siedem wadliwych.
Ostatecznie: Po zaobserwowaniu więcej niż sześciu wadliwych elementów raczej uznać twierdzenie producenta za nieprawdziwe. W przeciwnym przypadku można uznać twierdzenie producenta za uzasadnione.
---------------------------
Hipoteza statystyczna - to dowolne przypuszczenie dotyczące rozkładu prawdopodobieństwa cechy (ozn. Ho) Test hipotezy statystycznej - to postępowanie mające na celu odrzucenie lub nie odrzucenie hipotezy statystycznej.
Statystyka testowa - funkcja próby na podstawie której wnioskuje się o odrzuceniu lub nie hipotezy statystycznej.
Rzeczywistość
Wnioskowanie o hipotezie Ho:
Hipoteza
Ho
nie odrzucać
odrzucić
Prawdziwa prawidłowy
nieprawidłowy
Nieprawdziwa
nieprawidłowy
prawidłowy
Błąd I rodzaju - błąd wnioskowania polegający na odrzuceniu hipotezy, gdy w rzeczywistości jest ona prawdziwa.
Błąd II rodzaju - błąd wnioskowania polegający na odrzuceniu hipotezy, gdy w rzeczywistości jest ona fałszywa.
Poziom istotności - ryzyko popełnienia błędu związane z hipotezą. Dowolna liczba z przedziału (0; 1) określająca prawdopodobieństwa popełnienia błędu I rodzaju.
----------------------------
Przykład. Cecha X ma rozkład normalny N(µ ; δ2). Średnia µ oraz wariancja δ2 są nieznane.
Ho: µ = µo
Test Studenta (poziom istotności α)
Próba: X1; ..; Xn
X ; S2
Statystyka testowa:
X − µ
t
o
=
n
emp
s
Wartość krytyczna: t α; n-1
-----------------------------
• Jeżeli | temp | > t α; n-1 to hipotezę Ho: µ = µo odrzucamy.
• Jeżeli | temp | ≤ t α; n-1 to hipotezy Ho: µ = µo nie odrzucamy, czyli hipoteza może być prawdziwa (brak dowodów na to, że jest fałszywa)
-----------------------------
Przykład. Przypuszczenie: maszyna pakująca masło nastawiona na 250 g ulega po pewnym czasie rozregulowaniu.
Cecha X: masa kostki masła ( X ~ N(µ ; δ2 ))
Ho: µ = 250
t - Studenta; poziom istotności α = 0,05
Próba: 254, 269, 254, 248, 263, 256, 258, 261, 264, 258.
Obliczenia:
X = 258,5
S2 = 36,05
temp = 4,47
Wnioskowanie:
wartość krytyczna: t 0.05;9 = 2,2622
4,47 > 2,2622 : hipotezę odrzucamy.
Stwierdzamy, że maszyna rozregulowała się.
-------------------------------
Przedział ufności a test hipotezy Ho: µ = µo
Cecha: X ~ N(µ ; δ2)
Ho : µ = µo
Ho nie odrzucamy na poziomie istotności α.
| temp | < t α; n-1
X − µ
- t
o
α; n -1 <
n < t α; n - 1
s
µ ∈ (
s
X − t
;
s
X
α
+ t
)
o
; n 1
−
α; n 1
−
n
n
µo należy do przedziału ufności na poziomie ufności 1 - α.
Copyright © AgAtA. All rights reserved.