01.
PODSTAWOWE
POJĘCIA
I
ROZKŁADY
STATYSTYCZNE
1 P
ODSTAWOWE POJĘCIA
Celem STATYSTYKI jest opisywanie w matematyczny sposób wyników
obserwacji/doświadczenia/eksperymentu będącego doświadczeniem losowym.
Cecha statystyczna – właściwość populacji, która jest przedmiotem badania
statystycznego.
Populacja generalna – zbiorowość statystyczna, zbiór wszystkich elementów
podlegających obserwacji pod względem pewnej wybranej cechy, np. średnica
wewnętrzna wszystkich tulei wyprodukowanych w ciągu jednej zmiany.
Próba statystyczna – zbiór elementów wylosowanych z populacji generalnej. Oczekuje
się, że pobrana próba będzie reprezentatywna względem populacji generalnej. Oznacza
to, że wyliczone na podstawie próby statystyki (np. średnia, odchylenie standardowe,
wariancja), rozkłady prawdopodobieństwa lub zależności pomiędzy badanymi cechami,
nie będą się istotnie różnić od tych wielkości w populacji generalnej. W tym celu
konieczne jest:
♦ właściwe dobranie do próby elementów z populacji generalnej. Najczęściej
poprzez losowanie ze zwracaniem, czyli każdy element ma taką samą szansę na
dostanie się do próby;
♦ pobranie do próby odpowiednio dużej liczby elementów (liczność próby). Im
większa próba, tym wynik jest bardziej wiarygodny, ale również rosną koszty
takiego badania.
Zdarzenie elementarne – dowolny możliwy wynik doświadczenia/obserwacji, np. rzut
kostką ma 6 zdarzeń elementarnych.
Zmienna losowa (X) – funkcja przyporządkowująca zdarzeniom elementarnym liczby
rzeczywiste:
♦ ciągła – może przybierać dowolną wartość, np. ciężar, grubość blachy;
♦ dyskretna – skokowa, może przybierać tylko niektóre wartości liczbowe,
najczęściej liczby naturalne, np. liczba wadliwych detali w serii, liczba ‘oczek’ na
kostce, wypadnięcie orła lub reszki w rzucie monetą.
Realizacja zmiennej losowej (x) – zaobserwowana wartość zmiennej losowej.
populacja
próbka
cecha
zdarzenie el.
zmienna losowa
realizacja
seria tulei
30 szt.
średn. wew.
odczytana wart. wartość średnicy
24,5
mm
Rozkład prawdopodobieństwa:
♦ zmiennej losowej dyskretnej – zestawienie możliwych wartości zmiennej losowej z
ich prawdopodobieństwami;
(
)
∑
∞
=
=
i
i
x
X
P
1
♦ zmiennej losowej ciągłej – gęstość rozkładu prawdopodobieństwa;
( )
∫
∞
∞
−
= 1
dx
x
f
;
Dystrybuanta
♦ określa prawdopodobieństwo tego, że zmienna losowa X przyjmuje wartości ≤ x –
( )
(
)
x
X
P
x
F
≤
=
;
♦ jeżeli zmienne losowe mają takie same dystrybuanty, to znaczy, że mają taki sam
rozkład – dystrybuanta w pełni charakteryzuje rozkład prawdopodobieństwa;
♦ przyjmuje wartości z przedziału
( )
[ ]
1
,
0
∈
x
F
i jest niemalejąca;
♦ prawdopodobieństwo, że zmienna losowa X przyjmuje wartości należące do
przedziału [a,b], jest równe przyrostowi dystrybuanty na tym przedziale -
(
)
( )
( )
a
F
b
F
b
X
a
P
−
=
≤
≤
;
♦ dla ciągłej zmiennej losowej, dystrybuanta też jest ciągła, dla dyskretnej –
dyskretna:
Wartość oczekiwana/przeciętna/średnia/nadzieja matematyczna
EX
– spodziewany
wynik doświadczenia losowego. Charakteryzuje miejsce skupienia rozkładu.
Odchylenie standardowe
DX
– miara zmienności, podstawowa miara charakteryzująca
rozproszenie wartości zmiennej losowej wokół jej średniej
[=ODCH.STANDARDOWE(dane)]
Wariancja
D
2
X
– miara zmienności, kwadrat odchylenia standardowego, średnia
arytmetyczna kwadratów różnic miedzy poszczególnymi wartościami cechy a wartością
oczekiwaną.
[=WARIANCJA(dane)]
Oznaczenia głównych statystyk
statystyka
populacja
generalna
próba
rozkład normalny
średnia
EX
x
m
odch.stdt
DX
s
σ
wariancja
D
2
X
s
2
σ
2
liczność próby
---
n
---
2 R
OZKŁADY CIĄGŁE
2.1
R
OZKŁAD NORMALNY
/G
AUSSA
/
NATURALNY
/
KRZYWA DZWONOWA
[=ROZKŁAD.NORMALNY(dane)]
EX =
m
D
2
X =
σ
2
Zmiana położenia rozkładu normalnego
w zależności od wartości oczekiwanej
Kształt rozkładu normalnego w zależności
od wartości odchylenia standardowego
Zapis skrócony: N(m, σ)
Standardowy rozkład normalny: N(0, 1)
Charakterystyka:
♦ jeden z najważniejszych rozkładów prawdopodobieństwa, gdyż często opisuje
zjawiska w przyrodzie, technice, medycynie, ekonomii, socjologii itd.;
♦ Centralne Twierdzenie Graniczne mówi, że jeżeli badana cecha wynika z wielu
różnych czynników, to cecha ta ma rozkład zbliżony do normalnego, bez względu
na rozkłady każdego z tych czynników z osobna;
♦ łatwy matematycznie;
♦ wiele zjawisk, które nie podlegają rozkładowi normalnemu, po odpowiedniej
transformacji /np. zlogarytmowanie zmiennej losowej/ mogą być opisane
rozkładem normalnym;
♦ jest modelem losowych błędów pomiarów i losowych zakłóceń przesyłanych
sygnałów;
♦ około 68% wszystkich wartości zmiennej losowej znajduje się pod wykresem
gęstości rozkładu normalnego w odległości jednego odchylenia standardowego od
średniej, następnie 95,5% w odległości 2σ i 99,7% w odległości 3σ /patrz rysunek
poniżej/
σ
2σ
3σ
6σ
6σ
3σ
2σ
σ
m
2.2.
R
OZKŁAD
χ
2
Jeżeli niezależne zmienne losowe X
1
, X
2
, …, X
n
mają rozkład normalny N(0,1), to zmienna
losowa
∑
=
=
n
i
i
X
1
2
2
χ
ma rozkład zwany rozkładem
χ
2
o
ν
= n – 1 stopniach swobody
/liczba niezależnych składników zmiennej losowej
χ
2
/. Alternatywną definicją zmiennej
losowej
χ
2
jest
2
2
2
σ
χ
nS
=
.
EX =
ν
D
2
X = 2
ν
Charakterystyka:
♦ wraz ze wzrostem liczby stopni swobody /liczności próby/ zbliża się do rozkładu
normalnego,
♦ jest stosowany w estymacji przedziałowej /gdy badana cecha w populacji
generalnej
ma
rozkład
normalny/,
w
testach
parametrycznych
i
nieparametrycznych dla małych prób.
2.3.
R
OZKŁAD T
-S
TUDENTA
Jeżeli niezależne zmienne losowe X
1
, X
2
, …, X
n
mają rozkład normalny N(m, σ), to
zmienna losowa
ν
S
m
X
t
−
=
ma rozkład zwany rozkładem t-Studenta.
Jedynym
parametrem
tego
rozkładu
jest
liczba
stopni
swobody
ν
i oblicza się ją
ν
= n – 1.
EX =
0
D
2
X =
2
−
ν
ν
Charakterystyka:
♦ jest symetryczny;
♦ jest bardziej spłaszczony, niż rozkład normalny, ale dla dużych wartości
ν
zmierza
do N(0, 1);
♦ jest stosowany w estymacji przedziałowej /gdy badana cecha w populacji
generalnej ma rozkład normalny/, w testach parametrycznych dla małych prób.