Zmienne losowe i ich rozkłady
teoretyczne
• Zmienne i ich rodzaje
• Rozkład empiryczny a teoretyczny
• Zmienne losowe
• Funkcje opisujące rozkład zmiennej
losowej
• Parametry rozkładu zmiennej losowej
Zmienne to wielkości (parametry, cechy), które
mierzymy,
kontrolujemy
lub
którymi
manipulujemy w trakcie badań.
Ogólnie zmienne zaliczamy do jednej z dwóch
kategorii:
1. zmienne zależne (dependent variable)
2. zmienne niezależne (independent variable)
Niezależnymi nazywamy takie zmienne, których
wartości możemy dobierać i zmieniać w
doświadczeniu (są to zmienne manipulowane
przez badacza).
Zmienne zależne mogą być jedynie mierzone lub
rejestrowane przez badacza, nie ma on wpływu na
to jakie wartości przyjmują.
Rozkład empiryczny a
teoretyczny
Jednym z podstawowych pojęć statystyki jest pojęcie
rozkładu.
Mówimy o rozkładzie pewnej cechy w określonej populacji, to znaczy
sposobie przypisywania wartości cechy poszczególnym elementom
populacji.
Przykłady
Intuicyjnie możemy wytłumaczyć pojęcie rozkładu dość jasno. Jeśli wśród
ludzi połowę stanowią mężczyźni, a połowę kobiety, liczby te
przedstawiają
właśnie rozkład cechy „płci” w populacji. Jeśli zawałowi serca ulega 20%
dorosłych Polaków, to cecha „zapadalność na zawał” ma rozkład 20%:80%.
Jeśli z kolei rozpatrujemy cechę „wykształcenie” i przyjmiemy trzy
kategorie:
wyższe, średnie, mniej niż niższe, to cecha ta ma w populacji dorosłych
Polaków rozkład 9%:23%:68%.
Rozkład otrzymany na podstawie badania
populacji lub jej części nazywamy rozkładem
empirycznym (z populacji lub próby).
Oczywiście istnieją też rozkłady teoretyczne –
przykłady to rozkłady normalne, dwumianowy
czy Poissona.
Podstawową cechą rozkładów teoretycznych
jest to, że wyrażają się one przez ściśle określone
formuły matematyczne. Formuły te pozwalają
badać własności rozkładów oraz wypisywać
tablice odpowiednich prawdopodobieństw.
Dla nas najważniejszą właściwością rozkładów
teoretycznych jest zgodność rozkładu wielu cech
w rzeczywistych populacjach z owymi rozkładami
teoretycznymi.
Rozkłady teoretyczne są dobrze przebadane i
w pewnym sensie wiemy o nich wszystko, a w
każdym razie wszystko, co nas interesuje.
Ustalenie zatem, że dana cecha ma rozkład
zbliżony do rozkładu teoretycznego, pozwala
zastosować do niej naszą wiedzę o tymże
rozkładzie.
Mówiąc o rozkładach, dotykamy jeszcze jednej
ważnej
kwestii,
mianowicie
porównania
populacji.
Ogólną
ideą
wielu
testów
statystycznych jest sprawdzanie, czy dwa dane
rozkłady tej samej cechy w różnych grupach są
tożsame. Na ogół interesująca jest odpowiedź
negatywna (rozkłady są różne), co świadczy o
zróżnicowaniu zjawiska.
Pojęcie zmiennej losowej i jej rodzaje
Zmienna losowa jest to funkcja przyporządkowująca
wartości liczbowe wynikom doświadczenia losowego
(zdarzeniom elementarnym).
Z wartościami zmiennej losowej związane są
określone prawdopodobieństwa, stąd mówi się
również, że zmienna losowa jest to taka zmienna,
która przybiera różne wartości z różnymi
prawdopodobieństwami.
Wyróżniamy zmienne losowe:
- skokowa (dyskretna),
- ciągła.
W celu wyjaśnienia pojęcia zmiennej losowej
rozważmy przykład doświadczenia polegającego
na rzucie kostką sześcienną.
Zbiorem zdarzeń elementarnych jest zbiór
ścianek
E={e
1
, e
2
, e
3
, e
4
, e
5
, e
6
}
Każdemu zdarzeniu elementarnemu
przyporządkowujemy liczbę oczek na ściance.
Otrzymamy wtedy zbiór
X={1, 2, 3, 4, 5, 6}
przyporządkowany zbiorowi E.
Zmienne losowe mogą mieć jednakowe zbiory
możliwych wartości, ale prawdopodobieństwa
tych wartości mogą być różne. Każdej możliwej
wartości zmiennej losowej X przyporządkowane
jest określone prawdopodobieństwo (P), tak
P(x
i
) = p
i
Zmienna losowa skokowa (dyskretna)
- jest to zmienna
przyjmująca skończoną lub co najwyżej przeliczalną
liczbę wartości. Zmienna taką jest na przykład rzut
monetą, rzut kostką, dobowa liczba urodzeń, liczba
małżeństw w Polsce, wydajność pracy robotnika
mierzona w sztukach wyrobów na godzinę.
P
i
= P(X=x
i
)
, co oznacza prawdopodobieństwo, że zmienna
losowa X przyjmie konkretną wartość x
i
,
np.. P(x=5)
Zmienna losowa ciągła
- jest to zmienna, której zbiór
możliwych do realizacji jest nieskończony i
nieprzeliczalny, czyli może przyjmować wartości z
pewnego przedziału liczbowego. Zmienną taką jest na
przykład wzrost, waga, wiek poszczególnych osób,
grubość arkuszy blachy.
P
i
= P(X=x
i
)=0, ale p
i
=0<P(x
1
<X<x
2
)<1
, co oznacza, że
wartości zmiennej losowej X znajdują się w przedziale
od x
1
do x
2
Funkcje opisujące rozkład zmiennej losowej
Do funkcji opisujących rozkład zmiennej losowej należą:
- funkcja rozkładu prawdopodobieństwa,
- dystrybuanta dla zmiennej losowej,
- funkcja gęstości.
Niezależnie od typu, każdą zmienną losową X można
jednoznacznie określić za pomocą teoretycznej
dystrybuanty.
Dystrybuanta zmiennej losowej X nazywamy funkcje
F(x), zmiennej rzeczywistej x, określonej jako
F(x)=P(X<x)
Tak
zdefiniowana
dystrybuanta
ma
następujące
własności:
0≤F(x)≤1
F(x) jest funkcją niemalejącą
F(x) jest funkcją przynajmniej lewostronnie ciągłą
oraz
W wielu praktycznych przypadkach dystrybuanta F(x)
jest różniczkowalna i istnieje funkcja f(x)=dF(x)/dx,
zwana gęstością prawdopodobieństwa zmiennej
losowej X.
0
)
(
lim
x
F
x
0
)
(
lim
x
F
x
Parametry rozkładu zmiennej losowej
Rozkład zmiennej losowe, podobnie jak empiryczny
rozkład cechy można scharakteryzować za pomocą
parametrów rozkładu:
-
moment zwykły rzędu k zmiennej losowej,
-
moment zwykły rzędu pierwszego (wartość
oczekiwana),
-
moment centralny rzędu k zmiennej losowej,
-
moment centralny rzędu pierwszego i drugiego
(wariancja),
-
współczynnik asymetrii,
-
współczynnik skupienia,
-
mediana zmiennej losowej X to wartość Me spełniająca
nierównośći
P(X≤Me)≥0,5 i P(X ≥Me) ≥0,5
-
kwantyl rzędu p zmiennej losowej X to wartość K
p
spełniajaca nierówność
P(X≤ K
p
)≥p i P(X ≥ K
p
) ≥1-p,
0<p<1