Rozkład normalny Gaussa
Rozkład gęstości prawdopodobieństwa Gaussa konkretnej realizacji x zmiennej losowej X definiuje następująca funkcja:
.
gdzie:
- wartość oczekiwana,
- wariancja zmiennej losowej X.
Standardowy rozkład normalny, to taki, którego wartość średnia jest zerowa a wariancja równa jedności:
,
.
Rozkład ten nazywany normalnym.
Wielowymiarowy rozkład normalny. Elipsy kowariancji
Dla ogólnego przypadku n - wymiarowych zmiennych losowych X i
(n wymiarowych wektorów losowych) łączna gęstość prawdopodobieństwa wyrażona jest wzorem:
macierz
jest odwrotnością macierzy kowariancji C
Przypomnijmy, w jaki sposób wyznacza się macierz C:
.(c)
Ponieważ realizacjami zmiennej losowej X są n wymiarowe wektory
,
z którymi związany jest wektor średnich
.
(powinno się mówić o zbiorze tych wektorów
bo są to realizacje zmiennej losowej
),
to C jest wartością oczekiwaną wyznaczoną w oparciu o zbiór macierzy powstałych w wyniku podstawienia do wyrażenia (c) wszystkich możliwych realizacji (wektorów) zmiennej losowej X tj. wektorów:
.
W przypadku dwuwymiarowej zmiennej losowej X:
Zgodnie z powyższym, macierz kowariancji C ma postać:
gdzie
a poszukiwana macierz
:
.
Gdy zmienne losowe są niezależne, i
, wtedy macierz
ma postać:
.
W przypadku dwóch zmiennych losowych, rolę przedziału ufności pełnią elipsy kowariancji. Gdy zmiennych jest więcej, mówimy o elipsoidach kowariancji w przestrzeni wielowymiarowej. Pozostańmy przy elipsach kowariancji.
Aby wyznaczyć linie stałej gęstości prawdopodobieństwa, wykładnik funkcji gęstości prawdopodobieństwa
należy przyrównać do wartości stałej, np.: do 1:
Dla przypadku dwu zmiennych
o wartościach średnich
i o wariancjach
, dla których macierz
ma postać:
podstawmy powyższe wielkości do równania na elipsę kowariancji
: wówczas
Po wymnożeniu otrzymujemy równanie:
Jest to równanie elipsy na płaszczyźnie
, o osiach
i o środku w punkcie o współrzędnych
. Kąt nachylenia osi elipsy zależy od znaku i wartości współczynnika korelacji
(patrz rys.3). Trzy przedstawione na rys. 3 przypadki różnią się wartością i znakiem współczynnika korelacji
.
ρ=0, zmienne są niezależne, elipsa przechodzi w koło,
ρ>0, kąt nachylenia osi elipsy 0÷90o,
ρ<0, kąt nachylenia osi elipsy 90÷180o.
Rys.3. Elipsy kowariancji.
Rys. 4. Gęstość prawdopodobieństwa dla dwuwymiarowego rozkładu Gaussa i odpowiadająca mu elipsa kowariancji. Przypadki różnią się tylko wartością współczynnika korelacji
.
Na rysunku 4 przedstawione są gęstości prawdopodobieństwa
dla dwuwymiarowego rozkładu Gaussa i odpowiadające im elipsy kowariancji dla współczynnika korelacji: ρ=-0.5, ρ=0.0, ρ=+0.90.
Poziome przekroje tych funkcji są elipsami wzajemnie koncentrycznymi. Dla maksymalnej wartości funkcji elipsa przechodzi w punkt o współrzędnych
: rzut wierzchołka na płaszczyznę
ma współrzędne
.
Pionowe przekroje przechodzące przez wierzchołek to krzywe Gaussa, których szerokości są wyznaczone przez punkty leżące na elipsie kowariancji i są różne dla różnych przekrojów.
Wszystkie inne linie stałego prawdopodobieństwa, gdy wykładnik jest przyrównany do innej stałej c≠1, to także elipsy. Leżą one, wewnątrz (gdy c >1) lub na, zewnątrz (gdy c <1) elipsy powstałej dla c = 1.
Znaczenie elipsy kowariancji dodatkowo ilustruje Rys.5. Punkty leżące na elipsie są jednakowo prawdopodobne, co jest określone przez prawdopodobieństwo
. Każdy z punktów leżących wewnątrz elipsy jest bardziej prawdopodobny od punktu leżącego na elipsie, a każdy punkt na elipsie jest bardziej prawdopodobny od punktu leżącego na zewnątrz elipsy. Jest tak niezależnie od tego, jakie są geometryczne odległości tych punktów od środka elipsy. Ilustruje to Rys.5.
Rys.5. Względne prawdopodobieństwo dla kilku punktów dla 2-wymiarowego rozkładu normalnego. Punkty na elipsie:
, punkt wewnątrz elipsy:
, punkt na zewnątrz elipsy:
Gdyby x miało nie 2 wymiary, lecz n wymiarów, wówczas analogiczne rozumowanie doprowadziłoby do równania:
Jest to równanie elipsoidy w przestrzeni n-wymiarowej, to tzw. hiperpowierzchnia. Interpretacja i właściwości są takie same jak w przypadku 2-wymiarowym.
Pobieranie próby
Próbą nazywamy skończony zbiór doświadczeń dokonywanych w celu określenia rozkładu badanej zmiennej. Najczęściej zmierzamy do wyznaczenia parametrów znanego rozkładu, np. wartości średniej i wariancji dla rozkładu normalnego. Zbiór wszystkich możliwych doświadczeń jest zazwyczaj nieskończony i nazywamy go populacją generalną. Próba n - wymiarowa, to taka, która zawiera n elementów. Na przykład: W wybranej szkole badamy wzrost uczniów z klas pierwszych. Mamy 6 klas po 30 uczniów. Zatem zbiór wszystkich możliwych przypadków, populacja generalna, to 180 uczniów. W każdej klasie badamy 10 uczniów. Oznacza to, że pobrano próbę 60-wymiarową. Załóżmy, że pobraliśmy p prób n - wymiarowych dla zmiennej x:
próba 1-sza (ważymy uczniów z klasy nr 1) |
(n=10 wyników pomiaru) |
............. |
..................... |
próba i-ta (ważymy uczniów z klasy nr i) |
(n=10 wyników pomiaru) |
............. |
.................... |
próba p-ta (ważymy uczniów z klasy nr p=6) |
(n=10 wyników pomiaru) |
Aby pobieranie próby było pobieraniem losowym, łączna gęstość prawdopodobieństwa badanej zmiennej losowej
musi spełniać następujące warunki formalne:
poszczególne
muszą być niezależne, tzn.
,
poszczególne rozkłady muszą być jednakowe i identyczne z rozkładem
dla populacji generalnej, tzn.
=...=
=
.
(w klasach są dzieci w równym wieku, żadna klasa nie skupia np. samych przerośniętych repetentów).
Należy podkreślić, że w rzeczywistym pobieraniu próby często dosyć trudno jest zapewnić pełną losowość procesu. o ile 1-szy warunek można zweryfikować porównując poszczególne rozkłady, o tyle warunek 2-gi, odnoszący się do populacji generalnej czasami jest niełatwy do sprawdzenia.
Aby móc posłużyć się wynikami z próby do wyznaczenia parametrów rozkładu, po prostu zakładamy, że próba została pobrana losowo. Nie mamy innej możliwości, należy jednak wiedzieć, co to założenie oznacza.
Funkcja zmiennej losowej x, będąca sama zmienną losową, to statystyka. Ważnym przykładem takiej statystyki jest wartość średnia z próby:
.
Kolejna n - wymiarowa próba tej zmiennej losowej dostarczy kolejną średnią. W tym sensie wartość średnia z próby jest zmienną losową:
Rozważmy obecnie typowy problem, będący przedmiotem zainteresowania analizy danych: załóżmy, że znamy analityczną postać funkcji, ale nie znamy jednego (lub więcej) parametrów tej funkcji. Parametr ten (parametry) chcemy wyznaczyć na podstawie próby. Mamy tu do czynienia z problemem estymacji parametrów. Estymowane parametry są wyznaczane z próby, są to, więc statystyki zwane estymatami, estymatorami (nowa próba, to nowa wartość estymat). Oznaczmy jako
pewien estymator (np. estymator parametru o prawdziwej wartości a wyznaczany jako średnia na podstawie n-wymiarowej próby
).
Estymator S nazywamy nieobciążonym, jeśli dla każdego n.
Estymator S nazywamy zgodnym, jeśli
.
Estymator nieobciążony i zgodny to taki, którego średnia i wariancja jest równa wartości rzeczywistej.
(Estymatory zgodne - ze wzrostem liczebności próbki są (stochastycznie) zbieżne do wartości estymowanego parametru. (
).
Wartość średnia z próby i wariancja z próby
Pamiętamy, że średnia arytmetyczna z próby (
) to nie jest to samo, co wartość oczekiwana (
):
, zachodzi natomiast
.
Oznacza to, że wartość oczekiwana zmiennej losowej, (jaką jest średnia z próby) jest równa wartości oczekiwanej tej zmiennej. Inaczej mówiąc: to średnia z wielu średnich staje się bliska wartości oczekiwanej. Nie dotyczy to jednej, dowolnej z takich średnich
.
Uporządkujemy wyrażenia dotyczące średnich, wariancji i dokładności. Załóżmy, że zmienna losowa x jest mierzona n-krotnie. Pobieramy, więc próbę o liczebności n z populacji generalnej o gęstości prawdopodobieństwa
odpowiadającej np. rozkładowi normalnemu. Jest to najczęściej spotykana sytuacja pomiarowa.
Dla populacji generalnej |
Dla próby n-wymiarowej pobranej z populacji generalnej |
||
Wartość średnia |
|
Wartość średnia |
|
Wariancja z populacji |
|
Wariancja z próby |
|
- |
- |
Wariancja wartości średniej |
|
- |
- |
Błąd dowolnego elementu próby |
|
- |
- |
Błąd wartości średniej |
|
12