Rozkład normalny
Kształt rozkładu prawdopodobieństwa zmiennej losowej ciągłej
Rozkład prawdopodobieństwa zmiennej losowej skokowej zadawany (określany) jest poprzez przyporządkowanie wszystkim wartościom zmiennej odpowiadającego im prawdopodobieństwa.
Rozkład prawdopodobieństwa zmiennej losowej ciągłej określany jest za pomocą tzw. funkcji gęstości prawdopodobieństwa, za pomocą której można obliczać prawdopodobieństwo uzyskania wartości tej zmiennej losowej w zadanym przedziale.
Ważnym elementem "opisu" zmiennej jest kształt jej rozkładu, który informuje o liczności występowania wartości tej zmiennej w różnych obszarach jej zmienności.
Najczęściej badacz jest zainteresowany tym, jak dobrze analizowany rozkład może być przybliżony rozkładem normalnym. Żaden z tych testów nie zastąpi jednak całkowicie wizualnej oceny rozkładu przy pomocy histogramu. Wykres taki ułatwia ocenę normalności rozkładu empirycznego, ponieważ na histogram zostaje nałożona dopasowana krzywa gęstości rozkładu normalnego. Pozwala on także zbadać jakościowo różnorakie aspekty rozkładu.
Dlaczego rozkład normalny jest ważny.
Rozkład "normalny" jest ważny dlatego, że w większości przypadków przybliża on w dostatecznym stopniu funkcję opisaną poniżej.
Rozkład wielu statystyk testowych jest rozkładem normalnym lub może być otrzymany z rozkładu normalnego.
Dokładny kształt rozkładu normalnego (charakterystyczna "krzywa dzwonowa") zdefiniowany jest przez funkcję posiadającą jedynie dwa parametry: wartość średnią i odchylenie standardowe.
Zmienna losowa X ma rozkład normalny jeśli funkcja gęstości rozkładu ma postać:
,
gdzie
,
i
są parametrami rozkładu, przy czym
jest jego wartością oczekiwaną, natomiast
wariancją. W skrócie zapisujemy:
.
Wykres funkcji gęstości dla rozkładu normalnego przedstawia rysunek.
Rys. 12. Wykres gęstości rozkładu normalnego
Rozkład normalny nazywany jest także rozkładem Gaussa (Gauss K.F., 1777-1855), zaś wykres funkcji gęstości - krzywą Gaussa.
Parametry
i
wpływają na wykres funkcji gęstości w sposób, który zilustrowano na poniższym rysunku.
Można zauważyć, że przy takiej samej wariancji, wartość oczekiwana
wpływa tylko na przesunięcie wykresu funkcji gęstości wzdłuż osi odciętych. Jeżeli natomiast wartości oczekiwane są takie same to zwiększanie wariancji powoduje spłaszczenie wykresu (pole pod funkcją gęstości jest stałe i jest równe jedności).
Reguła 3 sigm
Dla każdego rozkładu normalnego
zachodzą zależności:
.
Pierwszą i ostatnią z nich przedstawia rysunek.
Przykład. Iloraz inteligencji IQ studentów pewnej uczelni ma rozkład normalny z wartością oczekiwaną μ=110 i odchyleniem σ=10. Z reguły 3 sigm wynika, że:
około 68,3% populacji (czyli studentów w tej uczelni) ma IQ z przedziału (100, 120),
około 95,4% populacji ma IQ z przedziału (90, 130),
około 99,7% populacji ma IQ z przedziału (80, 140).
Zmienna standaryzowana
Spośród zmiennych losowych o rozkładzie normalnym wyróżnia się zmienną standaryzowaną o rozkładzie normalnym z zerową wartością oczekiwaną i jednostkową wariancją,
. Funkcja gęstości zmiennej standaryzowanej ma postać:
.
Dla dowolnej zmiennej o rozkładzie normalnym
zachodzi bardzo ważny fakt, a mianowicie, zmienna
jest zmienną o rozkładzie
. Przekształcenie zmiennej X w zmienną Z nazywamy standaryzacją. Przedstawione ono zostało na poniższym diagramie:
Zmienna standaryzowana odgrywa istotna rolę przy obliczaniu prawdopodobieństwa zdarzeń. Dowolne prawdopodobieństwo
jest całką oznaczoną w przedziale
z funkcji gęstości zmiennej X. Ponieważ całka z funkcji gęstości dla zmiennej normalnej nie daje się wyrazić przez funkcje elementarne dlatego do obliczania wartości dystrybuanty korzysta się z tablic dla zmiennej standaryzowanej. W literaturze przyjęło się oznaczać dystrybuantę zmiennej standaryzowanej grecką literą
. Należy pamiętać, iż dokonując standaryzacji zmiennej losowej X, przekształcamy w identyczny sposób końce przedziałów, tzn.
.
W tablicach statystycznych podaje się wartości dystrybuanty
dla zmiennej losowej standaryzowanej dla
. Dla wartości ujemnych
zachodzi
. Np.
. Dla zmiennej standaryzowanej wartości prawdopodobieństw obliczamy wykorzystując poniższe równości:
.
Przykład. (ciąg dalszy):
Jakie jest prawdopodobieństwo, że losowo wybrany student będzie miał IQ od 120 do 140?
Jaka część populacji ma IQ większe od 140?
Rozwiązanie: Zmienna losowa ma rozkład
.
Ad a)
Odp. Około 16% populacji studentów posiada IQ od 120 do 140.
Ad b)
Odp. Około 0,13% populacji studentów ma iloraz inteligencji wyższy niż 140.
Własności rozkładu normalnego
Zmienne losowe o rozkładzie normalnym posiadają następujące własności:
Dla dowolnych liczb rzeczywistych a i b oraz zmiennej losowej X zachodzi:
.
Jeśli
są niezależnymi zmiennymi losowymi o rozkładzie normalnym
, oraz
są dowolnymi liczbami rzeczywistymi, wówczas:
.
W szczególności, stosując własność 2 mamy:
;
.
Z powyższych własności wynikają kolejne własności dla zmiennych losowych o rozkładach normalnych:
Jeśli wszystkie niezależne zmienne
mają jednakowe rozkłady
, wówczas przyjmując w punkcie 2 wszystkie
otrzymujemy:
.
Jeśli wszystkie niezależne zmienne
mają jednakowe rozkłady
, wówczas przyjmując w punkcie 2 wszystkie
dostajemy:
.
Rozkład normalny jest jednym z najważniejszych rozkładów w statystyce matematycznej. Wynika to z następujących faktów:
Jeśli na cechę ma wpływ wiele niewielkich i niezależnych przyczyn to można uznać, że cecha ma rozkład normalny. W szczególności błędy pomiarowe mają rozkład normalny.
Wiele rozkładów dąży do rozkładu normalnego, np.
rozkład
,
rozkład
.
Wiele zmiennych, które nie posiadają rozkładu normalnego można przez odpowiednią transformację sprowadzić do zmiennych o rozkładzie normalnym.
Jeśli
są niezależnymi zmiennymi losowymi o jednakowym rozkładzie z wartością oczekiwaną μ i wariancją
to
, gdzie symbol
oznacza zbieżność asymptotyczną, tzn. zachodzącą dla dużych n. Na ogół wystarczy, gdy n>30.
Z własności 4 wynika podstawowy dla statystyki matematycznej fakt, że średnia arytmetyczna z losowej próby ma asymptotyczny rozkład normalny. Im liczniejsza jest próba tym bardziej rozkład średniej arytmetycznej jest „skupiony” wokół wartości oczekiwanej
.
Czy wszystkie statystyki testowe posiadają rozkład normalny?
Nie wszystkie, lecz większość z nich albo bezpośrednio wywodzi się z rozkładu normalnego, albo jest z nim związana, tak jak np. t, F czy Chi-kwadrat. Zazwyczaj testy takie wymagają, żeby same badane zmienne miały rozkład normalny. Nazywamy to założeniem o normalności. Wiele zmiennych faktycznie występujących w doświadczeniach posiada rozkład normalny, co stanowi dodatkowy powód, dla którego rozkład normalny odgrywa tak wielką rolę w naukach przyrodniczych. Problem powstaje wówczas, gdy ktoś usiłuje zastosować test oparty na założeniu o normalności do zmiennych, które nie posiadają rozkładu normalnego W takich wypadkach mamy zazwyczaj dwie możliwości: możemy zastosować testy nie wymagające założenia o normalności (inaczej zwane testami niezależnymi od rozkładu, zob. Statystyki nieparametryczne); przy czym jest to zazwyczaj niedogodne ze względu na małą moc takich testów i ich nieelastyczność w formułowaniu wniosków, albo mimo wszystko możemy posłużyć się testami opartymi o normalność, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Ta ostatnia możliwość opiera się na ogromnie ważnym twierdzeniu, dzięki któremu testy oparte na rozkładzie normalnym posiadają tak wielkie znaczenie. Mówi ono, że w miarę jak wzrasta liczność próbki, rozkład statystyki testowej z próby (Fisher, 1928a) zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego. Poniższa animacja ilustruje to twierdzenie. Widzimy na niej jak przy wzroście liczności próby (próby o liczności kolejno: 2,5,10,15 i 30) zmienia się rozkład z próby dla zmiennej o bardzo niesymetrycznym (skośnym) rozkładzie, który wyraźnie odbiega od normalnego.
W miarę wzrostu liczności próby (dla prób użytych do wyznaczenia rozkładu statystyki z próby) rozkład statystyki z próby upodabnia się coraz bardziej do rozkładu normalnego. Zauważmy, że dla n=30, rozkład jest "nieomal" doskonale zgodny z normalnym (jak widzimy dopasowany rozkład normalny jest bardzo bliski rozkładowi statystyki z próby). Twierdzenie to nosi nazwę "centralnego twierdzenia granicznego" (termin ten został użyty po raz pierwszy przez Pólya, 1920; ""Zentraler Grenzwertsatz"").
Rozkład chi-kwadrat
Niech
oznaczają zmienne losowe niezależne o rozkładzie normalnym
. Sumę kwadratów tych zmiennych nazywamy zmienną losową
(chi - kwadrat) z
stopniami swobody:
. Zmienną losową
po raz pierwszy zastosował E. Abbe w 1863 roku. Wykresy funkcji gęstości dla różnych stopni swobody przestawia poniższy rysunek.
Rozkład
został stablicowany. W tablicach można znaleźć taką wartość
dla której zachodzi:
.
Rozkład t-Studenta
Niech Z oznacza zmienną losową o rozkładzie normalnym
oraz V zmienną losową o rozkładzie
z
stopniami swobody, niezależną od zmiennej losowej Z. Zmienna losowa
ma rozkład t-Studenta z
stopniami swobody. Funkcję gęstości tego rozkładu podał w 1908 roku W. Gosset (1876-1937), używający pseudonimu Student. Wykresy funkcji gęstości dla różnych stopni swobody przedstawia rysunek.
Im więcej stopni swobody ma rozkład t-Studenta, tym bardziej jest zbliżony do rozkładu normalnego standaryzowanego. Rozkład ten został stablicowany. W tablicach można znaleźć wartość
taką, że
.
Rozkład F Fishera-Snedecora
Niech U i V oznaczają dwie niezależne zmienne losowe o rozkładach
z
i
stopniami swobody, tzn.
,
. Zmienna losowa
ma rozkład F Fishera (Snedecora) z
stopniami swobody. Wykresy funkcji gęstości rozkładów dla różnych liczb stopni swobody przedstawia rysunek.
Rozkład F został stablicowany. W tablicach można znaleźć taką wartość
dla której zachodzi
.
17
Wykresy funkcji gęstości rozkładu normalnego z różnymi parametrami
Reguła 3 sigm dla rozkładu normalnego
Wykresy funkcji gęstości rozkładu chi-kwadrat
Wykresy funkcji gęstości rozkładu t-Studenta
Wykresy funkcji gęstości rozkładu F Snedecora