ROZKŁAD NORMALNY GAUSSA I JGO ZASTOSOWANIE
Rozkład normalny (rozkład Gaussa) jest rozkładem, któremu podlega wiele zjawisk świata fizycznego, np. waga oraz wzrost populacji ludzi.
Zmienna losowa X ma rozkład normalny z wartością oczekiwaną równą m i odchyleniem standardowym równym σ
, jeśli jej funkcja gęstości ma następującą postać:
Wykres funkcji gęstości rozkładu normalnego określany jest jako krzywa normalna, która przyjmuje następującą postać:
Dystrybuanta rozkładu normalnego ma postać:
Wykres dystrybuanty zmiennej losowej
przyjmuje następującą postać:
Wartość oczekiwana i wariancja dla rozkładu normalnego wyrażane są następującymi wzorami:
Parametr m oznacza średnią zmiennej losowej X o rozkładzie normalnym, natomiast parametr σ oznacza jej odchylenie standardowe.
Krzywa gęstości rozkładu normalnego ma następujące własności:
jest symetryczna względem prostej x = m,
osiąga maksimum równe
dla x = m,
jej ramiona mają punkty przegięcia dla x = m - σ oraz x = m + σ.
Wartość parametru m decyduje o położeniu krzywej normalnej względem osi x. Im średnia przyjmuje większe wartości, tym krzywa jest bardziej przesunięta w prawo. Wartość parametru σ determinuje natomiast „smukłość” krzywej. Im odchylenie standardowe jest większe, tym krzywa jest bardziej spłaszczona.
Możliwość sprowadzenia dowolnego rozkładu normalnego do postaci standardowego rozkładu normalnego, którego funkcja gęstości i dystrybuanta zostały stablicowane. Standardowym rozkładem normalnym nazywamy rozkład normalny ze średnią równą 0 oraz odchyleniem standardowym równym 1 i oznaczamy N(0,1).
Zmienną losową, która ma standardowy rozkład normalny oznacza się literą U, jej funkcję gęstości φ(u), natomiast dystrybuantę Φ(u).
Wykres funkcji gęstości standardowego rozkładu normalnego przyjmuje następującą postać:
Wykres dystrybuanty standardowego rozkładu normalnego przyjmuje postać:
Dystrybuanta standardowego rozkładu normalnego charakteryzuje się następującymi własnościami:
Ze względu na fakt, iż w tablicach najczęściej podawane są wartości tylko dla dodatnich u, przy wyznaczaniu wartości dla ujemnych u należy skorzystać z następujących własności funkcji φ(u) i Φ(u):
W celu obliczenia prawdopodobieństwa P(a < X ≤ b) należy skorzystać z operacji nazywanej standaryzacją. Jeśli zmienna losowa X ma rozkład
to zmienna standaryzowana
ma rozkład N(0,1). Na tej podstawie można wyznaczyć:
Wartości
i
odczytuje się z tablic dystrybuanty standardowego rozkładu normalnego.
Z rozkładem normalnym związana jest tzw. reguła trzech sigm, zgodnie z którą praktycznie wszystkie obserwacje dokonywane na zmiennej losowej o rozkładzie normalnym mieszczą się w przedziale (m-3σ, m+3σ). Reguła trzech sigm jest wykorzystywana w badaniach statystycznych do eliminacji obserwacji niewiarygodnych. Obserwacje niewiarygodne to obserwacje, których wartość różni się od średniej o więcej niż trzy odchylenia standardowe. Przyjmuje się, iż zmienne, które odbiegają tak znacznie od średniej mogą być skutkiem błędu pomiaru. Dla realizacji zmiennej losowej o dowolnym rozkładzie normalnym około 68,3% obserwacji mieści się w granicach jednego odchylenia standardowego wokół średniej, 95,5% obserwacji mieści się w granicach dwóch odchyleń standardowych i 99,7% w granicach trzech odchyleń standardowych.
Występowanie
Rozkład normalny (lub wielowymiarowy rozkład normalny) jest częstym założeniem w praktyce, jednak w świecie rzeczywistym nigdy nie występuje. Rozkład normalny ma bowiem niezerową gęstość prawdopodobieństwa dla dowolnej wartości zmiennej losowej, podczas gdy w realnym świecie zmienne są zawsze ograniczone, a często nieujemne.
Mimo to, rozkład jest często bardzo zbliżony do normalnego, stąd zwykle zakłada się, że zmienna ma rozkład normalny. Nie należy jednak robić tego bez sprawdzenia jak wielkie są rozbieżności. Rozkłady dalekie od normalnego (np. z elementami odstającymi) mogą sprawić, że wyniki metod statystycznych będą mylnie interpretowane.
Przykładem są tu metody regresji liniowej oraz korelacji Pearsona, które choć zdefiniowane dla dowolnych rozkładów, mają sensowną interpretację tylko dla wielowymiarowego rozkładu normalnego wektora próbki. Jeśli w próbce występują elementy odstające (co jest szczególnym przypadkiem rozkładu dalekiego od normalnego), korelacja może przyjąć dowolną wartość między -1 a +1, bez względu na rzeczywistą zależność między zmiennymi losowymi. Także regresja będzie dawała błędne rezultaty.
Inteligencja
Inteligencja mierzona testami inteligencji uważana jest za zmienną o rozkładzie normalnym. Oczywiście w praktyce testy dają wyniki skwantowane, a nie ciągłe, w dodatku ich wyniki są ograniczone do pewnego przedziału. Przybliżenie jest jednak wystarczające.
Wzrost
Podobnie wzrost człowieka może być uznany w przybliżeniu za zmienną o rozkładzie normalnym. Musimy wtedy oczywiście założyć że wartość oczekiwana rozkładu wynosi np. 170cm, aby przypadek "ludzi o ujemnym wzroście" miał znikomo małe prawdopodobieństwo.
Natężenie źródła światła
Natężenie światła z pojedynczego źródła zmienia się w czasie i zazwyczaj zakłada się, że ma rozkład normalny. Jednak zgodnie z mechaniką kwantową światło jest strumieniem fotonów. Zwykłe źródło światła, świecące dzięki termicznej emisji, powinno świecić w krótkich przedziałach czasu zgodnie z rozkładem Poissona lub rozkładem Plancka (statystyką Bosego-Einsteina). W dłuższym przedziale czasowym (dłuższym niż czas koherencji) dodawanie się do siebie niezależnych zmiennych prowadzi w przybliżeniu do rozkładu normalnego.
Błędy pomiaru
Wielokrotne powtarzanie tego samego pomiaru daje wyniki rozrzucone wokół określonej wartości. Jeśli wyeliminujemy wszystkie większe przyczyny błędów, zakłada się, że pozostałe mniejsze błędy muszą być rezultatem dodawania się do siebie dużej liczby niezależnych czynników, co daje w efekcie rozkład normalny. Odchylenia od rozkładu normalnego rozumiane są jako wskazówka, że zostały pominięte błędy systematyczne. To stwierdzenie jest centralnym założeniem teorii błędów.