rozklad normalny

Rozkład normalny

Jest rozkładem empirycznym, czyli przyporządkowaniem kolejnym wartościom zmiennej

odpowiadających im liczebności ( 0x01 graphic
).
Rozkłady empiryczne są ustalane na podstawie konkretnych obserwacji, a umiejętność
odróżnienia różnych ich typów jest nieodzownym warunkiem prawidłowej analizy statystycznej.

Od ich rodzaju zależy bowiem dobór odpowiednich charakterystyk służących do opisu zbiorowości.

Rozkład normalny jest najczęściej spotykanym rodzajem rozkładu empirycznego. Wynika to z faktu,
iż wiele zjawisk, zwłaszcza przyrodniczych, kształtuje się wg takiego właśnie rozkładu.^[1]

2. Jest to rozkład teoretyczny, charakteryzujący się określonymi właściwościami. Jest on rozkładem
symetrycznym (czyli liczebności odpowiadające wartościom zmiennej rozkładają się symetrycznie
wokół liczebności największej). Każdy rozkład normalny jest rozkładem symetrycznym, ale nie każdy rozkład
symetryczny jest rozkładem normalnym, ponieważ do rozkładów symetrycznych należą także
rozkłady leptokurytyczne (czyli wysmukłe) oraz platokurtyczne (spłaszczone),
które nie są normalnymi.

Kolejną właściwością tego rozkładu jest jedno maksimum oraz ściśle określona kurtoza
(czyli koncentracja wartości zmiennej wokół średniej arytmetycznej)
</div> Wykres rozkładu normalnego ma postać krzywej w kształcie dzwonu. W punkcie centralnym
rozkładu znajduje się średnia arytmetyczna, a także dominanta i mediana.
Z tego wynika, że średnia arytmetyczna jest wartością cechy najczęściej spotykaną
w badanej zbiorowości.

Rozkład normalny zmiennej losowej ciągłej jest opisywany następującą funkcją:

f(x)= ( 0x01 graphic
)

gdzie

0x01 graphic
= exp

gdzie: f(x)- funkcja gęstości rozkładu normalnego 0x01 graphic
(x)- odchylenie standardowe zmiennej ciągłej x

0x01 graphic
= 3,1416

e= 2,1718

E(x)- wartość oczekiwana zmiennej ciągłej x

Wykres funkcji f jest krzywą symetryczną względem prostej o równaniu:

x= E(X)

mającą oś Ox jako asymptotę, maksimum absolutne w punkcie x= E(x) równe 0x01 graphic
,
oraz dwa punkty przegięcia w odległości
od osi symetrii.

Dla różnych wartości oczekiwanych i różnych odchyleń standardowych otrzymujemy
różne postacie (różne kształty) krzywej normalnej mające ten sam charakter ogólny i te same
właściwości. Mamy więc do czynienia nie z jedną krzywą normalną, lecz z całą 'rodziną' krzywych.
W miarę oddalania się od wartości oczekiwanej E(x) w kierunku wartości wyższych i niższych, krzywa zbliża się asymptotycznie
do osi x. W rozkładzie normalnym częstotliwość pojawiania się zdarzeń o średniej wartości badanej cechy jest zatem największa, lub,
mówiąc inaczej, prawdopodobieństwo wystąpienia takiego zdarzenia jest najwyższe.
Częstość pojawiania się zdarzenia (prawdopodobieństwo wystąpienia) maleje odpowiednio do wzrostu
odchylenia zmiennej losowej od jej wartości oczekiwanej.
Warto zapamiętać, że przy wzroście wartości oczekiwanej zmiennej losowej rozkład
"przesuwa się" na osi w prawo, i odwrotnie. Zmiana odchylenia standardowego znajduje
wyraz w tzw. kurtozie rozkładu: im mniejsze jest odchylenie standardowe, tym rozkład jest bardziej wysmukły, i odwrotnie- im większe
jest odchylenie, tym rozkład jest bardziej spłaszczony.

Rozkład normalny, którego graficznym wyrazem jest krzywa noralna, może być

przedstawiony jedyne w formie teoretycznej, nie może być potwierdzony w praktyce.
Aby przy ocenie charakteru rozkładu badanej zmiennej losowej nie popełnić istotnego błędu,
trzeba każdorazowe założenie dotyczące typu rozkładu uzasadnić empirycznie lub za pomocą
używanych do tego testów statystycznych.

Rozkład zmiennej losowej uzyskany na podstawie próby może się różnić od rozkładu
normalnego tej zmiennej, występującego w populacji generalnej, z następujących powodów:

niewłaściwego grupowania
zastosowania niewłaściwej metody pobierania próby
nie dość licznej próby
niewłaś
ciwej skali pomiaru badanej cechy(zjawiska)

Rozkład normalny a rozkład t Studenta

W przeciwieństwie do rozkładu t Studenta, kształt rozkładu normalnego nie zależy od stopni

swobody. Im mniejsza jest liczba stopni swobody, tym większa jest różnica między
rozkładem normalnym a t Studenta i odwrotnie.

Znaczenie rozkładu normalnego

Rozkład normalny ma szczególnie duże znaczenie w statystyce matematycznej, gdyż wiele cech
różnych zbiorowości charakteryzuje się takim właśnie rozkładem. W praktyce ze zmiennymi losowymi X o rozkładzie normalnym spotykamy się w przypadkach, gdy
na wartość X ma wpływ duża ilość niezależnie działających czynników, z których
każdy ma znikomy efekt. Typowym przykładem może tu być wysokość położenia
cząstki w procesie dyfuzji, błąd pomiaru, wzrost ludzki itp.

Rozkład normalny

Rozkład normalny
Gęstość prawdopodobieństwa Czerwona linia odpowiada standardowemu rozkładowi normalnemu.
Dystrybuanta Kolory odpowiadają wykresowi powyżej
Parametry	μ położenie (liczba rzeczywista) σ² > 0 podniesiona do kwadratu skala (liczba rzeczywista)
Nośnik
Gęstość prawdopodobieństwa
Dystrybuanta
Wartość oczekiwana (średnia)
Mediana
Moda
Wariancja
Współczynnik skośności
Kurtoza
Entropia
Funkcja generująca momenty
Funkcja charakterystyczna
Odkrywca	Abraham de Moivre (1733)^[1]

Rozkład normalny, zwany też rozkładem Gaussa lub krzywą dzwonową jest jednym z najważniejszych rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, socjalnych itp.

Przyczyną jest jego częstość występowania w naturze. Jeśli jakaś wielkość jest sumą lub średnią bardzo wielu drobnych losowych czynników, to niezależnie od rozkładu każdego z tych czynników, jej rozkład będzie zbliżony do normalnego, stąd można go bardzo często zaobserwować w danych. Ponadto rozkład normalny ma interesujące właściwości matematyczne, dzięki którym oparte na nim metody statystyczne są dość proste obliczeniowo.

Definicja rozkładu normalnego

Istnieje wiele równoważnych sposobów zdefiniowania rozkładu normalnego. Należą do nich: funkcja gęstości, dystrybuanta, momenty, kumulanty, funkcja charakterystyczna, funkcja tworząca momenty i funkcja tworząca kumulanty. Wszystkie kumulanty rozkładu normalnego wynoszą 0 oprócz pierwszych dwóch.

Funkcja gęstości

Funkcja gęstości rozkładu normalnego ze średnią μ i odchyleniem standardowym σ (równoważnie: wariancją σ²) jest przykładem funkcji Gaussa. Dana jest ona wzorem:

0x01 graphic

Fakt, iż zmienna losowa X ma rozkład normalny z wartością oczekiwaną μ i wariancją σ² zapisuje się często 0x01 graphic
. Jeśli μ = 0 i σ = 1, to rozkład ten nazywa się standardowym rozkładem normalnym, jego funkcja gęstości opisana jest wzorem:

0x01 graphic

Obrazek u góry artykułu przedstawia wykres funkcji gęstości rozkładu normalnego dla μ = 0 (w jednym przypadku μ = -2) i kilku różnych wartości σ. Im większe σ tym bardziej płaski jest wykres.

We wszystkich rozkładach normalnych funkcja gęstości jest symetryczna względem wartości średniej rozkładu. Około 68,3% pola pod wykresem krzywej znajduje się w odległości jednego odchylenia standardowego od średniej, około 95,5% w odległości dwóch odchyleń standardowych i około 99,7% w odległości trzech (reguła trzech sigm). Punkt przegięcia krzywej znajduje się w odległości jednego odchylenia standardowego od średniej.

Dystrybuanta

Dystrybuanta jest definiowana jako prawdopodobieństwo tego, że zmienna X ma wartości mniejsze bądź równe x i w kategoriach funkcji gęstości wyrażana jest (dla rozkładu normalnego) wzorem:

0x01 graphic

Całki powyższej nie da się obliczyć dokładnie metodą analityczną. W konkretnych zagadnieniach do obliczenia wartości dystrybuanty stosuje się zatem tablice statystyczne (bądź też odpowiednie kalkulatory czy oprogramowanie komputerów). Tablice zawierają dane dla dystrybuanty standardowego rozkładu normalnego, tradycyjnie oznaczanej jako Φ i zdefiniowanej jako rozkład o parametrach μ = 0 i σ = 1:

0x01 graphic

Związek dystrybuanty Φ i dystrybuanty rozkładu normalnego X o dowolnie zadanych parametrach μ i σ otrzymuje się za pomocą standaryzowania rozkładu (zob. też poniżej).

0x01 graphic

Dystrybuanta standardowego rozkładu normalnego może być wyrażona poprzez funkcję specjalną (nieelementarną, przestępną), tzw. funkcję błędu jako:

0x01 graphic

Funkcje tworzące

Funkcja tworząca momenty

Ta sekcja jest zalążkiem. Jeśli możesz, rozbuduj ją.

Funkcja charakterystyczna

Funkcją charakterystyczną rozkładu normalnego jest

0x01 graphic

W przypadku standardowego rozkładu normalnego ma ona postać:

0x01 graphic

Własności

Jeśli
oraz
są liczbami rzeczywistymi, to
Jeśli
i
oraz zmienne
są niezależne, to
Jeśli
są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to zmienna
ma rozkład chi-kwadrat z
stopniami swobody.

Parametry rozkładu

wartość oczekiwana:
mediana:
wariancja:
odchylenie standardowe:
skośność:
kurtoza:
(lub 3, przyjmując dawniej używaną definicję).

Standaryzowanie zmiennych losowych o rozkładzie normalnym

Konsekwencją własności 1 jest możliwość przekształcenia wszystkich zmiennych losowych o rozkładzie normalnym do standardowego rozkładu normalnego.

Jeśli X ma rozkład normalny ze średnią μ i wariancją σ², wtedy:

0x01 graphic

Z jest zmienną losową o standardowym rozkładzie normalnym N(0, 1). Ważną konsekwencją jest postać dystrybuanty:

0x01 graphic

Odwrotnie, jeśli Z jest zmienną losową o standardowym rozkładzie normalnym, to:

0x01 graphic

jest zmienną o rozkładzie normalnym ze średnią μ i wariancją σ².

Standardowy rozkład normalny został stablicowany i inne rozkłady normalne są prostymi transformacjami rozkładu standardowego. W ten sposób możemy używać tablic dystrybuanty rozkładu normalnego do wyznaczenia wartości dystrybuanty rozkładu normalnego o dowolnych parametrach.

Generowanie wartości losowych o rozkładzie normalnym

W symulacjach komputerowych zdarza się, że potrzebujemy wygenerować wartości zmiennej losowej o rozkładzie normalnym. Istnieje kilka metod, najprostszą z nich jest odwrócenie dystrybuanty standardowego rozkładu normalnego. Są jednak metody bardziej wydajne, jedną z nich jest transformacja Boxa-Mullera, w której dwie zmienne losowe o rozkładzie jednostajnym (prostym do wygenerowania — patrz generator liczb losowych) są transformowane na zmienne o rozkładzie normalnym.

Transformacja Boxa-Mullera jest konsekwencją własności 3 i faktu, że rozkład chi-kwadrat z dwoma stopniami swobody jest rozkładem wykładniczym (łatwym do wygenerowania).

Centralne twierdzenie graniczne

Jedną z najważniejszych własności rozkładu normalnego jest fakt, że, przy pewnych założeniach, rozkład sumy dużej liczby zmiennych losowych jest w przybliżeniu normalny. Jest to tak zwane centralne twierdzenie graniczne.

W praktyce twierdzenie to ma zastosowanie jeśli chcemy użyć rozkładu normalnego jako przybliżenia dla innych rozkładów.

Rozkład dwumianowy z parametrami
jest w przybliżeniu normalny dla dużych
i
nie leżących zbyt blisko 1 lub 0. Przybliżony rozkład ma średnią równą
i odchylenie standardowe

Rozkład Poissona z parametrem
jest w przybliżeniu normalny dla dużych wartości
. Przybliżony rozkład normalny ma średnią
i odchylenie standardowe

Dokładność przybliżenia tych rozkładów zależy od celu użycia przybliżenia i tempa zbieżności do rozkładu normalnego. Zazwyczaj takie przybliżenia są mniej dokładne w ogonach rozkładów.

Nieskończona podzielność

Rozkład normalny należy do rozkładów mających własność nieskończonej podzielności.

Występowanie

Rozkład normalny (lub wielowymiarowy rozkład normalny) jest często stosowanym założeniem, w praktyce jednak nigdy nie jest ściśle realizowany. Rozkład normalny ma bowiem niezerową gęstość prawdopodobieństwa dla dowolnej wartości zmiennej losowej, podczas gdy w rzeczywistości zmienne są zawsze ograniczone, a często nieujemne.

Mimo to rzeczywisty rozkład jest często bardzo zbliżony do normalnego, stąd zwykle zakłada się, że zmienna ma rozkład normalny. Nie należy jednak robić tego bez sprawdzenia jak wielkie są rozbieżności. Rozkłady dalekie od normalnego (np. z elementami odstającymi) mogą sprawić, że wyniki metod statystycznych będą mylnie interpretowane.

Przykładem są tu metody regresji liniowej oraz korelacji Pearsona, które, choć zdefiniowane dla dowolnych rozkładów, mają sensowną interpretację tylko dla wielowymiarowego rozkładu normalnego wektora próbki. Jeśli w próbce występują elementy odstające, co jest szczególnym przypadkiem rozkładu dalekiego od normalnego, korelacja może przyjąć dowolną wartość między −1 a +1, bez względu na rzeczywistą zależność między zmiennymi losowymi. Także regresja będzie dawała błędne rezultaty.

Inteligencja

Inteligencja mierzona testami inteligencji uważana jest za zmienną o rozkładzie normalnym. Oczywiście w praktyce testy dają wyniki skwantowane, a nie ciągłe. W dodatku ich wyniki są ograniczone do pewnego przedziału. Przybliżenie jest jednak wystarczające.

Wzrost

Podobnie wzrost człowieka może być uznany w przybliżeniu za zmienną o rozkładzie normalnym. Musimy wtedy oczywiście założyć, że wartość oczekiwana rozkładu wynosi np. 170 cm, aby przypadek "ludzi o ujemnym wzroście" miał znikomo małe prawdopodobieństwo.

Natężenie źródła światła

Natężenie światła z pojedynczego źródła zmienia się w czasie i zazwyczaj zakłada się, że ma rozkład normalny. Jednak zgodnie z mechaniką kwantową światło jest strumieniem fotonów. Zwykłe źródło światła, świecące dzięki termicznej emisji, powinno świecić w krótkich przedziałach czasu zgodnie z rozkładem Poissona. W dłuższym przedziale czasowym (dłuższym niż czas koherencji) dodawanie się do siebie niezależnych zmiennych prowadzi w przybliżeniu do rozkładu normalnego.

Błędy pomiaru

Wielokrotne powtarzanie tego samego pomiaru daje wyniki rozrzucone wokół określonej wartości. Jeśli wyeliminujemy wszystkie większe przyczyny błędów, zakłada się, że pozostałe mniejsze błędy muszą być rezultatem dodawania się do siebie dużej liczby niezależnych czynników, co daje w efekcie rozkład normalny. Odchylenia od rozkładu normalnego rozumiane są jako wskazówka, że zostały pominięte błędy systematyczne. To stwierdzenie jest centralnym założeniem teorii błędów.

Kurtoza - jedna z miar spłaszczenia rozkładu wartości cechy. Definiuje się ją następującym wzorem:

0x01 graphic

gdzie μ₄ jest czwartym momentem centralnym, zaś σ to odchylenie standardowe.

Uwaga

W niektórych pracach, szczególnie starszych, można spotkać się ze wzorem na kurtozę, w którym nie odejmuje się od ułamka liczby 3. Nowa definicja kurtozy jest jednak bardziej wygodna, gdyż:

kurtoza rozkładu normalnego wynosi 0
jeśli Y jest sumą n niezależnych zmiennych losowych, każdej o rozkładzie identycznym z rozkładem zmiennej losowej X, zachodzi własność: Kurt[Y] = Kurt[X] / n.

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady:

mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)
leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym
platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

Kurtoza z próby wyraża się wzorem:

0x01 graphic

gdzie x_i to i-ta wartość cechy, μ to wartość oczekiwana w populacji, σ to odchylenie standardowe w populacji, zaś n to liczebność próby.

Powyższa statystyka jest obciążonym estymatorem kurtozy z populacji, estymator nieobciążony wyraża się wzorem:

0x01 graphic

gdzie 0x01 graphic
to średnia z próby, s to odchylenie standardowe z próby, x_i to kolejne wartości cechy, zaś n to liczebność próby.

Współczynnik skośności rozkładu to miara asymetrii rozkładu wyznaczana według jednego ze wzorów:

0x01 graphic

gdzie

to wartość średniej arytmetycznej
to wartość mediany
to wartość dominanty (mody)
to wartość odchylenia standardowego

Współczynnik skośności przyjmuje wartość zero dla rozkładu symetrycznego, wartości ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu) i wartości dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu).

Nie ma gwarancji, że powyższe wzory będą miały ten sam znak.

Jeśli funkcja gęstości prawdopodobieństwa (dla rozkładów ciągłych) lub funkcja masy prawdopodobieństwa (dla rozkładów dyskretnych) po prawej stronie swojego maksimum (mody) maleje wolniej niż po lewej stronie (rozkład ma "prawy ogon dłuższy"), to rozkład nazywamy prawostronnie skośnym, dodatnio skośnym, prawostronnie asymetrycznym lub o prawostronnej asymetrii. Rozkład taki ma wartość oczekiwaną (średnią) większą od mediany.

Analogicznie definiuje się rozkład lewostronnie skośny.

Wyszukiwarka

Podobne podstrony:
02b Rozkład normalnyid 4039 ppt
Tablica standaryzowanego rozkładu normalnego o wartości oczekiwanej równej zeru i wariancji równej j
T3 Rozkład normalny
sad-materialy-pomocnicze, Rozkład Normalny N, Rozkład Normalny N(0,1)
Prawdopodobieństwo Rozkład dwumianowy Rozkład normalny
Rozkład normalny, sql
rozklad normalny
statystyka wykłady, Wyklad5-6, Rozkład normalny
6 Statystyka w badaniach Rozkład normalny
tablice statystyczne wartosci krytyczne rozkladu normalnego
03 Tablica standardowego rozkladu normalnego
dystrybuanta-rozkladu-normalnego-standaryzowanego
rozklad normalny, centyle
Wykład3 rozkład normalny
3408 rozklad normalny
1 Rozkład normalny
02 ROZKŁAD NORMALNY, JEDNOSTANJY i DWUMIANOWY
Zadania, rozkład normalny
dystrybuanta rozkladu normalnego standaryzowanego
Quiz 3 rozkład normalny

więcej podobnych podstron