ROZKŁAD NORMALNY
W przyrodzie istnieje silna tendencja do rozmieszczania zbiorów wokół średniej w pewien charakterystyczny sposób zwany rozkładem nórmalnym (Gaussa). Kształt krzywej rozkładu normalnego (krzywa symetryczna o kształcie dzwonu, dążąca asymptotycznie w obu kierunkach do zera) zależy od dwóch parametrów: ą i o. Parametr p to średnia populacji, względem której rozkład jest symetryczny. Parametr o to odchylenie standardowe w populacji stanowiące miarę rozrzutu (zmienność) wokół średniej p. Najczęściej nie znamy średniej p, lecz oceniamy ją na podstawie średniej obliczonej z próby. Podobnie jeżeli nie znamy a, estymujemy odchylenie populacji na podstawie odchylenia w próbie (s). Pole pod krzywą równa się prawdopodobieństwu i obejmuje wszystkie pomiary. Symetryczność krzywej normalnej oznacza, że 50% wyników leży poniżej wartości p, 50% powyżej średniej.
Przy ogromnej liczbie populacji o różnych wartościach p i a istnieje ogromna liczba rozkładów normalnych. Zabieg transformacji doprowadza każdy dowolny rozkład normalny (N; p, o) do standaryzowanego rozkładu normalnego ze średnią równą 0 i odchyleniem standardowym 1 (N; 0, I). Standaryzacji dokonujemy odejmując p od wartości x, i dzieląc przez a. Wyrażenie : (X- py o jest zmienną standaryzowaną oznaczoną przez Z. Jedno z twierdzeń statystyki głosi, że jeżeli zmienna X ma rozkład normalny ze średnią p i wariancją cr wówczas zmienna Z=(X- p)/ o ma rozkład normalny ze średnią 0 i odchyleniem standardowym I.Całkowita powierzchnia (prawdopodobieństwo) pod standardową krzywą rozkładu normalnego została stabelaryzowana.
Wartość r jest liczbą wskazującą, o ile Odchyleń standardowych pojedynczy wynik (xj jest oddalony od średniej, czyli x, = p + za. Cała powierzchniaipod krzywą obejmuje zakres od -II do r=0 i od r=0 do +□, wynosi 1 (100%)'. W obu tych zakresach znajduje się po 50% wyników i dla z=0 wartość prawdopodobieństwa (P) równa się 0,5. - -
Częstość względna przykładowo dla z= -1 iz= +1 odczytana z tabeli równa się odpowiednio : 0,1587 (15,87%) i 0.8413 (84,13%). Oznacza to. że częstość względna w przedziale -□ do +lr = 84,13%. Na przedział środkowy wynoszący tu ( -z,0 ; 0,+z ) przypada 84,13 - 15,87 = 68,26 % wyników. Często wartość z zapisujemy z indeksem, np. zi 96=0,9750, co oznacza , że prawdopodobieństwo (powierzchnia) dla przedziału : -O, +l,96z wynosi 97.5%. Dalej prawdopodobieństwo wartości mniejszych od -1,96z wynosi 0,025 (2,5%) i tyle samo wynosi prawdopodobieństwo wartości większych od I.96z. Prawdopodobieństwo, iż pierwsza wylosowana wartość z z rozkładu będzie mniejsza od -1,96z lub większa od l,96r wynosi 0,025 + 0,025 = 0,05 (5%)-symetria rozkłada Indeks przy z może być inny, np. za, co oznaczą że przy określonym prawdopodobieństwie (P=a) szukamy wartości z. Na przykład r0,05= -1,64.
Nie znając parametrów populacji: ą i o, gdy n»30, wartość z wyliczamy ze statystyki próby: x i s. według wzoru :
z =X, - X /s
Prawdopodobieństwo (powierzchnia pod krzywą rozkładu normalnego) odpowiadają całkowicie liczbie obserwacji (N) jest równe jedności. Przyjmując krzywą standaryzowaną gdzie N=100, możemy w określeniu powierzchni pod krzywą łatwo operować procentami. Dla rozkładu normalnego zastosowanie ma tzw. prawo „3a”, mówiące, że ok 68% wszystkich wartości zmiennej odbiega od średniej oczekiwanej nie bardziej niż o jedno odchylenie standardowe, ok. 95% wszystkich wartości nie bardziej niż o dwa odchylenią a w zasadzie wszystkie wartości (99,8%) zmiennej X nie odbiegają od oczekiwanej średniej więcej niż o trzy odchylenia