Elementy Statystyki Opisowej
Szereg rozdzielczy, histogram, łamana częstości
Niech
będzie n-elementową próbką. Rozstępem z próbki nazywamy
Przy większej liczności próbki (n 30), w celu ułatwienia analizy danych, wartości liczbowe próbki grupuje się w klasach (najczęściej o jednakowej długości), przyjmując uproszczone założenie, że wszystkie wartości znajdujące się w danej klasie są identyczne ze środkiem klasy.
Liczba klas - k.
Liczność próbki n |
Liczba klas k |
30 - 60 |
6 - 8 |
60 - 100 |
7 -10 |
100 - 200 |
9 -12 |
200 - 500 |
11 - 17 |
500 - 1500 |
16 - 25 |
Na ogół nie stosuje się liczby klas k większej od 30.Długość klasy - b.
Punkty stanowiące granice poszczególnych klas ustala się z dokładnością do /2, gdzie jest dokładnością pomiaru. Oznaczmy przez
liczność i-tej klasy. Oczywiście
.
Szereg rozdzielczy (Frequency Tabulation).
Szeregiem rozdzielczym nazywamy ciąg par
, gdzie
jest środkiem i-tej klasy. Ciąg
nazywamy rozkładem liczności badanej cechy przy danej liczbie k klas.
Przykład. Wkładka topikowa bezpiecznika o natężeniu znamionowym 20A winna, zgodnie z normą, wytrzymać bez przepalenia się natężenie 28A w ciągu 1 godziny. W celu sprawdzenia zgodności z normą, z partii wkładek topikowych tego typu pobrano losowo 40 sztuk i zanotowano czasy przepalenia się wkładki przy natężeniu prądu 28A. Otrzymano następujące wyniki w minutach:
51 58 64 69 61 56 41 48 56 61
75 55 46 57 70 55 47 62 55 60
54 57 65 60 53 54 49 58 62 59
53 50 58 63 64 59 52 51 65 60
Dla przedstawionej próbki zbudować szereg rozdzielczy oraz narysować histogram i łamaną częstości.
Rozwiązanie. Zauważmy, że
oraz
. Zatem rozstęp z próbki R = 34. Ponieważ liczność próbki n = 40, to wygodnie jest przyjąć liczbę klas k = 7 oraz szerokość klasy b = 5. Tym samym otrzymujemy następujący szereg rozdzielczy:
Nr klasy i Klasa |
1 40.500 45.500 43.000 1 .0250 1 .0250 |
2 45.500 50.500 48.000 5 .1250 6 .1500 |
3 50.500 55.500 53.000 10 .2500 16 .4000 |
4 55.500 60.500 58.000 12 .3000 28 .7000 |
5 60.500 65.500 63.000 9 .2250 37 .9250 |
6 65.500 70.500 68.000 2 .0500 39 .9750 |
7 70.500 75.500 73.000 1 .0250 40 1.0000 |
gdzie
oraz
są licznościami i częstościami łącznymi odpowiednio.
Miary opisowe : wyznaczanie wielkości najbardziej reprezentatywnych, rozproszenia , skośności i spłaszczenia badanej cechy.
Przykład. Załóżmy, że stajemy przed następującym problemem promocji. W wyniku odejścia jednego z kierowników zwolniło się odpowiednie stanowisko i na to miejsce chcemy przeszeregować jednego z naszych pracowników. Wszyscy pracownicy naszej firmy po pierwszym roku pracy przechodzą test mający ocenić ich przydatność na stanowisku kierowniczym. Jednakże ostatnio sam test uległ zmianie i część pracowników jest oceniona według nowej skali ocen. Zasadą jest, że promuje się pracownika, który osiągnąl najlepszy wynik. Okazało się, że jest dwóch kandydatów o wynikach 143 (nowy test) oraz 29 (stary test). Oczywiście nie byłoby w porządku poddawanie nowemu testowi pracownika, który osiągnął wynik 29. W jaki sposób porównać te dwa wyniki? Jakie dodatkowe informacje musimy uzyskać, żeby to porównanie było możliwe?
Miary środka rozkładu - wyznaczanie wielkości najbardziej reprezentatywnych.
Średnia (Average):
lub
dla danych pogrupowanych w klasy.
Mediana (Median):
lub
dla danych pogrupowanych, gdzie m oznacza numer klasy mediany,
- lewy koniec klasy mediany a
uporządkowaną próbkę.
Moda (Mode):
Wartością modalną (modą, dominantą)
próbki
o powtarzających się wartościach nazywamy najczęściej powtarzającą się wartość, o ile istnieje, nie będącą
ani też
. W przypadku danych pogrupowanych modą nazywamy środek najliczniejszej klasy za wyjątkiem klas skrajnych. Jeżeli w szeregu rozdzielczym najliczniejszymi są obie klasy skrajne, to szereg rozdzielczy nazywamy antymodalnym typu U, a środek najmniej licznej klasy antymodą. Gdy najliczniejsza jest jedna z klas skrajnych, wtedy szereg rozdzielczy nazywamy antymodalnym typu J. W przypadku, gdy istnieje więcej niż jedna wartość modalna to rozkład takiej cechy nazywamy rozkładem wielomodalnym.
Przykład (cd.) Ponieważ n = 40 to
. Natomiast dla danych pogrupowanych otrzymujemy
, ponieważ m = 4. Oczywiście
= 58.
Dla próbki z populacji o rozkładzie symetrycznym wszystkie miary środka rozkładu dają wartości zbliżone, tzn.
. Natomiast dla rozkładów asymetrycznych mamy następującą zależność empiryczną :
.
UWAGA: Dla małych prób średnia jest wrażliwa na zmiany w próbce. Dodanie jednej bardzo dużej albo bardzo małej wartości może dramatycznie zmienić wartość średniej. Dlatego dla małych prób mediana jest znacznie odporniejsza na występowanie w próbce wartości nietypowych (outliers).
Miary rozproszenia Rozstęp z próbki (Range):
Wariancja (Variance):
lub
dla danych pogrupowanych.
Odchylenie standardowe (Standard Deviation):
.
Rozstęp międzykwartylowy (Interquartile Range):
,
gdzie
i
są odpowiednio dolnym i górnym kwartylem zdefiniowanymi następująco:
,
.
p-ty q-kwantyl (Quantile):
.
Na przykład dla p = 1 i q = 2 mamy medianę, a dla p = 1 i p = 3 oraz q = 4 oba kwartyle. Dla q = 10 mamy decyle a dla q = 100 percentyle.
Odchylenie pseudostandardowe (Pseudo-Standard Deviation):
, 1.35 jest odchyleniem międzykwartylowym dla rozkładu N(0,1).
Jeżeli PSD < s to badana cecha ma "tłuste ogony". W przypadku PSD > s rozkład ma "wybrzuszenie" w środku. Tylko dla PSD s oraz symetrii można uznać, że dane pchodzą z rozkładu normalnego.
Współczynnik zmienności (Coefficient of Variation):
.
Dystrybuanta empiryczna, momenty empiryczne, skośność i spłaszczenie.
Dystrybuanta empiryczna:
,
jest to dystrybuanta zmiennej losowej o rozkładzie jednostajnym na zbiorze wartości próbki.
Moment zwykły rzędu l :
lub
dla danych pogrupowanych.
Moment centralny rzędu l :
lub
dla danych pogrupowanych.
Oczywiście
oraz
.
Współczynnik skośności (Skewness):
, w STATGRAFIE
.
Wspólczynnik ten charakteryzuje skośność rozkładu badanej cechy. W praktyce przyjmuje się, że dla
< 0.5 rozkład jest symetryczny natomiast dla
> 1 mocno skośny. Znak współczynnika wskazuje, w którą stronę jest skośna cecha. Dla wartości dodatniej mamy skośność w prawo a dla ujemnej w lewo.
Współczynnik skośności standaryzowany (Standardized Skewness):
.
Indeks skośności Pearsona (Pearson Index of Skewness):
.
Wartości indeksu I interpretuje się podobnie jak wartości współczynnika
. Indeks ten jest wygodną oceną skośności w sytuacji, gdy nie dysponujemy specjalnym programem obliczeniowym, gdyż nie potrzeba obliczać wartości trzeciego momentu centralnego.
Współczynnik spłaszczenia - kurtoza (Kurtosis):
w STATGRAFIE
.
Dla cechy o rozkładzie normalnym lub podobnym kurtoza w przybliżeniu jest równa zeru. Wartości mniejsze od zera świadczą o spłaszczeniu rozkładu w porównaniu do rozkładu normalnego, natomiast wartości dodatnie o tym, że rozkład ma pik.
Kurtoza standardowa (Standard Kurtosis):
.
Standaryzacja wartości w próbce (z-score):
.
Operacja ta jest operacją przeskalowania danych. W przypadku dwóch różnych próbek o rozkładach symetrycznych zbliżonych do rozkładu normalnego pozwala na porównywanie między sobą ich wartości. Korzystając z własności rozkładu normalnego można przypuszczać, że dla próbki o rozkładzie zbliżonym do normalnego prawie wszystkie
3, około 95%
2 a około 68%
1. Dlatego też warunek
> 3 przyjmuje się jako kryterium wykrycia wartości nietypowej (outlier).
Box and Whisker Plot.
Przy tworzeniu wykresu typu Box-and-Whisker Plot trzy środkowe linie odpowiadają wartościom kwartyli oraz mediany odpowiednio. Szerokość "pudełka" równa jest zatem rozstępowi międzykwartylowemu IQR. Długości "wąsów" zależą od rozkładu wartości w próbce i równe są odpowiednio odległości najmniejszej wartości w próbce mieszczącej się w przedziale o szerokości 1.5IQR na lewo od dolnego kwartyla oraz odległości największej wartości w próbce mieszczącej się w przedziale o szerokości 1.5IQR na prawo od górnego kwartyla. Wszyskie wartości poza wymienionym przedziałem traktowane są jako wartości nietypowe. Przy czym rozróżnia się wartości ekstremalnie nietypowe (większe od
lub mniejsze od
). Wykres ten po raz pierwszy wprowadzony przez J.Tukeya w 1977 roku jest czasami nazywany wykresem pięciu liczb (five-number summary), ponieważ przedstawione są na nim kwartyle, mediana oraz wartości ekstremalne w próbce. Jest to najprostszy sposób zobrazowania danych przy pomocy miar pozycyjnych.
Rozwiązanie problemu promocji.
Z zebranych wyników pierwszego testu mamy
= 22.6,
= 22.9 oraz s = 2.8. Podobnie osoby, które przeszły drugi test uzyskały wyniki
= 107.8,
= 104.9 oraz s = 17.4. W obu przypadkach testowi poddano po kilkuset pracowników. Ponieważ zarówno w pierwszym jak i w drugim przypadku moduł indeksu skośności jest mniejszy od 0.5 (dla pierwszego testu I = - 0.32 dla drugiego I = 0.5) można przyjąć, że oceny mają rozkłady symetryczne. Obliczmy wartości standaryzowane dla obu wybranych pracowników:
oraz
.
Z porównania obu liczb wynika, że pierwszy pracownik uzyskał relatywnie lepszą ocenę.
Wartości nietypowe (Outliers):
Większość standardowych metod wnioskowania statystycznego zakłada, że mamy do czynienia z próbką z rozkładu normalnego. Ponieważ praktycznie 100% obserwacji z populacji o rozkładzie normalnym zawiera się w przedziale [
-3s ,
+3s], to obserwacje nie wpadające do tego przedziału traktowane są jako obserwacje nietypowe. Jeśli nie jest prawdą, iż cecha ma rozkład normalny to obliczone z próbki wartości średniej i odchylenia standardowego nie dają pełnego obrazu rozkładu badanej cechy. Zaobserwowanie nietypowych wartości ekstremalnych w próbce, tzw. outliers może spowodować problem w ich interpretacji. Otóż wartości nietypowe mogą sygnalizować fakt, iż próbka nie pochodzi z rozkładu normalnego lub, że nastąpił błąd przy zbieraniu danych (zły pomiar lub błąd w zapisie). W większości przypadków wartości nietypowe są wynikiem rzeczywistego mechanizmu losowego i nie można ich pomijać z rozważań. jednak wówczas wartości średniej i odchylenia standardowego mogą być obciążone błędem. Jeżeli wartości nietypowe skupiają się po jednej stronie średniej to następuje przesunięcie średniej, jeżeli są rozłożone symetrycznie to średnia może być dobrym oszacowaniem środka rozkładu, ale odchylenie standardowe może być zbyt duże. Zarówno średnia jak i odchylenie standardowe nie są odporne na efekt występowania wartości nietypowych.
Pierwszym krokiem przy sprawdzaniu normalności badanej cechy jest ustalenie czy wśród danych zebranych w próbce występują wartości nietypowe, jeśli tak to czy można je przypisać popełnionym błędom w trakcie zbierania danych. Jeśli nie, to znaczy że cecha ma rozkład skośny (wartości nietypowe układają się po jednej stronie) lub ma "długie ogony" (long-tailed). W obu przypadkach używanie średniej i odchylenia standardowego do oceny odpowiednich parametrów jest bardzo ryzykowne.
Wykrywanie wartości nietypowych.
Najprostszym sposobem wykrywania wartości nietypowych jest stwierdzenie czy leżą w przedziale trzech odchyleń standardowych wokół średniej, tzn. czy wartości po standaryzacji są większe co do wartości bezwzględnej od 3. Jednak jak to zostało stwierdzone powyżej takie postępowanie może być obarczone błędem. Inne podejście do tego problemu zaproponował Tukey jest to tzw. Box-and-Whisker Plot, który został omówiony wcześniej.
Dane ucięte i winsorowskie (Trimmed and Winsorized Data Sets):
Łatwość wyznaczania procedur wnioskowania statystycznego dla średniej i odchylenia standardowego w porównaniu z medianą i kwartylami, spowodowała poszukiwania przez statystyków możliwości adaptowania zbioru danych w ten sposób, żeby można było je liczyć. C.P. Winsor zauważuł, że większość danych empirycznych jest zbliżona do danych normalnych w środku zmienności a odstępstwa pojawiają się zwykle na brzegach. W przypadku, gdy wartości nietypowe są jedynym powodem odstępstwa od normalności to usunięcie ich z próby może spowodować rozwiązanie problemu, oczywiście pod warunkiem, że badana cecha ma rozkład symetryczny. Powstaje pytanie ile danych usunąć. Zwykle usuwa się po 10% próbki z obu stron, tzn. po
obserwcji najmniejszych i największych. W MINITAB-ie ucina się po 5% z obu stron. W dalszym ciągu średnią i odchylenie standadowe dla danych uciętych będziemy oznaczać przez
i
odpowiednio. Nie zawsze takie postępowanie jest zadawalające. Ma to szczególne znaczenie dla małych licznych próbek przy ocenie odchylenia standardowego, które w praktyce może być znacznie większe niż obliczone dla danych uciętych. Wówczas dokonujemy tzw. winsoryzacji danych tzn. zastąpienia danych odrzucanych wartością najmniejszą lub największą z próbki uciętej. Tym samym nie zmieniamy liczności próbki, a jedynie dokonujemy zawężenia rozstępu z próbki. Średnią i odchylenie standadowe dla danych wisoryzowanych będziemy oznaczać przez
i
odpowiednio.
Przykład. Wybrano losowo 25 osób osiągających dochody powyżej 4 tys. PLN miesięcznie i uzyskano następujący rozkład częstości:
Wiek |
29 |
33 |
37 |
38 |
39 |
40 |
42 |
43 |
45 |
47 |
50 |
59 |
66 |
Częstość |
1 |
1 |
3 |
4 |
2 |
3 |
2 |
2 |
3 |
1 |
1 |
1 |
1 |
Wyznaczyć średni wiek.
Rozwiązanie.
= 42, s = 7.64.
= 38 oraz
= 58, zatem IQR = 5 a PSD = 3.7. Korzystając z wykresu Box-and-Whisker Plot stwierdzamy, że są dwie obserwacje nietypowe: 66 i 59. W celu wyznaczenia średniej uciętej odrzucamy po 3 obserwacje z każdej strony
=40.84 a
= 3.10. Nowy zbiór danych nie ma już wartości nietypowych. W obu przypadkach mediana jest równa 40. Pomimo, że dane po ucięciu są symetryczne to w dalszym ciągu PSD(T) = 5.19 <
co świadczy o dużych ogonach. Poniżej podane zostały obliczenia wykonane przy użyciu pakietu MINITAB.
MTB > print c1
C1
29 33 37 37 37 38 38 38 38 39 39 40 40
40 42 42 43 43 45 45 45 47 50 59 66
MTB > boxplot c1
-----------
-------------I + I------- * *
-----------
+---------+---------+---------+---------+---------+------C1
28.0 35.0 42.0 49.0 56.0 63.0
MTB > describe c1
N MEAN MEDIAN TRMEAN STDEV SEMEAN
C1 25 42.00 40.00 41.52 7.64 1.53
MIN MAX Q1 Q3
C1 29.00 66.00 38.00 45.00
MTB > print c2 # dane ucięte po 5% z obu stron
C2
37 37 37 38 38 38 38 39 39 40 40 40 42
42 43 43 45 45 45 47 50
MTB > boxplot c2
---------------------
----I + I----------------------------
---------------------
----+---------+---------+---------+---------+---------+--C2
37.5 40.0 42.5 45.0 47.5 50.0
MTB > describe c2
N MEAN MEDIAN TRMEAN STDEV SEMEAN
C2 21 41.095 40.000 40.842 3.673 0.802
MIN MAX Q1 Q3
C2 37.000 50.000 38.000 44.000
Wnioskowanie statystyczne.
Model statystyczny, podstawowe problemy statystyki matematycznej
Statystyka matematyczna jest działem probabilistyki i podobnie jak w rachunku prawdopodobieństwa zajmuje się badaniem modeli matematycznych (probabilistycznych) pewnych zjawisk losowych. Statystyka jest ściśle związana z rachunkiem prawdopodobieństwa, jednakże jej punkt widzenia jest odmienny. W rachunku prawdopodobieństwa mamy przestrzeń probabilistyczną z jednoznacznie określonym rozkładem prawdopodobieństwa, który następnie wykorzystujemy do wyznaczania prawdopodobieństw interesujących nas zdarzeń losowych. W statystyce natomiast nie zakłada się pełnej znajomości rozkładu prawdopodobieństwa, który jest cechą statystyczną elementów badanej zbiorowości (populacji generalnej). Punktem wyjścia każdego badania statystycznego jest wylosowanie (czasem przeprowadzenie pewnych doświadczeń) z całej populacji pewnej skończonej (czasami losowej) liczby n elementów i zbadanie ich ze względu na określoną cechę (zmienną losową) X. Zawsze zakładamy, że o X posiadamy pewną wiedzę a priori, tzn. że prawdziwy rozkład prawdopodobieństwa P zmiennej losowej X należy do pewnej klasy rozkładów prawdopodobieństwa P. W wyniku zaobserwowania n realizacji
cechy X chcemy uściślić naszą wiedzę o P.
Przykład. Przedmiotem badania jest symetria pewnej monety. Dokonujemy n rzutów w wyniku, których otrzymujemy k (0 k n) orłów. Jeżeli oznaczymy przez X losową liczbę orłów uzyskanych w n niezależnych rzutach, to
,
gdzie p(0,1) jest (nieznanym) prawdopodobieństwem wypadnięcia orła w jednym rzucie. Przykładowe pytania jakie możemy stawiać to : "ile wynosi p?" i "czy moneta jest symetryczna (czy p=0.5)?". Pierwsze pytanie jest pytaniem o ocenę wartości nieznanego parametru rozkładu prawdopodobieństwa badanej cewchy. Ta część wnioskowania statystycznego, która zajmuje się odpowiedziami na tego rodzaju pytania nosi nazwe teorii estymacji. Drugie pytanie jest przykładowym problemem weryfikacji (badania prawdziwości) hipotez statystycznych.
Dowolne dwie n-elementowe próbki z tej samej populacji są na ogół różne. Zatem wnioskowanie statystyczne, oparte na częściowej informacji, dostarcza jedynie wniosków wiarygodnych - a nie absolutnie prawdziwych. Wygodnie jest zatem próbkę, tzn. ciąg liczbowy
traktować jako realizację pewnego ciągu zmiennych losowych
, gdzie
, jest zmienną losową o zbiorze wartości i-tego spośród n wylosowanych elementów.
Model statystyczny.
Punktem wyjścia w naszych rozważaniach będzie zawsze pewien element losowy X (zmienna losowa, skończony lub nieskończony ciąg zmiennych losowych) odpowiadający wynikowi eksperymentu czy obserwacji, który będziemy nazywali próbą. Zbiór wartości X elementu losowego X nazywamy przestrzenią próby. W dalszym ciągu będziemy zakładali, że X jest pewnym skończonym lub nieskończonym zbiorem przeliczalnym, albo pewnym obszarem w przestrzeni
. Niech P =
będzie rodziną rozkładów prawdopodobieństwa na przestrzeni prób X , indeksowaną pewnym parametrem . Dokładniej, P jest rodziną rozkładów prawdopodobieństwa na odpowiednim -ciele zdarzeń losowych. Jednakże przy naszym założeniu o przestrzeni prób X, będzie to -ciało wszystkich podzbiorów albo -ciało podzbiorów borelowskich, dlatego też nie będziemy tego specjalnie podkreślali. Zauważmy, że dopóki nic nie zakładamy o zbiorze indeksów , to parametryzacja rodziny rozkładów P odbywa się bez straty ogólności, ponieważ jako parametr rozkładu PP można przyjąć sam rozkład P. Zawsze będziemy zakładali, że rozkłady są identyfikowalne, tzn. dla
mamy
.
Definicja. Parę
nazywamy przestrzenią statystyczną, a każde odwzorowanie
k-wymiarową statystyką.
Jeżeli X =
, gdzie
jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie prawdopodobieństwa
na X, to próbę tę nazywamy prostą próbą losową o liczności n, a odpowiadająca jej przestrzeń statystyczna jest przestrzenią produktową
.
Przykład. Skonstruujmy przestrzeń statystyczną dla eksperymentu, w którym dokonujemy n niezależnych rzutów monetą. Wynik pojedynczego rzutu jest zmienną losową o rozkładzie dwupunktowym. Złóżmy, że prawdopodobieństwo orła w pojedynczym rzucie jest równe (0,1). Zdefiniujmy zmienną losową opisującą wynik i-tego rzutu, 1 i n:
Wówczas X = {0,1}, a
. Przestrzeń statystyczna jest przestrzenią produktową
.
Możliwy jest także inny sposób zdefiniowania przestrzeni statystycznej, całkowicie równoważny wyżej opisanemu, gdzie przestrzeń prób X jest zbiorem wszystkich zero-jedynkowych ciągów n-wyrazowych
, a prawdopodobieństwo
.
Przykład. Dokonujemy n niezależnych pomiarów pewnej wielkości . Każdy pomiar jest obarczony błędem losowym , który jest zmienną losową o rozkładzie normalnym N(0,). Skonstruować przestrzeń statystyczną.
Jest oczywistym, że wynik i-tego pomiaru
ma rozkład normalny N(,). Zatem mamy do czynienia z przestrzenią statystyczną :
,
lub inaczej
.
W dalszym ciągu będziemy zakładali, że mamy do czynienia z prostą próbą losową o liczności n, tzn. z ciągiem niezależnych zmiennych losowych
o jednakowym rozkładzie prawdopodobieństwa
i dystrybuancie F.
Dystrybuanta empiryczna i jej własności.
W rozdziale poświęconym statystyce opisowej wprowadziliśmy pojęcie dystrybuanty empirycznej dla próbki. Uogólnimy to pojęcie na przypadek, gdy mamy próbę losową. Wówczas dystrybuanta empiryczna jest staystyką, czyli zmienną losową, zdefiniowaną następująco:
Dla każdego ustalonego x
, zmienne losowe
są niezależne i mają jednakowy rozkład Bernoulliego b(1,F(x)). Korzystając z własności rozkładu Bernoulliego oraz stosując do ciągu
mocne prawo wielkich liczb oraz centralne twierdzenie graniczne otrzymujemy następujące własności:
dla dowolnego x
,
,
dla każdego t
, gdzie oznacza dystrybuantę standardowego rozkładu normalnego.
Można powiedzieć, że własności te wyjaśniają sens w jakim próba losowa
odtwarza rozkład, z którego pochodzi. Na zakończenie podamy bez dowodu klasyczne już twierdzenie Gliwienki - Cantelliego mówiące o jednostajnej zbieżności dystrybuanty empirycznej do dystrybuanty teoretycznej.
Twierdzenie Gliwienki - Cantelliego. Jeżeli próba losowa
pochodzi z rozkładu o dystrybuancie F, to
.
Statystyka
nosi nazwę statystyki Kołmogorowa. Twierdzenie Gliwienki - Cantelliego mówi, że
z prawdopodobieństwem 1 przy
.
Statystyki dostateczne.
Podstawowym problemem statystyki matematycznej jest stwierdzenie na podstawie zaobserwowanej próby, który rozkład z rodziny rozkładów
jest rozkładem właściwym, tzn. jaka jest prawdziwa wartość parametru . Ponieważ nośnikiem informacji o jest próba powstaje pytanie czy wszystkie informacje zawarte w próbie są istotne i czy nie jest możliwe ich zredukowanie. Okazuje się, że odpowiedź na to pytanie jest twierdząca. Wprowadzimy za chwilę jedno z fundamentalnych pojęć w statystyce - pojęcie dostateczności. Najpierw przykład ilustrujący ten problem.
Przykład. Rozważmy ponownie eksperyment polegający na n-krotnym rzucie monetą. Jeżeli jest prawdopodobieństwem orła, to jak to pokazaliśmy wcześniej rozkład prawdopodobieństwa na przestrzeni próby ma postać
.
Niech T oznacza statystykę równą liczbie orłów w próbie, tzn.
Rozkład tej statystyki jest dobrze znanym rozkładem dwumianowym:
, gdzie t = 0,1,...,n.
Nietrudno sprawdzić, że rozkład warukowy próby pod warunkiem T = t nie zależy od
Fakt ten można zinterpretować w następujący sposób: gdy wiemy, że T = t, to informacja o tym, który z
punktów przestrzeni próby faktycznie się zrealizował, nie wnosi żadnej informacji o parametrze . Innymi słowy liczba sukcesów w schemacie Bernoulliego niesie pełną informację o wartości prawdopodobieństwa sukcesu niezależnie od tego w jakiej kolejności te sukcesy się pojawiały. Można zatem powiedzieć, że T jest statystyką dostateczną dla parametru .
Definicja. Statystyka T nazywa się statystyką dostateczną dla rodziny rozkładów P (statystyką dostateczną dla ), jeżeli dla każdej wartości t tej statystyki rozkład warunkowy
nie zależy od .
Przykład. Jeżeli
jest próbą losową, to dla każdego zdarzenia losowego A oraz dla każdego punktu
z przestrzeni próby mamy
.
Ponieważ to prawdopodobieństwo nie zależy od , to próba jest zawsze statystyką dostateczną.
Prosty sposób rozpoznawania, czy dana staystyka jest statystyką dostateczną daje następujące kryterium faktoryzacyjne.
Twierdzenie. Statystyka T jest dostateczna wtedy i tylko wtedy, gdy gęstość rozkładu prawdopodobieństwa próby
można przedstawić w postaci
,
gdzie funkcja h nie zależy od , a funkcja
, zależna od , zależy od
tylko przez wartość statystyki T.
Dowód. (Przypadek rozkładów dyskretnych).
() Przypuśćmy, że statystyka T jest dostateczna. Zatem
nie zależy od . Ponieważ dla
mamy
, to
.
Tym samym otrzymujemy
,
czyli dowodzoną faktoryzację.
() Załóżmy, że faktoryzacja jest prawdziwa. Ustalmy x oraz t. Dla
mamy
, co nie zależy od . Niech
. Wtedy
co również nie zależy od .
Przykład. Niech
będzie prostą próbą losową z rozkładu
.
a) Niech
będzie rozkładem Bernoulliego, =(0,1). Wówczas
.
przyjmując
,
oraz
stwierdzamy, że liczba sukcesów w schemacie Bernoulliego jest statystyką dostateczną.
b) Niech
będzie rozkładem normalnym,
. Gęstość próby
Zatem
jest statystyką dostateczną.
c) Niech
będzie rozkładem jednostajnym na przedziale (0,),
. Wówczas gęstość próby można przedstawić w postaci
Zatem na mocy kryterium faktoryzacji statystyka
jest statystyką dostateczną dla rodziny rozkładów jednostajnych U(0,),
.
Każda statystyka dostateczna tworzy pewne rozbicie przestrzeni prób, generowane przez jej warstwice. Niech S i T będą dwiema różnymi statystykami. Jeżli rozbicia generowane przez te statystyki są identyczne (tzn. -ciała generowane przez nie są identyczne
), to nazywamy je statystykami równoważnymi. Oczywiście, jeżeli
, to istnieje taka funkcja h, że
. Naturalnym jest pytanie o to, czy dla danej rodziny rozkładów istnieje taka statystyka dostateczna, która generuje "najgrubsze" rozbicie przesrzeni prób (największa kompresja danych bez straty informacji o rodzinie rozkładów). Odpowiedź na to pytanie jest pozytywna.
Definicja. Statystykę dostateczną S nazywamy minimalną statystyką dostateczną, jeżeli dla każdej statystyki dostatecznej T istnieje taka funkcja h, że
, tzn.
.
Dowód istnienia minimalnej statystyki dostatecznej pomijamy, ponieważ wymaga wprowadzenia bardziej zaawansowanego aparatu matematycznego. Zajmiemy się teraz problemem konstruowania minimalnych statystyk dostatecznych. Oto jeden ze sposobów. Jeżeli T jest statystyką dostateczną a S minimalną statystyką dostateczną, to na mocy kryterium faktoryzacyjnego dla dowolnych punktów x i
przestrzeni prób iloraz
nie zależy od parametru wtedy i tylko wtedy, gdy punkty te należą do tej samej warstwicy statystyki T. Z definicji minimalnej statystyki dostatecznej wynika, że generuje ona najgrubsze rozbicie przestrzeni prób o tej własności, ponieważ
implikuje
. Udowodniliśmy zatem następujące twierdzenie.
Twierdzenie. Statystyka S jest minimalną statystyką dostateczną jeżeli dla dowolnych punktów x i
przestrzeni prób
wtedy i tylko wtedy, gdy iloraz
nie zależy od .
Od razu możemy zauważyć, że wszystkie statystyki dostateczne rozważane w poprzednim przykładzie są minimalnymi statystykami dostatecznymi.
Niech
będzie uporządkowaną próbą
.
Definicja. k-tą statystyką pozycyjną (porządkową)
, nazywamy k-tą co do wielkości wartość
w próbie
, ciąg statystyk pozycyjnych
nazywamy wektorem statystyk pozycyjnych (porządkowych).
Nietrudno zauważyć, że jeżeli
jest prostą próbą losową z dowolnej rodziny rozkładów
, to ciąg statystyk pozycyjnych zawsze jest statystyką dostateczną.
Przykład. Rozważmy rodzinę rozkładów logistycznych { L(a,b) :
} o gęstościach
Iloraz gęstości dla dwóch różnych prób losowych
nie zależy od parametrów a i b wtedy i tylko wtedy, gdy punkty
oraz
różnią się jedynie uporządkowaniem, co dowodzi iż dla rodziny rozkładów logistycznych wektor statystyk porządkowych jest minimalną statystyką dostateczną.
Podobnie można pokazać, że statystyka porządkowa jest minimalną statystyką dostateczną dla rodziny { C(a,b) :
} rozkładów Cauchy'ego o gęstościach:
Statystyki swobodne i zupełne.
Definicja. Statystykę
nazywamy statystyką swobodną (swobodną pierwszego rzędu) jeżeli jej rozkład (wartość oczekiwana
) nie zależy od .
Definicja. Mówimy, że rodzina rozkładów
pewnego elementu losowego X jest zupełna, jeżeli prawdziwy jest następujący warunek:
Statystyka T jest zupełna, jeżeli rodzina jej rozkładów jest zupełna.
Innymi słowy można powiedzieć, że dla statystyki zupełnej jedynymi funkcjami tej statystyki o wartościach oczekiwanych niezależnych od parametru są funkcje stałe. Zatem można przypuszczać, że maksymalna redukcja danych bez straty informacji zawartej w próbie o parametrze rozkladu następuje wówczas, gdy statystyka dostateczna jest zupełna. Nie można wówczas podać żadnej (różnej od stałej) funkcji zupełnej statystyki dostatecznej, której wartość oczekiwana byłaby niezależna od . Obrazowo mówiąc z zupełnej statystyki dostatecznej nie można już "wycisnąć" żadnych zbędnych informacji.
Twierdzenie. Jeżeli T jest statystyką dostateczną zupełną, to jest minimalną statystyką dostateczną.
Dowód. Pomijamy problem istnienia minimalnej statystyki dostatecznej. Niech S będzie minimalną statystyką dostateczną. Pokażemy, że T i S są równoważne. Z definicji minimalnej dostateczności istnieje taka funkcja h, że S= h(T). Wystarczy zatem pokazć istnienie takiej funkcji g, że T=g(S). Z definicji warunkowej wartości oczekiwanej mamy
, czyli
. Wyrażenie
jest funkcją statystyki T ponieważ S=h(T). Z zupełności T otrzumujemy zatem, że
prawie wszędzie
, czyli istnieje taka funkcja g, że T=g(S).
Pozostaje do rozstrzygnięcia jeszcze jedno pytanie - czy każda minimalna statystyka dostateczna jest zupełna? Odpowiedż na to pytanie jest negatywna. Oznacza to, że w pewnych sytuacjach z minimalnej statystyki dostatecznej można "wycisnąć" coś co nie zależy od .
Przykład. Rozważmy rodzinę rozkładów Cauchyego {C(,1), R1}. Dla tej rodziny rozkładów wektor statystyk porządkowych
jest minimalną statystyką dostateczną. Jednakże z uwagi na fakt, że jest parametrem położenia to różnica
ma rozkład niezależny od , a więc jest różną od stałej statystyką swobodną. Tym samym statystyka porządkowa nie jest zupełna.
Rodziny wykładnicze rozkładów.
Rozważmy rodzinę rozkładów prawdopodobieństwa
. Przez
oznaczmy funkcję gęstości rozkładu
w przypadku, gdy jest to rozkład typu ciągłego lub funkcję prawdopodobieństwa dla rozkładu dyskretnego.
Definicja. Rodzinę rozkładów prawdopodobieństwa
nazywamy rodziną wykładniczą, jeżeli dla każdego
gęstość (funkcja prawdopodobieństwa)
ma postać
gdzie
są funkcjami liniowo niezależnymi oraz
jest pewnym k-wymiarowym zbiorem w Rk.
Przykład. a). Rodzina rozkładów Bernoulliego
jest wykładnicza. Istotnie, funkcję prawdopodobieństwa możemy zapisać jako
b). Rodzina rozkładów normalnych
jest rodziną wykładniczą, ponieważ gęstość prawdopodobieństwa można przedstawić w postaci
Bez straty ogólności możemy założyć, że rozkłady z rodziny wykładniczej mają naturalną parametryzację
gdzie jest pewnym k-wymiarowym zbiorem w Rk.
Twierdzenie. Jeżeli
, Rk jest wykładniczą rodziną rozkładów, dla której
to
jest statystyką dostateczną zupełną.
Z ostatniego twierdzenia oraz z własności funkcji wykładniczej wynika natychmiast następujące twierdzenie.
Twierdzenie. Jeżeli
jest prostą próbą losową z rozkładu
należącego do wykładniczej rodziny rozkładów
, to
jest minimalną, zupełną statystyką dostateczną.
Twierdzenie to w prosty sposób pozwala wyznaczać minimalne, zupełne statystyki dostateczne dla wykładniczych rodzin rozkładów.
Przykład. a) Dla próby losowej z rozkładu Bernoulliego z rodziny
mamy
Zatem statystyka
jest minimalną, zupełną statystyką dostateczną.
b) Podobnie dla próby losowej z rozkładu normalnego z rodziny
minimalną, zupełną statystyką dostateczną jest
ponieważ gęstość próby jest równa
c) Niech
będzie prostą próbą losową z rozkładu gamma z rodziny
, wówczas
Zatem statystyka
jest minimalną, zupełną statystyką dostateczną dla próby z rozkładu gamma.
Estymacja punktowa - sformułowanie problemu.
Niech cecha X ma rozkład prawdopodobieństwa
z pewnej rodziny rozkładów
, gdzie jest nieznanym parametrem. Naszym zadaniem jest wskazanie tego rozkładu, tzn. oszacowanie nieznanej wartości parametru . Niech
będzie prostą próbą losową z rozkładu
. Jak wiadomo z własności dystrybuanty empirycznej próba losowa wraz ze wzrostem liczby obserwacji coraz lepiej przybliża nieznany rozkład. Zatem jedyne co możemy zrobić, to znaleźć oszcowanie parametru na podstawie zaobserwowanych wartości próby losowej. Zadanie to można sformułować nieco uogólniej jako zadanie szacowania wartości pewnej funkcji g od parametru . W dalszym ciągu będziemy rozważali jedynie przypadek, gdy funkcja g jest funkcją rzeczywistą o wartościach w
,
.
Definicja. Każdą statystykę
służącą do oceny wartości funkcji
, nazywamy estymatorem parametru
.
Oczywiście nie wszystkie statystyki, które mogą być używane do estymacji
są jednakowo dobre. Podstawowym czynnikiem, który będzie decydował o tym czy dany estymator jest lepszy od drugiego estymatora będzie odpowiednio zdefiniowany błąd estymacji, czyli odległość estymatora od wartości estymowanej. W dalszym ciągu ograniczymy się do przypadku tzw. błędu średniokwadratowego, najczęściej używanego w teorii estymacji.
Definicja. Błędem średniokwadratowym estymatora
parametru
, nazywamy wyrażenie
W teorii estymacji błąd średniokwadratowy nosi nazwę ryzyka
estymatora
przy kwadratowej funkcji straty
. Ideałem byłoby wyznaczenie takiego estymatora, który minimalizawałby błąd średniokwadratowy jednostajnie dla wszystkich rozkładów prawdopodobieństwa z rodziny
. Niestety przy tak ogólnym sformułowaniu problemu jest to niemożliwe. Wystarczy zauważyć, że estymatory stałe, postaci
dają dla
ryzyko równe 0, także przy innej (niekoniecznie kwadratowej) funkcji straty. Problem ten można rozwiązać na przykład przez odpowiednie ograniczenie klasy rozważanych estymatorów tak, aby w nowej klasie minimum funkcji ryzyka istniało. Jest to znany zabieg jaki stosuje się w wielu problemach optymalizacyjnych. W statystyce zwykle nakłada się na estymatory wymaganie tzw. nieobciążoności.
Definicja. Estymator
parametru
nazywamy estymatorem nieobciążonym (EN) (asymptotycznie nieobciążonym), jeżeli dla każdego
mamy
Warunek ten mówi, że średnio estymator daje wartość estymowanego parametru. Oczywiście klasa estymatorów nieobciążonych nie zawiera estymatorów stałych, które z praktycznego punktu widzenia są niepotrzebne. Niestety, w pewnych przypadkach założenie nieobciążoności eliminuje także estymatory, które moglibyśmy uznać za dobre. Zwróćmy uwagę na fakt, że dla estymatora nieobciążonego jego błąd średniokwadratowy jest po prostu jego wariancją. Tym samym w klasie estymatorów nieobciążonych problem wyznaczenia estymatora, dla którego błąd średniokwadratowy jest najmniejszy jest problemem wyznaczenia estymatora o minimalnej wariancji (ENMW). Cytowane poniżej dwa twierdzenia pozwalają efektywnie wyznaczać ENMW.
Twierdzenie Rao-Blackwella. Niech T będzie statystyką dostateczną dla rodziny
rozkładów prawdopodobieństwa na przestrzeni próby X i niech
będzie dowolnym nieobciążonym estymatorem pewnego parametru
. Wówczas
jest również estymatorem nieobciążonym, a jego wariancja jest jednostajnie nie większa od wariancji estymatora
, tzn.
.
Dowód. Nieobciążońość estymatora
jest oczywista i wynika z własności warunkowej wartości oczekiwanej oraz nieobciążoności estymatora
. Mianowicie
.
Druga część tezy wynika z tzw. nierówności Jensena, która mówi, że dla dowolnej funkcji wypukłej h oraz dowolnej wielkości losowej X mamy
. Kładąc
oraz
otrzymujemy
Odejmując od obu stron ostatniej nierówności
dostajemy dowodzoną nierówność dla wariancji.
Załóżmy dodatkowo, iż statystyka dostateczna T jest zupełna. Wówczas z zupełności wynika, że estymator nieobciążony będący funkcją statystyki T, o którym mowa w twierdzeniu Rao-Blackwella jest jedynym estymatorem nieobciążonym
w klasie estymatorów będących funkcjami od T. Zatem jest on estymatorem nieobciążonym o minimalnej wariancji ( ENMW[
] ).
Twierdzenie Lehmanna-Scheffégo. Jeżeli statystyka T jest statystyką dostateczną zupełną dla rodziny
rozkładów prawdopodobieństwa na przestrzeni próby X oraz
jest dowolnym nieobciążonym estymatorem parametru
, to
jest ENMW[
].
Twierdzenie to można także sformułować w ten sposób, że jeżeli statystyka T jest dostateczną zupełną to dla dowolnej funkcji rzeczywistej g, statystyka
jest ENMW swojej wartości oczekiwanej.
Oba cytowane powyżej twierdzenia są podstawowym narzędziem przy konstrukcji estymatorów nieobciążonych o minimalnej wariancji. Wystarczy znać dowolny estymator nieobciążony oraz statystykę dostateczną zupełną. Jedyna trudność techniczna to umiejętność wyznaczenia warunkowej wartości oczekiwanej estymatora nieobciążonego pod warunkiem statystyki dostatecznej.
Przykład. a) Dla próby losowej z rozkładu Bernoulliego z rodziny
, jak to wcześniej pokazaliśmy, średnia z próby
jest minimalną, zupełną statystyką dostateczną. Jednocześnie średnia z próby zawsze jest jest estymatorem nieobciążonym wartości oczekiwanej (o ile istnieje) populacjji generalnej, ponieważ
Zatem na podstawie twierdzenia Lehmanna-Scheffégo
jest ENMW[].
b) Podobnie dla próby losowej z rozkładu normalnego z rodziny
( i nieznane) minimalną, zupełną statystyką dostateczną jest
. Zauwżmy, że dla dowolnej cechy o wartości oczekiwanej
= i odchyleniu standardowym
=, wariancja empiryczna jest nieobciążonym estymatorem wariancji tej cechy, tzn.
Tym samym na podstawie twierdzenia Lehmanna-Scheffégo
jest ENMW[] a
jest ENMW[
].
c) Dla rodziny rozkładów normalnych ze znaną wartością oczekiwaną statystyką dostateczną zupełną jest
ponieważ
Nietrudno sprawdzić, że
jest nieobciążonym estymatorem wariancji a zatem jest ENMW[
] dla rodziny rozkładów normalnych ze znaną wartością oczekiwaną.
W literaturze bardzo często dla estymatora ENMW używa się określenia estymator najefektywniejszy. Wiąże się to z tzw. pojęciem efektywności estymatorów nieobciążonych. Otóż okazuje się, że przy pewnych dość ogólnych założeniach o rodzinie rozkładów można wyznaczyć ograniczenie dolne na wariancję estymatorów nieobciążonych. Wówczas możliwe będzie porównanie wariancji każdego badanego estymatora z kresem dolnym wariancji estymatorów nieobciążonych. Odpowiednie pojęcia wprowadzimy jedynie dla przypadku, gdy jest parametrem liczbowym a przestrzeń parametrów
jest przedziałem na prostej.
Definicja. Wielkość
nazywamy informacją Fishera o parametrze zawartą w próbie X, gdzie
oznacza funkcję gęstości rozkładu
w przypadku, gdy jest to rozkład typu ciągłego lub funkcję prawdopodobieństwa dla rozkładu dyskretnego.
Uwaga. Jeżeli
jest prostą próbą losową to informacja Fishera zawarta w próbie
gdzie
oznacza informację Fishera zawartą w pojedynczej obserwacji.
Twierdzenie Craméra-Rao. Niech
będzie rodziną rozkładów na przestrzeni próby, parametrem liczbowym a przestrzeń parametrów
przedziałem na prostej. Jeżeli spełnione są pewne warunki regularności, to wariancja każdego estymatora nieobciążonego
parametru spełnia nierówność
przy czym równość zachodzi wtedy i tylko wtedy, gdy
wtedy
Twierdzenie. Jeżeli
jest prostą próbą losową z populacji o rozkładzie normalnym
, to
a)
ma rozkład normalny
;
b)
, ma rozkład chi-kwadrat
z (n-1) stopniami swobody, gdzie
;
c)
ma rozkład t[n-1] t-Studenta z (n-1) stopniami swobody;
d) statystyki
i
są niezależne.
Dowód. Własność a) jest oczywista i wynika stąd, że kombinacja liniowa zmiennych losowych o rozkładzie normalnym ma rozkład normalny.
b) i d). Bez straty ogólności można założyć, że =0 a =1. Istotnie
gdzie
jest prostą próbą losową z populacji o rozkładzie N(0,1). Rozważmy następujące przekształcenie ortonormalne (
)
Zgodnie z założeniem
Ponieważ przekształcenie ortonormalne jest izometrią, to
gdzie
oznacza n-wymiarową normę euklidesową. Oczywiście
jest wektorem normalnym
. Wystarczy zauważyć, że wektor wartości oczekiwanych
a macierz kowariancyjna
Zatem zmienne losowe
, i=1,...,n są niezależne o jednakowym rozkładzie N(0,1). Macierz C została zdefiniowana w ten sposób, że
Jednocześnie mamy
Ponieważ
, to
Tym samym
, ma rozkład chi-kwadrat
i jest niezależne od
.
c) Podobnie, bez straty ogólności, możemy założyć, że =0 a =1.
jest ilorazem dwóch niezależnych zmiennych losowych, jednej o standardowym rozkładzie normalnym i drugiej będącej pierwiastkiem z ilorazu zmiennej o rozkładzie chi-kwadrat z (n-1) stopniami swobody podzielonej przez (n-1). Zatem jest to rozkład t-Studenta z (n-1) stopniami swobody.
Testy zgodności i jednorodności.
Przykład.
W połowie 1985 roku Coca Cola Bottling Company postanowiła zmienić recepturę swojego napoju. Wywołało to wiele dyskusji, niekiedy bardzo gorących, pomiędzy zwolennikami starej i nowej formuły Coca Coli. Przeprowadzono wiele różnych degustacji, bardziej lub mniej oficjalnych. Podzczas jednej z takich degustacji w McGuire's Irish Pub w Pensacola na Florydzie poddano testowi 25 osób. Każdej z tych 25 osób podano trzy różne napoje: Coca Colę zrobioną według starej receptury, Coca Colę według nowej receptury oraz Pepsi Colę. Żadna z osób uczestniczących w degustacji nie posiadała informacji o tym, który z napojów degustuje. Dwanaście osób za najlepszą wybrało Coca Colę zrobioną według starej receptury, siedmioro według nowej receptury a pozostałe sześć osób wybrało Pepsi Colę. Tylko troje spośród uczestników degustacji bezbłędnie rozpoznało wszystkie trzy napoje. Czy rezultaty tego testu są wystarczającym dowodem na to, że stara receptura jest najlepsza? Czy jest to jedynie wynik przypadkowego wyboru preferowanego napoju przez uczestników testu?
Problem, który został przedstawiony w przykładzie jest szczególnym przypadkiem zadania badania zgodności rozkładu cechy z pewnym założonym rozkładem teoretycznym. Niech
będzie prostą próbą losową z rozkładu prawdopodobieństwa o dystrybuancie
. Testy statystyczne służące do weryfikowania hipotezy zerowej
gdzie
jest pewną znaną dystrybuantą, nazywamy testami zgodności. Testy zgodności są testami nieparametrycznymi. W chwili obecnej jest bardzo wiele różnych testów pozwalających badać zgodność rozkładów o ciągłej dystrybuancie. W przypadku rozkładów typu dyskretnego zwykle używa się najpopularniejszego testu zgodności, testu
-Pearsona, który może być stosowany dla dowolnych rozkładów. Wadą tego testu jest to, iż wymaga on prób o dużej liczności. W przypadku, gdy badana cecha