5. ESTYMACJA PARAMETRÓW METODĄ NAJWIĘKSZEJ WIAROGODNOŚCI
[Abramowicz '92 - Rozdz. 6]
Do tej pory zajmowaliśmy się estymacją wartości prawdziwej wielkości mierzonej na podstawie wyników pomiaru tej wielkości oraz informacji o rozkładzie, któremu podlegają owe wyniki z powodu istnienia nieuniknionych błędów losowych. Problem estymacji można rozszerzyć na sytuacje, gdy na podstawie wyników przeprowadzonych pomiarów i informacji o ich rozkładzie chcemy wyznaczyć estymaty wartości prawdziwych pewnych wielkości, które wprawdzie nie podlegają pomiarowi, ale charakteryzują zależność funkcyjną między wielkościami, które mogą być zmierzone, np. między wielkością wejściową i wielkością wyjściową układu fizycznego.
5.1. Metoda największej wiarygodności
Załóżmy, że uzyskaliśmy serię wyników pomiaru: , przy czym prawdopodobieństwo uzyskania wartości
opisane jest funkcją gęstości prawdopodobieństwa z nieznanym parametrem p. Oznaczmy przez prawdopodobieństwo uzyskania dokładnie tej właśnie serii wyników:
(5.1)
Jest to funkcja parametru p, zwana funkcją wiarygodności, określająca prawdopodobieństwo zdarzenia, że p jest wartością prawdziwą nieznanego parametru w sytuacji, gdy uzyskano serię wyników pomiarów . Wychodząc z filozoficznej przesłanki, że w naturze realizowane są sytuacje najbardziej prawdopodobne, za najlepszą estymatę prawdziwej wartości parametru p uznajemy wartość , dla której funkcja wiarygodności przyjmuje wartość maksymalną, tzn. dla której spełnione są warunki wystarczające osiągania przez nią maksimum:
(5.2)
Wynikająca stąd metoda estymacji nazywa się metodą największej wiarygodności. W większości sytuacji pomiarowych funkcja wiarygodności ma tylko jedno maksimum i istnieje tylko jedna wartość spełniająca warunki (5.2). Ponieważ funkcja ta ma postać iloczynu funkcji gęstości, wygodnie jest posługiwać się logarytmiczną funkcję wiarygodności:
(5.3)
której ekstrema pokrywają się z ekstremami funkcji L. Warunek konieczny osiągania maksimum przez tę funkcję ma postać:
(5.4)
Przykład 5.1 W celu znalezienia estymaty wartości oczekiwanej rozkładu Gaussa o znanej dyspersji
rozważmy funkcję wiarygodności postaci:
(5.5)
Warunek konieczny osiągania maksimum przez tę funkcję, wynikający z różniczkowania logarytmicznej funkcji wiarygodności:
(5.6)
prowadzi do równania liniowego względem estymaty parametru p:
(5.7)
Rozwiązanie tego równania daje:
(5.8)
a więc estymatę identyczną jak ta, którą analizowaliśmy w podrozdziale 3.2.
Możliwość rozszerzenia metody największej wiarygodności na przypadek wielu parametrów zilustrujemy przykładem jednoczesnej estymacji wartości prawdziwej wielkości mierzonej
i wariancji wyników pomiarów
.
Przykład 5.2 Funkcja wiarygodności zależy w tym wypadku od dwóch parametrów:
(5.9)
a warunki konieczne osiągania maksimum przez tę funkcję mają postać:
(5.10a)
(5.10b)
Rozwiązaniem powyższych równań są następujące estymaty parametrów rozkładu:
(5.11a)
(5.11b)
Ta druga estymata różni się dzieleniem przez N zamiast przez N - 1 od nieobciążonej estymaty wariancji, którą wyprowadziliśmy w podrozdziale 3.3. Wnosimy stąd, że estymata wariancji uzyskiwana metodą największej wiarygodności jest estymatą obciążoną, ignorującą fakt, że wartość estymaty podlega rozkładowi Gaussa wokół wartości prawdziwej
o dyspersji równej
.
5.2. Dokładność metody największej wiarygodności
Dla dostatecznie dużych wartości N funkcja wiarygodności przestaje zależeć od danych i zbliża się do funkcji gęstości prawdopodobieństwa rozkładu Gaussa o wartości średniej i wariancji :
(5.12)
gdzie oznacza wartość funkcji wiarygodności odpowiadającą jej maksimum. gdy wyniki Jeśli wyniki pomiaru podlegają rozkładowi Gaussa, to logarytmiczna funkcja wiarygodności:
(5.13)
przyjmuje wartość maksymalną dla:
(5.14)
i maleje o 0.5 dla :
(5.15)
Po podstawieniu wzoru (5.12) do (5.15) otrzymujemy:
(5.16)
a stąd:
(5.17)
oraz
(5.18)
Ponieważ ze wzoru (5.14) wynika, że , więc:
(5.19)
Graficzną interpretację powyższego sposobu wyznaczania wariancji estymat uzyskanych metodą największej wiarygodności przedstawia rys. 5.1, gdzie pokazano, jak z wykresu wyznaczyć można zarówno estymatę i jej błąd. Choć istnieją bardziej ogólne sposoby, ten prosty sposób jest wystarczający dla wielu zastosowań praktycznych.
Rys. 5.1. Graficzna interpretacja sposobu wyznaczania wariancji estymat uzyskanych metodą największej wiarygodności.
Przez analogię do przedziałów ufności, odpowiadających danym poziomom ufności, w metodzie największej wiarygodności wprowadza się przedziały wiarygodności dla odpowiednich poziomów wiarygodności. Rozwiązania równania:
(5.20)
względem dla a = 0.5, 2 i 4.5 wyznaczają przedziały wiarygodności odpowiadające poziomom wiarygodności
5.3. Macierz kowariancji w przypadku dwóch parametrów estymowanych
Problem wyznaczenia macierzy kowariancji w przypadku stosowania metody największej wiarygodności do estymacji dwóch parametrów, można również rozwiązać graficznie. Dla bardzo dużych serii pomiarowych, funkcja wiarygodności przyjmuje postać binormalną:
(5.21)
gdzie
oznaczają wariancje estymat uzyskanych metodą największej wiarygodności, a oznacza współczynnik korelacji między tymi estymatami. Linię stałej wartości funkcji wiarygodności:
(5.22)
opisuje równanie kwadratowe:
(5.23)
Linia ta jest więc elipsą o środku w punkcie , której osie główne tworzą kąt z osią
, przy czym:
(5.24)
Elipsa ta jest wpisana w równoległobok wyznaczony przez proste . Przykład takiej elipsy pokazano na rys. 5.2. Umożliwia ona wyznaczenie wartości
oraz , czyli całej macierzy kowariancji.
Rys. 5.2. Graficzna metoda wyznaczania macierzy kowariancji: proste styczne do elipsy, a prostopadłe do osi
, wyznaczają odchylenie standardowe
; proste styczne do elipsy, a prostopadłe do osi , wyznaczają odchylenie standardowe
; kąt między osią
a osią główną elipsy (linia ciągła) wyznacza współczynnik korelacji zgodnie ze wzorem (5.24).
5.4. Średnia ważona jako estymata największej wiarygodności
Rozważmy sytuację, w której ta sama wielkość fizyczna, której wartość prawdziwa wynosi
, została zmierzona różnymi metodami, przy czym za każdym razem otrzymano trochę inny wynik
, z błędem
różnym dla różnych metod. Załóżmy, że mamy N takich wyników oraz że podlegają one rozkładowi Gaussa. Funkcja wiarygodności ma w tym przypadku postać:
(5.25)
gdzie:
(5.26)
Logarytmiczna funkcja wiarygodności:
(5.27)
osiąga maksimum, gdy:
(5.28)
Stąd estymata wartości prawdziwej o postaci średniej ważonej:
(5.29)
Każda wartość mierzona wchodzi do sumy z wagą odwrotnie proporcjonalną do kwadratu jej błędu:
dla (5.30)
Znaczy to, że im wynik pomiaru jest bardziej niepewny, tym ma on mniejszy wpływ na wartość estymaty.
Błąd średniej ważonej możemy otrzymać na dwa sposoby: albo korzystając z własności funkcji wiarygodności, albo korzystając z faktu, że estymata (5.29) jest liniową kombinacją danych i można zastosować wzór na propagację małych (statystycznie niezależnych) błędów. Skorzystamy z tej ostatniej metody, żeby pokazać jeszcze jedną możliwość obliczenia błędu estymaty uzyskanej metodą największej wiarygodności:
(5.31)
Przykład 5.3 Prędkość dźwięku mierzona w powietrzu dwiema różnymi metodami wynosi:
Najlepszą estymatę prędkości dźwięku w tej sytuacji otrzymujemy jako średnią ważoną tych dwóch wyników, przy czym nieznormalizowane wagi wynoszą odpowiednio:, natomiast wzór na średnią ważoną wygląda następująco:
Błąd standardowy tej estymaty wyznaczony według wzoru (5.31) wynosi .