Regresja liniowa
Kowalczyk Bartosz
Kowerzanow Piotr
IS1
Regresja
Regresja jest dosyć szerokim pojęciem jednakże jest ona niezwykle ważna nie tylko dla fizyka ale i dla każdego eksperymentatora. Wyróżniamy dwie główne czy najpowszechniejsze regresje np:
-regresja liniowa prosta
-regresja nieliniowa
Jaka jest „definicja encyklopedyczna” regresji? Regresją nazywamy funkcyjną zależność zmiennej zależnej od innej zmiennej z dokładnością do błędu możliwie bliskiemu zera.
W zapisie formalnym zależność przybiera postać Y = f(X) + ε
Gdzie Y - zmienna losowa, f(X) - funkcja regresji, X - dowolna zmienna (lub ich zespół), ε - zaburzenie losowe. E(ε)=0
Regresję używamy do szacowania jest dla zbadania współzależności między parametrami X a Y. W praktyce poszukuje się związku między domniemaną jedną (lub więcej) zmienną objaśniającą X, a zmienną objaśniającą Y. Związek ten może być dalej wykorzystywany do prognozowania wartości Y w zależności od X. Wyznaczanie postaci funkcji regresji nazywamy analizą regresji. Estymatory poszczególnych parametrów równania otrzymywane są przy użyciu odpowiednich metod statystycznych, takich jak np. metoda najmniejszych kwadratów. Należy jednak pamiętać, że sama regresja jest tylko faktem statystycznym i nawet współczynnik regresji równy 1 (idealne przełożenie X na Y) nie implikuje związku przyczynowo-skutkowego między zmiennymi. Nie można też stwierdzić co byłoby przyczyną, a co skutkiem w domniemanej relacji X i Y.
Regresja liniowa
Przykładowo w ujęciu w formie wykresu dwuwymiarowego (jedna zmienna objaśniana) zagadnienie polega na poprowadzeniu prostej y = ax + b jak najlepiej dopasowanej do zbioru n punktów doświadczalnych (x1, y1), (x2, y2), ... , (xn, yn). Celem dopasowania jest nie tylko uzyskanie efektu wizualnego, ale przede wszystkim uzyskanie ocen wartości parametrów a i b opisujących prostą, oraz ich niepewności u(a) i u(b).
Do tej standardowej metody najczęściej stosuje się tandetną metodę najmniejszych kwadratów Metoda ta jest najczęściej propagowana i jest najłatwiejsza w zastosowaniu. Jednakże ma poważne wady, jak to zwykle bywa z prostymi metodami. W tym przypadku jedną z najpoważniejszych błędów jest wyjątkowo mała odporność na elementy tak zwane odstające. W praktyce eksperymentalnej są to tak zwane błędy grube bądź jakieś doświadczenie z wyjątkowo szerokimi wynikami. Oczywiście są inne metody w których usunięto te wady, ale są mniej propagowane. Są to tak zwane odporne metody statystyczne (ang. robust methods) na przykład metoda medianowa.
Metoda najmniejszych kwadratów
Najpopularniejsza (choć nie najlepsza) z metod statystycznych estymacji i wyznaczania linii trendu na podstawie zbioru danych w postaci par liczb. Najczęściej jest stosowana przy regresji liniowej, ale może też być stosowana do statystycznego wyznaczania parametrów nieliniowych linii trendu.
gdzie σi to odchylenie standardowe (niepewność) danego punktu pomiarowego (w zmiennej y). W przypadku regresji nieważonej (klasycznej) wszystkie odchylenia przyjmujemy jako równe dowolnej stałej, dla wygody i uproszczenia rachunków σi = 1. W praktyce stosujemy:
Gdzie μ to wartość oczekiwana. Jednak niekiedy trudno wyliczyć wartość oczekiwaną więc często stosuje sie odchylenie standardowe z próby losowej. Odchylenie standardowe w populacji można estymować odchyleniem standardowym z próby losowej, oznaczanym przez s:
Wzory właściwe potrzebne nam wyglądają tak:
,
,
,
,
Równania w tych zmiennych po uporządkowaniu mają postać:
aSx + bS = Sy,
aSxx + bSx = Sxy.
Rozwiązaniem tego układu równań liniowych jest:
.
Uwaga. Jak już było powiedziane: ta metoda ma wady. Dokładniej. Metoda najmniejszych kwadratów zawsze daje wynik o najmniejszej sumie kwadratów błędów. Nie ma jednak gwarancji, że wynik ten ma jakikolwiek praktyczny sens. W szczególności, jeśli w danych występuje dużo elementów odstających, rezultaty mogą nie mieć nic wspólnego z rzeczywistą linią trendu czy zależnością między zjawiskami opisywanymi przez zmienne losowe.
Metoda najmniejszych kwadratów dostosowuje się bowiem do punktów najbardziej oddalonych od średniej, które mogą wprowadzić największy błąd. Jeśli mamy w danych pojedynczą zakłócającą obserwację bardzo oddaloną od reszty, przyciągnie ona do siebie linię trendu. Takie zjawisko jest niestety częste w realnych danych, nie należy więc stosować metody najmniejszych kwadratów bez sprawdzenia (choćby na wykresie rozrzutu) braku elementów odstających albo ich usunięcia.
Po obliczeniu tego zagadnienia wypadałoby obliczyć korelację. W algorytmie moim jednak nie zaimpementowałem sprawdzania korelacji i badania błędu.
W celu obliczenia niepewności uzyskanych wartości współczynników a i b, korzysta się ze wzoru na błąd pośredni funkcji zależnej od parametrów f(yi).
.
Po zastosowaniu tego wzoru do współczynników a i b (czyli obliczeniu pochodnych, podniesieniu do kwadratu uzyskuje się wzór na niepewności
,
.
Mając obliczone zmienne, można obliczyć korelację zmiennych
,
.