regresja


Regresja liniowa

0x08 graphic

Kowalczyk Bartosz

Kowerzanow Piotr

IS1

Regresja

Regresja jest dosyć szerokim pojęciem jednakże jest ona niezwykle ważna nie tylko dla fizyka ale i dla każdego eksperymentatora. Wyróżniamy dwie główne czy najpowszechniejsze regresje np:

-regresja liniowa prosta

-regresja nieliniowa

Jaka jest „definicja encyklopedyczna” regresji? Regresją nazywamy funkcyjną zależność zmiennej zależnej od innej zmiennej z dokładnością do błędu możliwie bliskiemu zera.

W zapisie formalnym zależność przybiera postać Y = f(X) + ε

Gdzie Y - zmienna losowa, f(X) - funkcja regresji, X - dowolna zmienna (lub ich zespół), ε - zaburzenie losowe. E(ε)=0

Regresję używamy do szacowania jest dla zbadania współzależności między parametrami X a Y. W praktyce poszukuje się związku między domniemaną jedną (lub więcej) zmienną objaśniającą X, a zmienną objaśniającą Y. Związek ten może być dalej wykorzystywany do prognozowania wartości Y w zależności od X. Wyznaczanie postaci funkcji regresji nazywamy analizą regresji. Estymatory poszczególnych parametrów równania otrzymywane są przy użyciu odpowiednich metod statystycznych, takich jak np. metoda najmniejszych kwadratów. Należy jednak pamiętać, że sama regresja jest tylko faktem statystycznym i nawet współczynnik regresji równy 1 (idealne przełożenie X na Y) nie implikuje związku przyczynowo-skutkowego między zmiennymi. Nie można też stwierdzić co byłoby przyczyną, a co skutkiem w domniemanej relacji X i Y.

Regresja liniowa

Przykładowo w ujęciu w formie wykresu dwuwymiarowego (jedna zmienna objaśniana) zagadnienie polega na poprowadzeniu prostej y = ax + b jak najlepiej dopasowanej do zbioru n punktów doświadczalnych (x1, y1), (x2, y2), ... , (xn, yn). Celem dopasowania jest nie tylko uzyskanie efektu wizualnego, ale przede wszystkim uzyskanie ocen wartości parametrów a i b opisujących prostą, oraz ich niepewności u(a) i u(b).

Do tej standardowej metody najczęściej stosuje się tandetną metodę najmniejszych kwadratów Metoda ta jest najczęściej propagowana i jest najłatwiejsza w zastosowaniu. Jednakże ma poważne wady, jak to zwykle bywa z prostymi metodami. W tym przypadku jedną z najpoważniejszych błędów jest wyjątkowo mała odporność na elementy tak zwane odstające. W praktyce eksperymentalnej są to tak zwane błędy grube bądź jakieś doświadczenie z wyjątkowo szerokimi wynikami. Oczywiście są inne metody w których usunięto te wady, ale są mniej propagowane. Są to tak zwane odporne metody statystyczne (ang. robust methods) na przykład metoda medianowa.

Metoda najmniejszych kwadratów

Najpopularniejsza (choć nie najlepsza) z metod statystycznych estymacji i wyznaczania linii trendu na podstawie zbioru danych w postaci par liczb. Najczęściej jest stosowana przy regresji liniowej, ale może też być stosowana do statystycznego wyznaczania parametrów nieliniowych linii trendu.

0x01 graphic

gdzie σi to odchylenie standardowe (niepewność) danego punktu pomiarowego (w zmiennej y). W przypadku regresji nieważonej (klasycznej) wszystkie odchylenia przyjmujemy jako równe dowolnej stałej, dla wygody i uproszczenia rachunków σi = 1. W praktyce stosujemy:

0x01 graphic

Gdzie μ to wartość oczekiwana. Jednak niekiedy trudno wyliczyć wartość oczekiwaną więc często stosuje sie odchylenie standardowe z próby losowej. Odchylenie standardowe w populacji można estymować odchyleniem standardowym z próby losowej, oznaczanym przez s:

0x01 graphic

Wzory właściwe potrzebne nam wyglądają tak:

0x01 graphic
,

0x01 graphic
,

0x01 graphic
,

0x01 graphic
,

0x01 graphic

Równania w tych zmiennych po uporządkowaniu mają postać:

aSx + bS = Sy,

aSxx + bSx = Sxy.

Rozwiązaniem tego układu równań liniowych jest:

0x01 graphic

0x01 graphic

0x01 graphic
.

Uwaga. Jak już było powiedziane: ta metoda ma wady. Dokładniej. Metoda najmniejszych kwadratów zawsze daje wynik o najmniejszej sumie kwadratów błędów. Nie ma jednak gwarancji, że wynik ten ma jakikolwiek praktyczny sens. W szczególności, jeśli w danych występuje dużo elementów odstających, rezultaty mogą nie mieć nic wspólnego z rzeczywistą linią trendu czy zależnością między zjawiskami opisywanymi przez zmienne losowe.

Metoda najmniejszych kwadratów dostosowuje się bowiem do punktów najbardziej oddalonych od średniej, które mogą wprowadzić największy błąd. Jeśli mamy w danych pojedynczą zakłócającą obserwację bardzo oddaloną od reszty, przyciągnie ona do siebie linię trendu. Takie zjawisko jest niestety częste w realnych danych, nie należy więc stosować metody najmniejszych kwadratów bez sprawdzenia (choćby na wykresie rozrzutu) braku elementów odstających albo ich usunięcia.

Po obliczeniu tego zagadnienia wypadałoby obliczyć korelację. W algorytmie moim jednak nie zaimpementowałem sprawdzania korelacji i badania błędu.

W celu obliczenia niepewności uzyskanych wartości współczynników a i b, korzysta się ze wzoru na błąd pośredni funkcji zależnej od parametrów f(yi).

0x01 graphic
.

Po zastosowaniu tego wzoru do współczynników a i b (czyli obliczeniu pochodnych, podniesieniu do kwadratu uzyskuje się wzór na niepewności

0x01 graphic
,

0x01 graphic
.

Mając obliczone zmienne, można obliczyć korelację zmiennych

0x01 graphic
,

0x01 graphic
.



Wyszukiwarka

Podobne podstrony:
Statystyka #9 Regresja i korelacja
Metodologia SPSS Zastosowanie komputerów Brzezicka Rotkiewicz Regresja
10 regresja
06 regresja www przeklej plid 6 Nieznany
NAI Regresja Nieliniowa
REGRESJA PROSTA, EKONOMETRIA
zadanie 2- regresja liniowa, Statyst. zadania
06.regresja liniowa, STATYSTYKA
Prosta regresji Remp, Rtab
regresja logistyczna w R
10 regresja
Analiza regresji ostatnie notaki z wykladu
L4 regresja liniowa klucz (2)
L5 regresja logistyczna klucz (2)
analizy opisowa, regresji i wariancji
ZK PZ Spotkanie 6 (korelacje i Regresja)
STATYSTYKA-regresja, Statystyka, statystyka
Wycena nieruchomości ćwiczenie 2 Budowa modelu wartości nieruchomości przy zastosowaniu regresji wie

więcej podobnych podstron