Blyskawiczna analiza regresji SnapStat


- 1 -
BÅ‚yskawiczna analiza regresji
SnapStats
w programie
STATGRAPHICS Centurion XV
Przekład
Robert Wiśniewski
http://chomikuj.pl/bobwis
PODSUMOWANIE
Błyskawiczna analiza regresji dostępna za pomocą menu SnapStats | Curve Fitting tworzy
jednostronicowe podsumowanie zależności między jednym czynnikiem ilościowym X, a zmienną
zależną Y.
Można dopasowywać jeden z 27 modeli liniowych lub nieliniowych przy korzystaniu z metody
najmniejszych kwadratów lub z procedury estymacji reszt.
Wykonywane są również testy istotności statystycznej modelu.
Dopasowany model jest wykreślany wraz z granicami ufności Confidence Limits i/lub granicami
przewidywania Prediction Limits oraz wykreślane są wykresy reszt.
Wykonywane obliczenia są podzestawem obliczeń przeprowadzanych w procedurze prostej regresji
liniowej Simple Regression.
Jednak wyniki sÄ… formatowane w dostosowaniu do jednej strony.
·ð PrzykÅ‚adowa folia statystyczna StatFolio  Plik curvefitsnapstat.sgp
·ð PrzykÅ‚adowe dane  Plik nonlin.sf3 zawiera dane o iloÅ›ci dostÄ™pnego chloru Chlorine
w próbkach produktu w funkcji liczby tygodni Weeks od daty ich produkcji.
Dane te zaczerpnięte z pracy Draper and Smith (1998), zawierają n = 44 próbek, których
część zamieszczono poniżej:
- 2 -
Wprowadzanie danych
Otwierane okienko dialogowe oczekuje wprowadzenia nazw kolumn zawierających zmienne zależne Y
oraz zmienne niezależne X.
·ð Y  Kolumna liczbowa zawierajÄ…ca n-obserwacji zmiennej zależnej Y.
·ð X  Kolumna liczbowa zawierajÄ…ca n-wartoÅ›ci zmiennej niezależnej X.
·ð (Select)  Opcjonalny wybór podzestawu danych.
Wyniki
Wyniki analizy SnapStat znajdują się na jednej stronie statystyk liczbowych i wykresów.
- 3 -
SnapStat: Curve Fitting
Plot of Fitted Model
With 99,0% Prediction Limits
nonlin.chlorine = 0,48551 - 0,00271679*nonlin.weeks
0,5
Estimate P-Value
0,48
Intercept 0,48551 0,0000
Slope -0,00271679 0,0000
0,46
Correlation Coefficient = -0,8651
0,44
R-squared = 74,83 percent
R-squared (adjusted for d.f.) = 74,23 percent
0,42
Standard Error of Est. = 0,015385
0,4
Mean absolute error = 0,012834
Durbin-Watson statistic = 0,992081 (P=0,0001)
0,38
Lag 1 residual autocorrelation = 0,451981
0 10 20 30 40 50
nonlin.weeks
Predicted Lower 99,0% Upper 99,0%
Residual Plot
X Y Pred. Limit Pred. Limit
nonlin.chlorine = 0,48551 - 0,00271679*nonlin.weeks
0,0 0,48551 0,441062 0,529959
2,1
10 0,458342 0,415599 0,501086
20 0,431175 0,389169 0,47318
30 0,404007 0,361723 0,44629
1,1
40 0,376839 0,333279 0,420398
50 0,349671 0,303921 0,39542
0,1
Predicted Lower 99,0% Upper 99,0%
X Y Conf. Limit Conf. Limit
0,0 0,48551 0,469617 0,501404
-0,9
10 0,458342 0,448146 0,468539
20 0,431175 0,424742 0,437607
30 0,404007 0,395954 0,41206
-1,9
40 0,376839 0,363634 0,390044
0 10 20 30 40 50
50 0,349671 0,330437 0,368905
nonlin.weeks
Residual Plot
Plot of nonlin.chlorine
nonlin.chlorine = 0,48551 - 0,00271679*nonlin.weeks
0,5 2,1
0,48
1,1
0,46
0,44 0,1
0,42
-0,9
0,4
0,38 -1,9
0,38 0,4 0,42 0,44 0,46 0,48 0,5 0 10 20 30 40 50
predicted row number
Model statystyczny (górny lewy róg)
W górnym lewym rogu strony wyników wyświetlany jest aktualnie dopasowywany model statystyczny
analizy regresji oraz statystyki opisowe.
nonlin.chlorine
Studentized residual
observed
Studentized residual
- 4 -
Zawierają one poniższe wielkości:
·ð Dopasowany model  Identyfikacja modelu regresji. DomyÅ›lnie jest to prosty model liniowy
w postaci równania:
Y = a + b X .......................................................................... (1)
Można jednak wybierać inne modele przy korzystaniu z opcji analizy.
·ð Współczynniki  Estymowane współczynniki i wartoÅ›ci prawdopodobieÅ„stwa P-Value
uzyskane na podstawie testu-t hipotezy zerowej, że odpowiadający parametr modelu jest
równy 0 względem hipotezy alternatywnej, że jest różny od 0.
Małe wartości P-Value (mniejsze od wartości 0,05 na poziomie istotności 5 %) wskazują, że
współczynnik modelu jest istotnie różny od 0.
Dla przykładowych danych, zarówno przecięcie (wyraz wolny) Intercept jak i nachylenie
Slope, sÄ… statystycznie istotne.
·ð Statystyki  Statystyki opisowe dopasowywanego modelu regresji, w tym:
Øð Correlation Coeffcient  Współczynnik korelacji. Miara mocy zależnoÅ›ci liniowej miÄ™dzy
zmiennymi Y oraz X w skali od -1 (idealna ujemna korelacja liniowa) do + 1 (idealna
dodatnia korelacja liniowa).
Dla przykładowej próbki danych, korelacja między zmienną chlorine, a zmienną weeks jest
stosunkowo mocna, przy czym znak minus wskazuje, że zawartość chloru spada w miarę
upływu tygodni.
Øð R-Squared  Współczynnik determinacji R2. Reprezentuje procent zmiennoÅ›ci z jakÄ…
zmienna Y jest objaśniona modelem regresji w skalo od 0 do 100 %. Dla przykładowej
próbki, współczynnik ten przybiera wartość bliską 75 %. Pozostałe 25 % zmienności jest
związane z odchyleniami do linii prostej, co może być również wywołane innymi czynnikami
takimi jak błędy pomiaru lub nieadekwatność modelu.
Øð Adjusted R-Squared  Współczynnik determinacji dopasowany do liczby współczynników
występujących w modelu. Wartość ta jest często stosowana do porównywania modeli
o różnej liczbie współczynników.
Øð Standard Error of Est  BÅ‚Ä…d standardowy estymacji. Jest to estymowane odchylenie
standardowe reszt (odchyleń wokół modelu). Wartość ta jest stosowana do tworzenia
granic przewidywania Prediction Limits nowych obserwacji.
Øð Mean Absolute Error  Åšredni bÅ‚Ä…d bezwzglÄ™dny reszt.
Øð Durbin-Watson Statistic  Statystyka Durbina-Watsona. Jest to miara korelacji reszt.
Gdy reszty zmieniają się losowo, statystyka ta powinna być zbliżona do wartości 2.
Male wartości P-Value wskazują na nielosowy rozrzut reszt.
Dla danych rejestrowanych w czasie, mała wartość P-Value może świadczyć, że nie
występuje wyrazny trend czasowy.
Dla danych tego przykładu, mała wartość P-Value wskazuje, że model linowy nie pasuje
do całej struktury danych, co widać na wykresie reszt.
Øð Lag 1 Residual Autocorrelation  Opóznienie autokorelacji reszt. Jest to estymowana
korelacja między kolejnymi resztami w skali od -1 do +1. Wartości odlegle od 0 wskazują,
że znaczna część struktury pozostaje nie wyjaśniona modelem.
- 5 -
Opcje analizy
·ð Type of model  Typ estymowanego modelu. Wszystkie wyÅ›wietlane tu modele w liczbie 27
mogą być zlinearyzowane przez transformację zmiennej X, Y lub obu.
Przy dopasowywaniu modelu nieliniowego, STATGRAPHICS najpierw transformuje dane
i dopiero po tym dopasowuje model, a następnie odwraca transformację w celu wyświetlania
wyników.
·ð Alternative Fit  Alternatywne procedury dopasowywania. Poza opcja domyÅ›lnÄ… None (tylko
metoda najmniejszych kwadratów), dostępne są dwie inne metody odporne na wartości
odbiegajÄ…ce.
Øð Minimize absolute deviations  Minimalizuje sumÄ™ wartoÅ›ci bezwzglÄ™dnych odchyleÅ„
wokół dopasowanego modelu.
Øð Use medians of 3 groups  Korzysta z metody Tukeya dopasowania do linii prostej,
w której dane są dzielone na 3 grupy zgodnie z wartościami X i obliczane są mediany
każdej grupy, po czym wyznaczana jest linia na podstawie tych 3 median.
Wszystkie dostępne modele są pokazane w poniższej tablicy.
- 6 -
Wykres dopasowanego modelu (górny prawy róg)
Panel ten pokazuje dopasowany model regresji wraz z granicami ufności przewidywania.
Wykres ten zawiera:
·ð Plot of Fitted Model  Linia najlepszego dopasowania zgodna z równaniem:
Ć
w =ð â +ð bx ............................................................................ (2)
Jest to równanie, które może być stosowane do przewidywania wartości zmiennej zależnej Y
dla danej wartości zmiennej niezależnej X. Podkreśla się, że jest to stosunkowo dobry sposób
wykazywania ujemnej korelacji między zmiennymi chlorine i weeks.
·ð Confidence Intervals  PrzedziaÅ‚y ufnoÅ›ci dla Å›redniej odpowiedzi przy wartoÅ›ci X. SÄ… to
wewnętrzne granice powyższego wykresu opisujące jak dobrze położenie linii wykresu może
być estymowane na podstawie danych. Gdy rozmiar próbki n rośnie, wówczas granice te
stają się bardziej zbliżone.
Można również zauważyć, że odstęp między tymi granicami zmienia się w funkcji X, przy
czym estymacja linii wykresu staje się dokładniejsza w pobliżu średniej wartości x .
- 7 -
·ð Prediction Limits  Granice przewidywania nowych obserwacji, SÄ… to zewnÄ™trzne granice
powyższego wykresu opisujące jak dokładnie można przewidywać gdzie pojedyncza, nowa
obserwacja powinna się znalezć. Bez względu na rozmiar próbki, nowe obserwacje powinny
siÄ™ zmieniać wokół prawdziwej linii wykresu ze standardowym odchyleniem równym sð.
Dołączanie granic ufności i granic przewidywania i ich domyślnych poziomów jest wyznaczane przez
ustawienia w zakładce ANOVA / Regression (sekcja Regression Plots) okienka dialogowego
otwieranego poleceniem menu Edit | Preferences.
Wykres resztowy (lewy środek)
Wykres resztowy Residual Plot ilustruje reszty dopasowanego modelu w funkcji X. Dla regresji,
reszty definiuje poniższe równanie:
e =ð y -ð w ........................................................................... (3)
i i i
Oznacza to, że reszty są różnicami między wartościami obserwowanymi a wartościami obliczonymi
z modelu regresji.
W zależności od ustawień w zakładce ANOVA / Regression (patrz wyżej) okienka dialogowego
Preferences, możemy tworzyć wykresy:
1. Ordinary Residuals  Reszty zwykłe wg metody najmniejszych kwadratów.
2. Studentized residuals  Reszty studentyzowane. Rożnice między obserwowanymi
wartościami a obliczonymi z modelu regresji gdy model jest dopasowany przy korzystaniu ze
wszystkich obserwacji za wyjątkiem i-tej, dzielone przez estymowany błąd standardowy.
Reszty takie są czasem nazywane zewnętrznie usuwanymi Externally Deleted Residuals,
ponieważ mierzą one jak daleko znajduje się każda wartość od dopasowanego modelu gdy
model ten jest dopasowany przy korzystaniu ze wszystkich wartości prócz rozpatrywanego
punktu.
Jest to ważne, ponieważ duże wartości odbiegające mogą wpływać na model, który wygląda
inaczej po usunięciu wartości odbiegających z linii regresji.
Przewidywanie (prawy środek)
Tablica ta pokazuje przewidywania obliczone na podstawie dopasowanego modelu dla wybranych
wartości X.
Tablica ta zawiera:
·ð X  Wartość zmiennej niezależnej dla której obliczana jest wartość przewidywana.
·ð Predicted Y  Wartość zmiennej zależnej przewidywanej na podstawie modelu.
·ð Prediction Limits  Granice przewidywania (dolna Lower i górna Upper) dla nowych
obserwacji odpowiadające zewnętrznym liniom na wykresie regresji.
·ð Confidence limits  Granice ufnoÅ›ci (dolna Lower i górna Upper) dla wartoÅ›ci Å›redniej Y
przy danym poziomie istotności odpowiadające wewnętrznym liniom na wykresie regresji.
Przykładowo, dla X = 30 tygodni, najlepsze przewidywanie średniej zawartości chloru wynosi
0,404 %, chociaż może się ono mieścić w granicach od 0,396 do 0,412 %.
Ponadto można przewidywać na poziomie istotności 95 %, że każda nowa próbka po upływie
30 tygodni od daty jej wyprodukowana powinna zawierać od 0,362 do 0,446 % chloru
- 8 -
Wartości obserwowane w funkcji wartości przewidywanych (lewy dół)
Wykres ten pokazuje wartości obserwowane Y w funkcji wartości przewidywanych na podstawie
dopasowanego modelu. Gdy model jest dobrze dopasowany, wówczas punkty powinny układać się
losowo wokół linii przekątnej.
Czasem można tu zauważyć pewną krzywiznę, co wskazuje na model krzywoliniowy, a nie liniowy.
Wszelkie zmiany X od wartości niskich do wysokich mogą również wskazywać na celowość
transformacji zmiennej zależnej przed dopasowaniem modelu do danych,
Na powyższym wykresie, zmienność ta pojawia się jako stała. Jednak widoczna jest pewna krzywizna.
Reszty w funkcji numerów wierszy (prawy dół)
Wykres ten pokazuje reszty studentyzowane w funkcji numerów wierszy arkusza danych. Wszelkie
nielosowe wzory wskazują na nieobjaśniony czynnik w danych. Może to być wywołane trendem
występującym w czasie (gdy dane są układane kolejno) lub wskazują na potrzebę wybrania innego
modelu krzywoliniowego (gdy dane są sortowane wg wartości X).
Obliczenia
Szczegóły wykonywanych obliczeń  patrz dokumentacja prostej regresji Simple Regression.


Wyszukiwarka

Podobne podstrony:
Analiza regresji
21 Analiza regresji
Analiza regresji 20090518
Analiza regresji liniowej
Analiza regresji wykład i lista nr 3
3 Analiza regresji
06 ANALIZA REGRESJI
analiza regresji
Elementy analizy korelacji i regresji
analizy opisowa, regresji i wariancji
Analiza Matematyczna 2 Zadania
analiza
regresja empiryczna
ANALIZA KOMPUTEROWA SYSTEMÓW POMIAROWYCH — MSE
Analiza stat ścianki szczelnej
Analiza 1

więcej podobnych podstron