Analiza regresji ppt

background image

Analiza regresji

background image

Regresja jednozmiennowa

• Jeden predyktor, jedna zmienna zależna

(obie zmienne ilościowe)

• Założenia:

– odpowiednia liczba osób badanych (formuła 50

+ 8),

– prostoliniowa zależność (oceniana na oko),
– normalność rozkładu zmiennych (przy małych

liczebnościach test Shapiro-Wilka, przy małych
K-S),

– usunięte przypadki odstające i skrajne

background image

Podsumowanie

• Za pomocą metody najmniejszych kwadratów

dopasowywana jest linia prosta spełniająca

taki warunek, że suma odległości wyników od

linii jest minimalna (wyniki badanych leżą jak

najbliżej tej linii analiza wariancji)

• Dowiadujemy się jak silny jest związek i jaki

jest jego kierunek (współczynnik beta)

• Uzyskujemy informacje o parametrach

prostej. Dzięki temu możemy zapisać

zależnośc między zmiennymi w postaci wzoru

matematycznego i precyzyjnie przewidywać

wielkość zmiennej przewidywanej znając tylko

wielkość predyktora.

background image

Przykład – Pokaż mi, ile masz

książek…

• Jak dobra rozmiar ramy
• Wysokość ramy musi zapewniać

dostateczny dystans pomiędzy
górną rurą ramy a kroczem. Ma on
pozwolić na bezpieczne zeskoczenie
z pedałów bez przykrych
konsekwencji. W rowerze górskim
rowerzysta, kiedy stoi okrakiem nad
ramą, musi mieć możliwość
uniesienia przedniego koła co
najmniej 15 cm nad ziemię.

background image

Oglądamy wykres

• Wykres wygląda

mało
zachęcająco, ale
nie widać
żadnych
dewiantów ani
zależności
krzywoliniowej

0

1

2

3

4

5

6

7

L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

0

20

40

60

80

100

W

Y

N

IK

W

T

E

S

C

IE

A

L

F

A

B

E

T

F

U

N

K

C

/1

99

9/

0-

10

0

background image

Czy model jest dobrze dopasowany?

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a.

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b.

Analiza wariancji testująca dopasowanie modelu
regresji jest istotna F(1, 958)=234,9; p<0,001.
Oznacza to, że model regresji jest bardziej
precyzyjny niż opis danych za pomocą średniej
grupowej

background image

Współczynniki

Standaryzowany współczynnik regresji wynosi beta=0,44 i jest istotnie

różny od zera (p<0,001), co oznacza, że zależność między

analizowanymi zmiennymi jest dość silna i dodatnia. Osoba posiadająca

dużo książek ma wysoki wynik w teście rozumienia tekstu.

Rozbieżność współczynnika beta jest weryfikowana testem t-Studenta dla

jednej próby (H0: beta=0).

Tą samą metodą jest testowana wartość stałej.

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a.

background image

Wartość statystyki t

Wartość statystyki t testu sprawdzającego

rozbieżność parametrów od zera to wartość

parametru dzielona przez błąd standardowy, a

zatem:

t=25,851 / 1,591 = 16,247

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a.

background image

Statystyka t a statystyka F

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a.

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b.

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a.

F=
t

2

background image

Współczynniki

Współczynniki niestandaryzowane wynoszą: stała=25,85 i współczynnik

kierunkowy=7,85. Zapis równania, które posłużyć może do przewidywania wyników

wyglądać będzie następująco:

Y=7,85*X+25,85
Co to oznacza?
Osoba, która w ogóle nie ma żadnej książki uzyskała…..punktów w teście rozumienia

tekstu.

Wraz z zakupem jednej książki wynik w teście rośnie o……… punktów.

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a.

background image

Współczynniki

Równanie opisujące zależność między zmiennymi

Y=7,85*X+25,85

Jeśli Andrzej ma 5 książek to jego wynik w teście będzie

wynosił 7,85*5+25,85= 65 punktów w teście.

Jak bardzo się mylimy? Jaki jest błąd naszego

wnioskowania?

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a.

background image

Błąd wnioskowania

Jak bardzo się mylimy? Jaki jest błąd naszego

wnioskowania?

O błędzie wnioskowania można się wypowiadać na

podstawie błędów standardowych obu parametrów.

Błąd standardowy określa o ile przeciętnie się mylimy w

szacowaniu obu parametrów równania regresji

Jeśli chodzi o stałą to błąd wynosi 1,59 dla współczynnika

kierunkowego 0,512. Można zapytać, czy to dużo, czy

mało? Zależy od wielkości parametru. Można obliczyć

procentową wartość błędu względem współczynnika: dla

stałej to 6% dla współczynnika kierunkowego to 6,5%

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a.

background image

Błąd wnioskowania

Niektórzy autorzy zamiast procentowej wartości błędu

podają proporcję wartość parametru/błąd. Jeśli

wartość tej proporcji jest bardzo mała to nasze

oszacowania nie są precyzyjne.

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a.

background image

Precyzja wnioskowania -

graficznie

• Precyzje

wnioskowania można

także przedstawić

graficznie w postaci

przedziału ufności

wokół linii regresji.

Przedział ufności

określa gdzie z 95%

prawdopodobieństwe

m może przechodzić

linia regresji.

background image

Precyzja przewidywania - graficznie

• Przewidywanie jest precyzyjne bo przedział

ufności jest wąski

background image

Procent wyjaśnionej wariancji

• Zmienna liczba książek pozwala wyjaśnić

prawie 20% (mnożymy R –kwadrat przez
100%) zmienności zmiennej analfabetyzm
funkcjonalny

Model - Podsumowanie

,444

a

,197

,196

28,328

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

a.

background image

Procent wyjaśnionej

wariancji

• R-kwadrat to wyjaśniona suma kwadratów

(suma kwadratów dla regresji) dzielona
przez całkowitą sumę kwadratów (sumę
kwadratów ogółem).

Model - Podsumowanie

,444

a

,197

,196

28,328

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

a.

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a.

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b.

background image

Predykcja zmiennej zależnej w

oparciu o wiele predyktorów

(2 i więcej)

Regresja

wielokrotna

Multiple

Regression

background image

Regresja wielokrotna

• Kilka predyktorów ilościowych, jedna zmienna

przewidywana ilościowa

• Założenia jak w regresji jednozmiennowej

Kolejne kroki analizy regresji wielokrotnej

(wielozmiennowej) identyczne jak w

jednozmiennowej:

Testowanie dopasowania modelu
Określenie siły i kierunku zależności między

predyktorami a zmienną przewidywaną

Określenie łącznej efektywności modelu (R-kwadrat)

background image

Medyczny przykład

• Przewidujemy umieralność na chorobę

wieńcową (CW) w zależności od ilości

wypalanych papierosów i poziomu stresu

pacjenta.

• Rzeczywiste dane
• Przy dwóch predyktorach i jednej zmiennej

zależnej nie dopasowujemy linii prostej a

płaszczyznę do punktów umieszczonych w

przestrzeni trójwymiarowej. Każdy punkt

(osoba badana) może zostać opisana przez

trzy właściwości.

background image
background image

Obie zmienne sytuacje stresowe i liczba wypalanych papierosów są istotnie związane

z umieralnością na CW, ale również predyktory są ze sobą związane

background image
background image

Współczynnik korelacji

wielokrotnej

• Współczynnik analogiczny do r
• Zawsze oznaczany przez R
• Zawsze pozytywny

– Korelacja konstruktu stworzonego ze

wszystkich predyktorów łącznie ze
zmienna zależną

– Często zamiast R podaje się R

2

, które

łatwiej zinterpretować

background image

R

2

Przy kilku predyktorach odczytujemy
Skorygowane R-kwadrat, gdyż R-kwadrat jest
przeszacowane wtedy, gdy więcej niż jeden
predyktor. Tutaj model regresji wyjaśnia 45%
zmienności zmiennej zależnej.

background image

Czy model jest istotny?

background image

Współczynniki regresji

• Stała i współczynniki dla każdego

predyktora

• Przy szacowaniu współczynnika dla

danej zmiennej wartości pozostałych
są utrzymywane na stałym poziomie

• Równanie regresji wielokrotnej jest

rozszerzeniem równania regresji
prostej o kolejne predyktory.

background image

Równanie regresji

wielokrotnej

• W drugim równaniu nie mamy stałej, (stała = 0)
• Patrzenie na wystandaryzowane współczynniki –

sprowadzone do jednej skali pozwala na

porównywanie ich wkładu do modelu

2

2

1

1

0

2

2

1

1

Z

Z

Z

b

X

b

X

b

Y

y

background image

Odczytujemy, która zmienna jest istotnym
predyktorem umieralności na chorobę
wieńcową. Patrzymy na istotności
współczynników beta. Istotny jest tylko
współczynnik dla dziennej liczby papaierosów.
Zależność ta jest dodatnia i bardzo silna
(beta=0,818, p<0,05). Osoby, które duża palą są
też bardziej narażone na rozwój choroby
wieńcowej.

background image

Równanie regresji

• A równaniu regresji uwzględniamy jedynie

istotne predyktory. A zatem w naszym
przykłądzie jedynie współczynnik
niestandaryzowane B dla zmiennej „liczba
wypalanych papierosów” oraz stałą. Co
prawda stała nie różni się istotnie od zera
więc też moglibyśmy pominąć ją w równaniu.

979

,

1

346

,

2

ˆ

0

2

2

1

1

pap

b

X

b

X

b

Y

background image

Przewidywanie

Załóżmy, że:
• liczba papierosów = 10
• Liczba sytuacji stresowych = 5,
• Jakie jest ryzyko choroby wieńcowej

10000

44

,

25

979

,

1

46

,

23

ˆ

na

Y

979

,

1

346

,

2

ˆ

0

2

2

1

1

pap

b

X

b

X

b

Y

background image

Dodatkowe założenie analizy

wielokrotnej

• Wielokrotna analizy regresji wymaga tego, żeby

predyktory nie były ze sobą skorelowane a więc

powinny być niezależne od siebie. Zależy nam

bowiem na tym, żeby wariancję zmiennej zależnej

wyjaśniać za pomocą niezależnych źródeł

predyktorów. Jeśli predyktory są ze sobą skorelowane

silnie, to znaczy, że de facto mierzą to samo

• Palenie papierosów i poziom stresu w gruncie rzeczy

mogą mierzyć tę samą tempEramentalną właściwość

– reaktywność. Jeśli ktoś jest reaktywny to nawet

słabe bodźce przysporzą mu stresu a jedną z form

jego rozładowania może być palenie. Więc obie te

zmienne wydają się mieć to samo źródło w postaci

innej zmiennej

background image

Problem skorelowanych

predyktorów

• Korelacja cząstkowa –

– korelacja między dwiema zmiennymi Y i

X1, po odrzuceniu z obu zmiennych,

jakiejkolwiek wariancji, którą można

przypisać trzeciej zmiennej (X2).

– Patrzymy na związek dwóch zmiennych,

przy kontroli trzeciej

– Korelacja semicząstkowa – to co wyjaśnia

dany predyktor ze zmiennej wyjaśnianej

background image

Silniejszy wygrywa?

R

2

=30,

8

R

2

=50,

8

R

2

=70

%

background image

Idea korelacji cząstkowej

p

a

p

ie

ro

s

y

50,8%

Umieralność na CW

Syt. stresowe

30,8%

Unikalna
wariancja
w zmiennej
zależnej
wyjaśniona przez
papierosy

Unikalna
wariancja
w zmiennej
zależnej
wyjaśniona przez
syt. stresowe

Wariancja
w zmiennej
zależnej
wyjaśniona przez
oba predyktory

Przy korelacji
cząstkowej
kontrolujemy
efekt trzeciej
zmiennej na obie
pozostałe

Umieralność na CW

Umieralność na CW

1

2

3

background image

Idea korelacji cząstkoweji

semicząstkowej

Korelacja semicząstkowa
predyktora 1 to część
unikalna wyjaśniana
tylko przez ten predyktor
na tle tego co jest do
wyjaśnienia, czyli część
oznaczona numerem 1
do całego żółtego
kwadracika)
Korelacja cząstkowa
predyktora 1 to unikalna
cześć wyjaśniana przez
ten predyktor na tle
tego, czego ten drugi nie
wyjaśnia (część 1 na tle
1 i 4)

Umieralność na CW

1

2

3

Predykto

r2

Predykto

r1

4

background image

Korelacje
cząstkowe

background image

Nasi sąsiedzi

• Jak widać, to, czy dana zmienna będzie dobrym

predyktorem zależy od sąsiedztwa z innymi

zmiennymi w modelu i tego, czy są one ze sobą

skorelowane

– (gdyby nie były, wtedy nie zmieniałyby się współczynniki

regresji w zależności od tego, która zmienna jest w

modelu. (ta informacja jest ważna przy stosowaniu różnych

metod wprowadzania danych).

• Patrząc na cząstkowe korelacje dostajemy czysty

obraz związku, przy kontroli innych zmiennych i

widać, które zmienne są lepszymi, a które gorszymi

predyktorami.

– Sugerowane jest zrobienie regresji jeszcze raz, tym razem

z uwzględnieniem w równaniu tylko istotnych predyktorów


Document Outline


Wyszukiwarka

Podobne podstrony:
Prosta analiza regresji i wprowadzenie do regresji wielokrotnej ppt
Analiza regresji wielokrotnej Różne metody ppt
analiza finansowa ppt
Analiza regresji ostatnie notaki z wykladu
analiza regresji
Analiza regresji, Statystyka - ćwiczenia - Rumiana Górska
ANALIZA REGRESJI WIELOKROTN, Zarządzanie projektami, Zarządzanie(1)
Statystyka matematyczna, 4-część, Analiza regresyjna
cw analiza regresji prostej, Badano właściwości soi — polskiej odmiany ALDANA
Analiza regresji
Analiza regresji między dwiema zmiennymi, Płyta farmacja Bydgoszcz, statystyka, pozostałe
Procedura związana z analizą regresji
ANALIZA REGRESJI PROSTEJ
3 Analiza regresji
Analiza regresji liniowej
Analiza regresji między dwiema zmiennymi, Statystyka, statystyka(3)
Analiza regresji-ostatnie notaki z wykladu
Analiza regresji 20090518
STAT3 ANALIZA REGRESJI I KORELACJI wersja.2011, ANALIZA REGRESJI I KORELACJI

więcej podobnych podstron