notatki analiza regresji

Analiza regresji

regresja jest metodą ktora pozwala nam analizować zmienność między zmiennymi ilościowymi?

nie mówimy o wpływie tylko o współzależności

regresja prosta/jednozmiennowa/wielozmiennowa

zmienna wyjaśniana i wyjaśniająca(predyktor)

kowariancja- miara bardziej prymitywna niż korelacja, mowi o współzmienności wyników dwóch zmiennych, jest szacowana poprzez sprawdzenie w jakim kierunku odchylają się wyniki obu zmiennych od odpowiednich średnich.

wielkość kowariancji zależy od jednostek pomiarowych

analiza regresji prosta polega na dopasowaniu do danych modelu linii prostej, za pomocą metody najmniejszych kwadratów

w analizie regresji dobroć dopasowania modelu sprawdzamy za pomocą analizy wariancji

F= wariancja wyjaśniana/wariancje niewyjaśnioną (resztki regresji)

r2- analogiczny wspołczynnik do współczynnika determinacji w korelacjach

model liniowy regresji y=Bo+B1*x

B- odnosi się do parametrów modelu

B0- stała, która mówi w krtorym miejscu linia przecina się z osią Y

B1- współczynnik kierunkowy, mówi jakie jest nachylenie linii do osi 0X

współczynnik standaryzowany beta- beta określa istotność relacji między predyktorem a zmienną wyjaśnianą, czyli siłę i kierunek zależności między tymi zmiennymi

Przeprowadzanie analizy regresji jednoliniowej(prostej)

1. określamy jakie jest równanie linii prostej

2. Sprawdzamy jaki jest poziom dopasowania modelu do danych za pomocą anovy

3. odczytujemy współczynniki B0 i B1, umieszczamy we wzorze, na ich podstawie możemy przewidzieć wartość Y dla danej osoby

4. patrzymy na współczynnik beta, w przypadku prostej analizy regresji mówi on o kierunku i sile zależności

5. sprawdzenie współczynnika r2, który mówi jaki jest procent wyjaśnianej wariancji

Analiza-> regresja liniowa-> zmienna wyjaśniana umieszczamy ja w zm zależnych, predyktory w niezależnych ->OK

w raporcie 4 tabelki, patrz tabelka Anova, spr istotność, jak istotne- model regresji dobrze dopasowany, możemy go interpretować, podajemy wynik anovy F=(df1,df2)=....p=

później parametry modelu z tabelki Współczynniki

stała(z tabeli)=20,16 = B0

B1= 0,68 (czyli z np przyjaciele)

teraz możemy obliczyć przewidywany poziom szczęścia xD

y= 20,16+0,68*x

odczytujemy współczynnik beta w tabelce Wspóczynniki

beta=0,585- mówi o sile i kierunku zależności, interpretacja: siła zw pomiędzy szczęściem a ilością przyjaciół jest umiarkowana, dodatnia.

sprawdzenie r2, z tabelki model-podsumowanie

r2=0,342

r2*100= 34%- czyli wyjaśnia 34%



REGRESJA WIELOZMIENNOWA polega na tym, że mamy jedną zm zależną i wiele niezależnych

modelem jest kombinacja liniowa uwzględnionych predyktorów

zarówno zm zależna jak i niezależna powinny miech charakter ilościowy, ewentualnie zm niezależna może mieć charatker dychotomiczny

wzór modelu:

y=B0+B1*x+B2*x+....

korzystamy z r2 skorygowanego

kroki postępowania:

1. spr istotności dopasowania modelu za pomocą anovy

2. spr które czynniki standaryzowane beta osiągają poziom istotności mniejszy niż 0,05

3. możemy wyznaczyć sobie równanie

4. sprawdzamy wielkość r2 skorygowanego

5. ponownie analiza regresji ale nie uwzględniamy już predyktorów, które mają p większe niż 0,05

analiza- regresja-liniowa

w zmiennych niezależnych wstawiamy to co chcemy ile chcemy xd ( np płeć wiek, przyjaciele)

uwzględnienie dodatkowej zmiennej pozwoliło nam wyjaśnic 37%

wiek nie był istotny wiec wyrzucamy go i jeszcze raz anova



metoda krokowa- w każdym kroku predyktory mogą być usunięte i wprowadzone w zależności od tego jaki jest poziom p w układzie

wykorzystujemy model który więcej wyjaśnia

głośność otoczenia jak i ilość światła wpływa na liczbę lunatyków

y= 254,1-2,66x1+0,06x2

ten model wyjaśnia tylko 64%



jak podajemy wyniki: do wyjasnienia wykorzystano... model okazał się istotnie statystyczny, wyniki anovy, metoda np. krokowa ktróra w 2 kroku wykazała że znaczenie mają cisza i natężenie światła, piszemy że na podstawie standaryzowaniego czynnika beta wiemy ze im glosniej tym więcej lunatyków itp. na końcu mówimy jaka część zostałą wyjaśniana

zawsze z jakiej statystyki to wiemy i jakie są jej wartosci czyli F i poziom p, piszemy że użyliśmy skorygowanego i bete



analiza wariancji-> kiedy chcemy porownac wieksza liczbe grup, średnich, kiedy mamy przynajmniej 3 grupy(średnie)


jednoczynnikowa anova- jedna zm niezalezna i 1 zm zależna


F= MSmg/MSwg


statystyka F mówi o stosunku wariancji międzygrupowej do wariancji wewnątrzgrupowej


wariancja międzygrupowa-> zmiennosc miedzy grupami (róznice miedzy K i M)

wewnatrzgrupowa - ta w środku konkretnej grupy np w grupie kobiet są różnice



zależy nam na tym żeby róznice miedzy grupami były duże, a różnice wewnątrz grupy jak najmniejsze

MS- średni kwadrat,

śr kw międzygrupowy to uśredniona suma kwadratów odchyleń średnich grupowych od średniej ogólnej

wariancja międzygrupowa/ warincja błędu-> powstaje tak że dzielimy sumę kwadratów odchyleń każdego wyniku od średniej w danej grupie przez stopnie swobody

podstawowe założenia dotyczą poziomu pomaru:

->zm niezależna zwana czynnikiem ma przynajmniej 3 poziomy

-> zmienna zależna

-> założenie o jednorodności wariancji

-> normalność rozkładu na każdym poziomie zm niezależnej

-> równoliczność grup


istotyny statystycznie wynik będzie mówil że są róznice tak jak w testach T, ale nie mówi jak są silne te różnice. siłe mierzymy wzorem eta2=SSmg/SSmg+SSwg

<-(ten wzór wyżej) jaka proporcja całkowitej wariancji jest wyjaśniana przez efekt

ścieżka -> do spr normalności-> an opis sty eksplor wykres normalności+ zaznaczyć nie przekształcone

w teście jednorodności bazujemy na średniej

jeżeli złamane jest założenie o jednorodności wariancji stosujemy Brown-Forysthe

analiza-> porównywanie średnich-> jednoczynnikowa anova-> opcje-zaznaczamy: średnie, test jednorodności wykresy srednich

patrzymy na F i poziom istotności

Wynik jednoczynnikowej analizy wariancji jest istotny statystycznie:

F(df1,df2)= ....; p =

df1- między grupami

df2- wewnątrz grup

"stopien nasilenia erotyki w reklamie wpływa na ilość zapamiętanych marek"

jak sprawdzić czym rózną sie poszczególne .......... -> testy post-hoc- służą do porównania zmiennych z każdą inną????
analiza- porown srednich- anova-post hoc

testy liberalne - nir, snk

konserwatywne- bonferroniego, tukey, sidak

można wybrać dwa testy jeden konserwatywny, drugi liberalny i spr czy wyniki są analogiczne,

pojawia sie tabelka porównania wielokrotne

nasilenie erotyki w reklamie ma wpływ na ilość zapamiętanych marek, wpływ ten polega n tym ze ludzie zapmiętują istotnie statystyczie więcej marek jeżeli erotyka w reklamie jest mocna niż jest umiarkowana lub jej nie ma.

przeprowadzono test post-hoc bonferroniego np. p= i p=..., nie ma istotnych różnic między umiarkowanym nasileniem a brakiem p=....

testy post hoc wtedy kiedy nie stawiamy hipotez kierunkowych

jeżeli mamy hipotezę kierunkową-> np poziom erotyki ma wpływ na ilosc zapamietanych marek, mocna erotyka wpływa na to że ludzie zapamiętują wiecej marek niż gdy jest umiarkowana lub jej nie ma:

analiza-> por śr- anova- kontrasty Tutaj możemy porównać np brak i umiarkowaną jako całość w stosunku do mocnej erotyki (wstawiamy współczynniki)

wagi muszą sie sumować do 0, ważne aby te części które chcemy ze sobą zestawić miały kontrastowe znaki

grupie którą traktujemy łącznie musimy nadać takie same wagi np brak=-1, umiarkowana też -1, mocna+2

tabela TESTY KONTRASTU-> interpretacja-> wyniki podajemy jak w tescie t, liczba zap marek z mocną erotyką różni się od liczby zap marek z brakiem, lub umiarkowaną erotyką traktowanych ŁĄCZNIE

liczba kontrastów jaką możemy zaplanować = k-1 (1, -1, 0) konstrast- NASTĘPNY

DWUCZYNNIKOWA ANALIZA WARIANCJI- może być tak że na jedną zm niezależną wpływa kilka czynników jednocześnie np 2, interesuje nas jaki jest wpływ poszczególnych czynników i czy nie wchodzą one ze sobą w interakcję EFEKT INTERAKCJI,

EFEKT GŁOWNY MÓWI O TYM jakie są różnice między średnią zmiennej zależnej ze względu na poziomy jednej zmiennej niezależnej

EFEKT INTERAKCJI- pokazuje wzór różnic pomiędyz średnimi zmiennej zależnej na różnych poziomach czynnika pierwszego jest inny na poszczególnych poziomach czynnika drugiego

czynnik: zdrowie niskie/ wysokie a szczęście -> efekt głowny

pieniądze-> osoby które mają dużo kasy są mniej szczęśliwi niż ci co mają mało


efekt interkcji polega na tym , że nie interesuje nas tylko efekt głowny, ale interesuje nas jak kombinacja tych dwóch czynników wpływa na poziom zadowolenia( np mają zdorwie i kase, albo mało kasy a są zdrowi itp)

analiza- > ogólny model liniowy, jednej zmiennej- opcje- wrzucamy wszystkie do okna "pokaż średnie dla", zaznaczamy porownaj efekty głowne, wybieramy np bonferriniego, w "pokaż" zaznaczamy stattystyki opisowe, ocena wielkość efektu i testowanie jednorodności

patrz : tabela" testy efektów międzyobiektowych"


Płeć aktora występującego w reklamie ma wpływ na zapamiętywanie marek.

F(1,116)= te liczby bierzemy z "aktor" i z "błąd" nie wiem czy to jest dobrze ;/



efekty głowne proste- to jednoczynnikowa anova dla czynnika 1 oddzielna dla każdego czynnika drugiego


efekty proste- porównywanie prostych ( super xd )




Wyszukiwarka