Model wielokrotnej regresji (MR).
Model analizy wariancji (ANOVA) a model wielokrotnej regresji (MR).
Jednym z ważnych i często „blokujących” psychologa założeń modelu MR jest założenie o CO NAJMNIEJ INTERWAŁOWYM poziomie pomiaru zmiennych niezależnych (predyktorów), wprowadzonych przez badacza do modelu MR.
Dlaczego MR?
Koszt badania wzrasta zdecydowanie przy kolejnym dołączaniu nowych zmiennych (nawet wyłącznie dwuwartościowych jak płeć).
Jeśli przebadanie np. każdej osoby jest kosztowne i na dodatek trudno daną osobę pozyskać do badania, to oczywiste jest szukanie modeli mniej „kapitałochłonnych” od modelu ANOVA
Chcąc posłużyć się modelem ANOVA musimy dość często rezygnować z mierzenia danej zmiennej niezależnej na poziomie skali interwałowej czy nawet ilorazowej, i w sposób sztuczny sprawdzać ją na poziom pomiaru skali nominalnej
Najbardziej „kosztowne”, jeżeli chodzi o utratę informacji, są zabiegi dychotomizacji zakresu wartości zmiennej ilościowej
Często jest tak, że część zmiennych niezależnych jest ze swej natury jakościowa (np. płeć), a cześć ilorazowa - więc odwołać się do takiego modelu, który pozwalałby na zachowanie natury pomiarowej zmiennej, tzn. nie wymuszałby zabiegu sprowadzania skali interwałowej (czy ilorazowej) do skali nominalnej
Analiza wariancji wykorzystywana jest przez psychologów w wariancie ortogonalnym, który zakłada równą lub proporcjonalną liczebność grup porównawczych („kratel”).
Trafność zewnętrzna planu eksperymentalnego wymaga, aby badanie przeprowadzone było na próbie REPREZENTATYWNEJ dla całej populacji. Rozkład liczebności w poszczególnych grupach porównawczych, odpowiadających wartościom danej zmiennej niezależnej (nominalnej) powinien pokrywać się z analogicznym rozkładem liczebności w populacjach porównawczych. Nie można prowadzić badania w wariancie ortogonalnym ANOVA, jeżeli populacje porównawcze nie mają takich samych rozkładów liczebności.
Jeżeli w populacji ogólnej jest znacząca przewaga liczebności jednej płci w stosunku do drugiej, a płeć jest zmienną istotną dla zmiennej zależnej, to ta przewaga musi być również utrzymana w próbie. W przeciwnym przypadku nie można tej próby uznać za reprezentatywną
Ważnym punktem jest także „liniowość versus krzywoliniowość związku Y i X”
Nie sposób określić, w modelu ANOVA, efektów interakcyjnych dwóch czynników, z których jeden ma charakter ilościowy, a drugi jakościowy, bez uprzedniego sprowadzenia tego pierwszego też do postaci jakościowej
PODSTAWOWE ODMIANY MR.
W pierwszej odmianie modelu MR mamy tylko jedną zmienną niezależną, istotną dla Y. Nazwijmy tę odmianę jednozmiennową. Druga odmiana - wielozmiennowa, obejmuje dwie (i większą liczbę) zmienne niezależne istotne dla Y.
Cztery odmiany modelu MR:
Jedno-jednozmiennowa (zmienna zależna jednowymiarowa oraz jedna zmienna niezależna)
Jedno-wielozmiennowa (zmienna zależna jednowymiarowa oraz wiele zmiennych niezależnych)
Wielo-jednozmiennowa (zmienna zależna wielowymiarowa oraz jedna zmienna niezależna)
Wielo-wielozmiennowa (zmienna zależna wielowymiarowa oraz wiele zmiennych niezależnych)
Odmiana liniowa MR oraz odmiana krzywoliniowa MR.
Regresja wieloraka
Ogólny cel
Ogólnym celem regresji wielorakiej (termin ten został po raz pierwszy użyty przez Pearsona w 1908 roku) jest ilościowe ujęcie związków pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi) a zmienną zależną (kryterialną, objaśnianą). Na przykład pośrednik w handlu nieruchomościami (agent) zbiera dane dotyczące budynków - wielkość (w m2), liczba sypialni, średni dochód mieszkańców dzielnicy oraz subiektywna ocena atrakcyjności obiektu. Jeśli dysponuje już jakąś bazą danych tego typu, to może pokusić się o odpowiedź na następujące pytanie: Jak poszczególne wielkości wpływają na cenę budynku? Można w ten sposób na przykład dowiedzieć się, że liczba sypialni w lepszy sposób objaśnia cenę budynku niż na przykład to, jak ładny wydaje się on na podstawie oceny na oko (subiektywna atrakcyjność). Można też odkryć obiekty "odstające", to znaczy budynki, które mają większą wartość niż wynika to z danych zebranych przez agenta.
Analitycy - specjaliści od zarządzania personelem używają zazwyczaj regresji wielorakiej do oceny wysokości wynagrodzenia. Można w tym celu określić pewną liczbę czynników, takich jak np. "zakres odpowiedzialności" (Odp) i "liczbę podwładnych" (L_podw), co do których można przypuszczać, że od nich zależy wartość pracy. Specjalista od zarządzania personelem przeprowadza następnie wywiad w podobnych przedsiębiorstwach, gdzie zapisuje wysokość wynagrodzenia i odpowiadające jej charakterystyki dla różnych stanowisk pracy. Taka informacja może być następnie użyta do utworzenia równania regresji wielorakiej w postaci (postać przykładowa):
Wynagr = 0,5*Odp + 0,8*L_podw
Dysponując takim równaniem, analityk może teraz z łatwością skonstruować wykres zarobków przewidywanych na podstawie tego równania, w zależności od zarobków na odpowiednich stanowiskach w badanym zakładzie pracy. Na wykresie takim łatwo zauważyć, które stanowiska pracy są niedowartościowane (punkty będą leżeć poniżej linii regresji), które przewartościowane (powyżej linii regresji), a które wynagradzane zgodnie z występującą tendencją.
W naukach społecznych i przyrodniczych analiza regresji wielorakiej jest szeroko stosowana jako narzędzie badawcze. Mówiąc ogólnie, regresja wieloraka pozwala badaczowi odpowiedzieć na pytanie: "Jakie wielkości w najlepszy sposób opisują ....". W badaniach pedagogicznych można na przykład postawić pytanie: Jakie cechy najlepiej opisują (pozwolą najdokładniej przewidzieć) sukces w szkole średniej? Psycholog może postawić pytanie: Jaka cecha osobowości najlepiej określa predyspozycje przystosowania społecznego? Socjologowie mogą z kolei chcieć wiedzieć, który z wielu wskaźników społecznych najlepiej nadaje się do postawienia prognozy na temat zdolności adaptacyjnej nowej grupy imigrantów?
Patrz także Techniki zgłębiania danych (data mining) oraz rozdziały: Ogólne modele regresji i Ogólne modele liniowe .
Podejście obliczeniowe
Ogólny problem obliczeniowy, jaki należy rozwiązać w analizie regresji wielorakiej, polega na dopasowaniu linii prostej do zbioru punktów.
W najprostszym przypadku - jedna zmienna zależna i jedna zmienna niezależna - można to zobrazować na wykresie rozrzutu .
Patrz także Techniki zgłębiania danych (data mining) oraz Ogólne modele regresji i Ogólne modele liniowe .
Metoda najmniejszych kwadratów.Na wykresie rozrzutu przedstawiamy zmienną niezależną X i zmienną zależną Y. Zmienne te mogą reprezentować np. Iloraz inteligencji (IQ) zmierzony przy pomocy odpowiedniego testu oraz wyniki osiągnięć szkolnych (średnia ocen; ŚO). Każdy punkt na wykresie reprezentuje jednego ucznia to znaczy jego IQ oraz ŚO. Celem procedury regresji liniowej jest dopasowanie linii do tych punktów. Program tak dobierze równanie tej linii, że suma kwadratów odległości punktów na wykresie rozrzutu od linii regresji będzie minimalna. Dzięki tej własności ta ogólna procedura bywa nazywana estymacją metodą najmniejszych kwadratów (zobacz również opis metody najmniejszych kwadratów ).
Patrz także Techniki zgłębiania danych (data mining) oraz Ogólne modele regresji i Ogólne modele liniowe .
Równanie regresji.Linia prosta w przestrzeni dwuwymiarowej (na płaszczyźnie) zdefiniowana jest przez równanie Y=a+b*X. Oznacza ono, że wartość zmiennej Y może być obliczona jako suma wartości stałej (a) oraz iloczynu nachylenia (b) przez zmienną X. Występująca w równaniu stała bywa również nazywana wyrazem wolnym, a nachylenie współczynnikiem regresji lub współczynnikiem B. Na przykład ŚO może być obliczana jako 1+0,02*IQ. W ten sposób znając iloraz inteligencji ucznia IQ = 130 przewidujemy jego średnią ocenę ŚO=3,6 (ponieważ 1+0,02*130=3,6).
Przykładowo, poniższa animacja ukazuje równanie regresji w przestrzeni dwuwymiarowej, wykreślone dla trzech różnych przedziałów ufności (90%, 95% oraz 99%).
W przypadku wielowymiarowym, kiedy mamy do czynienia z więcej niż jedną zmienną niezależną, linia regresji nie może już być tak prosto przedstawiona wizualnie w przestrzeni dwuwymiarowej, lecz jej równanie otrzymamy równie prosto. Na przykład, jeśli oprócz IQ mamy jeszcze inne predyktory osiągnięć (np. poziom Motywacji, poziom Dyscypliny wewnętrznej) moglibyśmy zbudować równanie liniowe zawierające te wszystkie zmienne. W ogólności równanie regresji wielorakiej ma postać:
Y = a + b1*X1 + b2*X2 + ... + bp*Xp
Jednoznaczność predykcji a korelacja cząstkowa.Zwróćmy uwagę, że w równaniu tym współczynniki regresji (współczynniki B) reprezentują niezależne wkłady każdej ze zmiennych niezależnych do predykcji zmiennej zależnej. Innym sposobem wyrażenia tego faktu jest następujące sformułowanie: zmienna Xi jest skorelowana ze zmienną Y po uwzględnieniu wpływu wszystkich pozostałych zmiennych niezależnych. Taki rodzaj korelacji nazywamy korelacją cząstkową (termin ten został po raz pierwszy użyty przez Yule'a w 1907 roku). Objaśnijmy to na przykładzie. Gdyby przeprowadzić odpowiednie badania, to prawdopodobnie otrzymalibyśmy istotną ujemną korelację pomiędzy długością włosów a wzrostem populacji (tzn. im niższy osobnik tym dłuższe włosy). Na pierwszy rzut oka wydaje się to dziwne. Jednakże gdybyśmy dodali do równania regresji nową zmienną niezależną Płeć, to ta korelacja prawdopodobnie by zniknęła. Stałoby się tak dlatego, że kobiety, średnio rzecz biorąc, mają dłuższe włosy niż mężczyźni oraz są średnio niższe od mężczyzn. W ten sposób, jeśli wyeliminujemy różnicę płci przez wprowadzenie zmiennej Płeć do równania, to związek między długością włosów a wzrostem zniknie, ponieważ długość włosów nie będzie więcej miała nic do wniesienia do wzrostu ponad to, co wniosła do niego zmienna Płeć (a z nią długość włosów). Mówiąc inaczej po uwzględnieniu zmiennej Płeć korelacja cząstkowa pomiędzy wzrostem a długością włosów staje się równa zero.
Wartości przewidywane a wartości resztowe.Linia regresji wyraża najlepszą predykcję zmiennej zależnej (Y) przy danych zmiennych niezależnych (X). Jednakże natura rzadko (jeśli w ogóle) bywa przewidywalna doskonale i zazwyczaj mamy do czynienia z odchyleniami punktów pomiarowych od linii regresji (jak można się było przekonać na wykresie rozrzutu). Odchylenie danego punktu na wykresie od linii regresji (czyli od jego wartości przewidywanej) nosi nazwę wartości resztowej.
Wariancja resztowa a R-kwadrat.Im mniejsza jest wariancja wartości resztowych wokół linii regresji w stosunku do zmienności ogólnej, tym lepsza jest jakość predykcji. Jeśli na przykład nie byłoby w ogóle żadnej zależności pomiędzy zmiennymi X i Y, wówczas stosunek zmienności resztowej Y do zmienności całkowitej wyniósłby 1,0. Gdyby zaś X i Y były ściśle (w sensie zależności funkcyjnej) zależne od siebie wtedy zmienność resztowa równałaby się zero i taki stosunek wyniósłby 0,0. Najczęściej omawiana wielkość zawiera się gdzieś pomiędzy tymi wartościami ekstremalnymi, tzn. pomiędzy zero a jeden. Wielkość zdefiniowana jako 1 minus ten stosunek nosi nazwę R-kwadrat lub współczynnika determinacji. Posiada ona następującą interpretację. Gdyby, dajmy na to wartość R-kwadrat wynosiła 0,4 wówczas wiadomo byłoby, że wariancja wartości Y wokół linii regresji wynosi 1-0,4 razy pierwotna wariancja Y. Innymi słowy 40% pierwotnej zmienności Y zostało wytłumaczone przez regresję, a 60% pozostało w zmienności resztowej. W przypadku idealnym chcielibyśmy wytłumaczyć jak największą część (jeśli nie całość) zmienności pierwotnej. Wartość R-kwadrat stanowi wskaźnik jakości dopasowania modelu do danych (R-kwadrat bliskie 1,0 wskazuje, że prawie cała zmienność zmiennej zależnej może być objaśniona przez zmienne niezależne włączone do modelu).
Interpretacja współczynnika korelacji R.Zazwyczaj stopień, w jakim dwie lub więcej zmiennych objaśniających (niezależnych lub X) jest powiązanych ze zmienną objaśnianą (zmienna zależna Y), wyrażany jest przez wartość współczynnika korelacji R, zdefiniowanego jako pierwiastek kwadratowy z R-kwadrat. W regresji wielorakiej R może przyjmować wartości pomiędzy 0 i 1. Aby ustalić kierunek zależności od poszczególnej zmiennej należy posłużyć się znakiem wartości współczynnika regresji (B). Jeśli B ma wartość dodatnią, wówczas związek jest dodatni (wraz ze wzrostem zmiennej X rośnie wartość Y: np. im wyższy iloraz inteligencji IQ tym wyższa średnia ocen; ŚO), jeśli zaś B jest ujemne to związek jest negatywny (np. im mniej liczna klasa tym lepsze wyniki testu). Oczywiście, jeśli wartość B wynosi zero, wtedy między zmiennymi nie ma zależności.
Założenia, ograniczenia, rozważania praktyczne
Założenie liniowości.Przede wszystkim, jak wynika to z samej nazwy, regresja wieloraka liniowa, wymaga przyjęcia założenia, że zależność między zmiennymi jest liniowa. W praktyce słuszność takiego założenia jest prawie niemożliwa do udowodnienia, jednak na szczęście procedury regresji wielorakiej są dość odporne na niewielkie odstępstwa od tego założenia. Zawsze godną polecenia regułą powinno być przeanalizowanie pod tym kątem dwuwymiarowych wykresów rozrzutu badanych zmiennych. Jeżeli nieliniowość zależności jest ewidentna, wtedy można albo dokonać transformacji zmiennych albo jawnie zastosować składowe nieliniowe.
Założenie normalności.W regresji wielorakiej zakłada się, że reszty (różnice między wartością obserwowaną a obliczoną z równania regresji) podlegają rozkładowi normalnemu. I znów, mimo że większość testów (w szczególności test F) jest dość odporna na odstępstwa od tego założenia, jest zawsze dobrym zwyczajem przed wyciągnięciem ostatecznych wniosków sprawdzenie, jak wyglądają rozkłady głównych zmiennych, będących przedmiotem naszego zainteresowania. Możemy tworzyć histogramy i wykresy normalności dla reszt.
Ograniczenia.Podstawowym ograniczeniem metodologicznym leżącym u podstaw wszystkich technik regresyjnych jest fakt, że przy ich pomocy można jedynie przekonać się o istnieniu relacji, nie można natomiast dowieść istnienia związku przyczynowego będącego podłożem tej relacji. Można na przykład udowodnić istnienie silnego związku (korelacji) między szkodami powstałymi w wyniku pożaru a liczbą strażaków biorących udział w gaszeniu. Czy upoważnia nas to do wyciągnięcia wniosku, że strażacy powodują szkody? Oczywiście nie. Prawdopodobnym wytłumaczeniem istnienia zaobserwowanego związku będzie fakt, że im większa siła pożaru (zmienna, której nie uwzględniliśmy w naszej analizie), tym większa liczba strażaków jest (na ogół) zaangażowana w jego gaszenie. Mimo oczywistości tego przykładu w rzeczywistych sytuacjach często zapomina się o konieczności przeprowadzenia takich rozważań.
Wybór liczby zmiennych.Regresja wieloraka jest techniką zwodniczą, wystarczy "włączyć" dostatecznie wiele zmiennych, a zwykle dla części z nich okaże się, że są istotne. Wynika to z faktu przyjmowania za statystycznie istotne przypadkowych efektów przy uwzględnieniu odpowiednio licznego zbioru potencjalnych predyktorów. Efekt ten najczęściej jest potęgowany w przypadkach, gdy mamy do czynienia z niewielką liczbą obserwacji. Jest oczywiste intuicyjnie, że trudno wyciągać rozsądne wnioski z ankiet zawierających 100 pytań wypełnionych przez 10 respondentów. Wielu autorów zaleca, aby brać do analizy przynajmniej około 10 do 20 razy więcej przypadków (obserwacji, pomiarów, respondentów) niż występuje w niej zmiennych (pytań). W przeciwnym wypadku oceny linii regresji będą bardzo niestabilne i będą się silnie zmieniać wraz ze wzrostem liczby przypadków.
Współliniowość a złe uwarunkowanie macierzy.Jest to typowy problem w wielu przypadkach analiz korelacyjnych. Wyobraźmy sobie, że mamy dwie zmienne objaśniające wzrost osoby (zmienne niezależne X): (1) ciężar w kilogramach i (2) ciężar w dekagramach. Oczywiście takie dwie zmienne są ewidentnie nadmiarowe. Ciężar, bez względu na to, w jakich jednostkach jest wyrażany, jest tą samą zmienną. Rozważanie, która z tych zmiennych jest lepszym predyktorem wzrostu, byłoby zajęciem jałowym. Jednakże z takim właśnie problemem mielibyśmy do czynienia, gdyby postawiono przed nami zadanie regresji wielorakiej, w którym zmienną zależną (Y) byłby wzrost, a zmiennymi niezależnymi (X) dwie wymienione wyżej miary ciężaru. W przypadkach, kiedy mamy do czynienia z wieloma zmiennymi, problem złego uwarunkowania nie zawsze ujawnia się od razu. Czasami można go dostrzec dopiero wtedy, kiedy w równaniu regresji znajduje się już wiele zmiennych. Niemniej jednak, kiedy zostanie już ujawniony, oznacza to prawie zawsze, że mamy do czynienia ze zbiorem zmiennych niezależnych powiązanych ze sobą (nadmiarowy zbiór zmiennych niezależnych - jedna lub więcej zmiennych da się wyrazić poprzez pozostałe). Jest szereg wskaźników statystycznych dla wykrycia tego typu nadmiarowości (tolerancje, R semicząstkowe, itp.) jak również kilka środków zapobiegawczych (np. Regresja grzbietowa).
Dopasowywanie modeli wielomianowych centrowanych. Dopasowywanie wielomianów wyższego stopnia dla zmiennej niezależnej, której średnia różni się od zera może powodować trudności w zakresie współliniowości. W szczególności wielomiany będą ze sobą mocno skorelowane ze względu na średnią wyjściowej zmiennej niezależnej. W przypadku dużych liczb problem ten jest bardzo poważny i jeśli nie zastosuje się odpowiednich środków zaradczych, może prowadzić do błędnych wyników! Rozwiązanie tego problemu polega na "centrowaniu" zmiennej niezależnej (czasami procedury te są określane jako "wielomiany centrowane"), tzn. odjęciu średniej a następnie wykonaniu obliczeń wielomianów. Szczegółowy opis tego zagadnienia (a także przykład analiz dotyczących modeli wielomianowych) można znaleźć w traktowanym jako klasyczny, podręczniku Netera, Wassermana i Kutnera, 1985, w rozdziale 9.
Znaczenie analizy reszt.Chociaż większości założeń związanych z regresją wieloraką nie można sprawdzić bezpośrednio, to poważne odstępstwa od nich dają się wykryć i powinny być odpowiednio potraktowane. W szczególności odstające obserwacje (tzn. przypadki ekstremalne) mogą w poważny sposób zaburzać wyniki przez "przyciąganie" lub "przesuwanie" linii regresji w jakimś kierunku powodując zmianę wartości współczynników regresji. Czasami przez usunięcie tylko jednego odstającego punktu można uzyskać kompletnie różne wyniki analizy.
2