|
Podstawowe założenia analizy ścieżek
W modelu przyczynowym wyróżnia się dwie kategorie zmiennych: egzogeniczne i endogeniczne. Zmienne egzogeniczne to takie, o których zakłada się, że ich zmienność zdeterminowana jest przyczynami leżącymi poza rozpatrywanym modelem i nie próbuje się wyjaśniać ich zmienności relacjami z innymi zmiennymi egzogenicznymi. Zmienne endogeniczne to takie to takie, których zmienność jest wyjasniona oddziaływaniem innych zmiennych z modelu - zarówno egzogenicznych jak i endogenicznych. Strzałki oznaczają zakładane przez badacza relacje przyczynowe i zwane są ścieżkami. Zmienne resztowe wprowadza się do pokazania wpływu zmiennych nie objętych analizą
W pakiecie Statistica w ramach modelu obliczane są współczynniki ścieżek (oceny parametru), odnoszące się do zmiennych standaryzowanych (standaryzowane BETA)
Modelowanie równań strukturalnych (SEPATH)
Modelowanie równań strukturalnych to bardzo ogólna, bardzo mocna technika analizy wielu zmiennych, która jako przypadki szczególne obejmuje specjalistyczne wersje pewnych innych metod analizy. Zakładamy, że Czytelnik zapoznał się z podstawową logiką wnioskowania statystycznego opisaną w temacie Podstawowe pojęcia . Co więcej, zakładamy także, że Czytelnik zna pojęcia wariancji, kowariancji i korelacji; jeśli nie, radzimy przeczytanie w tym momencie rozdziału Podstawowe statystyki . Choć nie jest to bezwzględnie konieczne, warto przed przystąpieniem do stosowania modelowania strukturalnego zapoznać się także z metodą analizy czynnikowej .
Główne zastosowania modelowania równań strukturalnych to:
modelowanie przyczynowe lub analiza ścieżkowa, które zakładają przyczynową zależność między zmiennymi i służą do testowania modeli przyczynowych przy pomocy układu równań liniowych. Modele przyczynowe mogą zawierać zmienne jawne, zmienne ukryte lub jedne i drugie;
konfirmacyjna analiza czynnikowa, rozwinięcie analizy czynnikowej , która służy do testowania hipotez na temat struktury ładunków czynnikowych i interkorelacji;
analiza czynnikowa drugiego rzędu, odmiana analizy czynnikowej , w której poddaje się analizie czynnikowej macierz korelacji czynników wspólnych w celu otrzymania czynników drugiego rzędu;
modele regresji, rozwinięcie analizy regresji liniowej , w których można wymusić, aby wagi regresji były równe sobie lub określonym wartościom liczbowym;
modele struktury kowariancyjnej, przy których zakłada się, że macierz kowariancji ma szczególną postać. Na przykład, przy pomocy tej procedury możemy testować hipotezę, że zmienne w zbiorze mają jednakowe wariancje;
modele struktury korelacyjnej, przy których zakłada się, że macierz korelacji ma szczególną postać. Klasycznym przykładem jest hipoteza, że macierz korelacji ma strukturę circumplex (patrz Guttman, 1954; Wiggins, Steiger i Gaelick, 1981).
Wiele różnych rodzajów modeli wpada do każdej z powyższych kategorii, tak że zadanie, jakim jest modelowanie strukturalne, jest bardzo trudne do scharakteryzowania.
Większość modeli równań strukturalnych można wyrazić w postaci diagramów ścieżkowych. Dlatego nawet początkujący w modelowaniu strukturalnym mogą wykonywać skomplikowane analizy po niewielkiej liczbie ćwiczeń.
Podstawowa idea modelowania strukturalnego
Jedna z fundamentalnych idei, które wykłada się na kursach statystyki stosowanej dla średnio zaawansowanych, mówi o wpływie przekształceń addytywnych i multiplikatywnych na listę liczb. Uczy się studentów, że jeśli mnożymy każdą liczbę na liście przez pewną stałą K, to mnożymy średnią tych liczb przez K. Podobnie, mnożymy odchylenie standardowe przez wartość bezwzględną z K.
Na przykład załóżmy, że mamy listę liczb 1, 2, 3. Średnia tych liczb wynosi 2, a odchylenie standardowe 1. Teraz załóżmy, że mieliśmy te 3 liczby pomnożyć przez 4. Wówczas średnia wyniosłaby 8, a odchylenie standardowe wyniosłoby 4, a zatem wariancja 16.
Chodzi o to, że jeśli mamy zbiór liczb X powiązany z innym zbiorem liczb Y przez równanie Y = 4X, to wariancja Y musi być 16 razy większa niż ta w X, tak że porównując wariancje zmiennych Y i X, możemy testować hipotezę, że Y i X są powiązanie pośrednio przez równanie Y=4X.
Prowadzi to do uogólnienia wzajemnych relacji między zmiennymi w postaci grupy równań liniowych. Reguły powiązań mogą być bardziej złożone, obliczenia trudniejsze, ale podstawowe przesłanie pozostaje takie samo -- badając wariancje i kowariancje zmiennych, możemy testować, czy zmienne są wzajemnie powiązane przez zbiór zależności liniowych.
Statystycy rozwinęli procedury służące do testowania, czy zbiór wariancji i kowariancji w macierzy kowariancji pasuje do określonej struktury. Procedura modelowania strukturalnego jest następująca:
Ustalamy, jaki jest naszym zdaniem sposób wzajemnego powiązania zmiennych, często przy użyciu diagramu ścieżkowego.
Obliczamy, przy pomocy pewnych złożonych wewnętrznych zasad, jakie są tego następstwa dla wariancji i kowariancji zmiennych.
Testujemy, czy wariancje i kowariancje pasują do tego modelu.
Uzyskujemy wyniki testowania statystycznego, a także oceny parametrów i błędy standardowe współczynników liczbowych w równaniach liniowych.
Na podstawie tych informacji decydujemy, czy model dobrze pasuje do naszych danych.
Jest parę ważnych i bardzo podstawowych szczegółów logicznych dotyczących tego procesu, o których należy pamiętać. Po pierwsze, chociaż aparat matematyczny wymagany do wykonania modelowania równań strukturalnych jest wyjątkowo skomplikowany, to podstawowa logika jest zawarta w powyższych 5 punktach. Poniżej znajduje się schemat tego procesu.
Po drugie, musimy pamiętać, że oczekiwanie, iż model będzie doskonale pasował do danych, jest wygórowane - z wielu powodów. Model strukturalny z zależnościami liniowymi jest tylko pewnym uproszczeniem. Powiązania występujące w rzeczywistości najprawdopodobniej nie są liniowe. W istocie, rzeczywiste związki między zmiennymi są prawdopodobnie nieliniowe. Ponadto wiele założeń statystycznych bywa także wątpliwych. Rzeczywisty problem polega nie tyle na tym, czy model pasuje doskonale, ale raczej czy pasuje na tyle dobrze, żeby być pożytecznym przybliżeniem rzeczywistości i rozsądnym wyjaśnieniem prawidłowości występujących w naszych danych.
Po trzecie, musimy pamiętać, że to, iż model po prostu pasuje do danych nie oznacza, że model koniecznie jest poprawny. Nie można dowieść, że model jest prawdziwy - twierdząc tak popełniamy błąd w rozumowaniu polegający na przyjęciu następnika. Na przykład możemy powiedzieć "Jeśli Jaś jest kotem, to Jaś ma włosy". Jednak to, że "Jaś ma włosy nie implikuje, że Jaś jest kotem". Podobnie możemy powiedzieć "Jeśli pewien model przyczynowy jest prawdziwy, to pasuje do danych". Jednak model pasujący do danych niekoniecznie implikuje, że model jest poprawny. Może istnieć inny model, który pasuje do danych równie dobrze.
Modelowanie równań strukturalnych i diagram ścieżkowy
Diagramy ścieżkowe odgrywają w modelowaniu strukturalnym fundamentalną rolę. Diagramy ścieżkowe są podobne do sieci działań. Przedstawiają one zmienne wzajemnie połączone przy pomocy linii, które wskazują przepływ przyczynowy.
Diagram ścieżkowy można sobie wyobrazić jako narzędzie do przedstawiania, które zmienne powodują zmiany w innych zmiennych. Jednak o diagramach ścieżkowych nie musimy myśleć akurat w ten sposób. Można przypisać im węższą, bardziej specjalistyczną interpretację.
Rozważmy klasyczne równanie regresji liniowej:
Y = aX + e
Dowolne równanie tego typu można przedstawić na diagramie ścieżkowym w następujący sposób:
Diagramy takie ustanawiają prosty izomorfizm. Wszystkie zmienne układu równań są umieszczone na diagramie w ramkach lub owalach. Każde równanie jest na diagramie reprezentowane w następujący sposób: wszystkie zmienne niezależne (zmienne po prawej stronie równania) mają strzałki skierowane na zmienną zależną. Współczynnik wagowy jest umieszczony powyżej tej strzałki . Powyższy diagram przedstawia prosty układ równań liniowych i jego reprezentację ścieżkową.
Zauważmy, że oprócz przedstawienia zależności równania liniowego przy pomocy strzałek , diagram zawiera także pewne dodatkowe elementy. Po pierwsze, wariancje zmiennych niezależnych, które musimy znać, aby testować strukturalny model zależności, zostały na diagramie przedstawione przy pomocy linii zakrzywionych bez grotów strzałki. O takich liniach mówimy nici . Po drugie, niektóre zmienne znajdują się w owalach, a inne w prostokątnych ramkach. Zmienne jawne zostały umieszczone na diagramie ścieżkowym w ramkach. Zmienne ukryte zostały umieszczone w owalu lub kole. Na przykład, zmienną E na powyższym diagramie można traktować jako resztę regresji liniowej, gdy przewidujemy Y na podstawie X. Reszty takiej nie obserwujemy bezpośrednio, ale obliczamy na podstawie Y i X, a więc traktujemy ją jako zmienną ukrytą i umieszczamy w owalu.
Przykład pokazany powyżej jest niezwykle prosty. Zwykle interesuje nas testowanie modeli, które są znacznie bardziej skomplikowane niż te. Jeśli rośnie poziom skomplikowania układów równań, które badamy, wówczas to samo dzieje się ze strukturami kowariancyjnymi, które one implikują. Ostatecznie, złożoność może stać się tak oszałamiająca, że tracimy z oczu bardzo podstawowe zasady. Z pewnego powodu ten tok rozumowania, na którym opiera się testowanie modeli przyczynowych przy pomocy testowania liniowych równań strukturalnych, ma kilka słabych punktów. Zmienne mogą być nieliniowe. Mogą one być liniowo powiązane z powodów nie związanych z tym, co powszechnie rozpatrujemy jako przyczynowość. Odwieczne powiedzenie "korelacja to nie przyczynowość" pozostaje prawdziwe, nawet jeśli korelacja jest złożona i wielowymiarowa. To, na co faktycznie pozwala modelowanie przyczynowe, to badanie, do jakiego stopnia dane nie zgadzają się z pewną sensowną konsekwencją modelu przyczynowości. Jeśli układ równań liniowych izomorficzny z diagramem ścieżkowym pasuje dobrze do danych, to popiera on, ale nie dowodzi prawdziwości modelu przyczynowego.
Chociaż diagramy ścieżkowe mogą być stosowane do przedstawienia oddziaływania przyczynowego w systemie zmiennych, to nie muszą one implikować takiego przyczynowego oddziaływania. Diagramy takie można rozpatrywać jako prostą izomorficzną reprezentację układu równań liniowych. Jako takie, mogą one przenosić zależności liniowe, gdy nie zakłada się żadnych związków przyczynowych. Dlatego chociaż można interpretować diagram na powyższym rysunku w kategoriach "X jest przyczyną Y", to można go także traktować jako wizualną reprezentację liniowej regresyjnej zależności między X i Y.
Zmienna utajona. Zmienna utajona (ukryta) to wielkość, której nie można bezpośrednio mierzyć, ale zakłada się, że kryje się ona za zmiennymi obserwowanymi. Przykładem zmiennej utajonej jest czynnik w analizie czynnikowej. Zmienne utajone na diagramach ścieżkowych są zazwyczaj przedstawiane w postaci owalu lub koła z nazwą zmiennej wewnątrz.
Zmienna jawna. Zmienna jawna to taka zmienna, którą można bezpośrednio obserwować lub mierzyć. Na diagramach analizy ścieżkowej stosowanych w modelowaniu strukturalnym, zmienne jawne są zazwyczaj przedstawiane w postaci kwadratu lub prostokąta z nazwą zmiennej wewnątrz.
1