Temat 1: Podstawowe pojęcia statystyki matematycznej:
1. Na czym polega częstościowa definicja prawdopodobieństwa
Ω - zbiór wszystkich możliwych zdarzeń, sytuacji, itp. Na przykład zbiór wszystkich
możliwych wyników rzutu kostką, wyników na egzaminie, itp. Zbiór Ω nie musi być zbiorem
liczb, może to być zbiór różnych obiektów.
Zbiór zdarzeń wszystkich możliwych sytuacji.
2. Co to są zdarzenia niezależne, jakie jest prawdopodobieństwo sumy i iloczynu zdarzeń niezależnych
To takie które występują niezależnie od siebie.
!!!!!!!!!!!Prawdopodobieństwo tego, że 2 zdarzenia wyjdą łącznie = iloczynowi prawdopodobieństwa dla każdego z tych zdarzeń oddzielnie.
Np. rzut 2 monetami - 1/4
Zdarzenia ze zbioru Ω mogą być podzielone na różne typy zdarzeń. Jeżeli prawdopodobieństwo wystąpienia zdarzenia typu X jest niezależne od wystąpienia zdarzenia typu Y to mówimy, że zdarzenia X i Y są od siebie niezależne.
Dla zdarzeń niezależnych zachodzi: P(X i Y) = P(X)xP(Y)
Przykład zdarzeń niezależnych - rzut wieloma monetami, rzut monetą i rzut kostką
Jakie są psychologiczne przykłady zdarzeń niezależnych? Np. czy kolor włosów badanych wpływa na ich zadowolenie. Szybkość bicia serca w pokoju czerwonym i niebieskim.
Zdarzenia niezależne to także błędy pojawiające się w eksperymentach psychologicznych
3. Co to jest zmienna losowa to liczby
Ze zmienną losową mamy do czynienia wtedy, gdy wszystkim zdarzeniom ze zbioru Ω przypisane są liczby według tej samej zasady.
Mamy obiekty badane i im muszę przypisać liczbę, każdy obiekt badany ma przyporządkowaną tylko jedną liczbę lub nazwę.
4. Co jest zmienna losowa dyskretna i jak definiuje się rozkład tej zmiennej.
Przyjmuje wartości ze skończonego zbioru np. odpowiedzi z kwestionariusz od 1-7.
Rozkład dyskretnej zmiennej losowej to zbiór par (wartość zmiennej, prawdopodobieństwo
jej uzyskania), czyli zbiór par {(Xi, pi)}
Dla wyników rzutu kostką (zmienna losowa - liczba oczek na górnej ściance)
{(1,1/ 6), (2,1/6), (3,1/6), (4,1/6), (5,1/6), (6,1/6)}
Przykład psychologiczny - wyniki w teście i proporcja osób, które zaznaczyły daną odpowiedź
5. Co to jest zmienna losowa ciągła, jakie są właściwości takich zmiennych i jak definiuje się rozkład tej zmiennej
Zmienna losowa ciągła - w której wartości pochodzą z nieskończonego zbioru, to taka w której wyniki są nieskończenie gęste np. pomiar czasu, bo można go mierzyć coraz dokładniej.
Ciągła zmienna losowa
- zbiór wartości jest nieskończony,
-wartości zmiennej są ułożone na osi nieskończenie gęsto,
-dla każdej pary wartości zmiennej istnieje wartość
pomiędzy nimi
!!!!!!!!!!!Rozkład normalny - to zmienna ciągła (punkty w kwestionariuszu traktujemy jako przedział zmiennej ciągłej rozkładu normalnego, a pole powierzchni to prawdopodobieństwo)
6. Jakie wartości znajdują się na osi OY w graficznej prezentacji ciągłych zmiennych losowych.
OX - zaznaczone są wartości zmiennej
OY - zaznaczone są wartości funkcji gęstości prawdopodobieństwa (gęstość - miara prawdopodobieństwa wokół danej liczby)
7. Jak graficznie reprezentowane jest prawdopodobieństwo w rozkładach zmiennych ciągłych i zmiennych dyskretnych.
Zmienne ciągłe - to linia (rozkład normalny)
Zmienne dyskretne - to punkty lub histogram
8. Na czym polega przedziałowy charakter pomiaru ciągłych zmiennych losowych. (Mackiewicz str. 236)
Tworzy się przedział bo nie sposób zbadać populacji.
Estymacja punktowa sprowadza się do stwierdzenia, iż np. średnia w populacji jest taka sama jak średnia w badanej próbie
Estymacja przedziałowa - że z określonym prawdopodobieństwem ta średnia znajduje się w przedziale o znanych granicach uwzględniają prawdopodobieństwo błędu. max +/- 5%
9. Co to są parametry rozkładu zmiennej losowej.
Średnia, mediana, dominanta………..
Liczby określające parametry tego rozkładu w populacji
!!!!!!!!!!!10. Od czego zależy kształt i od czego położenie rozkładu normalnego
Kształt - zależy od średniej( w kurtozie) i odchylenia standardowego
Położenie - od średniej (lewo, bądź prawo)
(O czym decyduje odchylenie standardowe - o rozrzucie wokół średniej im wyższe odchylenie tym rozkład szerszy)
11. Od jakich rozkładów pochodzą rozkład Chi kwadrat i rozkład F Snedecora
Od rozkładów normalnych
Rozkład Chi2 - powstaje z dodawania rozkładów normalnych, podniesionych do kwadratu
Rozkład F - 2 podzielone przez siebie rozkłady Chi2
12. Dlaczego wnioskowanie statystyczne dotyczy próby, a nigdy populacji (Mackiewicz str. 219)
Mamy wyniki dotyczące jakiejś próby i na ich podstawie chcemy dowiedzieć się czegoś o całej populacji, z której ta próba pochodzi. Dla próby możemy obliczyć różne wskaźniki statystyczne. Analogicznie wskaźniki możemy policzyć dla całej populacji ale nie mamy dostępu do wszystkich danych.
Statystyki - próba
Parametry - populacja
14. Jaka jest różnica między rozkładem teoretycznym i rozkładem empirycznym.
Rozkład empiryczny - to taki który otrzymaliśmy w wyniku eksperymentu np. orłów do reszek.
Rozkład teoretyczny - określamy przez pewien wzór matematyczny bądź zasady rachunku prawdopodobieństwa.
!!!!!!!!pyt. Proszę narysować jak wygląda rozkład teoretyczny 2 monet. (trzeba napisać pary, jaki był rozkład prawdopodobieństwa)
(0,1/4) (1,1/2) (2,1/4)
15. Co to są parametry rozkładu i statystyki próby, w jaki sposób są oznaczane (Mackiewicz str. 132 i 220)
Średnia jako parametr i średnia jako statystyka różnią się od siebie nie sposobem obliczania, ale zbiorem wartości, dla których są obliczane.
W przypadku parametrów są to wartości teoretyczne możliwe do uzyskania
- są dla całej populacji
W przypadku statystyki są to konkretne dane z eksperymentu.
- są dla próby
Symbole dla nich są różnie oznaczone:
Określenie słowne |
Statystyka próby |
Parametr populacji |
Średnia |
|
|
Mediana lub kwartyl 2 |
|
|
1 i 2 kwartyl |
|
|
Wariancja |
|
|
Odchylenie standardowe |
|
|
+ pytania z klasówki:
Jakie są parametry rozkładu normalnego zmiennej losowej?
Średnia i odchylenie standardowe
Rozkład dyskretnej zmiennej losowej to zbiór par. Z jakich elementów składają się te pary?
Wartość zmiennej i prawdopodobieństwo jej uzyskania
Jak brzmi hipoteza zerowa w jednoczynnikowej analizie wariancji?
Wariancja wynikająca z manipulacji eksperymentalnej nie jest większa od wariancji wewnątrz badanych grup F 1
Jakie jest prawdopodobieństwo iloczynu dwóch zdarzeń niezależnych?
Odp. W pyt. 2 z wykładów
Jak graficznie reprezentowane jest prawdopodobieństwo w rozkładzie ciągłej losowej?
To rozkład normalny (linia +pole powierzchni)
Co jest w liczniku a co w mianowniku testu F w jednoczynnikowej anovie?
Licznik - wariancja międzygrupowa S2(m)
Mianownik - wariancja wewnątrzgrupowa S2(w)
F= zmienność MG (T+E)
Zmienność WG (E)
Gdzie T - efekt zmiennej niezależnej
E - błąd losowy MG >WG
Temat 2: Analiza wariancji
1. Jaka jest struktura wyniku eksperymentu (równanie ogólnego modelu liniowego)
parametry modelu
Y=XB + U błąd pomiaru
ZZ ZN
Prosty przykład parametrów modelu -
grupa do której należy osoba badana
(może być zakodowany jako ciąg zer i
jedynek
Grupa 1: 1 0 0
Grupa 2: 0 1 0
Grupa 3: 0 0 1
Przykład - samochody w USA
2. Na czym polega zasada rozbijania wariancji
Wariancja całkowita = Wariancja wynikająca z manipulacji ZN (międzygrupowa) + wariancja niekontrolowana (wewnątrzgrupowa).
Zasada addytywności wariancji
Jeżeli zmienna losową jest sumą dwóch lub więcej zmiennych niezależnych, to wariancja tej zmiennej jest sumą wariancji zmiennych niezależnych.
3. Na jakie składowe można rozbić wariancję w przypadku układu jednoczynnikowej analizy wariancji
Odp. Wariancja międzygrupowa + Błąd
Zmienna zależna, niezależna, błąd??
Czynniki i poziomy tych czynników?
Efekty główne i interakcji i efekty proste?
!!!!!!!!!!!!4. Co jest w liczniku i mianowniku wszystkich wzorów na wariancję (chodzi o sumy kwadratów i stopnie swobody)
licznik - suma kwadratów
mianownik - stopnie swobody
5. Co to są stopnie swobody
(df) - ilość wyników których wartość nie jest zdeterminowana przez średnią (ogólną lub grupową).
Liczba wartości, które mogą przyjąć dowolną wielkość, przy założeniu że znany jest jakiś parametr dla danej próby.
6. Jakie są wartości stopni swobody w jednoczynnikowej ANOVA (Mackiewicz str. 340)
wzór na wariancję całkowitą………
Tylko we wzorze na wariancję całkowitą, czyli zmienność w całym zbiorze danych niezależnie od jego wewnętrznych podziałów, suma stopni swobody pochodzących z wszystkich (tzn. kontrolowanych i niekontrolowanych) źródeł zmienności jest równa liczbie wszystkich badanych obiektów pomniejszonej o 1.
W jednoczynnikowej analizie składowymi wariancji całkowitej są tylko dwa źródła zmienności - wewnątrz grup i między nimi- a więc suma odpowiadających im liczb stopni swobody musi się
równać N-1.
Odp. Całkowita ilość stopni swobody (total df)=ilość badanych - 1
MG (między grupami) (treatment df)=Ilość grup - 1
WG (wewnątrz grup) (error df)= ilość badanych - ilość grup
!!!!!!!!!!!! 7. Co jest w liczniku i mianowniku statystyki F
Licznik - wariancja międzygrupowa S2(m)
Mianownik - wariancja wewnątrzgrupowa S2(w)
F= zmienność MG (T+E)
Zmienność WG (E)
Gdzie T - efekt zmiennej niezależnej
E - błąd losowy MG >WG
8. Jakie są hipotezy zerowa i alternatywna w analizie wariancji
Hipoteza zerowa:
Wariancja wynikające z manipulacji eksperymentalnej nie jest większa od wariancji wewnątrz badanych grup F 1
Hipoteza alternatywna
Wariancja wynikająca z manipulacji eksperymentalnej jest większa niż wariancją wewnątrz badanych grup F>1
Jaką wartością jest F jeżeli hipoteza 0 jest prawdziwa?
9. Kiedy można odrzucić hipotezę zerową w analizie wariancji (Mackiewicz str. 334)
- Aby można było odrzucić hipotezę, iloraz dwóch wariancji musi być istotnie większy od 1, a nie tylko różny od 1,czyli większy lub mniejszy.
- I istotność p< 0,05
!!!!!!!!10. Jakie dwa warunki dotyczące danych wynikają z twierdzenia Fishera
Badana cecha ma rozkład normalny'
Błędy pomiaru mają rozkład normalny.
Osoby badane są przydzielane losowo do grup badanych i jeżeli rozkład badanej cechy w populacji jest normalny
Wynik można przedstawić w postaci sum kwadratów i suma stopni swobody równa jest N-1
!!!!!!!!!!!!!11. Jakie warunki dotyczące sum kwadratów i liczby stopni swobody wynikają z twierdzenie Fishera
1. Wyniki w badanej grupie można przedstawić w postaci sum kwadratów
2. Stopnie swobody dla tych sum kwadratów po dodaniu do siebie równe są całkowitej liczbie stopni swobody
12. Od jakich rozkładów pochodzi rozkład F? Ile stopni swobody mają te rozkłady a ile stopni swobody ma rozkład F?
13. Co to są efekty główne i co to są efekty wyższych rzędów?
Efekt główny - wpływ danego czynnika
Efekty wyższych rzędów- efekty proste - wpływ zn na zz przy dowolnym poziomie innej zz
14. W jaki sposób rozbijana jest całkowita suma kwadratów w analizie z uwzględnieniem efektów interakcji i bez uwzględniania tych efektów?
15. Co jest w liczniku i mianowniku wzorów na wariancję w zależności od źródła efektu.
16. Należy umieć obliczać wartości stopni swobody i sum kwadratów na podstawie dostępnych informacji (chodzi o proste dodawanie lub odejmowanie, trzeba jednak wiedzieć co dodawać a co odejmować).
!!!!!!!!!! pyt. Jeśli df wewnątrzgrup wynosi 68, a df międzygrupowe wynosi 2, to jaka jest całkowita ilość badanych?
66
70
71
Oblicz F:
|
SS |
Df |
MS |
F |
MG |
36 |
4 |
9 |
3 |
WG |
12 |
4 |
3 |
|
3
Jeżeli df między grupami w analizie wariancji wynosi 4, to ile było grup:
- 5
Jeżeli df wewnątrz grup wynosi 18, a df między grupami wynosi 2, to jaka była całkowita ilość grup:
- 21
Uzupełnij wartości brakujące w tabeli analizy wariancji, ile wynosi F:
Źródło SS df MS F
MG 36 4 ?(9) ?(4,5)
WG 12 6 ?(2)
Ogółem 48 10
- 4,5
Wykonaj analizę wariancji na poniższych danych, ile wynosi F:
Gr.1 Gr.2 Gr.3
5 5
6 6
4 7 7
M = 3 M = 6 M = 6
- 9
Wynik standaryzowany z = -1,0 oznacza, że:
- wynik jest jedno odchylenie standardowe poniżej średniej
Obliczanie średniej
1,2,3
1,2,3,10
17. Jak jest relacja między wynikiem testu F oraz testem t Studenta
Relacja między testem T a wartościami prawdopodobieństwa są identyczne
F=t2 wartości prawdopodobieństwa są identyczne.
Można je zastępować jeżeli są 2 grupy. Jeżeli więcej to już anova.
18. Należy umieć zidentyfikować liczbę badanych grup, zmiennych i poziomów zmiennych oraz liczbę źródeł zmienności na podstawie zapisu typu 2 x 2 x 3
Liczba grup - mnożymy liczbę poziomów czynnika 2x2x3=12
Liczba zmiennych - 3
Poziomy zmiennych - 1 - 2, 2 - 2, 3 - 3
Liczba źródeł zmienności - (efektów prostych) - 7 (dodaje się)
Efektów interakcji-
19. Dlaczego zamiast jednoczynnikowej analizy wariancji nie można stosować serii testów t dla par pomiarów
Bo nie będziemy znać, wpływu wszystkich zmiennych niezależnych na zależną jednocześnie. Nie będziemy znać interakcji, jeżeli liczba poziomu czynników jest pow.2.
Zmienia nam się istotność gdyż nakładają się na nią progi istotności 0,0167.
20. Co oznacza interakcja dwóch zmiennych i w jaki sposób można opisać tę interakcję w raporcie badawczym. (Mackiewicz str. 346)
Interakcja - wynik w jakim stopniu wszystkie kontrolowane zmienne niezależne wpływają razem na zmienną zależną.
Opis za pomocą efektów prostych (interakcyjnych).
21. Jakie kolumny i wiersze powinna zawierać tabelka analizy wariancji
wiersze - czynniki
kolumny - poziomy czynników
22. Co oznaczają określenia czynniki międzyobiektowe i czynniki wewnątrzobiektowe
Cz. Międzyobiektowe - czyli różne grupy badane
Cz. Wewnątrzobiektowe - czyli uczestnicy są badani w różnych sytuacjach (powtarzalne pomiary)
23. Jak powinny być zapisane dane, jeżeli ma być przeprowadzona analiza wariancji z powtarzanymi pomiarami?
24. Trzeba umieć wymienić nazwy testów post hoc przedstawionych na slajdach (plus nazwa testu Bonferoniego)
Test Scheffego,
Test Bonferroni
Test Tukeya (HSD),
Test Neumanna - Keullsa,
Test Duncana
25. Dlaczego analizę kontrastów nazywa się testami a priori
a priori - na początku.
W analizie wariancji można testować szczegółowe przewidywania dotyczące relacji między średnimi. Przewidywania te powinny być sformułowane przed przeprowadzeniem eksperymentu a co najmniej wynikać z założeń teorii.
Porównania zaplanowane (kontrasty)Służą do weryfikacji wcześniej postawionych hipotez na temat relacji między konkretnymi średnimi (lub grupami średnich)
Kontrasty definiuje się poprzez ustalenie wag dla średnich. Suma wag zawsze musi wynosić zero, poza tym można kombinować dowolnie
26. Co to znaczy, że wyniki mają trend liniowy
TREND LINIOWY”odzwierciedla on działanie tzw. Przyczyn głównych tj. istoty zjawiska.Najczęściej buduje się model liniowy trendu: gdzie parametry można wyliczyć za pomocą metody najmniejszych kwadratów.
Wyodrębnienie tendencji za pomocą dowolnej metody.
27. Do jakiej wartości muszą sumować się współczynniki kontrastów - „0”
Temat 3: Testy nieparametryczne
1. Jak inaczej można nazwać testy nieparametryczne
Test znaków
2. Jakie parametry ma rozkład dwumianowy
liczba prób prawdopodobieństwa sukcesu
prawdopodobieństwo sukcesu w jednej próbie
3. W jakiej sytuacji można wykorzystać rozkład dwumianowy jako test statystyczny (Mackiewicz str. 410)
Test dwumianowy jest jednym z najprostszych testów nieparametrycznych i można go stosować w każdej sytuacji, w której dane mają postać zerojedynkową. Wynikiem tego testu jest prawdopodobieństwo otrzymania takiej proporcji zer i jedynek, jaką otrzymaliśmy, przy założeniu, że w rzeczywistości rozkładają się one zupełnie przypadkowo.
Określa on prawdopodobieństwo tego, że badana cecha przyjmnie jedną z dwóch wartości w skończonej liczbie prób.
4. Ile stopni swobody ma rozkład chi kwadrat
1 df
Wartości testu mają rozkład chi kwadrat o r-k-1 stopni swobody, z reguły: r-liczba kategorii, na które podzielono dane, k -liczba parametrów rozkładu, rozkład równomierny nie ma parametrów, więc df=3
5. Co to są wartości otrzymane i oczekiwane w rozkładzie chi kwadrat
6. Co oznacza określenie test chi kwadrat dla rozkładu równomiernego
Każda obserwacja występuje tak samo często
7. Dlaczego test znaków ma taką nazwę
Test znaków polega na obliczaniu różnicy między wynikami w parach pomiarów i określaniu znaku tej różnicy. Wynikiem testu jest liczba znaków częściej występujących.
8. Kiedy stosuje się test mediany i jaką statystykę oblicza się przy tym teście
Test mediany jest nieparametrycznym odpowiednikiem analizy wariancji i polega na zliczeniu obserwacji poniżej i powyżej mediany w całej próbie dla poszczególnych grup.
9. Testy U Manna Whitneya, Test Wilcoxona, Test Kruskalla - Wallisa, test Friedmana
- które z tych testów wymagają rangowania wyników
wszystkie
b. - za pomocą wartości jakiej statystyki najczęściej podawane są wyniki
U Manna Whitneya - Wyniki testu z reguły podaje się w postaci wartości standaryzowanego rozkładu normalnego Z
Test Wilcoxona - Wyniki testu z reguły podaje się w postaci wartości standaryzowanego rozkładu normalnego Z
Test Kruskalla - Wallisa - Wyniki testu z reguły podaje się w postaci wartości standaryzowanego rozkładu normalnego H
test Friedmana - wynikiem rang jest wartość Chi2
!!!!!!!!!!!!c. - zamiast jakich parametrycznych testów można jest stosować
U Manna Whitneya - test T dla prób niezależnych
Test Wilcoxona - test T dla prób zależnych
Test Kruskalla - Wallisa - jednoczynnikowa analiza wariancji
test Friedmana - analiza wariancji z powtarzalnymi pomiarami w obrębie jednego czynnika.
!!!!!!!!!!!10. Co to są testy permutacyjne
Polegają na reprubkowaniu. Metody te polegają na tworzeniu nowych wirtualnych próbek przy pomocy już istniejących wyników i sprawdzaniu jak często wśród tych wirtualnych próbek pojawia się zależność rzeczywiście obserwowana w badaniu. (metody monte carlo)
+ pytania z klasówki
W pewnym badaniu przeprowadzono jednoczynnikową analizę wariancji dla 4 grup
Podaj dowolne średnie w tych grupach, tak aby trend między nimi miał charakter liniowy.
1,2,3,4 (Wykres liniowy jest wtedy kiedy na wykresie średnich jest linia prosta, żeby tak było to musi być 1,2,3,4, 4 grupy- 4 litery)
!!!!!!!!!!!!!2. Przy jakiej wartości testu F na pewno nie będzie można odrzucić hipotezy zerowej.
Wartość 1
Jaka wartość testu F gwarantuje nam, że możemy odrzucić hipotezą „0”? odp. 1. Dlatego, że test F to podział wariancji MG i WG. Jeżeli obydwie wariancje są sobie równe tzn., że wariancja MG nie jest większa od wariancji WG, czyli wpływ czynników WG nie jest na pewno większy od błędu. Nas interesuje aby wariancja MG była wyższa od wariancji WG. A jakby było F<1 to wtedy wariancja MG jest mniejsza i to też nas nie interesuje.
Ile czynników między obiektowych a ile wewnątrz obiektowych można zidentyfikować dla tego typu badania
Międzyobiektowy 1 (1 grupa badana - 1 czynnik, podzielona na 4 poziomy)
Wewnątrzobiektowy 0
!!!!!!!!!pyt.
znać wzory testu F i wartości Z, tak aby z polecenia zadania umieć podstawić dane do tego wzoru i to obliczyć.
!!!!!!!!1. W pewnym badaniu średnia wynosiła 2 a SD 1, wynik eksperymentu wynosi 4. Ile wynosi wartość standaryzowna? (1 wzór poniżej)
4-2/1=2
!!!!!!!!2. Kiedy po obliczeniu wartości standaryzowanej wychodzi wartość dodatnia?
Kiedy wartość średniej jest 0, bądź średnie są mniejsze od wartości zmiennych. LOGICZNE
!!!!!!!!3. Kiedy korelacja jest ujemna i co to znaczy?
Ujemna - relacja zmiennych jest odwrotnie proporcjonalna
Dodatnia - relacja zmiennych jest wprost proporcjonalna
Temat 4: Analiza regresji
A. Analiza regresji jednozmiennowej - jedna zmienna niezależna (predyktor) i jedna zmienna zależna (zmienna objaśniana)
1. Co to jest standaryzacja zmiennych, w jaki sposób oblicza się wartości standaryzowane
Wyrażenie wartości zmiennych w postaci proporcji odległości od średniej wyrażonej w wartościach odchylenia standardowego to standaryzacja zmiennej
Wartości standaryzowane oznacza się symbolem z
Zy = Yi-M
Sy
Wynik standaryzacji
(wartość standaryzowana z)
Wartość zmiennej
(wynik eksperymentu)
średnia arytmetyczna
odchylenie standardowe
!!!!!!!!!!!2. Kiedy można wykonać standaryzację zmiennych
Możemy zawsze wyniki standaryzować (wyrazić w postaci wartości standaryzowanej)
3. Jakim wartościom rzeczywistym odpowiadają wartości standaryzowane 0 i 1.
Standaryzacja nie zmienia relacji między wartościami bo jest przekształceniem liniowym (zachowuje porządek i odległość, czyli 0 (średnia) i 1 (SD).
4. Jaka jest relacja między wykresem rozrzutu dla danych surowych i wykresem rozrzutu dla danych standaryzowanych
Standaryzacja nie zmienia relacji między wartościami zmiennych. Natomiast w standaryzowanych linia zawsze przechodzi przez 0
5. Jaka jest ogólna postać równania prostej w układzie współrzędnych X i Y - na co wpływają wartości współczynników tego równania
Y = AX + B jeżeli prosta przechodzi przez punkt 0,0 (dla danych standaryzowanych) to równanie wygląda tak Y = AX
Zmienna A decyduje o tym jaki jest kąt nachylenia prostej do osi OX a zmienna B o tym jak prosta jest przesunięta w stosunku do osi OY.
6. Co to jest linia regresji
Prosta która leży najbliżej w stosunku do wszystkich punktów na wykresie rozrzutu.
!!!!!!!!!!!!7. Co oznacza pojęcia „metoda najmniejszych kwadratów”
Minimalizowanie kwadratów odległości.
Równanie linii regresji znajduje się przy pomocy metody najmniejszych kwadratów, chodzi o znalezienie takich współczynników regresji, aby suma podniesionych do kwadratu odległości punktów od prostej była jak najmniejsza
Jak wygląda równanie regresji jednozmiennowej dla danych standaryzowanych
ZX = BZy
9. Jaka jest relacja między współczynnikiem beta oraz korelacją r Pearsona
R Persona i Beta to to samo, zgodnie z konwencją przyjęto, że w równaniu dla danych standaryzowanych piszemy B
10. Jak można interpretować wartości współczynnika beta
11. Co to są wartości przewidywane i co to są reszty w regresji
wartości przewidywane - wartości zmiennej Y - zm. wyjaśnianej
reszta - odchylenie przewidywania od wartości rzeczywistej
12. Od czego zależy wielkość reszt
od zmiennej wyjaśnianej (y) i wartości przewidywanej (predyktor, oś X)
y= wartość przewidywana + reszta
13. Na jakie składowe możne rozbić całkowitą sumę kwadratów w regresji?
Całkowita Suma Kwadratów= SS (regresja) + SS (reszty) (reszta=SD)
14. Dlaczego wyniki regresji podlegają twierdzeniu Fishera? (slajdy IV str28)
Bo można obliczyć test F, po rozbiciu stopni swobody na dwie sumy: N-1=1+N-2 i SS na dwie sumy. Wtedy F=Wariancja regresji
Wariancja reszty Regresja > Reszty
15. Ile wynoszą wartości stopni swobody dla różnych czynników w regresji
Regresja df=1 (N-1)
Reszta df=2 (N-2)
16. W jaki sposób oblicza się wartość testu F w regresji (co przez co się dzieli)
j.w.
17. Jaka jest hipoteza zerowa dla testu F w regresji (Mackiewicz str. 538)
Hipoteza 0: S2 regresja =1
S2 reszta Wariancja w zbiorze wartości przewidywalnych na podstawie predyktora jest większa niż wariancja wynikająca z tego wszystkiego, czego nie kontrolujemy w badaniu.
Hipoteza 1: S2 regresja >1
S2 reszta Wariancja wynikająca z regresji nie jest większa niż wariancja resztowa
18. Jak wygląda równanie regresji dla danych surowych? O czym decydują współczynniki tego równania? (Mackiewicz str. 545,546)
Y=AX + B - parametry równania prostej, opisującej położenie linii regresji na wykresie rozrzutu zmiennych
Analogicznie:
Y=BxX + Stała regresji
B - współczynnik regresji - liczba oznaczająca stosunek przyrostu wartości zmiennej zależnej na podstawie przyrostu wartości predyktora
Stała regresji - jest wskaźnikiem przesunięcia linii regresji w górę lub w dół, w stosunku do osi OX. Jeżeli jej wartość jest ujemna, to linia regresji przecina oś OX na prawo od punktu (0,0), a jeżeli jest dodatnia, to linia regresji przecina oś OX na lewo od tego punktu.
19. W jaki sposób oblicza się wartość współczynnika determinacji R kwadrat w regresji jednozmiennowej? Czemu równy jest ten współczynnik i jak go się interpretuje?
j. n. + interpretacja N2 - wynik można zrozumieć jako proporcję ZZ wyjaśnianą przez równanie regresji w stosunku do całej zmienności ZZ np. Czas snu rem można w około 53 % przewidzieć na podstawie całkowitego czasu snu. (Tak jak w SPSS R2).
+ pytania
!!!!!!!1. Czy możliwe jest, że całkowita suma kwadratów równa będzie całkowitej sumie kwadratów regresji, kiedy wszystkie elementy leżą na linii prostej?
Odp. NIE (bo nie ma reszty) SS regresji=N2 - współczynnik determinacji
SS całkowite
N2- współczynnik determinacji,= R2-równa jest kwadratowi korelacji między obu zmiennymi, korelacja podniesiona do kwadratu;
Jest miarą dopasowania regresji do danych
Kiedy suma kwadratów przewidywania regresji będzie identyczna z całkowitą sumą kwadratów?
Odp. Jest to model idealny - wszystkie obserwacje są w linii prostej i nie ma reszt.
B. Analiza regresji wielozmiennowej - wiele zmiennych niezależnych (predyktorów) i jedna zmienna zależna (zmienna objaśniana)
Regresja wieloraka jest uogólnieniem prostej regresji liniowej na sytuacje, w których tworzony jest model opisujący związek pomiędzy jedną zmienną zależną i większą liczbą zmiennych niezależnych, które z reguły nazywane są predyktorami.
Poszukujemy liniowej kombinacji predyktorów, która najsilniej koreluje ze zmienną wyjaśnianą, czyli wyjaśnia jak najwięcej jej zmienności
1. Jaka jest relacja pomiędzy liczbą wymiarów w modelu regresji i liczbą predyktorów
2 predyktory i jedna zmienna zależna mogą być przedstawione na wykresie dwuwymiarowy, reprezentuje go płaszczyzna. Jeżeli predyktorów jest więcej można je przedstawić za pomocą równań.
Dla każdego zbioru danych można ułożyć tyle równań regresji ile jest zmiennych. Każda ze zmiennych może być zmienną zależną, a pozostałe są wtedy predyktorami.
2. Co oznacza określenie hiperpłaszczyzna?
Hiperpłaszczyzna regresji jest równaniem, przedstawiającym obraz relacji między jedną zmienną zależną a wieloma zmiennymi niezależnymi.
3. Jaka jest ogólna postać równania regresji wielozmiennowej dla danych standaryzowanych i dla danych surowych
Dla surowych: Y = b1x1 + b2x2 +… + bnxn +A
Dla standaryzowanych: Z(Y)= 1z(x1) + 2z(x2) + … nz(xn)
Przez jaki punkt w układzie przechodzi hiperpłaszczyzna regresji dla danych standaryzowanych?
4. Od czego zależy wybór zmiennej zależnej w regresji?
Może:
- być wynikiem relacji logicznych między zmiennymi (większa liczba wypadków raczej zależy od większej liczby samochodów na drogach)
- być wynikiem wiedzy wynikającej z teorii (poszukiwanie wrażeń zależy od cech osobowości, ale cechy osobowości raczej nie zależą od tendencji do poszukiwania wrażeń
- być dowolny, jeżeli analiza ma charakter eksploracyjny
(zobaczmy jakie są zależności między zmiennymi i co ciekawego można na ich temat powiedzieć
5. Jaka jest podstawowa różnica w algorytmie obliczeniowym w przypadku zastosowania metody wprowadzania, metody krokowej postępującej i metody eliminacji wstecznej
W przypadku regresji wielorakiej (czyli wtedy, gdy liczba predyktorówjest większa niż 1) istotne znaczenie może mieć kolejność wprowadzania predykatorów do równania regresji
można tworzyć równanie regresji wprowadzając do modelu równocześnie wszystkie zmienne niezależne -jest to model standardowy (w spss jest to metoda wprowadzania)
można tworzyć równanie regresji wprowadzając do modelu zmienne w kolejnych krokach, rozpoczynając od tej, która ma największy „wpływ” na zmienną zależną -jest to regresja krokowa postępująca
można tworzyć równanie regresji wprowadzając do modelu wszystkie zmienna, a następnie usuwając w kolejnych krokach te, które mają najmniejszy wpływ na zmienną zależną -jest to regresja krokowa wsteczna
6. Co to jest analiza reszt i w jakim celu się ją przeprowadza
Równanie regresji jest modelem statystycznym opisującym w sposób uproszczony relację między badanymi zmiennymi.
Czasami bardzo korzystne jest sprawdzenie jakie przypadki nie pasują do modelu. Jest to tak zwana analiza reszt
Dotyczy wariancji błędu -odległości między punktami a linią regresji
Umożliwia też identyfikowanie tych danych, które wpływają na zniekształcenie położenia linii regresji
7. Przy pomocy jakiego testu oblicza się istotność współczynników regresji? Jak jest hipoteza zerowa i jaka jest wartość stopni swobody dla tego testu?
Test F. df=2. Jeżeli p< 0,05 można uznać, że model regresji lepiej pasuje do danych niż przyjęcie założenia że między zmiennością niezależną a zmiennością zależną jest związek przypadkowy.
Współczynnik determinacji R2, przedział od 0-1
Test T df- chyba też 2 .istotny wpływ mają te predyktory, dla których wartość prawdopodobieństwa jest niższa od wartości kryterialnej.
tabela wyników regresji (współczynnik B -dane surowe i -dane standaryzowane
Hipoteza 0: S2 regresja =1 =0
S2 reszta Wariancja w zbiorze wartości przewidywalnych na podstawie predyktora jest większa niż wariancja wynikająca z tego wszystkiego, czego nie kontrolujemy w badaniu.
Hipoteza 1: S2 regresja >1
S2 reszta Wariancja wynikająca z regresji nie jest większa niż wariancja resztowa
R-współczynnik korelacji Pearsona (R regresyjne)-siła i charakter korelacji pomiędzy zmiennymi
R2-określa w jakim stopniu predyktor pozwala wyjaśnić zmienność wyników zmiennej zależnej
Im bliżej 1 tym zmienna niezależna jest lepszym predyktorem!
F i p -określają czy R jest istotne statystycznie
Beta -służy do oszacowania wpływu predyktora na kształt linii regresji
-przydatny w analizie regresji wielozmianowej
T i p-wskazuje czy Beta jest istotna
8. Jedno z założeń analizy regresji dotyczy normalności rozkładu …. Czego? I przy pomocy jakiej statystyki można to stwierdzić?
9. Co oznacza stwierdzenie, że zależność między zmiennymi nie ma charakteru liniowego? W jakich sytuacjach znanych z psychologii spotyka się takie nieliniowe zależności?
Przedstawiony model regresji zakłada, że zależność miedzy predyktoramia zmienną zależną jest liniowa. Gdy tak nie jest, może okazać się, że model jest nieistotny, choć zależność w rzeczywistości istnieje, ale ma inny charakter
10. W jakiej sytuacji predykatory w analizie regresji mają charakter nadmiarowy?
zmienne niezależne mogą byd między sobą silnie skorelowane, czyli nadmiarowe
11. Co oznacza wartość statystyk tolerancji
Temat 5: Analiza kowariancji i ogólny model liniowy
1. W jaki sposób można zapisać dane przygotowane do analizy wariancji tak, aby można byłoby w tej samej sytuacji przeprowadzić analizę regresji
2. Jaka jest relacja między sumami kwadratów i wartościami testów F dla analizy wariancji i analogicznej analizy regresji
3. Jaką wartośd mają wartości przewidywane w modelu regresji, który jest „analogiem” dla analizy wariancji?
4. Co oznacza pojęcia kowariancji, kiedy wartość kowariancji jest dodatnia, a kiedy jest ujemna
Miarą „współzmienności” dwóch zmiennych jest kowariancja
Sl.9
Wielkość kowariancji zależy od wielkości różnicy obu zmiennych w stosunku do średniej oraz kierunku tej różnicy)
Poszczególne pary obserwacji zmniejszą lub zwiększają wielkośĆ kowariancji (kiedy?)
Zi= M(c)+ (M(X)-M(c)) + (Zi-M(c))(Yi-M(c)) +
ε
kowariancja zmiennych Z i Y
przynależność do grupy
ze względu na kryterium X
Analiza kowariancji -szczególne połączenie analizy wariancji i analizy regresji, istotność wpływu zmiennej jakościowej (podział na grupy) obliczana jest po wyłączeniu (sprawdzeniu zależności regresji liniowej) wpływu zmiennej ilościowej (tak zwanej współzmiennej)
5. W jakim celu i w jakich sytuacjach stosuje się analizę kowariancji
6. Co oznacza pojęcie współzmiennej w analizie kowariancji? Jaki jest „poziom pomiaru” tej zmiennej
7. Co oznacza określenie wpływ addytywny i wpływ iloczynowy
Analiza regresji i analiza wariancji są metodami obliczeniowymi, które zakładają że wartości zmiennej zależną są wynikiem wpływu zmiennych addytywnych (ZN coś dodaje lub coś odejmuje) lub (i) iloczynów (ZN proporcjonalnie wpływa na wartości zmiennych zależnych albo w sposób wprost proporcjonalny albo w sposób odwrotnie proporcjonalny)
8. Co oznacza sformułowanie: „Wartość zmiennej zależnej jest liniową kombinacją wartości zmiennych niezależnych”
9. Co oznacza pojęcie „przekształcenie liniowe”?
Temat 7: Analiza czynnikowa
1. Jakie są dwa podstawowe cele analizy czynnikowej
redukcja liczby zmiennych
odkrycie „ukrytej” struktury relacji pomiędzy tymi zmiennymi
2. W jaki sposób analiza czynnikowa została wykorzystana w badaniu inteligencji przez Ch. Spearmana
3. Czym różnią się eksploracyjna i konfirmacyjna analiza czynnikowa
Eksploracja, czyli poszukiwanie ukrytych zmiennych
Eksploracyjna analiza czynnikowa
Konfirmacja, czyli potwierdzanie czy struktura danych jest zgodna z wcześniej zdefiniowanymi ukrytymi zmiennymi
Konfirmacyjna analiza czynnikowa
4. Na czym polega procedura redukcji wymiarów analizie czynnikowej
Analiza czynnikowa jest metodą redukcji danych, które polega na poszukiwaniu czynników, których liczba jest mniejsza niż liczba zmiennych, które w dostatecznie dobry sposób odzwierciedlają relację pomiędzy danymi.
5. Z czym łączy się pojęcie utraty informacji
6. Co oznaczają pojęcia: centrowanie osi, rotowanie, ortogonalność, rotacja varimax
Nowe czynniki są reprezentowane przez osie przechodzące przez punkty (średnia, średnia, średnia…) czyli osie wycentrowane Każda para tych osi musi być ułożona względem siebie pod kątem prostym (ogólnie: osie powinny być ortogonalne)Osie reprezentujące czynniki powinny być przekręcone (rotowane), aby wariancja dla każdego czynnika była jak największa a wariancja rozrzutu „pomiędzy” czynnikami jak najmniejsza. Metoda obracania osi w taki sposób nosi nazwę rotacji varimax(od maksymalizacji wariancji)
7. Jakie są początkowe wartości własne dla zmiennych w analizie czynnikowej
Każdy zbiór k zmiennych można przedstawić bez straty informacji w przestrzeni k -wymiarowej. W takiej sytuacji ważność każdego czynnika jest identyczna i umownie określana jest jako 1. Jest to tak zwana wartość własna, czyli wariancja związana z istnieniem tej zmiennej.
Jeżeli liczba wymiarów zostanie zredukowana w stosunku do liczby zmiennych, to wtedy niektóre wartości własne nowych czynników będą musiały byd większe niż 1 (metaforycznie -zmienne, które odpadną „oddają” swoją wariancję nowym czynnikom
8. Jakie dwie zasady stosuje się w celu ustalenia liczby czynników
Reguła heurystyczna numer 1: Liczba czynników powinna być taka, aby ich wartości własne były większe niż 1 (wariancja dla nowych czynników powinna być większa niż wariancja dla pojedynczych zmiennych, z których te czynniki powstały.
Reguła heurystyczna numer 2: O liczbie czynników można zdecydować na podstawie „oglądu” tak zwanego wykresu osypiska , czyli wykresu ustawionych malejąco wartości własnych dla wszystkich czynników
9. Na czym polega analiza głównych składowych
Relacja między 10 zmiennymi może być zredukowana do mniejszej liczby czynników przy pomocy tak zwanej analizy głównych składowych.
Celem analizy głównych składowych jest takie obrócenie chmury wyników, aby liczba wymiarów pozostała taka sama jak liczba zmiennych, ale przy założeniu, że istnieje pewna hierarchia tych wymiarów. Są wymiary, które mają większą wariancją własną (w większym stopniu „reprezentują” wszystkie pozostałe zmienne niż inne wymiary).
(Sl12)
Analiza głównych składowych polega na zmianie orientacji osi, tak aby maksymalizować wariancję dla nowych (abstrakcyjnych czynników)
Zgodnie z regułą heurystyczną nr 1 można więc zredukować liczbę osi, uwzględniając jedynie te, dla których wartości własne są wyższe niż 1
Metoda głównych składowych polega na uszeregowaniu czynników pod względem ich istotności. Liczba czynników jest taka sama jak liczba zmiennych.
10. Co to są wartości własne czynników?
11. Jaka jest relacja pomiędzy liczbą czynników a procentem wyjaśnionej wariancji
Sl 14
12. Co to jest wykres osypiska
wykres osypiska -czyli wykresu ustawionych malejąco wartości własnych dla wszystkich czynników
13. Jak wygląda macierz rotowanych składowych w analizie głównych składowych
14. W jaki sposób interpretuje się „treść” czynników
Interpretacja treściowa czynników Czynniki to wiązki zmiennych, które mają podobne wartości. Siła związku między czynnikiem a zmienną jest określana przy pomocy ładunku czynnikowego (analogicznie do r Pearsona, wartości od -1 do +1)
15. Jakie dwie statystyki pomagają w podjęciu decyzji o przeprowadzeniu analizy czynnikowej
Gdy liczba osób badanych jest o 50% większa od liczby zmiennych (choć niektóre źródła podają, że konieczne jest co najmniej 100 osób)
Gdy zmienne silnie (istotnie korelują ze sobą)- wartość wyznacznika macierzy korelacji wynosi około 0(wyznacznik -to umownie różnica iloczynów po przekątnej macierzy)-miara K-M-O(Kaiser, Mayer, Olkin) jest bliska 1
Str.141
+ wzór