Untitled

Temat 1: Podstawowe pojęcia statystyki matematycznej:

1. Na czym polega częstościowa definicja prawdopodobieństwa

Ω - zbiór wszystkich możliwych zdarzeń, sytuacji, itp. Na przykład zbiór wszystkich

możliwych wyników rzutu kostką, wyników na egzaminie, itp. Zbiór Ω nie musi być zbiorem

0x08 graphic
liczb, może to być zbiór różnych obiektów.

Zbiór zdarzeń wszystkich możliwych sytuacji.

2. Co to są zdarzenia niezależne, jakie jest prawdopodobieństwo sumy i iloczynu zdarzeń niezależnych

To takie które występują niezależnie od siebie.

!!!!!!!!!!!Prawdopodobieństwo tego, że 2 zdarzenia wyjdą łącznie = iloczynowi prawdopodobieństwa dla każdego z tych zdarzeń oddzielnie.

Np. rzut 2 monetami - 1/4

Zdarzenia ze zbioru Ω mogą być podzielone na różne typy zdarzeń. Jeżeli prawdopodobieństwo wystąpienia zdarzenia typu X jest niezależne od wystąpienia zdarzenia typu Y to mówimy, że zdarzenia X i Y są od siebie niezależne.

Dla zdarzeń niezależnych zachodzi: P(X i Y) = P(X)xP(Y)

Przykład zdarzeń niezależnych - rzut wieloma monetami, rzut monetą i rzut kostką

Jakie są psychologiczne przykłady zdarzeń niezależnych? Np. czy kolor włosów badanych wpływa na ich zadowolenie. Szybkość bicia serca w pokoju czerwonym i niebieskim.

Zdarzenia niezależne to także błędy pojawiające się w eksperymentach psychologicznych

3. Co to jest zmienna losowa to liczby

Ze zmienną losową mamy do czynienia wtedy, gdy wszystkim zdarzeniom ze zbioru Ω przypisane są liczby według tej samej zasady.

Mamy obiekty badane i im muszę przypisać liczbę, każdy obiekt badany ma przyporządkowaną tylko jedną liczbę lub nazwę.

4. Co jest zmienna losowa dyskretna i jak definiuje się rozkład tej zmiennej.

Przyjmuje wartości ze skończonego zbioru np. odpowiedzi z kwestionariusz od 1-7.

Rozkład dyskretnej zmiennej losowej to zbiór par (wartość zmiennej, prawdopodobieństwo

jej uzyskania), czyli zbiór par {(Xi, pi)}

Dla wyników rzutu kostką (zmienna losowa - liczba oczek na górnej ściance)

{(1,1/ 6), (2,1/6), (3,1/6), (4,1/6), (5,1/6), (6,1/6)}

Przykład psychologiczny - wyniki w teście i proporcja osób, które zaznaczyły daną odpowiedź

5. Co to jest zmienna losowa ciągła, jakie są właściwości takich zmiennych i jak definiuje się rozkład tej zmiennej

Zmienna losowa ciągła - w której wartości pochodzą z nieskończonego zbioru, to taka w której wyniki są nieskończenie gęste np. pomiar czasu, bo można go mierzyć coraz dokładniej.

Ciągła zmienna losowa

- zbiór wartości jest nieskończony,

-wartości zmiennej są ułożone na osi nieskończenie gęsto,

-dla każdej pary wartości zmiennej istnieje wartość

pomiędzy nimi

!!!!!!!!!!!Rozkład normalny - to zmienna ciągła (punkty w kwestionariuszu traktujemy jako przedział zmiennej ciągłej rozkładu normalnego, a pole powierzchni to prawdopodobieństwo)

6. Jakie wartości znajdują się na osi OY w graficznej prezentacji ciągłych zmiennych losowych.

OX - zaznaczone są wartości zmiennej

OY - zaznaczone są wartości funkcji gęstości prawdopodobieństwa (gęstość - miara prawdopodobieństwa wokół danej liczby)

7. Jak graficznie reprezentowane jest prawdopodobieństwo w rozkładach zmiennych ciągłych i zmiennych dyskretnych.

Zmienne ciągłe - to linia (rozkład normalny)

Zmienne dyskretne - to punkty lub histogram

8. Na czym polega przedziałowy charakter pomiaru ciągłych zmiennych losowych. (Mackiewicz str. 236)

Tworzy się przedział bo nie sposób zbadać populacji.

Estymacja punktowa sprowadza się do stwierdzenia, iż np. średnia w populacji jest taka sama jak średnia w badanej próbie

Estymacja przedziałowa - że z określonym prawdopodobieństwem ta średnia znajduje się w przedziale o znanych granicach uwzględniają prawdopodobieństwo błędu. max +/- 5%

9. Co to są parametry rozkładu zmiennej losowej.

Średnia, mediana, dominanta………..

Liczby określające parametry tego rozkładu w populacji

!!!!!!!!!!!10. Od czego zależy kształt i od czego położenie rozkładu normalnego

Kształt - zależy od średniej( w kurtozie) i odchylenia standardowego

Położenie - od średniej (lewo, bądź prawo)

(O czym decyduje odchylenie standardowe - o rozrzucie wokół średniej im wyższe odchylenie tym rozkład szerszy)

11. Od jakich rozkładów pochodzą rozkład Chi kwadrat i rozkład F Snedecora

Od rozkładów normalnych

Rozkład Chi2 - powstaje z dodawania rozkładów normalnych, podniesionych do kwadratu

Rozkład F - 2 podzielone przez siebie rozkłady Chi2

12. Dlaczego wnioskowanie statystyczne dotyczy próby, a nigdy populacji (Mackiewicz str. 219)

Mamy wyniki dotyczące jakiejś próby i na ich podstawie chcemy dowiedzieć się czegoś o całej populacji, z której ta próba pochodzi. Dla próby możemy obliczyć różne wskaźniki statystyczne. Analogicznie wskaźniki możemy policzyć dla całej populacji ale nie mamy dostępu do wszystkich danych.

Statystyki - próba

Parametry - populacja

14. Jaka jest różnica między rozkładem teoretycznym i rozkładem empirycznym.

Rozkład empiryczny - to taki który otrzymaliśmy w wyniku eksperymentu np. orłów do reszek.

Rozkład teoretyczny - określamy przez pewien wzór matematyczny bądź zasady rachunku prawdopodobieństwa.

!!!!!!!!pyt. Proszę narysować jak wygląda rozkład teoretyczny 2 monet. (trzeba napisać pary, jaki był rozkład prawdopodobieństwa)

(0,1/4) (1,1/2) (2,1/4)

15. Co to są parametry rozkładu i statystyki próby, w jaki sposób są oznaczane (Mackiewicz str. 132 i 220)

Średnia jako parametr i średnia jako statystyka różnią się od siebie nie sposobem obliczania, ale zbiorem wartości, dla których są obliczane.

W przypadku parametrów są to wartości teoretyczne możliwe do uzyskania

- są dla całej populacji

W przypadku statystyki są to konkretne dane z eksperymentu.

- są dla próby

Symbole dla nich są różnie oznaczone:

Określenie słowne	Statystyka próby	Parametr populacji
Średnia		
Mediana lub kwartyl 2
1 i 2 kwartyl
Wariancja
Odchylenie standardowe

+ pytania z klasówki:

Jakie są parametry rozkładu normalnego zmiennej losowej?

Średnia i odchylenie standardowe

Rozkład dyskretnej zmiennej losowej to zbiór par. Z jakich elementów składają się te pary?

Wartość zmiennej i prawdopodobieństwo jej uzyskania

Jak brzmi hipoteza zerowa w jednoczynnikowej analizie wariancji?

Wariancja wynikająca z manipulacji eksperymentalnej nie jest większa od wariancji wewnątrz badanych grup F 1

Jakie jest prawdopodobieństwo iloczynu dwóch zdarzeń niezależnych?

Odp. W pyt. 2 z wykładów

Jak graficznie reprezentowane jest prawdopodobieństwo w rozkładzie ciągłej losowej?

To rozkład normalny (linia +pole powierzchni)

Co jest w liczniku a co w mianowniku testu F w jednoczynnikowej anovie?

Licznik - wariancja międzygrupowa S2(m)

Mianownik - wariancja wewnątrzgrupowa S2(w)

F= zmienność MG (T+E)

0x08 graphic
Zmienność WG (E)

Gdzie T - efekt zmiennej niezależnej

E - błąd losowy MG >WG

Temat 2: Analiza wariancji

1. Jaka jest struktura wyniku eksperymentu (równanie ogólnego modelu liniowego)

parametry modelu

0x08 graphic

Y=XB + U błąd pomiaru

0x08 graphic

ZZ ZN

Prosty przykład parametrów modelu -

grupa do której należy osoba badana

(może być zakodowany jako ciąg zer i

jedynek

Grupa 1: 1 0 0

Grupa 2: 0 1 0

Grupa 3: 0 0 1

Przykład - samochody w USA

2. Na czym polega zasada rozbijania wariancji

Wariancja całkowita = Wariancja wynikająca z manipulacji ZN (międzygrupowa) + wariancja niekontrolowana (wewnątrzgrupowa).

Zasada addytywności wariancji

Jeżeli zmienna losową jest sumą dwóch lub więcej zmiennych niezależnych, to wariancja tej zmiennej jest sumą wariancji zmiennych niezależnych.

3. Na jakie składowe można rozbić wariancję w przypadku układu jednoczynnikowej analizy wariancji

Odp. Wariancja międzygrupowa + Błąd

Zmienna zależna, niezależna, błąd??

Czynniki i poziomy tych czynników?

Efekty główne i interakcji i efekty proste?

!!!!!!!!!!!!4. Co jest w liczniku i mianowniku wszystkich wzorów na wariancję (chodzi o sumy kwadratów i stopnie swobody)

licznik - suma kwadratów

mianownik - stopnie swobody

5. Co to są stopnie swobody

(df) - ilość wyników których wartość nie jest zdeterminowana przez średnią (ogólną lub grupową).

Liczba wartości, które mogą przyjąć dowolną wielkość, przy założeniu że znany jest jakiś parametr dla danej próby.

6. Jakie są wartości stopni swobody w jednoczynnikowej ANOVA (Mackiewicz str. 340)

wzór na wariancję całkowitą………

Tylko we wzorze na wariancję całkowitą, czyli zmienność w całym zbiorze danych niezależnie od jego wewnętrznych podziałów, suma stopni swobody pochodzących z wszystkich (tzn. kontrolowanych i niekontrolowanych) źródeł zmienności jest równa liczbie wszystkich badanych obiektów pomniejszonej o 1.

W jednoczynnikowej analizie składowymi wariancji całkowitej są tylko dwa źródła zmienności - wewnątrz grup i między nimi- a więc suma odpowiadających im liczb stopni swobody musi się

równać N-1.

Odp. Całkowita ilość stopni swobody (total df)=ilość badanych - 1

MG (między grupami) (treatment df)=Ilość grup - 1

WG (wewnątrz grup) (error df)= ilość badanych - ilość grup

!!!!!!!!!!!! 7. Co jest w liczniku i mianowniku statystyki F

Licznik - wariancja międzygrupowa S2(m)

Mianownik - wariancja wewnątrzgrupowa S2(w)

F= zmienność MG (T+E)

0x08 graphic
Zmienność WG (E)

Gdzie T - efekt zmiennej niezależnej

E - błąd losowy MG >WG

8. Jakie są hipotezy zerowa i alternatywna w analizie wariancji

Hipoteza zerowa:

Wariancja wynikające z manipulacji eksperymentalnej nie jest większa od wariancji wewnątrz badanych grup F 1

Hipoteza alternatywna

Wariancja wynikająca z manipulacji eksperymentalnej jest większa niż wariancją wewnątrz badanych grup F>1

Jaką wartością jest F jeżeli hipoteza 0 jest prawdziwa?

9. Kiedy można odrzucić hipotezę zerową w analizie wariancji (Mackiewicz str. 334)

- Aby można było odrzucić hipotezę, iloraz dwóch wariancji musi być istotnie większy od 1, a nie tylko różny od 1,czyli większy lub mniejszy.

- I istotność p< 0,05

!!!!!!!!10. Jakie dwa warunki dotyczące danych wynikają z twierdzenia Fishera

Badana cecha ma rozkład normalny'
Błędy pomiaru mają rozkład normalny.
Osoby badane są przydzielane losowo do grup badanych i jeżeli rozkład badanej cechy w populacji jest normalny
Wynik można przedstawić w postaci sum kwadratów i suma stopni swobody równa jest N-1

!!!!!!!!!!!!!11. Jakie warunki dotyczące sum kwadratów i liczby stopni swobody wynikają z twierdzenie Fishera

1. Wyniki w badanej grupie można przedstawić w postaci sum kwadratów

2. Stopnie swobody dla tych sum kwadratów po dodaniu do siebie równe są całkowitej liczbie stopni swobody

12. Od jakich rozkładów pochodzi rozkład F? Ile stopni swobody mają te rozkłady a ile stopni swobody ma rozkład F?

13. Co to są efekty główne i co to są efekty wyższych rzędów?

Efekt główny - wpływ danego czynnika

Efekty wyższych rzędów- efekty proste - wpływ zn na zz przy dowolnym poziomie innej zz

14. W jaki sposób rozbijana jest całkowita suma kwadratów w analizie z uwzględnieniem efektów interakcji i bez uwzględniania tych efektów?

15. Co jest w liczniku i mianowniku wzorów na wariancję w zależności od źródła efektu.

16. Należy umieć obliczać wartości stopni swobody i sum kwadratów na podstawie dostępnych informacji (chodzi o proste dodawanie lub odejmowanie, trzeba jednak wiedzieć co dodawać a co odejmować).

!!!!!!!!!! pyt. Jeśli df wewnątrzgrup wynosi 68, a df międzygrupowe wynosi 2, to jaka jest całkowita ilość badanych?

Oblicz F:

	SS	Df	MS	F
MG	36	4	9	3
WG	12	4	3

Jeżeli df między grupami w analizie wariancji wynosi 4, to ile było grup:

- 5

Jeżeli df wewnątrz grup wynosi 18, a df między grupami wynosi 2, to jaka była całkowita ilość grup:

- 21

Uzupełnij wartości brakujące w tabeli analizy wariancji, ile wynosi F:

Źródło SS df MS F

MG 36 4 ?(9) ?(4,5)

WG 12 6 ?(2)

Ogółem 48 10

- 4,5

Wykonaj analizę wariancji na poniższych danych, ile wynosi F:

Gr.1 Gr.2 Gr.3

4 7 7

M = 3 M = 6 M = 6

- 9

Wynik standaryzowany z = -1,0 oznacza, że:

- wynik jest jedno odchylenie standardowe poniżej średniej

Obliczanie średniej

1,2,3

1,2,3,10

17. Jak jest relacja między wynikiem testu F oraz testem t Studenta

Relacja między testem T a wartościami prawdopodobieństwa są identyczne

F=t2 wartości prawdopodobieństwa są identyczne.

Można je zastępować jeżeli są 2 grupy. Jeżeli więcej to już anova.

18. Należy umieć zidentyfikować liczbę badanych grup, zmiennych i poziomów zmiennych oraz liczbę źródeł zmienności na podstawie zapisu typu 2 x 2 x 3

Liczba grup - mnożymy liczbę poziomów czynnika 2x2x3=12

Liczba zmiennych - 3

Poziomy zmiennych - 1 - 2, 2 - 2, 3 - 3

Liczba źródeł zmienności - (efektów prostych) - 7 (dodaje się)

Efektów interakcji-

19. Dlaczego zamiast jednoczynnikowej analizy wariancji nie można stosować serii testów t dla par pomiarów

Bo nie będziemy znać, wpływu wszystkich zmiennych niezależnych na zależną jednocześnie. Nie będziemy znać interakcji, jeżeli liczba poziomu czynników jest pow.2.

Zmienia nam się istotność gdyż nakładają się na nią progi istotności 0,0167.

20. Co oznacza interakcja dwóch zmiennych i w jaki sposób można opisać tę interakcję w raporcie badawczym. (Mackiewicz str. 346)

Interakcja - wynik w jakim stopniu wszystkie kontrolowane zmienne niezależne wpływają razem na zmienną zależną.

Opis za pomocą efektów prostych (interakcyjnych).

21. Jakie kolumny i wiersze powinna zawierać tabelka analizy wariancji

wiersze - czynniki

kolumny - poziomy czynników

22. Co oznaczają określenia czynniki międzyobiektowe i czynniki wewnątrzobiektowe

Cz. Międzyobiektowe - czyli różne grupy badane

Cz. Wewnątrzobiektowe - czyli uczestnicy są badani w różnych sytuacjach (powtarzalne pomiary)

23. Jak powinny być zapisane dane, jeżeli ma być przeprowadzona analiza wariancji z powtarzanymi pomiarami?

24. Trzeba umieć wymienić nazwy testów post hoc przedstawionych na slajdach (plus nazwa testu Bonferoniego)

Test Scheffego,

Test Bonferroni

Test Tukeya (HSD),

Test Neumanna - Keullsa,

Test Duncana

25. Dlaczego analizę kontrastów nazywa się testami a priori

a priori - na początku.

W analizie wariancji można testować szczegółowe przewidywania dotyczące relacji między średnimi. Przewidywania te powinny być sformułowane przed przeprowadzeniem eksperymentu a co najmniej wynikać z założeń teorii.

Porównania zaplanowane (kontrasty)Służą do weryfikacji wcześniej postawionych hipotez na temat relacji między konkretnymi średnimi (lub grupami średnich)

Kontrasty definiuje się poprzez ustalenie wag dla średnich. Suma wag zawsze musi wynosić zero, poza tym można kombinować dowolnie

26. Co to znaczy, że wyniki mają trend liniowy

TREND LINIOWY”odzwierciedla on działanie tzw. Przyczyn głównych tj. istoty zjawiska.Najczęściej buduje się model liniowy trendu: gdzie parametry można wyliczyć za pomocą metody najmniejszych kwadratów.

Wyodrębnienie tendencji za pomocą dowolnej metody.

27. Do jakiej wartości muszą sumować się współczynniki kontrastów - „0”

Temat 3: Testy nieparametryczne

1. Jak inaczej można nazwać testy nieparametryczne

Test znaków

2. Jakie parametry ma rozkład dwumianowy

liczba prób prawdopodobieństwa sukcesu
prawdopodobieństwo sukcesu w jednej próbie

3. W jakiej sytuacji można wykorzystać rozkład dwumianowy jako test statystyczny (Mackiewicz str. 410)

Test dwumianowy jest jednym z najprostszych testów nieparametrycznych i można go stosować w każdej sytuacji, w której dane mają postać zerojedynkową. Wynikiem tego testu jest prawdopodobieństwo otrzymania takiej proporcji zer i jedynek, jaką otrzymaliśmy, przy założeniu, że w rzeczywistości rozkładają się one zupełnie przypadkowo.

Określa on prawdopodobieństwo tego, że badana cecha przyjmnie jedną z dwóch wartości w skończonej liczbie prób.

4. Ile stopni swobody ma rozkład chi kwadrat

1 df

Wartości testu mają rozkład chi kwadrat o r-k-1 stopni swobody, z reguły: r-liczba kategorii, na które podzielono dane, k -liczba parametrów rozkładu, rozkład równomierny nie ma parametrów, więc df=3

5. Co to są wartości otrzymane i oczekiwane w rozkładzie chi kwadrat

6. Co oznacza określenie test chi kwadrat dla rozkładu równomiernego

Każda obserwacja występuje tak samo często

7. Dlaczego test znaków ma taką nazwę

Test znaków polega na obliczaniu różnicy między wynikami w parach pomiarów i określaniu znaku tej różnicy. Wynikiem testu jest liczba znaków częściej występujących.

8. Kiedy stosuje się test mediany i jaką statystykę oblicza się przy tym teście

Test mediany jest nieparametrycznym odpowiednikiem analizy wariancji i polega na zliczeniu obserwacji poniżej i powyżej mediany w całej próbie dla poszczególnych grup.

9. Testy U Manna Whitneya, Test Wilcoxona, Test Kruskalla - Wallisa, test Friedmana

- które z tych testów wymagają rangowania wyników

wszystkie

b. - za pomocą wartości jakiej statystyki najczęściej podawane są wyniki

U Manna Whitneya - Wyniki testu z reguły podaje się w postaci wartości standaryzowanego rozkładu normalnego Z

Test Wilcoxona - Wyniki testu z reguły podaje się w postaci wartości standaryzowanego rozkładu normalnego Z

Test Kruskalla - Wallisa - Wyniki testu z reguły podaje się w postaci wartości standaryzowanego rozkładu normalnego H

test Friedmana - wynikiem rang jest wartość Chi2

!!!!!!!!!!!!c. - zamiast jakich parametrycznych testów można jest stosować

U Manna Whitneya - test T dla prób niezależnych

Test Wilcoxona - test T dla prób zależnych

Test Kruskalla - Wallisa - jednoczynnikowa analiza wariancji

test Friedmana - analiza wariancji z powtarzalnymi pomiarami w obrębie jednego czynnika.

!!!!!!!!!!!10. Co to są testy permutacyjne

Polegają na reprubkowaniu. Metody te polegają na tworzeniu nowych wirtualnych próbek przy pomocy już istniejących wyników i sprawdzaniu jak często wśród tych wirtualnych próbek pojawia się zależność rzeczywiście obserwowana w badaniu. (metody monte carlo)

+ pytania z klasówki

W pewnym badaniu przeprowadzono jednoczynnikową analizę wariancji dla 4 grup

Podaj dowolne średnie w tych grupach, tak aby trend między nimi miał charakter liniowy.

1,2,3,4 (Wykres liniowy jest wtedy kiedy na wykresie średnich jest linia prosta, żeby tak było to musi być 1,2,3,4, 4 grupy- 4 litery)

!!!!!!!!!!!!!2. Przy jakiej wartości testu F na pewno nie będzie można odrzucić hipotezy zerowej.

Wartość 1

Jaka wartość testu F gwarantuje nam, że możemy odrzucić hipotezą „0”? odp. 1. Dlatego, że test F to podział wariancji MG i WG. Jeżeli obydwie wariancje są sobie równe tzn., że wariancja MG nie jest większa od wariancji WG, czyli wpływ czynników WG nie jest na pewno większy od błędu. Nas interesuje aby wariancja MG była wyższa od wariancji WG. A jakby było F<1 to wtedy wariancja MG jest mniejsza i to też nas nie interesuje.

Ile czynników między obiektowych a ile wewnątrz obiektowych można zidentyfikować dla tego typu badania

Międzyobiektowy 1 (1 grupa badana - 1 czynnik, podzielona na 4 poziomy)

Wewnątrzobiektowy 0

!!!!!!!!!pyt.

znać wzory testu F i wartości Z, tak aby z polecenia zadania umieć podstawić dane do tego wzoru i to obliczyć.

!!!!!!!!1. W pewnym badaniu średnia wynosiła 2 a SD 1, wynik eksperymentu wynosi 4. Ile wynosi wartość standaryzowna? (1 wzór poniżej)

4-2/1=2

!!!!!!!!2. Kiedy po obliczeniu wartości standaryzowanej wychodzi wartość dodatnia?

Kiedy wartość średniej jest 0, bądź średnie są mniejsze od wartości zmiennych. LOGICZNE

0x08 graphic
!!!!!!!!3. Kiedy korelacja jest ujemna i co to znaczy?

Ujemna - relacja zmiennych jest odwrotnie proporcjonalna

Dodatnia - relacja zmiennych jest wprost proporcjonalna

Temat 4: Analiza regresji

A. Analiza regresji jednozmiennowej - jedna zmienna niezależna (predyktor) i jedna zmienna zależna (zmienna objaśniana)

1. Co to jest standaryzacja zmiennych, w jaki sposób oblicza się wartości standaryzowane

Wyrażenie wartości zmiennych w postaci proporcji odległości od średniej wyrażonej w wartościach odchylenia standardowego to standaryzacja zmiennej

Wartości standaryzowane oznacza się symbolem z

0x08 graphic

Zy = Yi-M

0x08 graphic

Sy

Wynik standaryzacji

(wartość standaryzowana z)

Wartość zmiennej

(wynik eksperymentu)

średnia arytmetyczna

odchylenie standardowe

!!!!!!!!!!!2. Kiedy można wykonać standaryzację zmiennych

Możemy zawsze wyniki standaryzować (wyrazić w postaci wartości standaryzowanej)

3. Jakim wartościom rzeczywistym odpowiadają wartości standaryzowane 0 i 1.

Standaryzacja nie zmienia relacji między wartościami bo jest przekształceniem liniowym (zachowuje porządek i odległość, czyli 0 (średnia) i 1 (SD).

4. Jaka jest relacja między wykresem rozrzutu dla danych surowych i wykresem rozrzutu dla danych standaryzowanych

Standaryzacja nie zmienia relacji między wartościami zmiennych. Natomiast w standaryzowanych linia zawsze przechodzi przez 0

5. Jaka jest ogólna postać równania prostej w układzie współrzędnych X i Y - na co wpływają wartości współczynników tego równania

Y = AX + B jeżeli prosta przechodzi przez punkt 0,0 (dla danych standaryzowanych) to równanie wygląda tak Y = AX

Zmienna A decyduje o tym jaki jest kąt nachylenia prostej do osi OX a zmienna B o tym jak prosta jest przesunięta w stosunku do osi OY.

6. Co to jest linia regresji

Prosta która leży najbliżej w stosunku do wszystkich punktów na wykresie rozrzutu.

!!!!!!!!!!!!7. Co oznacza pojęcia „metoda najmniejszych kwadratów”

Minimalizowanie kwadratów odległości.

Równanie linii regresji znajduje się przy pomocy metody najmniejszych kwadratów, chodzi o znalezienie takich współczynników regresji, aby suma podniesionych do kwadratu odległości punktów od prostej była jak najmniejsza

Jak wygląda równanie regresji jednozmiennowej dla danych standaryzowanych

ZX = BZy

9. Jaka jest relacja między współczynnikiem beta oraz korelacją r Pearsona

R Persona i Beta to to samo, zgodnie z konwencją przyjęto, że w równaniu dla danych standaryzowanych piszemy B

10. Jak można interpretować wartości współczynnika beta

11. Co to są wartości przewidywane i co to są reszty w regresji

wartości przewidywane - wartości zmiennej Y - zm. wyjaśnianej

reszta - odchylenie przewidywania od wartości rzeczywistej

12. Od czego zależy wielkość reszt

od zmiennej wyjaśnianej (y) i wartości przewidywanej (predyktor, oś X)

y= wartość przewidywana + reszta

13. Na jakie składowe możne rozbić całkowitą sumę kwadratów w regresji?

Całkowita Suma Kwadratów= SS (regresja) + SS (reszty) (reszta=SD)

14. Dlaczego wyniki regresji podlegają twierdzeniu Fishera? (slajdy IV str28)

Bo można obliczyć test F, po rozbiciu stopni swobody na dwie sumy: N-1=1+N-2 i SS na dwie sumy. Wtedy F=Wariancja regresji

0x08 graphic
Wariancja reszty Regresja > Reszty

15. Ile wynoszą wartości stopni swobody dla różnych czynników w regresji

Regresja df=1 (N-1)

Reszta df=2 (N-2)

16. W jaki sposób oblicza się wartość testu F w regresji (co przez co się dzieli)

j.w.

17. Jaka jest hipoteza zerowa dla testu F w regresji (Mackiewicz str. 538)

Hipoteza 0: S2 regresja =1

0x08 graphic
S2 reszta Wariancja w zbiorze wartości przewidywalnych na podstawie predyktora jest większa niż wariancja wynikająca z tego wszystkiego, czego nie kontrolujemy w badaniu.

Hipoteza 1: S2 regresja >1

0x08 graphic
S2 reszta Wariancja wynikająca z regresji nie jest większa niż wariancja resztowa

18. Jak wygląda równanie regresji dla danych surowych? O czym decydują współczynniki tego równania? (Mackiewicz str. 545,546)

Y=AX + B - parametry równania prostej, opisującej położenie linii regresji na wykresie rozrzutu zmiennych

Analogicznie:

Y=BxX + Stała regresji

B - współczynnik regresji - liczba oznaczająca stosunek przyrostu wartości zmiennej zależnej na podstawie przyrostu wartości predyktora

Stała regresji - jest wskaźnikiem przesunięcia linii regresji w górę lub w dół, w stosunku do osi OX. Jeżeli jej wartość jest ujemna, to linia regresji przecina oś OX na prawo od punktu (0,0), a jeżeli jest dodatnia, to linia regresji przecina oś OX na lewo od tego punktu.

19. W jaki sposób oblicza się wartość współczynnika determinacji R kwadrat w regresji jednozmiennowej? Czemu równy jest ten współczynnik i jak go się interpretuje?

j. n. + interpretacja N2 - wynik można zrozumieć jako proporcję ZZ wyjaśnianą przez równanie regresji w stosunku do całej zmienności ZZ np. Czas snu rem można w około 53 % przewidzieć na podstawie całkowitego czasu snu. (Tak jak w SPSS R2).

+ pytania

!!!!!!!1. Czy możliwe jest, że całkowita suma kwadratów równa będzie całkowitej sumie kwadratów regresji, kiedy wszystkie elementy leżą na linii prostej?

Odp. NIE (bo nie ma reszty) SS regresji=N2 - współczynnik determinacji

0x08 graphic
SS całkowite

N2- współczynnik determinacji,= R2-równa jest kwadratowi korelacji między obu zmiennymi, korelacja podniesiona do kwadratu;

Jest miarą dopasowania regresji do danych

Kiedy suma kwadratów przewidywania regresji będzie identyczna z całkowitą sumą kwadratów?

Odp. Jest to model idealny - wszystkie obserwacje są w linii prostej i nie ma reszt.

B. Analiza regresji wielozmiennowej - wiele zmiennych niezależnych (predyktorów) i jedna zmienna zależna (zmienna objaśniana)

Regresja wieloraka jest uogólnieniem prostej regresji liniowej na sytuacje, w których tworzony jest model opisujący związek pomiędzy jedną zmienną zależną i większą liczbą zmiennych niezależnych, które z reguły nazywane są predyktorami.

Poszukujemy liniowej kombinacji predyktorów, która najsilniej koreluje ze zmienną wyjaśnianą, czyli wyjaśnia jak najwięcej jej zmienności

1. Jaka jest relacja pomiędzy liczbą wymiarów w modelu regresji i liczbą predyktorów

2 predyktory i jedna zmienna zależna mogą być przedstawione na wykresie dwuwymiarowy, reprezentuje go płaszczyzna. Jeżeli predyktorów jest więcej można je przedstawić za pomocą równań.

Dla każdego zbioru danych można ułożyć tyle równań regresji ile jest zmiennych. Każda ze zmiennych może być zmienną zależną, a pozostałe są wtedy predyktorami.

2. Co oznacza określenie hiperpłaszczyzna?

Hiperpłaszczyzna regresji jest równaniem, przedstawiającym obraz relacji między jedną zmienną zależną a wieloma zmiennymi niezależnymi.

3. Jaka jest ogólna postać równania regresji wielozmiennowej dla danych standaryzowanych i dla danych surowych

Dla surowych: Y = b1x1 + b2x2 +… + bnxn +A

Dla standaryzowanych: Z(Y)= 1z(x1) + 2z(x2) + … nz(xn)

Przez jaki punkt w układzie przechodzi hiperpłaszczyzna regresji dla danych standaryzowanych?

4. Od czego zależy wybór zmiennej zależnej w regresji?

Może:

- być wynikiem relacji logicznych między zmiennymi (większa liczba wypadków raczej zależy od większej liczby samochodów na drogach)

- być wynikiem wiedzy wynikającej z teorii (poszukiwanie wrażeń zależy od cech osobowości, ale cechy osobowości raczej nie zależą od tendencji do poszukiwania wrażeń

- być dowolny, jeżeli analiza ma charakter eksploracyjny

(zobaczmy jakie są zależności między zmiennymi i co ciekawego można na ich temat powiedzieć

5. Jaka jest podstawowa różnica w algorytmie obliczeniowym w przypadku zastosowania metody wprowadzania, metody krokowej postępującej i metody eliminacji wstecznej

W przypadku regresji wielorakiej (czyli wtedy, gdy liczba predyktorówjest większa niż 1) istotne znaczenie może mieć kolejność wprowadzania predykatorów do równania regresji

można tworzyć równanie regresji wprowadzając do modelu równocześnie wszystkie zmienne niezależne -jest to model standardowy (w spss jest to metoda wprowadzania)

można tworzyć równanie regresji wprowadzając do modelu zmienne w kolejnych krokach, rozpoczynając od tej, która ma największy „wpływ” na zmienną zależną -jest to regresja krokowa postępująca

można tworzyć równanie regresji wprowadzając do modelu wszystkie zmienna, a następnie usuwając w kolejnych krokach te, które mają najmniejszy wpływ na zmienną zależną -jest to regresja krokowa wsteczna

6. Co to jest analiza reszt i w jakim celu się ją przeprowadza

Równanie regresji jest modelem statystycznym opisującym w sposób uproszczony relację między badanymi zmiennymi.

Czasami bardzo korzystne jest sprawdzenie jakie przypadki nie pasują do modelu. Jest to tak zwana analiza reszt

Dotyczy wariancji błędu -odległości między punktami a linią regresji

Umożliwia też identyfikowanie tych danych, które wpływają na zniekształcenie położenia linii regresji

7. Przy pomocy jakiego testu oblicza się istotność współczynników regresji? Jak jest hipoteza zerowa i jaka jest wartość stopni swobody dla tego testu?

Test F. df=2. Jeżeli p< 0,05 można uznać, że model regresji lepiej pasuje do danych niż przyjęcie założenia że między zmiennością niezależną a zmiennością zależną jest związek przypadkowy.
Współczynnik determinacji R2, przedział od 0-1
Test T df- chyba też 2 .istotny wpływ mają te predyktory, dla których wartość prawdopodobieństwa jest niższa od wartości kryterialnej.
tabela wyników regresji (współczynnik B -dane surowe i -dane standaryzowane

Hipoteza 0: S2 regresja =1 =0

0x08 graphic
S2 reszta Wariancja w zbiorze wartości przewidywalnych na podstawie predyktora jest większa niż wariancja wynikająca z tego wszystkiego, czego nie kontrolujemy w badaniu.

Hipoteza 1: S2 regresja >1

0x08 graphic
S2 reszta Wariancja wynikająca z regresji nie jest większa niż wariancja resztowa

R-współczynnik korelacji Pearsona (R regresyjne)-siła i charakter korelacji pomiędzy zmiennymi

R2-określa w jakim stopniu predyktor pozwala wyjaśnić zmienność wyników zmiennej zależnej

Im bliżej 1 tym zmienna niezależna jest lepszym predyktorem!

F i p -określają czy R jest istotne statystycznie

Beta -służy do oszacowania wpływu predyktora na kształt linii regresji

-przydatny w analizie regresji wielozmianowej

T i p-wskazuje czy Beta jest istotna

8. Jedno z założeń analizy regresji dotyczy normalności rozkładu …. Czego? I przy pomocy jakiej statystyki można to stwierdzić?

9. Co oznacza stwierdzenie, że zależność między zmiennymi nie ma charakteru liniowego? W jakich sytuacjach znanych z psychologii spotyka się takie nieliniowe zależności?

Przedstawiony model regresji zakłada, że zależność miedzy predyktoramia zmienną zależną jest liniowa. Gdy tak nie jest, może okazać się, że model jest nieistotny, choć zależność w rzeczywistości istnieje, ale ma inny charakter

10. W jakiej sytuacji predykatory w analizie regresji mają charakter nadmiarowy?

zmienne niezależne mogą byd między sobą silnie skorelowane, czyli nadmiarowe

11. Co oznacza wartość statystyk tolerancji

Temat 5: Analiza kowariancji i ogólny model liniowy

1. W jaki sposób można zapisać dane przygotowane do analizy wariancji tak, aby można byłoby w tej samej sytuacji przeprowadzić analizę regresji

2. Jaka jest relacja między sumami kwadratów i wartościami testów F dla analizy wariancji i analogicznej analizy regresji

3. Jaką wartośd mają wartości przewidywane w modelu regresji, który jest „analogiem” dla analizy wariancji?

4. Co oznacza pojęcia kowariancji, kiedy wartość kowariancji jest dodatnia, a kiedy jest ujemna

Miarą „współzmienności” dwóch zmiennych jest kowariancja

Sl.9
Wielkość kowariancji zależy od wielkości różnicy obu zmiennych w stosunku do średniej oraz kierunku tej różnicy)

Poszczególne pary obserwacji zmniejszą lub zwiększają wielkośĆ kowariancji (kiedy?)

Zi= M(c)+ (M(X)-M(c)) + (Zi-M(c))(Yi-M(c)) + 0x01 graphic
ε

0x08 graphic

kowariancja zmiennych Z i Y

przynależność do grupy

ze względu na kryterium X

Analiza kowariancji -szczególne połączenie analizy wariancji i analizy regresji, istotność wpływu zmiennej jakościowej (podział na grupy) obliczana jest po wyłączeniu (sprawdzeniu zależności regresji liniowej) wpływu zmiennej ilościowej (tak zwanej współzmiennej)

5. W jakim celu i w jakich sytuacjach stosuje się analizę kowariancji

6. Co oznacza pojęcie współzmiennej w analizie kowariancji? Jaki jest „poziom pomiaru” tej zmiennej

7. Co oznacza określenie wpływ addytywny i wpływ iloczynowy

Analiza regresji i analiza wariancji są metodami obliczeniowymi, które zakładają że wartości zmiennej zależną są wynikiem wpływu zmiennych addytywnych (ZN coś dodaje lub coś odejmuje) lub (i) iloczynów (ZN proporcjonalnie wpływa na wartości zmiennych zależnych albo w sposób wprost proporcjonalny albo w sposób odwrotnie proporcjonalny)

8. Co oznacza sformułowanie: „Wartość zmiennej zależnej jest liniową kombinacją wartości zmiennych niezależnych”

9. Co oznacza pojęcie „przekształcenie liniowe”?

Temat 7: Analiza czynnikowa

1. Jakie są dwa podstawowe cele analizy czynnikowej

redukcja liczby zmiennych

odkrycie „ukrytej” struktury relacji pomiędzy tymi zmiennymi

2. W jaki sposób analiza czynnikowa została wykorzystana w badaniu inteligencji przez Ch. Spearmana

3. Czym różnią się eksploracyjna i konfirmacyjna analiza czynnikowa

Eksploracja, czyli poszukiwanie ukrytych zmiennych

0x08 graphic
Eksploracyjna analiza czynnikowa

Konfirmacja, czyli potwierdzanie czy struktura danych jest zgodna z wcześniej zdefiniowanymi ukrytymi zmiennymi

0x08 graphic
Konfirmacyjna analiza czynnikowa

4. Na czym polega procedura redukcji wymiarów analizie czynnikowej

Analiza czynnikowa jest metodą redukcji danych, które polega na poszukiwaniu czynników, których liczba jest mniejsza niż liczba zmiennych, które w dostatecznie dobry sposób odzwierciedlają relację pomiędzy danymi.

5. Z czym łączy się pojęcie utraty informacji

6. Co oznaczają pojęcia: centrowanie osi, rotowanie, ortogonalność, rotacja varimax

Nowe czynniki są reprezentowane przez osie przechodzące przez punkty (średnia, średnia, średnia…) czyli osie wycentrowane Każda para tych osi musi być ułożona względem siebie pod kątem prostym (ogólnie: osie powinny być ortogonalne)Osie reprezentujące czynniki powinny być przekręcone (rotowane), aby wariancja dla każdego czynnika była jak największa a wariancja rozrzutu „pomiędzy” czynnikami jak najmniejsza. Metoda obracania osi w taki sposób nosi nazwę rotacji varimax(od maksymalizacji wariancji)

7. Jakie są początkowe wartości własne dla zmiennych w analizie czynnikowej

Każdy zbiór k zmiennych można przedstawić bez straty informacji w przestrzeni k -wymiarowej. W takiej sytuacji ważność każdego czynnika jest identyczna i umownie określana jest jako 1. Jest to tak zwana wartość własna, czyli wariancja związana z istnieniem tej zmiennej.

Jeżeli liczba wymiarów zostanie zredukowana w stosunku do liczby zmiennych, to wtedy niektóre wartości własne nowych czynników będą musiały byd większe niż 1 (metaforycznie -zmienne, które odpadną „oddają” swoją wariancję nowym czynnikom

8. Jakie dwie zasady stosuje się w celu ustalenia liczby czynników

Reguła heurystyczna numer 1: Liczba czynników powinna być taka, aby ich wartości własne były większe niż 1 (wariancja dla nowych czynników powinna być większa niż wariancja dla pojedynczych zmiennych, z których te czynniki powstały.

Reguła heurystyczna numer 2: O liczbie czynników można zdecydować na podstawie „oglądu” tak zwanego wykresu osypiska , czyli wykresu ustawionych malejąco wartości własnych dla wszystkich czynników

9. Na czym polega analiza głównych składowych

Relacja między 10 zmiennymi może być zredukowana do mniejszej liczby czynników przy pomocy tak zwanej analizy głównych składowych.

Celem analizy głównych składowych jest takie obrócenie chmury wyników, aby liczba wymiarów pozostała taka sama jak liczba zmiennych, ale przy założeniu, że istnieje pewna hierarchia tych wymiarów. Są wymiary, które mają większą wariancją własną (w większym stopniu „reprezentują” wszystkie pozostałe zmienne niż inne wymiary).

(Sl12)

Analiza głównych składowych polega na zmianie orientacji osi, tak aby maksymalizować wariancję dla nowych (abstrakcyjnych czynników)

Zgodnie z regułą heurystyczną nr 1 można więc zredukować liczbę osi, uwzględniając jedynie te, dla których wartości własne są wyższe niż 1

Metoda głównych składowych polega na uszeregowaniu czynników pod względem ich istotności. Liczba czynników jest taka sama jak liczba zmiennych.

10. Co to są wartości własne czynników?

11. Jaka jest relacja pomiędzy liczbą czynników a procentem wyjaśnionej wariancji

Sl 14

12. Co to jest wykres osypiska

wykres osypiska -czyli wykresu ustawionych malejąco wartości własnych dla wszystkich czynników

13. Jak wygląda macierz rotowanych składowych w analizie głównych składowych

14. W jaki sposób interpretuje się „treść” czynników

Interpretacja treściowa czynników Czynniki to wiązki zmiennych, które mają podobne wartości. Siła związku między czynnikiem a zmienną jest określana przy pomocy ładunku czynnikowego (analogicznie do r Pearsona, wartości od -1 do +1)

15. Jakie dwie statystyki pomagają w podjęciu decyzji o przeprowadzeniu analizy czynnikowej

Gdy liczba osób badanych jest o 50% większa od liczby zmiennych (choć niektóre źródła podają, że konieczne jest co najmniej 100 osób)

Gdy zmienne silnie (istotnie korelują ze sobą)- wartość wyznacznika macierzy korelacji wynosi około 0(wyznacznik -to umownie różnica iloczynów po przekątnej macierzy)-miara K-M-O(Kaiser, Mayer, Olkin) jest bliska 1

Str.141

+ wzór