1
Wykład Powtórzeniowy
Z przykładowymi pytaniami
egzaminacyjnymi
2
Bloki Tematyczne
I.
Statystyka opisowa
a) Pojęcie zmiennej
b) Cztery rodzaje skal pomiarowych:
-
nominalna
- rangowa (porządkowa)
- interwałowa (przedziałowa)
- stosunkowa (ilorazowa)
c) Charakterystyki rozkładu częstości:
-
Skośność
-
Spiczastość (kurtoza)
-
Miary tendencji centralnej ( średnia, mediana, modalna)
-
Miary rozproszenia (wariancja, odchylenie standardowe)
-
Wpływ dodawania wartości stałej lub mnożenia na miary
tendencji centralnej i rozproszenia
d) Standaryzacja wyników (zamiana na wartości „z”)
3
II. Metody badań
•
Podstawowe schematy badawcze
(schemat eksperymentalny vs.
schemat korelacyjny
•
podstawowe plany badań
eksperymentalnych
•
randomizacja pierwszego i
drugiego stopnia
•
regresja do średniej
4
III. Korelacja
• predyktory i zmienne zależne
• diagram rozproszenia (konstrukcja i
wnioskowanie o kierunku zależności,
zauważanie korelacji krzywoliniowych)
• obliczanie r Pearsona, wnioskowanie o
istotności lub braku istotności statystycznej na
podstawie wydruku
• korelacje dla danych na skalach rangowych
(rho Spearmana lub tau Kendalla)
• Korelacje dla danych nominalnych (phi
Pearsona) – związek między współczynnikiem
korelacji phi, a wartością statystyki chi kwadrat
• wnioskowanie o sile, kierunku i istotności
statystycznej na podstawie wydruku
5
IV. Rozkład normalny
- Własności rozkładu normalnego
- Procent przypadków między wartością z =
0, a z =1; między z=1 i z =2
- obliczanie % wyników leżących poniżej i
powyżej wartości ‘z’ na podstawie
podstawowych wartości „z”
- obliczanie wartości wyników surowych
leżących w danym przedziale (np. ile trzeba
zdobyć punktów, aby znaleźć się wśród 5%
najlepszych lub 2,5% najgorszych), gdy
znana jest średnia i odchylenie
standardowe
6
V. Wnioskowanie
statystyczne
•
Próba a populacja. Statystyki a parametry.
•
O populacji wnioskujemy na podstawie
próby, czyli o parametrach na podstawie
statystyk.
•
Centralne twierdzenie graniczne
•
Obliczanie błędu standardowego, na
podstawie odchylenia standardowego i
liczebności próby
•
Pojęcie hipotezy zerowej i hipotezy
alternatywnej (badawczej).
•
Błąd pierwszego rodzaju i błąd drugiego
rodzaju
7
VI. Testy „t” Studenta
•
Rozkład „t” Studenta. Warto pamiętać, że jest to
rodzina rozkładów, które zależą od rozmiaru
próby (N). Gdy N dąży do nieskończoności
rozkład t Studenta zbliża się do rozkładu
normalnego.
•
Trzy rozdaje testu „t” Studenta: test „t” dla
jednej próby oraz prób zależnych i niezależnych:
-
Stopnie swobody
-
Interpretacja wydruku (wartość testu „t”;
istotność, błąd standardowy, poprawny zapis
wyników)
-
Odpowiednie dobranie wersji testu „t” w
zależności od problemu badawczego (dla jednej
próby, dla prób zależnych lub niezależnych)
8
VII. Test chi kwadrat
•
test chi kwadrat dla jednej zmiennej
nominalnej (testowanie częstości
występowania różnych kategorii)
•
test chi kwadrat dla testowania związku
między dwiema skalami nominalnymi
•
obliczanie frekwencji obserwowanych i
obliczanie wartości testu
•
analizowanie istotności na podstawie
wydruku
•
określanie liczby stopni swobody
9
VIII. Testy
nieparametryczne
•
Rozróżnienie testów znaków
(mediany) testów i rangowych
•
Rozróżnienie testów dla prób
zależnych i niezależnych
•
Rangowanie wyników: uwaga na
rangi wiązane
IX Analiza czynnikowa
• Cel analizy czynnikowej i pojęcie
ładunków czynnikowych
• Metody szacowania ilości
czynników (wartości własne, test
osypiska)
• Powód rotacji przy dwóch
czynnikach i większej ich ilości
• Interpretacja czynników
10
X. Jednoczynnikowa analiza
wariancji (również w schemacie
wewnątrz osób)
• hipoteza zerowa
• wewnątrzgrupowa suma
kwadratów i międzygrupowa suma
kwadratów
• stopnie swobody dla wariancji
wewnątrzgrupowej i
międzygrupowej
• test F jako stosunek wariancji
11
X. Jednoczynnikowa analiza
wariancji (również w schemacie
wewnątrz osób)
• testy post-hoc
–
rodzaje testów post-hoc i różnice między nimi
–
określanie ilości podgrup na podstawie wydruku
• porównania planowane
–
porównywanie określonej grupy z inną grupa
–
porównywanie jednej grupy z uśrednioną
wartością dwóch innych grup
• określanie ilości poziomów zmiennej
niezależnej, istotności statystycznej testu F i
liczebności próby na podstawie wydruku
12
XI.Dwuczynnikowa analiza
wariancji w schemacie między
osobami
• trzy rodzaje hipotez zerowych i alternatywnych:
–
pierwszy efekt główny
–
drugi efekt główny
–
efekt interakcyjny
• wariancja wewnątrzgrupowa i międzygrupowa w
dwuczynnikowej analizie wariancji
• stopnie swobody dla wariancji międzygrupowej i
wewnątrzgrupowej w dwuczynnikowej analizie
wariancji
• określanie ilości kategorii (poziomów) zmiennych
niezależnych, istotności statystycznej efektów i
liczebności próby na podstawie wydruku
13
XI.Dwuczynnikowa analiza
wariancji w schemacie między
osobami
• identyfikowanie istotności efektów
głównych i efektów interakcyjnych
na podstawie wydruku oraz
interpretacja wykresów liniowych i
słupkowych
• interpretacja efektów interakcyjnych
poprzez analizę efektów prostych.
Różnica między efektami głównymi a
efektami prostymi
14
15
XII. Wybór odpowiedniego
testu statystycznego
1. Korelacja – r Pearsona, korelacja rangowa lub phi;
2. Odpowiednia wersja testu „t”
3. Test chi kwadrat lub testy nieparametryczne
4. Analiza czynnikowa
5. Jednoczynnikowa analiza wariancji w schemacie między
osobami lub w schemacie wewnątrz osób (powtarzane
pomiary)
6. Dwuczynnikowa analiza wariancji w schemacie między
osobami
w zależności od:
- rodzaju skali pomiarowej
- sformułowania problemu badawczego (badanie
korelacyjne czy eksperymentalne)
- i testowania założeń (test Kołmogorowa-Smirnowa)
16
Kształ rozkładu
• Tadek dostał następujące stopnie
w sesji egzaminacyjnej:
3,3,3,4,4,5. Rozkład ten jest:
–
skośny ujemnie
–
skośny dodatnio
–
symetryczny
–
dwumodalny
17
ROZKLAD1
ROZKLAD1
5,00
4,00
3,00
C
zę
st
oś
ć
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0
18
Wykres rozrzutu, korelacja
• U czterech osób badanych zmierzono
poziom reaktywności i poziom wrażliwości
emocjonalnej (im wyższe wyniki na
skalach, tym wyższy poziom odpowiedniej
właściwości). Wyniki na skali reaktywności
wynosiły odpowiednio 75, 65, 60, 80.
Wyniki na skali wrażliwości emocjonalnej
wynosiły odpowiednio 110, 100, 90, 120.
Wykres rozrzutu sugeruje istnienie:
–
silnej korelacji ujemnej
–
silnej korelacji dodatniej
–
słabej korelacji ujemnej
–
zależności krzywoliniowej
19
WRAZLIW
130
120
110
100
90
80
R
E
A
K
T
Y
W
90
80
70
60
50
20
Wykres rozrzutu, korelacja
• U czterech innych osób badanych również
zmierzono poziom reaktywności i poziom
wrażliwości emocjonalnej (im wyższe wyniki
na skalach, tym wyższy poziom odpowiedniej
właściwości). Wyniki na skali reaktywności
wynosiły odpowiednio 65, 68, 70, 60, Wyniki
na skali wrażliwości emocjonalnej wynosiły
odpowiednio 110, 100, 90, 120. Wykres
rozrzutu sugeruje istnienie:
–
silnej korelacji ujemnej
–
silnej korelacji dodatniej
–
słabej korelacji ujemnej
–
zależności krzywoliniowej
21
WRAZLIW
130
120
110
100
90
80
R
E
A
K
T
Y
W
72
70
68
66
64
62
60
58
22
Macierz korelacji
Korelacje
,604
,000
63
,627
,289
,000
,022
63
63
Korelacja Pearsona
Istotność (dwustronna)
N
Korelacja Pearsona
Istotność (dwustronna)
N
Korelacja Pearsona
Istotność (dwustronna)
N
pytanie 1
PYT2
PYT3
pytanie 1
PYT2
PYT3
23
Dotyczy macierzy
korelacji
• Przy założeniu poziomu istotności na
poziomie
p <0,01:
–
Stwierdzono istotną korelację tylko
pomiędzy pyt 2 i 3
–
Stwierdzono istotną korelację pomiędzy
pyt1 i pyt 2, jak również pomiędzy pyt1 i
pyt3
–
Stwierdzono istotną korelację tylko
pomiędzy pyt1 i pyt3
–
Wszystkie korelacje są istotne
24
Rodzaje błędów przy
wnioskowaniu
Ho
prawdziwa
Ho
fałszywa
Nie
odrzucamy
Ho
Błąd II rodzaju
Odrzucamy
Ho
Błąd I rodzaju
25
Analiza wydruków
• W pewnym magazynie proszono
klientów o ocenę atrakcyjności dwóch
wanien różniących się kształtem –
jedna była okrągła, druga zwykła
prostokątna. W badaniu wzięła udział
następująca liczba klientów:
–
9
–
10
–
11
–
12
27
• W pewnym magazynie proszono klientów o ocenę atrakcyjności
dwóch wanien różniących się kształtem – jedna była okrągła,
druga zwykła prostokątna. Chodziło o testowanie hipotezy
(przy założeniu p <0,01), że wanna okrągła będzie bardziej
atrakcyjna niż prostokątna. Na podstawie wydruku można
stwierdzić, że:
–
Kształt nie miał istotnego statystycznie wpływu na atrakcyjność
–
Stwierdzono istotną statystycznie różnicę w zakresie atrakcyjności
–
Wyniki badania są niekonkluzywne ze względu na małą liczbę
badanych
–
Nie można podać poziomu istotności dla tego testu
Test dla prób zależnych
1,833 2,5879
,7470
,1891 3,4776 2,454
11
,032
OKRAGLA - ZWYKLA
Para 1
Średnia
Odchylenie
standardowe
Błąd
standardowy
średniej
Dolna granica Górna granica
95% przedział ufności dla
różnicy średnich
Różnice w próbach zależnych
t
df
Istotność
(dwustronna)
28
• W pewnym magazynie proszono klientów o ocenę
atrakcyjności dwóch wanien różniących się kolorem – jedna
była biała, druga różowa. Chodziło o testowanie hipotezy (p
< 0,05), że oceny te będą różne w zależności od koloru. Który
zapis podsumowujący wyniki analizy jest prawidłowy:
–
test „t” dla prób zależnych wykazał, że wanna okrągła jest nieistotnie
bardziej atrakcyjna niż zwykła t(11) = 2,45; p <0,05
–
test „t” dla prób zależnych wykazał, że wanna okrągła jest istotnie
bardziej atrakcyjna niż zwykła t(11) = 2,45; p <0,01
–
test „t” dla prób zależnych wykazał, że wanna okrągła jest istotnie
bardziej atrakcyjna niż zwykła t(11) = 2,45; p <0,032
–
test „t” dla prób zależnych wykazał, że wanna okrągła jest istotnie
bardziej atrakcyjna niż zwykła, t(11) = 2,45; p <0,05
Test dla prób zależnych
1,833 2,5879
,7470
,1891 3,4776 2,454
11
,032
OKRAGLA - ZWYKLA
Para 1
Średnia
Odchylenie
standardowe
Błąd
standardowy
średniej
Dolna granica Górna granica
95% przedział ufności dla
różnicy średnich
Różnice w próbach zależnych
t
df
Istotność
(dwustronna)
29
Test homogeniczności
wariancji
• W teście t dla grup niezależnych,
uzyskaliśmy następujący wynik w
teście Levena: F=0,15; p=0.58.
Oznacza to, że wariancje w
porównywanych grupach:
–
Są różne
–
Są podobne
–
Są średnie
–
Nic o nich nie wiemy
30
test jednorodności
wariancji
• Przy teście t dla grup
niezależnych, będziemy
odczytywać wyniki z wiersza ‘brak
założenia równości wariancji’ gdy :
–
test Levena jest istotny (p<0,05)
–
test Levena jest niestotny (p>0,05)
–
mamy nierówne liczebnie grupy
–
kiedy nasze dane nie mają rozkładu
normalnego
31
Test t dla grup
niezależnych
• W pewnym eksperymencie, gdzie w
grupie ekperymentalnej i kontrolnej
było po 15 osób, wyniki
przeanalizowano testem t dla grup
niezależnych, odpowiednie stopnie
swobody wynoszą:
–
28
–
14
–
30
–
15
32
Dobór testu
• U pięćdziesięciu skoczków
narciarskich zmierzono poziom
adrenaliny przed skokiem i po skoku.
Wyniki mają rozkład zbliżony do
normalnego. Którym z testów najlepiej
przeanalizować dane:
–
Testem t dla grup niezależnych
–
Testem t dla grup zależnych
–
Testem Wilcoxona
–
Testem Manna - Whitneya
33
Df
• Wartośc df dla testu t dla grup
niezależnych z 20 osobami w
każdym z warunków wynosi
• 18
• 20
• 38
• 40
34
Wielkość próby
• Jaka jest relacja między wielkością
próby a błędem próby:
–
Im większa próba tym większy błąd
próby
–
Im mniejsza próba tym mniejszy błąd
próby
–
Im większa próba tym mniejszy błąd
próby
–
Wielkość próby równa się błędowi
próby
35
Błąd standardowy
• Błąd standardowy to:
–
Pierwiastek ze średniej w próbie
–
Pierwiastek z odchylenia
standardowego
–
Odchylenie standardowe dzielone
przez średnią
–
Odchylenie standardowe dzielone
prze pierwiastek z liczby uczestników
w próbie
36
przekształcenia
• Wartość błędu standardowego
wynosi 5.2, wielkość próbki 9, ile
wynosi odchylenie standardowe:
• 15.6
• 1.73
• 46,8
• 0,556
37
Wartości „z”
• Jeśli w ankiecie miłości do zwierząt
Franek uzyskał wynik 14, wiemy, że
średnia w populacji ogólnej wynosi
20 a odchylenie standardowe 3,
wynik wystandaryzowany Franka
wynosi:
• 2
• -2
• -1,4
• 0
38
chi
2
• Jeśli chcemy przetestować hipotezę,
że studenci SWPS wolą zajęcia
wieczorne od popołudniowych i
porannych, która z analiz będzie
najbardziej odpowiednia?
–
χ
2
2x2, test niezależności
–
χ
2
2x3, test niezależności
–
Χ
2
dla jednej zmiennej
–
Test t dla jednej próby
39
Tabela krzyżowa TEORIA_1 * PLEC
Liczebność
21
210
231
43
127
170
25
99
124
89
436
525
t. transakcyjna
psychoanaliza
t. Maslowa
TEORIA_1
Ogółem
pan
pani
PLEC
Ogółem
• Ile wynosi liczebność oczekiwana dla panów, którzy
wybrali psychoanalizę
–
21,5
–
89
–
28,8
–
170
40
Tabela krzyżowa TEORIA_1 * PLEC
21
210
231
39,2 191,8 231,0
43
127
170
28,8 141,2 170,0
25
99
124
21,0 103,0 124,0
89
436
525
89,0 436,0 525,0
Liczebność
Liczebność oczekiwana
Liczebność
Liczebność oczekiwana
Liczebność
Liczebność oczekiwana
Liczebność
Liczebność oczekiwana
t. transakcyjna
psychoanaliza
t. Maslowa
TEORIA_1
Ogółem
pan
pani
PLEC
Ogółem
103
525
436
124
8
,
28
525
89
170
,
,
M
pani
p
pan
E
E
41
• Wybierz poprawny zapis analizy:
–
χ
2
(2)=19,45; p<0,0001
–
χ
2
(1)=10,43; p=0,001
–
χ
2
(2)=19,45; p<0,001
–
χ
2
(2)=10,43; p<0,01
Testy Chi-kwadrat
19,45
a
2
,000
20,21
2
,000
10,43
1
,001
525
Chi-kwadrat Pearsona
Iloraz wiarygodności
Test związku liniowego
N Ważnych obserwacji
Wartość
df
Istotność
asymptotyczn
a
(dwustronna)
,0% komórek (0) ma liczebność oczekiwaną mniejszą niż 5.
Minimalna liczebność oczekiwana wynosi 21,02.
a.
42
Czas rozpoznawania zdjęć
prowadzących, a ocena
przedmiotu
•
Analiza wydruku, wybierz poprawną odpowiedź:
–
W badaniu wzięło udział 13 osób
–
Wariancje w porównywanych grupach są podobne
–
Uzyskane różnice są nieistotne na poziomie p<0,05
–
Przedział ufności dla różnicy średnich zawiera punkt
zero
Test dla prób niezależnych
2,508 ,139 -3,42
12
,005 -1,49
,4372 -2,4468 -,5418
-3,42 9,298
,007 -1,49
,4372 -2,4784 -,5101
Założono równość
wariancji
Nie założono
równości wariancji
CZAS
F
Istotność
Test Levene'a
jednorodności
wariancji
t
df
Istotność
(dwustronna)
Różnica
średnich
Błąd
standardowy
różnicy
Dolna granica Górna granica
95% przedział ufności dla
różnicy średnich
Test t równości średnich
43
Test t dla grup zależnych
• Ile wynosi błąd
standardowy dla
grupy po_b?
–
0,2938
–
0,0874
–
0,3273
–
0,3928
• Ile wynoszą
stopnie swobody w
tym teście dla grup
zależnych?
–
14
–
13
–
28
–
26
Statystyki dla prób zależnych
5,500
14 1,2247
,3273
3,143
14 1,0995
,2938
PO_B
PRZED_A
Para
1
Średnia
N
Odchylenie
standardowe
Błąd
standardowy
średniej
44
Analiza wydruku
• Na podstawie wyniku testu t możemy powiedzieć,
iż:
–
Na poziomie istotności p<0,001 istnieje związek między
porównywanymi pomiarami
–
Istnieje istotna różnica między porównywanymi
pomiarami
–
Na poziomie istotności p<0,05 nie ma związku między
porównywanymi pomiarami
–
Różnica między pomiarami przed i po jest nieistotna
statystycznie na poziomie p<0,001
Test dla prób zależnych
2,357 1,8232
,4873 1,3044 3,4098 4,837
13
,000
PO_B - PRZED_A
Para 1
Średnia
Odchylenie
standardowe
Błąd
standardowy
średniej
Dolna granica Górna granica
95% przedział ufności dla
różnicy średnich
Różnice w próbach zależnych
t
df
Istotność
(dwustronna)
45
Miary tendencji
centralnych
• W badaniu nad
nierealistycznym
optymizmem wśród
bezrobotnych w jednej
grupie uzyskano
następujące wyniki:
10,7,8,5,8,3,4. Wybierz
poprawną odpowiedź
–
Średnia z tej grupy jest
mniejsza od mediany
–
Modalna równa się
medianie
–
Mediana jest mniejsza od
średniej
–
Średnia i mediana są
sobie równe
46
Dodanie stałej do
wyników
• Staś zastosował w badaniu skalę od -10
do +10, zebrał wyniki i chciał pozbyć się
wartości ujemnych dodał więc do
każdego wyniku 20, co się stało z
miarami rozproszenia:
–
Tak jak miary tendencji centralnej nie
zmieniły się
–
Tak jak średnia uległy zmianie
–
Powiększyły się o dodaną wartość
–
Pozostały takie same jak przy oryginalnych
danych
47
Miary tendencji centralnej
• W badaniu nad nierealistycznym
optymizmem wśród bezrobotnych w
jednej grupie M=3, Me=4,5, Mo=6.
Możemy przypuszczać, iż rozkład
wyników mierzonej zmiennej jest:
–
Skośny dodatnio,
–
Skośny ujemnie
–
Jest dwumodalny
–
Jest symetryczny