ZAJĘCIA NR 6
STATYSTYKA
OPISOWA INDUKCYJNA
O ZWIĄZKACH O RÓŻNICACH
współczynniki korelacji testy istotności różnic
testowanie hipotez zerowych
H0 HIPOTEZA ZEROWA brak różnic lub brak związku
H1 HIPOTEZA ALTERNATYWNA istnieją różnice lub związek
statystycznie testuje się H0
bo łatwiej sprawdzić (jeden moment)
odrzucenie H0 = przyjęcie H1
automatycznie
prawdopodobieństwo odrzucenia / przyjęcia H0 wiąże się z istotnością
RODZAJE BŁĘDÓW:
|
H0 jest prawdziwa |
H1 jest prawdziwa |
odrzucenie H0 |
Błąd pierwszego rodzaju |
OK |
przyjęcie H0 |
OK |
Błąd drugiego rodzaju |
POZIOM α prawdopodobieństwo popełnienia błędu pierwszego rodzaju
poziom istotności testu
(5 % szansy na stwierdzenie, że istnieje związek,
gdy go w rzeczywistości nie ma)
POZIOM β prawdopodobieństwo popełnienia
błędu drugiego rodzaju
istotność związku ≠ siła związku
warunek konieczny do decyzji
o interpretacji związku
ANALIZA REGRESJI:
badanie związku między zmiennymi
prognozowanie jednej zmiennej na podstawie drugiej
Korelacje a r2:
r2 = 0 brak wspólnej wariancji
X Y
REGRESJA JEDNOZMIENNOWA
r = 0,5 r2 = 0,25
X Y
REGRESJE WIELOZMIENNOWE:
Xn - PREDYKTORY - zmienne niezależne
r1 2
Y r1 2 + r2 2 + r3 2
X1 X3
suma wyjaśnia zmienność
r2 2 r3 2 zmiennej zależnej
X2 X1, X2, X3 - nie mają wspólnej wariancji
r1 Y ANALIZA REGRESJI
X1
pozwala stwierdzić, w jakim stopniu
X3 każdy X wyjaśnia Y
r1 + r2 X2 r1 + r2 + r3 X1, X2, X3 - mają wspólną wariancję
(są ze sobą skorelowane)
RÓWNANIE REGRESJI:
definicja związku pomiędzy zmiennymi:
N ∑ x y - (∑ x)( ∑ y)
y = b x + a b =
N ∑ x2 - (∑ x)2
b - współczynnik kierunkowy
a - współczynnik przesunięcia
dopasowanie linii regresji:
suma kwadratów poszczególnych punktów od tej
linii jest możliwie najmniejszą wartością
y
chmura wyników
x
linia regresji
y = bx + a
SPSS:
Analiza regresji
METODA WPROWADZANIA METODA KROKOWA
wprowadza wszystkie predyktory (Xn) wprowadza predyktory (Xn) po kolei
(od najsilniejszego)
niezależnie od ich istotności tylko istotnie związane z Y
(wpływu na Y)
lepsza
ZADANIE 1.
Badano związki między liczbą treningów pisania bezwzrokowego, a liczbą popełnianych błędów.
wyniki:
Liczba treningów |
Liczba błędów |
1 |
8 |
2 |
7 |
3 |
6 |
4 |
5 |
5 |
6 |
6 |
5 |
7 |
4 |
x - liczba treningów
y - liczba błędów
trening (t) |
błędy (b) |
t * b |
t 2 |
b 2 |
1 |
8 |
8 |
1 |
64 |
2 |
7 |
14 |
4 |
49 |
3 |
6 |
18 |
9 |
36 |
4 |
5 |
20 |
16 |
25 |
5 |
6 |
30 |
25 |
36 |
6 |
5 |
30 |
36 |
25 |
7 |
4 |
28 |
49 |
16 |
28 |
41 |
148 |
140 |
251 |
obliczyć r Pearsona:
silny ujemny związek między zmiennymi
współczynnik determinacji = siła związku:
r 2 = 0,842 84,2 % wspólnej wariancji
y = b x + a: bo r ujemne
y
y = b x + a
linia regresji przechodzi przez punkt,
y którego współrzędnymi są średni y i średni x
x
x
obliczenie a:
równanie regresji:
y = b x + a
y = - 0,571 * 8,144 równanie regresji umożliwia prognozowanie wyników zmiennej zależnej
y = b x + a nie jest linią funkcji
SPSS:
a = stała
Korelacje:
RZĘDU ZEROWEGO = r Pearsona
CZĄSTKOWA
korelacja między dwoma zmiennymi, pozostająca po uwzględnieniu
wpływu innej zmiennej
SEMICZĄSTKOWA
miara skorelowania dwóch zmiennych, pozostająca po uwzględnieniu (wyeliminowaniu) wpływów jednej lub wielu innych predyktorów
Współczynnik korelacji semicząstkowej lub cząstkowej:
lepszy wskaźnik „faktycznego oddziaływania” predyktora (Xn)
bo wyskalowany:
odniesiony do całkowitej zmienności (odpowiedzi) zmiennej zależnej (Y)
ZADANIE 2.
Badano związki między liczbą treningów pisania bezwzrokowego, a liczbą popełnianych błędów oraz poziomem stresu.
wyniki:
Liczba treningów |
Liczba błędów |
Poziom stresu |
1 |
8 |
6 |
2 |
7 |
6 |
3 |
6 |
5 |
4 |
5 |
5 |
5 |
6 |
4 |
6 |
5 |
4 |
7 |
4 |
3 |
x1 - liczba treningów
x2 - poziom stresu
y - liczba błędów
równanie regresji:
y = b x + a a - stała
y = - 0,905 x1 równanie dla dwóch predyktorów
- 0,667 x2 + 12,619
Zmienna nominalna:
może być wprowadzona do modelu regresji ALE PO DYCHOTOMIZACJI
REGRESJA WARUNKOWA:
dla każdej wartości X i istnieje rozkład możliwych wartości Y
rozkład zmiennej zależnej (Y):
jest rozkładem normalnym o średniej leżącej na linii regresji
ODCHYLENIE WARUNKOWE:
dla dowolnej wartości jednej zmiennej rozkłady warunkowe drugiej zmiennej charakteryzują się identycznym odchyleniem standardowym
r = 1 S y/x = 0 wszystkie punkty położone na jednej linii
korelacja - odchylenie
Wzór na ZMIENNĄ ZALEŻNĄ Y
obliczaną na podstawie wartości z rozkładu normalnego:
ODCHYLENIE STANDARDOWE
PRZYKŁAD 1.
Korelacja pomiędzy wynikami z testów z języka polskiego oraz historii jest równa r = 0,8, a równanie regresji pomiędzy zmiennymi określone jest wzorem:
y = x + 3. Odchylenie standardowe zmiennej y wynosi 5.
Jaki % osób, które uzyskały 10 pkt z języka polskiego uzyska więcej niż 15 pkt na egzaminie z historii?
r = 0,8 korelacja między zmiennymi
y = x + 3
Sy = 5 odchylenie standardowe
y = x + 3
y = x + 3
y = 10 + 3 = 13 średnia rozkładu normalnego
Z = 0,67 pole = 0,2486
0,5 - 0,2486 = 0,2514 25,14 %
śr. = 13 15
odchylenie warunkowe:
σ y/x = 5 * √1 - (0,8)2 = 3
xi - μ 13 - 15
Z = σ y/x = 3 = 0,67
PRZYKŁAD 2.
Pomiędzy wynikami testów A i B istnieje związek liniowy określony wzorem:
y = 0,8 x + 2.
Sy = 15
Sx = 12
Jakie jest prawdopodobieństwo, że osoba, która w teście A uzyskała 50 pkt, w teście B otrzyma mniej niż 40 pkt ?
y = 0,8 x + 2
Sy = 15 odchylenia standardowe dla x i y
Sx = 12
Z = 0,17 pole = 0,0675 (z tablicy)
40 42 = śr.
0,5 - 0,0675 = 0,4325 43,25 %
y = 0,8 * 50 + 2 = 42 średnia rozkładu normalnego
Sy
b = ryx
Sx
b Sx
r =
Sy
0,8 * 12
r = = 0,64
15
σ y/x = 15 * √1 - (0,64)2 = 11,5 pole z tablicy rozkładu normalnego
pole między danym poziomem a średnią
xi - μ 40 - 42
Z = б y/x = 11,5 = 0,17
SPSS:
Korelacje:
więcej niż 5 kategorii
DYCHOTOMIZACJA ZMIENNYCH:
np. wzrost i płeć
|
NISCY |
WYSOCY |
||||||||||||||||||||
K |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
musi być dużo osób badanych
Me
|
|
|
|
może być mniej osób badanych
sprawdzenie mediany
PRZEKSZTAŁCENIA REKODUJ NA INNE ZMIENNE
NAZWA
WARTOŚCI ŹRÓDŁOWE I WYNIKOWE
OK.
ZMIENNE WARTOŚCI DLA NOWEJ ZDYCHOTOMIZOWANEJ ZMIENNEJ
ANALIZA OPIS STATYSTYCZNY TABLICE KRZYŻOWE
WIERSZE
KOLUMNY
STATYSTYKA
PHI I V CRAMERA
KOMÓRKI
% W WIERSZU
POKAŻ ZGRUPOWANE WYKRESY SŁUPKOWE
OK.
Miary symetryczne:
istotność
wartość współczynnika
ZMIENNE NOMINALNE
ZMIENNE PORZĄDKOWE
ZMIENNE ILOŚCIOWE