JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Zależność statystyczna
dwóch zmiennych
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Związek przyczynowo-skutkowy:
barwa upierzenia kaczki krzyżówki zależy
od płci (zwróćmy uwagę na to, co jest
przyczyną, a co skutkiem)
Potoczne rozumienie
zależności
Każdy samiec jest upierzony ja na górnym
zdjęciu, a każda samica – jak na dolnym
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Związek statystyczny:
Kobiety zarabiają mniej niż
mężczyźni
Potoczne rozumienie
zależności
http://www.strefabiznesu.echodnia.eu/
Niektóre kobiety zarabiają mniej niż
niektórzy mężczyźni.
Ale częściej zdarzają się kobiety, które
zarabiają mniej niż mężczyźni niż
mężczyźni zarabiający mniej od kobiet.
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Związek statystyczny:
Widząc rezultat wiemy, że MOGŁO wystąpić zdarzenie, z którym ten rezultat
jest związany
Czym różnią się te sytuacje?
Związek przyczynowo-skutkowy:
Widząc skutek wiemy na pewno, że zaszła przyczyna
W obu przypadkach mamy do czynienia z zależnością
zmiennych w sensie statystycznym
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Rozważmy niewielką zbiorowość, składającą się z ośmiorga
dzieci. W tej zbiorowości zmierzyliśmy wzrost każdego dziecka,
znamy też płeć dzieci.
Dane z badania przedstawia poniższa macierz:
Przykład liczbowy
2
170
8
2
160
7
2
150
6
1
160
5
1
140
4
1
140
3
1
160
2
1
150
1
Y
X
Lp.
X – wzrost dziecka (w cm.)
Y – płeć dziecka (1 – dziewczynka, 2 – chłopiec)
Jak pamiętamy, badanie statystyczne ma na celu
syntetyczne (zwięzłe) opisanie zbiorowości
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Jakiego wzrostu są zbadane przez nas dzieci?
Pierwsza odpowiedź, która pewnie przyjdzie nam do głowy, to:
„153,75 (średnio)”
Przykład liczbowy
W ten sposób utworzyliśmy model wzrostu w badanej zbiorowości
Czy możemy stworzyć jeszcze inny model?
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Jak wybrać najlepszy model?
153,75
153,75
153,75
153,75
153,75
153,75
153,75
153,75
E(X)
2
2
2
1
1
1
1
1
Y
160
160
160
150
150
150
150
150
E(X|Y)
170
8
160
7
150
6
160
5
140
4
140
3
160
2
150
1
X
Lp.
Należy zatem:
1) Wyznaczyć kryterium, według
którego będziemy oceniać jakość
modelu;
2) Wybrać taki model, który jest
najlepszy z punktu widzenia tego
kryterium
Najlepszy jest model, który najlepiej odzwierciedla rzeczywistość. To stwierdzenie
jest tyleż banalne, co niekonkretne.
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Podstawowe pojęcia
związane z oceną jakości dopasowania modelu do danych
Błąd opisu wartości zmiennej za pomocą modelu:
X
X
e
X
ˆ
−
=
Wartość rzeczywista
zmiennej X
Wartość zmiennej X
przewidywana za pomocą
modelu
Funkcja błędu opisu wartości zmiennej za pomocą modelu:
Funkcje mogą być bardzo różne. My skoncentrujemy się na kwadratowej funkcji błędu.
2
)
ˆ
(
)
(
X
X
e
l
X
−
=
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Przy kwadratowej funkcji błędu
Najlepszym modelem jest średnia
Funkcja błędu opisu wartości zmiennej za pomocą modelu:
Błąd opisu wartości zmiennej za pomocą modelu wynosi wtedy
)
( X
E
X
e
X
−
=
2
)]
(
[
)
(
X
E
X
e
l
X
−
=
Średnia wartość funkcji błędu opisu ma postać wariancji:
)
(
)]
(
[
)]
(
[
2
2
X
D
X
E
X
E
e
l
E
X
=
−
=
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Wprowadzenie drugiej zmiennej do modelu
8
3
5
razem
1
1
0
170
3
1
2
160
2
1
1
150
2
0
2
140
razem
2
1
X \ Y
Obliczmy średni wzrost w grupie
dziewczynek i w grupie chłopców:
E(X|Y=1)=150
E(X|Y=2)=160
Średni wzrost w grupach wyróżnionych ze względu na płeć przyjmuje dwie
wartości: 150 cm i 160 cm.
Zmienna E(X|Y) jest jednocześnie funkcją zmiennej Y
⎩
⎨
⎧
=
=
=
=
=
=
=
2
160
)
2
|
(
1
150
)
1
|
(
ˆ
Y
gdy
Y
X
E
Y
gdy
Y
X
E
X
Y
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Regresja
Regresja to funkcja zmiennej Y, która jest
NAJLEPSZYM modelem służącym do przewidywania
(opisu) wartości zmiennej X.
⎩
⎨
⎧
=
=
=
2
160
1
150
ˆ
Y
gdy
Y
gdy
X
Y
Postać regresja jest uzależniona od funkcji błędu oraz od
tego, czy jest to regresja pierwszego, czy drugiego
rodzaju
REGRESJA ŚREDNICH
JOANNA KONIECZNA-SAŁAMATIN
Statystyka dla socjologów
Collegium Civitas
Przykład
20
10
20
razem
0
10
0
3
5
0
5
2
10
0
10
1
5
0
5
0
3
2
1
X \ Y
1. Wyznaczyć regresję średnich X od Y
oraz Y od X;
2. Zaznaczyć obie regresje na jednym
wykresie