STATYSTYKA 27.02.05r.
zależności między zmiennymi
Korelacja jest to współzależność dwóch lub więcej zmiennych, jest to ważne dla socjologii dlatego, że większość hipotez poddawanych badaniom socjologicznym - są to zdania o zależności.
Korelacja dzieli się wg następujących kryteriów:
Rząd korelacji:
rząd najniższy - zależność między dwoma zmiennymi. W tym przypadku
interesuje nas stwierdzenie siły i kierunku zależności między tymi zmiennymi
bez dalszej analizy ich kontekstowych zależności . np. że emocje większe są u
kobiet niż u mężczyzn/.
korelacje wyższych rzędów to korelacje trzech /w przypadku pierwszego rzędu/ i więcej rzędnych ujmowanych w różne schematy. W przypadku rzędu zerowego mówi się o zależności dwóch zmiennych.
Mamy dwa schematy metody korelacji:
A/ korelacja cząstkowa - służy wyłączeniu wpływu kolejnych zmiennych, służy
określeniu siły i kierunku zależności podstawowej. Przez to mają wpływ na
ocenę wcześniejsze siły zależności. Mogą pojawić się takie pojęcia jak -
zależność pozorna czy pozornej niezależności
Każdorazowo wytyczamy zbiór czynników, które są dla badania istotne
W korelacji cząsteczkowej - musimy ustalić czy jest zależność czy nie zależność
między parą zmiennych .
B/ w korelacji wielokrotnej ustalamy zależność miedzy jedną zmienną a
zbiorem zmiennych.
Relacja wielokrotna wskazuje na ile analizowane zmienne łącznie wyjaśniają
stan zmiennej wyjaśnianej.
/ korelacja zupełna - to taki typ zależności gdzie jednej wartości jednej zmiennej
towarzyszy wyłącznie jedna wartość drugiej zmiennej ( + 1)/
Ogólne zasady jej mierzenia:
wszystkie czynniki przyjmują wartość od 0 do 1
Im bliższa 0 tym mniejsza zależność
Znak towarzyszący +, - określa kierunek
+ to korelacja o charakterze pozytywnym / obie zmienne zachowują się
podobnie np. obie rosną /
- to korelacja o charakterze negatywnym /jeżeli pierwsza zmienna rośnie to
druga maleje/.
Im bliższa 1 to zależności bardziej od siebie są uzależnione.
Warunki stosowalności określone są przez poziom pomiaru i liczebność badanych.
Mechanizm analizy korelacyjnej polega na porównywaniu
tego co by było, gdyby zależności nie było,
z tym co uzyskaliśmy.
Na poziomie nominalnym możemy stosować korelacje rzędu zerowego
współczynnik kontyngencji - c -
jest współczynnikiem uniwersalnym / daje się zastosować w odniesieniu do każdej pary zmiennych/
daje nam materiał analityczny porównywalny /można wszystkie zależności w badaniu, przy zastosowaniu współczynnika - c - uszeregować od najmniejszej do największej/
można go porównywać z innymi współczynnikami stosowanymi na innych poziomach pomiaru
|
Niepracujący I nie uczący się |
Pracujący i nie uczący się |
|
|
|
Środowisko
|
10 |
24 10 |
6 10 |
4 10 |
|
Środowisko chłopskie |
4,5 5 |
18 20 |
4,5 5 |
3 0
|
|
Środowisko inteligenckie |
3 0 |
12 20
|
|
2 0 |
20 |
środowisko inne |
1,5 0 |
6 10 |
1,5 0 |
1 0 |
10 |
|
|
|
|
|
100 |
Rozkłady brzegowe
Np.
15 x 40 600 10 x 20
100 = 100 = 6 100 = 2
χ
---------
C = χ 2 + N C - współczynnik kontyngencji
χ - / chi /
( nt - ne ) 2 nt - liczebność teoretyczna
χ 2 = ∑ -------------
nt ne - liczebność empiryczna /która wyjdzie z
badań /
W jednej klasie nie może być mniej niż 8 obserwacji, każda ze zmiennych musi mieć co najmniej trzy klasy.
Każde pole obliczamy oddzielnie / dane bierzemy z tabeli /
9
8 1 8 (10-4) 2 1 2 1 1 8
χ2 = 3 + 8 6 + 3 + 4 + 18 + 9 + 18 + 3 + 3 + 5 3 + 3 + 2 + 1,5 + 3 +
1,5 + 1 = 45,5
z tych trzech pól wychodzi zależność
podstawiamy do wzoru :
χ 2 . 45,5
C = cχ 2 + N = 145,5 ≈ 0,31 ≈ 0,56 jest bliższe jedynce czyli
Jakaś zależność istnieje.
/każda wartość powyżej 0,4
N - ogólna liczba obserwacji / 100/ jest statystycznie istotna/
C . 0,56
C kor = C max = 0,86 = 0,65
C max w + C max k 0,86 + 0,86
C max = 2 = 2 = 0,86
w - 1 3
C max w - wartość maksymalna dla wierszy C max w = w = 4 = 0,86
k - 1 3
C max k - wartość maksymalna dla kolumn C max k = k = 4 = 0,86
w - liczba wierszy ( 4-1 = 3)
k - liczba kolumn ( 4-1 = 3)
W tabelach 4 - polowych zależności stwierdza się przy pomocy dwóch współczynników
Odpowiedź Odpowiedz
kobieta negatywna pozytywna
|
N |
T |
|
K |
a 40 |
b 10 |
50 |
|
c 20 |
d 30 |
50 |
|
60 |
40 |
100 |
Nie może być pola pustego
/gdy jest - przesądza o pojawieniu
się wartości 1 /
korelacja zupełna -
współczynniki są wtedy
bezwartościowe
mężczyzna
Współczynnik asocjacji Q
ad - bc 40 x 30 - 10 x 20 1000
Q = ad + bc = 40 x 30 + 10 x 20 = 1400 = 0,7
Korelacja tetrachoryczna
1800 1800 1800
------------------ ---------------- -------------
r tet = cos ad = cos 1200 = cos 1 + 2,45 =
1 + bc 1 + 200
1800
cos 3,45 = cos 52 0
Poziom porządkowy / korelacja rang /
Zastosowanie 3 współczynników
Warunkiem stosowania tych współczynników jest warunek posiadania dwóch zmiennych o charakterze porządkowym.
Trzy współczynniki to :
( tau ) τ - daje się zastosować i do małej i do dużej liczby obserwacji i w analizach
wielozmiennowych
( gama ) - tylko przy dużej liczbie obserwacji, nie nadaje się do analiz
wielozmiennowych /powyżej 100 szt./
( sperman ) r s - wyłącznie zastosowanie przy małej liczbie obserwacji /do 30 szt./
/ współczynnik spermana/
Mała liczba obserwacji to do 30 szt.
Obiekty podlegające
podporządkowaniu
|
X 1 |
X 2 |
d 2 |
B C D E F
H
J |
3 8 9 5 10 1 3 6,5 3 6,5 |
5 3,5
2
1 3,5 |
25 0 16 2,25 4 49 1 2,25 4 9 |
|
|
|
112,5 |
Tabelka przedstawia nam przypisanie uporządkowanym obiektom odpowiedniej rangi
Od 1 do 10. Np. dwóch sędziów x1 i x2 ma przypisać lokaty poszczególnym obiektom:
1, 2, 3 ,4 , 5, 6, 7, 8, 9, 10
jeżeli uznajemy, że trzy obiekty mają wspólną rangę to wykorzystujemy średnią
arytmetyczną następnych rang np. 2+3+4= 9 : 3 = 3
lub 6 + 7= 13 : 2= 6,5
lub 6 + 7+ 8 + 9 + 10 = 40 : 5 = 8
d - to różnica między rangami wg uporządkowania
d = x1 - x2
6 Σ d 2 6 x 112,5 675 315
r s = 1 - -------------- = 1- ------------ = 1 - ------ = ----- = 0,32
N( N2 -1 ) 10 (100 -1) 990 990
Drugi współczynnik jaki możemy zastosować to τ
2 S
τ = -------------
N ( N-1)
S - to różnica między liczbą par zgodnie uporządkowanych, a liczbą par
niezgodnie uporządkowanych
Ustalamy co jest komu podporządkowane / bierzemy x 1 pierwsze, bo w nim było więcej rang powiązanych / tych samych/
X 1 |
1 |
3 |
3 |
3 |
5 |
6,5 |
6,5 |
8 |
9 |
10 |
X 2 |
8 |
8 |
|
|
|
8 |
3,5 |
8 |
5 |
8 |
Obliczamy z tabeli
S = ( 0 - 5 ) + ( 0 - 5 ) + ( 6 - 1 ) + ( 6 - 0 ) + ( 4 - 0) + (0 - 2) + ( 3 - 0) + (0-1) + (1-0)= 6
Tj. pierwsza kolumna : zgodnie uporządkowanych nie ma -bo nie ma większych od 8
/równych nie bierzemy pod uwagę/,
a mniejszych od 8 jest 5 czyli ( 0-5)
/ liczymy od prawej strony danej liczby/
druga kolumna : nie ma większych od 8 czyli 0
a mniejszych jest 5 czyli ( 0-5 )
trzecia kolumna : większych od 2 jest 6
a mniejszych od 2 jest 1 czyli (6-1) itd.
2 S 2 x 6 12
τ = --------------- = ----------- = ------- = 0,13 / τ jest zawsze mniejsze niż Ns /
N ( N-1) 10 x 9 90
/ Wg tego wyniku ta zależność nie jest statystycznie istotna bo nie przekracza 0,4 /
Duża liczba obserwacji - powyżej 100 szt. / wtedy współczynnik Ns traci swoje zastosowanie - zastępuje go
|
ZN |
N |
O |
P |
ZP |
suma |
ZN |
|
|
|
|
|
10 |
N |
|
|
|
|
|
20 |
O |
|
|
10 |
10 |
|
40 |
T |
|
|
10 |
10 |
|
20 |
ZP |
|
|
|
|
|
10 |
suma |
20 |
30 |
20 |
20 |
10 |
100 |
Zdecydowanie
Negatywne
Negatywne
Obojętne
Pozytywne
Zdecydowanie
pozytywne
P - Q 2 S
= ---------- τ = -----------
P + Q N (N-1)
S = P - Q
P - suma par zgodnie uporządkowanych
Q - suma par niezgodnie uporządkowanych
Analiza tabeli :
Od góry tabeli - od lewej do prawej
P = 10 x 80 + 10 x 70 + 10 x 50 + 10 x 20 + 10 x 10 = 2300
Q = 10 x 30 + 10 x 20 + 10 x 10 + 10 x 10 + 10 x 10 = 800 / od prawego krawężnika i od
Niego w lewo i poniżej/
S = P - Q = 2300 - 800 = 500
2 x 1500 3000
τ = 100 x 99 = 990 = 0,3 - pokazuje wynik bardziej pesymistycznie
2300 - 800 1500
= 2300 + 800 = 3100 = 0,48 - wynik bardziej optymistyczny
obie wskazują na zależność dodatnią
Do porównań musimy schodzić na poziom niższy
Poziomy wyższe
Pomiar interwałowy i ilorazowy
Współczynnik korelacji bazuje na średniej arytmetycznej i odchyleniu standardowym.
Wszystkie miary przyjmują wartości od 0 - 1
Umożliwia formułowanie zdań o charakterze im .... tym ... / np. im wyższe tym.../
Współczynnik jest symetryczny.
Szereg o wartościach indywidualnych
1 _ _
N Σ xy - xy
rxy = Sx Sy
1 _ _
N Σ xyn - xy
rxy -= Sx Sy
o przedziałach klasowych
1 _ _
N Σ xy'n - xy
rxy = Sx Sy n - częstość występowania
odchylenie standardowe x odchylenie standardowe y
1 _ _
N Σ x'y'n - xy
rxy = Sx Sy
|
X |
Y |
1 |
1,5 |
25 |
2 |
5 |
35
|
3 |
35 |
54 |
1 _ _
2 Σ u v n - uv
rxy = Su Sv
współczynnik korelacji obliczamy dla każdej kratki
osobno i sumujemy
liczba awansów
y |
0 |
1
|
2 |
3 |
7 4 - 10 |
ny |
yn |
_ (y'-y)2n |
xy'n |
1 0 - 2 |
10 |
|
|
|
|
10 |
10 |
(1-11,7)2 445 |
0 |
3,5 2 - 5 |
|
10 |
10 |
10 |
|
30 |
105 |
2017,2 |
210 |
7,5
|
|
|
10 |
|
|
30 |
225 |
|
450 |
27,5 10 - 45 |
|
|
10 |
10 |
10 |
30 |
825 |
7489,2 |
3300 |
nx |
10 |
20 |
30 |
30 |
10 |
|
1165 |
11190 |
3960 |
x n |
0 |
20 |
60 |
90 |
70 |
240 |
Odchylenie standardowe tylko od średniej arytmetycznej |
||
(x-x)2 n |
57,6 |
39,2 |
4,8 |
10,8 |
211,6 |
324 |
|
||
x y' n |
0 |
110 |
770 |
1155 |
1925 |
3960 |
|
Staż
pracy
środek
przedziału
obliczamy do każdego pola osobno np.
xy'n ( 7,5x 1 x 10=75), (7,5x 2 x 10= 150) , (7,5 x 3 x10= 225), = 75+150+225 = 450
itd
_ 324 _ 1190
x = 2,4 Sx = 100 = 1,8 y = 11,65 ≈ 11,7 Sy = 100 = 112 ≈ 10,6
1
100 x 3960 - 2,4 x 11,7 39,6 - 28,1 11,5
rxy = 1,8 x 10,6 = 19,1 = 19,1 ≈ 0,6
Wszystkie zmienne pełniące funkcje wyjaśniające powinny być nie skorelowane
Im dane bardziej skupione, tym większa korelacja. Gdy „narożniki” w tabeli są puste - silna korelacja.
Punktem wyjścia analizy wielozmiennowej jest macierz.
|
X1 |
X2 |
X3 |
X4 |
X1 |
-- |
0,60 |
0,4 |
-0,5 |
X2 |
0,60 |
-- |
0,2 |
0,3 |
X3 |
0,40 |
0,2 |
--
|
0,1 |
X4 |
-0,5 |
0,3 |
0,1 |
-- |
Zmienne w tabelce są ustalone z badań
trzeba je wyliczyć
analizie nie podlegają te same zmienne
tj. x1 z x1 , x2 z x2 itd
r1 2 - r 1 3 x r 2 3 0,6 - 0,4 x 0,2 0,52 0,52
r1 2.3 =--------------------------------- = ------------------------- = --------- ≈ ----- ≈ 0,54
( 1 - r213 ) ( 1 - r2 23) (1-0,42) (1- 0,22) 0,92 0,96
r12.3 - r 14.3 x r 24. 3
r1 2.34 =---------------------------------
( 1 - r214.3 ) ( 1 - r2 24.3)
r14 - r 13 x r 34
r 14.3 =---------------------------------
( 1 - r213 ) ( 1 - r234)
r24 - r 23 x r 34
r 24.3 =---------------------------------
( 1 - r223 ) ( 1 - r234)
Analiza korelacji wielokrotnej
stopień wyjaśnienia jednej zmiennej przez blok zmiennych
każdorazowo kolejna zmienna włączona do analizy ma wyjaśnić co nie zostało jeszcze wyjaśnione.
Statystyka - wykłady 03.04.2005r.
Pomiar wskaźnikowy
Podstawowym elementem poprawności wnioskowania jest twierdzenie.
Gdy zdanie wprowadzające jest hipotezą a nie twierdzeniem, to nie jest do określenia trafność wypowiedzi.
Konstrukt wskaźników - 3 elementy
twierdzenie - relacja między tym co chcemy zmierzyć, a tym co chcemy wnioskować. Jeśli poprawnie dobierzemy twierdzenie, to wynika z tego poprawność naszego wnioskowania. Musimy zobaczyć jak literatura odnosi się do tego twierdzenia. Tworzy się reprezentację jakościową i ilościową dla identyfikatorów.
W - tw - I uczestnictwo w kulturze
Podstawowe |
|
|
Zawodowe |
|
Niskie |
Średnie |
|
Przeciętne |
Wyższe |
|
Wysokie |
+ wyższe |
|
|
Socjologowie dążą do tego, by liczba klas była równa
Np. twierdzenie : Im większe wykształcenie i urbanizacja, tym więcej rozwodów.
I wskaźnik to liczba rozwodów
Wnioskowanie z części o całości / pozwala to wnioskować o ogólnym stanie czynnika/
wiedza i zrozumienie religijne / efekt katechizacji/
skłonność do wiary w nowe idee
realizacja powinności religijnych
plany i zamierzenia o charakterze religijnym
uczestnictwo we wspólnotach religijnych
postawy wobec wiary
przeżycie religijne
zainteresowania religijne
ponadobowiązkowe praktyki religijne
znaczące religijne ale poza religijne praktyki
W kategoriach zewnętrznych czynników:
przynależność do grupy wiejskiej albo miejskiej
liczba posiadanych dzieci
poziom wykształcenia
przynależność do PZPR
Deklarowanie się jako komunista
Stan zdrowia
Konstrukty wewnętrzne
Konstrukty zewnętrzne dotyczące uczestnictwa kulturalnego
budżet czasu wolnego
pieniądze w budżecie gospod. domowego
wykształcenie - poziom wiedzy
standard życiowy
wiek i zawód
wykonywany zawód
przynależność warstwowo - klasowa
środowisko zamieszkiwania
zakres i intensywność kontaktów społecznych
tradycje rodzinne i pochodzenie społeczne
liczba i wiek dzieci na utrzymaniu
charakter i warunki pracy
aktywność społeczno-polityczna
rozmiar zużycia energii elektr.
pozycja społeczna
zamieszkanie i środowisko zamieszkania
poziom zurbanizowania
postępowanie wskaźnikami
twierdzenie, które przyjmiemy nie może być hipotezą,
dystans do źródeł na których się polega
W tym kwadracie są obserwacje zgodnie uporządkowane dla pierwszej kratki
Empiryczne obserwacje
To jest ustalone
Te wartości są wcześniej ustalone i z nich obliczamy wnętrze tabelki /teoretyczne/
(2 - 2,44)2 x 30
(3 - 2,44)2 x 30
Niższe niż średnie
Średnie i wyższe niż średnie