WYKŁAD 5 04.11.2006
Statystyka dla tablicy większej niż 2×2
lub
gdzie:
- liczebność empiryczna tablicy
- liczebność teoretyczna, taka, która byłaby, gdyby był brak korelacji
- liczba obserwacji
gdzie:
- i-ty wiersz ;
- i-ta kolumna
PRZYKŁAD:
Jakość |
A |
B |
C |
|
Dobra |
45 |
72 |
36 |
153 |
Zła |
15 |
48 |
54 |
117 |
|
60 |
120 |
90 |
270 |
n11 = 45 n12 = 72 n13 = 36
n21 = 15 n22 = 48 n23 = 54
n = 270
I metoda |
II metoda |
||||
|
|
|
|
|
|
45 |
34 |
11 |
121 |
3,5588 |
59,5588 |
15 |
26 |
-11 |
121 |
4,6538 |
8,6538 |
72 |
68 |
4 |
16 |
0,2353 |
76,2353 |
48 |
52 |
-4 |
16 |
0,3078 |
44,3078 |
36 |
51 |
-15 |
225 |
4,4118 |
25,4118 |
54 |
39 |
15 |
225 |
5,7692 |
74,7692 |
|
|
|
|
|
|
Im większa wartość
tym większe prawdopodobieństwo korelacji.
Współczynnik korelacji T-Czuprowa
INTERPRETACJA: Słaba zależność pomiędzy metodą produkcji a ilością dobrych i złych produktów
Współczynnik korelacji C-Pearsona (kontyngencji)
INTERPRETACJA: Słaba zależność pomiędzy metodą produkcji a ilością dobrych i złych produktów
CECHY ILOŚCIOWA I JAKOŚCIOWA
Jeśli dane ułożone są w tablicy można wyliczyć
i obliczyć T lub C ale dokładniejsze są współczynniki Pearsona (rbis i rpbis):
gdzie:
- średnia arytmetyczna wydajności w pierwszej grupie typologicznej
- średnia arytmetyczna wydajności w drugiej grupie typologicznej
p - udział (%) osób w pierwszej grupie
q - udział (%) osób w drugiej grupie
- odchylenie standardowe dla wszystkich łącznie
y - odczytana z tablic rozkładu normalnego wartość rzędnej dla większej z proporcji p i q
Jeśli podział na grupy typologiczne jest sztuczny - stosujemy rbis jeśli podział na grupy typologiczne jest naturalny (np. M,K) stosujemy rpbis.
PRZYKŁAD
Analizujemy wydajność w sztukach (cecha ilościowa) w dwóch grupach typologicznych (cecha jakościowa). Czy wiek determinuje wydajność?
wiek |
wydajność w sztukach |
∑ |
||
|
5 (y1) |
10 (y2) |
15 (y3) |
|
do 35 (p) |
20 |
40 |
40 |
100 |
35 i więcej (q) |
30 |
50 |
20 |
100 |
∑ |
50 (n1) |
90 (n2) |
60 (n3) |
200 |
→
→
y = 0,3989
|
|
-5,25 |
1378,125 |
-0,25 |
5,625 |
4,75 |
1353,75 |
|
∑ = 2737,5 |
INTERPRETACJA: Między wydajnością a wiekiem jest słaba zależność
Ad II. ANALIZA REGRESJI
Jest to drugi stopień analizy korelacji
REGRESJA - zapis związku korelacyjnego przy pomocy f-cji matematycznej
Regresja I rodzaju - wybór postaci f-cji na podstawie rozrzutu pkt-ów (=wykresu korelacyjnego)
Regresja II rodzaju - oszacowanie parametrów f-cji = zapis f-cji
Regresja I rodzaju
Jeśli pkt-y układają się w prostą mamy do czynienia z regresją liniową:
gdzie
- współczynnik losowy
lub
(używany przez nas zapis, z pominięciem współczynnika losowego)
b - współczynnik regresji (najważniejszy do interpretacji)
b = 0 - korelacji brak
x - zmienna niezależna
y - zmienna zależna
INTERPRETACJA: Jeśli x rośnie o jednostkę to średnio y zmienia się o wartość b
(b > 0 to y↓; b < 0 to y↓)
Regresja wykładnicza
lub
lub postać liniowa:
b - współczynnik regresji = stopa przyrostu
INTERPRETACJA: Jeśli x rośnie o jednostkę to średnio y zmienia się o (b-1)∙100%
Regresja hiperboliczna
lub
a - poziom stabilności (= nasycenia)
INTERPRETACJA: Wraz ze wzrostem x przy pewnym jego poziomie y będzie utrzymywał się na stałym poziomie
Regresja potęgowa
lub
lub postać liniowa
b - współczynnik elastyczności
INTERPRETACJA: Jeśli x rośnie o 1% to średnio y zmienia się o b%
Regresja II rodzaju
Parametry f-cji szacujemy metodą najmniejszych kwadratów
Niech:
i
to:
Aby znaleźć minimum f-cji należy znaleźć miejsca zerowe pochodnych cząstkowych:
Jeśli
to
Z powyższego układu r-nań znajdujemy wartości a i b → patrz tablice stat.
Analogicznie szacuje się parametry dla korelacji krzywoliniowych = regresji potęgowej hiperbolicznej i wykładniczej.
Przy rozpatrywaniu linii regresji analizuje się odległości:
- zmienność całkowita
- zmienność niewyjaśniona linią regresji
- zmienność wyjaśniona linią regresji
Czy f-cja dobrze oszacowana?
współczynnik zbieżności = indeterminacji
Ile zmienności jest niewyjaśnionych f-cją regresji - im bliżej zera tym lepiej - tym dokładniejsza f-cja regresji; do 5% może być
współczynnik determinacji
Wyjaśnienie f-cji regresji; im większy tym lepiej; dobrze gdy >95%; mówi w ilu % wyjaśnia zależność
- współczynnik korelacji
odchylenie standardowe reszt (błąd standardowy szacunku)
gdzie: n - liczba par obserwacji
k - liczba szacowanych parametrów f-cji; u nas k = 2
Mówi o ile przeciętnie odchylają się wartości empiryczne od teoretycznych (in+/in-)
A
B
C
100%
100%
100%
b < 0
x
y
b = 0
x
y
b > 0
x
y
x
y
b < 1
b > 1
x
y
x
y
a
a
b > 0
b < 0
x
y
b >1
-1 < b < 0
0 < b < 1
x
y