STATYSTYKA Z ELEMENTAMI DEMOGRAFII
KLASYFIKACJA I GRUPOWANIE DANYCH
SPORZĄDZENIE LISTY PIERWOTNEJ DANYCH
Przenosimy dane na tabelę z formularza, bez porządkowania. Przyjęło się że tabela ma 5 wierszy.
39 |
25 |
43 |
46 |
59 |
45 |
61 |
53 |
13 |
57 |
53 |
34 |
50 |
44 |
33 |
48 |
49 |
47 |
31 |
65 |
46 |
14 |
28 |
55 |
26 |
66 |
52 |
46 |
58 |
35 |
79 |
31 |
38 |
64 |
19 |
54 |
40 |
36 |
37 |
39 |
62 |
46 |
42 |
31 |
46 |
53 |
55 |
41 |
24 |
42 |
SPORZĄDZANIE TABELI PIERWOTNEJ DANYCH
Zachowując kształt tabeli porządkujemy dane
13 |
26 |
34 |
39 |
42 |
46 |
48 |
53 |
57 |
64 |
14 |
28 |
35 |
39 |
43 |
46 |
49 |
53 |
58 |
65 |
19 |
31 |
36 |
40 |
44 |
46 |
50 |
54 |
59 |
66 |
24 |
31 |
37 |
41 |
45 |
46 |
52 |
55 |
61 |
71 |
25 |
33 |
38 |
42 |
46 |
47 |
53 |
55 |
62 |
79 |
KONSTRUOWANIE TABELI STATYSTYCZNEJ
Na tym etapie, wprowadzamy podział na klasy(od... do...), o tej samej długości.
i - długość przedziału (co jaką wartość będzie się zmieniał podział) Ik - ilość przedziałów klasowych (ile będzie wierszy w tabeli), R - rozpiętość(czynników), Xmax - najwyższa wartość w tabeli, Xmin - najniższa wartość w tabeli,
Xi - środek podziału klasowego, średnia arytmetyczna jego granic(zmiania się co „i”) f - liczebność przedziału klasowego, wszystkie czynniki mieszczące się w jego granicach,
Ik = R/i R = Xmax - Xmin + 1
(i = 1,2, 3, 5, 10) ^ (10 ≤ Ik ≤ 20) i = 1,2, 3, 5, 10 - liczby chyba można wybrać dowolne, w zależności od tego jakie podziały chcemy tworzyć; przykładowe liczby są wygodne do tworzenia podziałów, |
W przykładzie:
R = 67 bo 79 - 13 + 1 = 69
i = 5 bo 69/3 = 23 (23>20), 69/10 = 6,9 (6,9<10)
Ik = 67/5 = 13,4 ≈ 14 (14 mieści się w przedziale od 10 do 20, zaokrąglamy w górę)
granica wynikowa - granice wyznaczane przez „i”,
granica rzeczywista - granice nadające podziałowi ciągłość,
Granica wynikowa |
Granica rzeczywista |
Xi |
f |
75 - 79 |
74,5 - 79,5 |
77 |
1 |
70 - 74 |
69,5 - 74,5 |
72 |
1 |
65 - 69 |
64,5 - 69,5 |
67 |
2 |
60 - 64 |
59,5 - 64,5 |
62 |
3 |
55 - 59 |
54,5 - 59,4 |
57 |
5 |
50 - 54 |
49,5 - 54,5 |
52 |
6 |
45 - 49 |
44,5 - 49,5 |
47 |
9 |
40 - 44 |
39,5 - 44,5 |
42 |
6 |
35 - 39 |
34,5 - 39,5 |
37 |
6 |
30 - 34 |
29,5 - 34,5 |
32 |
4 |
25 - 29 |
24,5 - 29,5 |
27 |
3 |
20 - 24 |
19,5 - 24,5 |
22 |
1 |
15 - 19 |
14,5 - 19,5 |
17 |
1 |
10 - 14 |
9,5 - 14,5 |
12 |
2 |
Nie ma przedziału 1 - 10 ponieważ jest niepotrzebny, nie ma żadnego czynnika mieszczącego się w tym przedziale. Granice wynikowe tworzy się tak by się na siebie nie zachodziły.
GRAFICZNE PRZEDSTAWIANIE ROZDZIAŁU CZYNNIKÓW - WIELOBOK LICZEBNOŚCI
W ramach przykłady wielobok uzyskuje taki kształt:
Przy czym punkty powinny znajdować się na środku przedziałów, nie na ich granicach (tzn. Pierwszy punkt powinien znajdować się nie w punkcie „14,5” ale „12”) .
Nie trzeba zaczynać wykresu od najmniejszej z granic, tylko od „środka” pierwszego przedziału.
PIERWSZE ZADANIE POLEGAŁO NA WYKONANIU POWYŻSZYCH CZYNNOŚCI NA WŁASNYCH LICZBACH.
ŚREDNIA ARYTMETYCZNA
N - liczba czynników, f - liczebność w przedziale, Xi - środek przedziału
|
na przykładzie:
Granica wynikowa |
Granica rzeczywista |
Xi |
f |
fxi |
75 - 79 |
74,5 - 79,5 |
77 |
1 |
77 |
70 - 74 |
69,5 - 74,5 |
72 |
1 |
72 |
65 - 69 |
64,5 - 69,5 |
67 |
2 |
134 |
60 - 64 |
59,5 - 64,5 |
62 |
3 |
186 |
55 - 59 |
54,5 - 59,4 |
57 |
5 |
285 |
50 - 54 |
49,5 - 54,5 |
52 |
6 |
312 |
45 - 49 |
44,5 - 49,5 |
47 |
9 |
423 |
40 - 44 |
39,5 - 44,5 |
42 |
6 |
252 |
35 - 39 |
34,5 - 39,5 |
37 |
6 |
222 |
30 - 34 |
29,5 - 34,5 |
32 |
4 |
128 |
25 - 29 |
24,5 - 29,5 |
27 |
3 |
81 |
20 - 24 |
19,5 - 24,5 |
22 |
1 |
22 |
15 - 19 |
14,5 - 19,5 |
17 |
1 |
17 |
10 - 14 |
9,5 - 14,5 |
12 |
2 |
24 |
2235 - suma wszystkich fxi
= 2235/50 = 44,7
50 - tyle jest wyników,
2235 - jest to suma wyników,
MEDIANA
jest to punkt na skali wyników, powyżej i poniżej którego leży dokładnie po 50% wyników
Interpolacja mediany
Wyznaczanie
Q2 - międzynarodowy znak mediany, l - wartość dolnej granicy rzeczywistej przedziału zawierającego medianę, u - wartość górnej granicy rzeczywistej przedziału zawierającego medianę. fQ2 - liczebność przedziału zawierającego medianę, Fa - liczebność wszystkich przedziałów powyżej przedziału zawierającego medianę, Fb - liczebność wszystkich przedziałów poniżej przedziału zawierającego medianę,
A) Q2 = l + [(N/2 - Fb )/fQ2 ]i
B)Q2 = l + [(N/2 - Fa )/fQ2 ]i |
ALGORYTM |
|
1. Znaleźć N/2 wyników 2. Ustalić przedział zawierający medianę 3. Ustalić liczebność przedziału zawierającego medianę |
|
A. INTERPOLACJA MEDIANY OD DOŁU |
B. INTERPOLACJA MEDIANY OD GÓRY |
4. Od N/2 odjąć liczebność wszystkich przedziałów poniżej przedziału zawierającego medianę 5. Uzyskany wynik podzielić przez liczebność przedziału klasowego zawierającego Q2 i pomnożyć przez długość przedziału klasowego 6.Uzyskany wynik dodać do wartości dolnej granicy rzeczywistej przedziału zawierającego medianę |
4. Od N/2 odjąć liczebność wszystkich przedziałów powyżej przedziału zawierającego medianę 5. Uzyskany wynik podzielić przez liczebność przedziału klasowego zawierającego Q2 i pomnożyć przez długość przedziału klasowego 6.Uzyskany wynik odjąć do wartości górnej granicy rzeczywistej przedziału zawierającego medianę |
Na przykładzie:
N/2 = 25
l = 44,5
u = 49,5
fQ2 = 9
Fa = 18
Fb = 23
Q2 = 44,5 + (25 - 23)/9 · 5 = 44,5 + 2/9 · 5 = 44,5 + 10/9 = 44 9/18 + 20/18 = 45 11/18 = 45,61
A. Mediana danych niepogrupowanych
wartość która się najczęściej powtarza = 46
B. Mediana danych pogrupowanych
środek przedziału o największej liczebności = 47 (środek przedziału 44,5 - 49,5; 9 czynników)
wartości mogą być wielomodalne
DRUGIE ZADANIE - UZUPEŁNIĆ DO TEGO MOMENTU
MIARY DYSPENSJI
ROZSTĘP
R = Xmax - Xmin + 1 - to już wcześniej robiliśmy, nie trzeba dopisywać w zadaniu,
ODCHYLENIE PRZECIĘTNE
Odchylenie przeciętna jest to średnia arytmetyczna odchyleń wyników od jej średniej arytmetycznej
δ - mała delta
δ = Σ|x|/N
x - odchylenie,
x = X -
dla przykładu:
X |
x |
Liczymy średnią arytmetyczną = (1+2+3+8+11)/5 = 20/5 = 5
po kolei liczymy odchylenie x = X - 1 - 5 = - 4; 2 - 5 = - 3; 3 - 5 = - 2; 8 - 5 = 3; 11 - 5 = 6
i odchylenie przeciętne δ = Σ|x|/N: δ = (| - 4| + | - 3| + | - 2| + 3 + 6)/5 = (4 + 3+ 2+ 3 + 6)/5 = 18/5 = 3,6 δ = 3,6 |
1 |
-4 |
|
2 |
-3 |
|
3 |
-2 |
|
8 |
3 |
|
11 |
6 |
|
Dla tego przykładu rozkład czynników odchyla się średnio od całego układu o 3,6
Obliczanie x z tabeli statystycznej:
δ = Σ|fx|/N
x = Xi -
na przykładzie z ćwiczeń:
fx nie mylić z fxi
Granica wynikowa |
Granica rzeczywista |
Xi |
f |
fxi |
x |
fx |
75 - 79 |
74,5 - 79,5 |
77 |
1 |
77 |
32,3 |
32,3 |
70 - 74 |
69,5 - 74,5 |
72 |
1 |
72 |
27,3 |
27,3 |
65 - 69 |
64,5 - 69,5 |
67 |
2 |
134 |
22,3 |
44,6 |
60 - 64 |
59,5 - 64,5 |
62 |
3 |
186 |
17,3 |
51,9 |
55 - 59 |
54,5 - 59,4 |
57 |
5 |
285 |
12,3 |
61,5 |
50 - 54 |
49,5 - 54,5 |
52 |
6 |
312 |
7,3 |
43,8 |
45 - 49 |
44,5 - 49,5 |
47 |
9 |
423 |
2,3 |
20,7 |
40 - 44 |
39,5 - 44,5 |
42 |
6 |
252 |
- 2,7 |
- 16,2 |
35 - 39 |
34,5 - 39,5 |
37 |
6 |
222 |
- 7,7 |
- 46,2 |
30 - 34 |
29,5 - 34,5 |
32 |
4 |
128 |
- 12,7 |
- 50,8 |
25 - 29 |
24,5 - 29,5 |
27 |
3 |
81 |
- 17,7 |
- 53,1 |
20 - 24 |
19,5 - 24,5 |
22 |
1 |
22 |
- 22,7 |
- 22,7 |
15 - 19 |
14,5 - 19,5 |
17 |
1 |
17 |
- 27,7 |
- 27,7 |
10 - 14 |
9,5 - 14,5 |
12 |
2 |
24 |
- 32,7 |
- 65,4 |
Σ|fx| = 564,2
δ = 564,2/50 = 11,284
3. ODCHYLENIE STANDARDOWE
σ - symbol odchylenia standardowego, mała sigma
σ = √Σx2/N
Jest to pierwiastek kwadratowy ze sredniej arytmetycznej kwadratów odchyleń wyników od ich średniej arytmetycznej
na przykładzie:
X |
x |
x2 |
Liczymy x2 Liczymy sumę x2
|
1 |
-4 |
16 |
|
2 |
-3 |
9 |
|
3 |
-2 |
4 |
|
8 |
3 |
9 |
|
11 |
6 |
36 |
|
Obliczanie z tabeli statystycznej:
σ = √Σ|fx2| /N
Na przykładzie z ćwiczeń:
Granica wynikowa |
Granica rzeczywista |
Xi |
f |
fxi |
x |
fx |
|
75 - 79 |
74,5 - 79,5 |
77 |
1 |
77 |
32,3 |
32,3 |
1043,29 |
70 - 74 |
69,5 - 74,5 |
72 |
1 |
72 |
27,3 |
27,3 |
745,29 |
65 - 69 |
64,5 - 69,5 |
67 |
2 |
134 |
22,3 |
44,6 |
994,58 |
60 - 64 |
59,5 - 64,5 |
62 |
3 |
186 |
17,3 |
51,9 |
897,87 |
55 - 59 |
54,5 - 59,4 |
57 |
5 |
285 |
12,3 |
61,5 |
756,45 |
50 - 54 |
49,5 - 54,5 |
52 |
6 |
312 |
7,3 |
43,8 |
319,74 |
45 - 49 |
44,5 - 49,5 |
47 |
9 |
423 |
2,3 |
20,7 |
47,61 |
40 - 44 |
39,5 - 44,5 |
42 |
6 |
252 |
- 2,7 |
- 16,2 |
43,74 |
35 - 39 |
34,5 - 39,5 |
37 |
6 |
222 |
- 7,7 |
- 46,2 |
355,74 |
30 - 34 |
29,5 - 34,5 |
32 |
4 |
128 |
- 12,7 |
- 50,8 |
645,16 |
25 - 29 |
24,5 - 29,5 |
27 |
3 |
81 |
- 17,7 |
- 53,1 |
939,87 |
20 - 24 |
19,5 - 24,5 |
22 |
1 |
22 |
- 22,7 |
- 22,7 |
515,29 |
15 - 19 |
14,5 - 19,5 |
17 |
1 |
17 |
- 27,7 |
- 27,7 |
767,29 |
10 - 14 |
9,5 - 14,5 |
12 |
2 |
24 |
- 32,7 |
- 65,4 |
2138,58 |
Od razu liczymy fx2 a nie x2, ponieważ znamy fx i x
Σfx2 = 10210,5
σ = √Σ|fx2| /N = √10210,5/50 = √204,21 = 14,29
TRZECIE ZADANIE - UZUPEŁNIĆ DO TEGO MOMENTU
ODCHYLENIE PRZECIĘTNE I STANDARDOWE
WSPÓŁCZYNNIKI KORELACJI
Przybiera wartości od -1 do +1, gdzie -1 i +1 oznaczają bezdyskusyjną zależność
Zależności mogą mieć charakter zarówno jakościowy jak i ilościowy.
Przykłady:
Uczniowie uzyskali następujące wyniki z dwóch testów(X i Y):
I.
X: 1, 2, 3, 6, 9
Y: 2, 3, 4, 7, 10
Zależność jest widoczna: Y = X + 1
II.
X: 1, 2, 3, 6, 9
Y: 2, 4, 6, 12, 18
Zależność: Y = 2X
III.
X: 1, 2, 3, 6, 9
Y: 2, 6, 8, 13, 26
Tu także występuje zależność: Y>X
IV.
X: 1, 2, 3, 6, 9
Y: 2, 3, 2, 17, 29
Tu także występuje korelacja, ale ma inny charakter
Przykłady I, II, i III są zależnościami funkcyjnymi, przykład IV jest zależnością korelacyjną.
W naukach społecznych posługujemy się trzema podstawowymi skalami: nominalną, rangową i przedziałową. Każdej z nich odpowiada pewien rodzaj korelacji które poznamy.
Pierwszy odpowiada skali przedziałowej.
WSPÓŁCZYNNIK KORELACJI PEARSONA
r = Σxy/Nσ xσ y
r jest wynikiem dzielenia(ilorazem) sumy wartości xy i iloczynu(wyniku mnożenia): N(liczby czynników), σ x(odchylenia standardowego dla x), σ y(odchylenia standardowego dla y).
x = X - x¯, y = Y - y¯
σ x = √Σx2/N, σ y = √Σy2/N
X¯, y¯ - średnie arytmetyczne - brakuje mi symbolu
Interpretacja wyników:
0 - 0,2 - korelacja mała, zależność nieistotna,
0,21 - 0,4 - korelacja niska, zależność niewielka,
0,41 - 0,6 - korelacja umiarkowana, zależność wyraźna,
0,61 - 0,8 - korelacja duża, zależność istotna,
0,81 - 0,9 - korelacja wysoka, zależność bardzo istotna,
0,91 - 1,0 - korelacja pewna, zależność pewna
wynik (-) - X>Y, wynik (+) X<Y
Na przykładzie z zajęć:
X |
Y |
x |
x2 |
y |
y2 |
xy |
13 |
19 |
- 11,23* |
126,11** |
- 8,3*** |
68,89**** |
93,21***** |
24 |
23 |
- 0,23 |
0,05 |
- 4,3 |
18,49 |
0,99 |
28 |
36 |
3,77 |
14,21 |
8,7 |
75,69 |
32,79 |
25 |
25 |
0,77 |
0,59 |
- 2,3 |
5,29 |
1,77 |
24 |
25 |
- 0,23 |
0,05 |
- 2,3 |
5,29 |
0,53 |
22 |
30 |
- 2,23 |
4,97 |
2,7 |
7,29 |
6,02 |
16 |
20 |
- 8,23 |
67,63 |
- 7,3 |
53,29 |
60,08 |
20 |
19 |
- 4,23 |
17,89 |
- 8,3 |
68,89 |
35,11 |
21 |
28 |
- 3,23 |
10, 43 |
0,7 |
0,49 |
2,26 |
31 |
33 |
6,77 |
45,83 |
5,7 |
32,49 |
38,59 |
29 |
34 |
4,77 |
22,75 |
6,7 |
44,89 |
31,96 |
35 |
36 |
10,77 |
115,99 |
8,7 |
75,69 |
93,7 |
27 |
27 |
2,77 |
7,67 |
- 0,3 |
0,09 |
0,83 |
x¯ = 24,23
|
y¯ = 27,3
|
Σxy = 397,85 |
|
r = Σxy/Nσ xσ y = 397,85/444,33 = 0,9 |
|
Korelacja wysoka, zależność bardzo istotna, |
*
13 - 24,23 = - 11,23
**
(- 11,23)2 = 126,11
***
19 - 27,3 = - 8,3
****
(- 8,3)2 = 68,89
*****
(- 11,23)(- 8,3) = 93,21
ZADANIE - OBLICZYĆ KORELACJĘ NA WŁASNYCH 15(w przykładzie jest 13!!) LICZBACH
WSPÓŁCZYNNIK KORALCJI SPEARMANA
jest to korelacja rang, przeznaczona dla skal porządkowych
ρ - rho, symbol współczynnika korelacji Spearmana,
ρ = 1 - [6ΣD2 / N(N2 - 1)]
D = Kx - Ky
K - jest to miejsce danego czynnika w uporządkowanym ciągu czynników; pierwsze trzeba ustalić kryteria kolejności
Na przykładzie z zajęć - od najwyższej do najniższej wartości
Porządkujemy dane - dla wygody i ułatwienia w liczeniu:
X* |
Y* |
X** uporządkowane |
Kx |
Y** uporządkowane |
Ky |
13 |
19 |
35 |
1 |
36 |
1,5*** |
24 |
23 |
31 |
2 |
36 |
1,5*** |
28 |
36 |
29 |
3 |
34 |
3 |
25 |
25 |
28 |
4 |
33 |
4 |
24 |
25 |
27 |
5 |
30 |
5 |
22 |
30 |
25 |
6 |
28 |
6 |
16 |
20 |
24 |
7,5*** |
27 |
7 |
20 |
19 |
24 |
7,5*** |
25 |
8,5*** |
21 |
28 |
22 |
9 |
25 |
8,5*** |
31 |
33 |
21 |
10 |
23 |
10 |
29 |
34 |
20 |
11 |
20 |
11 |
35 |
36 |
16 |
12 |
19 |
12,5*** |
27 |
27 |
13 |
13 |
19 |
12,5*** |
* są to tabele z podanymi czynnikami,
** są to tabele z uporządkowanymi danymi, od najwyższej do najniższej - robimy to żeby nam łatwiej było przyporządkować miejsca w ciągu,
*** tam gdzie przy ustalaniu kolejności liczby się powtarzają, ustalamy średnia dwóch miejsc w kolejności którym odpowiada powtarzająca się liczba; np.
w X powtarza się „24”; powinny one zająć miejsca „7” i „8”,
dodajemy miejsca w kolejności: 8 + 7 = 15;
dzielimy przez ilość, jaką się dana liczba powtarza; 15/2 = 7,5
następnej liczbie w kolejności nie przyporządkowujemy żadnej z dodawanych pozycji; w X „22” będzie na „9”, a nie „8” pozycji;
Przepisujemy uzyskane NIEUPORZĄDKOWANE dane do nowej (właściwej)tabeli - zwrócić uwagę, by nie pogubić par czynników!!
X |
Y |
Kx |
Ky |
D |
D2 |
13 |
19 |
13 |
12,5 |
0,5 |
0,25 |
24 |
23 |
7,5 |
10 |
- 2,5 |
6,25 |
28 |
36 |
4 |
1,5 |
2,5 |
6,25 |
25 |
25 |
6 |
8,5 |
- 2,5 |
6,25 |
24 |
25 |
7,5 |
8,5 |
-1 |
1 |
22 |
30 |
9 |
5 |
4 |
16 |
16 |
20 |
12 |
11 |
1 |
1 |
20 |
19 |
11 |
12,5 |
-1,5 |
2,25 |
21 |
28 |
10 |
6 |
4 |
16 |
31 |
33 |
2 |
4 |
-2 |
4 |
29 |
34 |
3 |
3 |
0 |
0 |
35 |
36 |
1 |
1,5 |
- 0,5 |
0,25 |
27 |
27 |
5 |
7 |
-2 |
4 |
ρ = 1 - [6ΣD2 / N(N2 - 1)]
ΣD2 = 63,5
N(N2 - 1) = 13(132 - 1) = 13 x 168 = 2184
6ΣD2 = 381
ρ = 1 - 381/2184 = 1 - 0,17 = 0,83
Jest to mniej dokładna korelacja niż Pearsona.
ZADANIE - OBLICZYĆ KORELACJĘ NA WŁASNYCH 15(w przykładzie jest 13!!) LICZBACH I PRZYNIEŚC WSZYSTKIE ZADANIA ROBIONE DO TEJ PORY