Metody statystyczne w socjologii - ćwiczenia mgr B. Dobrowolska
Statystyka zajmuje się przede wszystkim badaniem zjawisk zbiorowych.
Zbiorowość statystyczna to ogół jednostek statystycznych podlegających badaniu statystycznemu. Zbiorowość nazywamy zbiorowością statystyczną jeżeli posiada dwie cechy:
posiada co najmniej jedną cechę wspólną
ze względu na jakieś cechy się różni
Jednostka statystyczna to osoba, rzecz lub zjawisko podlegająca badaniu statystycznemu.
Cecha statystyczna jest to własność przysługująca jednostce statystycznej.
Cechy statystyczne
Mierzalne (ilościowe) Niemierzalne (jakościowe)
Ciągłe Skokowe Nominalne Porządkowe
Np. Wiek Np. Liczba osób Np. Kolor Np. Wykształcenie
w gospodarstwie
domowym (liczba
całkowita)
Pieniądze są cechą quasi ciągłą.
Populacja generalna, a populacja próbna (próba)
wszystkie jednostki wybrane jednostki,
całej populacji uogólnianie wyników
np. spis ludności na całą populację
np. sondaże
Ćwiczenie.
W pewnym Urzędzie Gminy, zatrudniającym 100 osób dokonano badania pracowników pod względem wieku, płci, zajmowanego stanowiska, wykształcenia i wynagrodzeń. Określ:
1. zbiorowość statystyczną - grupa 100 urzędników
2. ustal czy jest to populacja generalna czy próba - populacja generalna
3. określ jednostkę statystyczną - 1 urzędnik
4. zdefiniuj cechy statystyczne
a) wiek - cecha mierzalna, ciągła
b) płeć - cecha niemierzalna, nominalna
c) stanowisko - cecha niemierzalna, porządkowa
d) wykształcenie - cecha niemierzalna, porządkowa
e) wynagrodzenie - cecha mierzalna, quasi ciągła
Wskaźnik struktury (procent, odsetek, częstość względna, liczebność względna)
ni - część liczebności
N - całość liczebności
Ćwiczenie
Strukturę bezrobotnych zarejestrowanych w Polsce w 2006 roku wg wieku i płci przedstawiono w tablicy.
oblicz jaki jest udział bezrobotnych kobiet w wieku 35 lat i więcej w ogólnej liczbie bezrobotnych.
porównaj odsetek bezrobotnych kobiet z odsetkiem bezrobotnych mężczyzn w wieku poniżej 25 lat w ogólnej liczbie bezrobotnych.
wiek w latach |
liczba bezrobotnych w tys. |
|
|
kobiety |
mężczyźni |
poniżej 25 |
262,4 |
210,8 |
25 - 34 |
313,4 |
308,1 |
35 - 44 |
240,2 |
211,8 |
45 - 54 |
348,6 |
237,9 |
55 i więcej |
141,0 |
35,1 |
∑ |
1305,7 |
1003,7 |
Ad 1.
Obliczamy liczbę bezrobotnych kobiet w wieku 35 lat i więcej:
ni = 240,2 + 348,6 + 141,0 = 729,8
Obliczamy ogólną liczbę bezrobotnych: N = 1305,7 + 1003,7 = 2309,4
Obliczamy udział bezrobotnych kobiet w wieku 35 lat i więcej w ogólnej liczbie bezrobotnych: Wi = ni / N = 729,8 / 2309,4 = 0,32 (32%)
Odp. Kobiety w wieku 35 lat i więcej stanowią 0,32 (32%) całej struktury bezrobotnych w Polsce w 2006 roku
Ad 2.
Obliczamy wskaźnik dla kobiet:
nik - liczba kobiet bezrobotnych w wieku poniżej 25 lat = 262,4
N - ogólna liczba bezrobotnych = 2309,4
Wik - wskaźnik struktury kobiet bezrobotnych w wieku poniżej 25 lat
Wik = nik/N = 262,4/2309,4 = 0,11 (11%)
Obliczamy wskaźnik dla mężczyzn:
nim - liczba mężczyzn bezrobotnych w wieku poniżej 25 lat = 210,8
N - ogólna liczba bezrobotnych = 2309,4
Wim - wskaźnik struktury mężczyznach bezrobotnych w wieku poniżej 25 lat
Wim = nim/N = 210,8/2309,4 = 0,09 (9%)
Odp. Więcej o 2 punkty procentowe było bezrobotnych kobiet niż mężczyzn w wieku poniżej 25 lat w Polsce w 2006 roku
Wskaźnik natężenia
n, m - są logicznie ze sobą powiązane
Ćwiczenie
Oblicz ilu było w Polsce w 2006 roku abonentów telefonii komórkowej jeżeli wiadomo, że na 1000 mieszkańców przypadało w tym roku 963 abonentów telefonii komórkowej, a liczba ludności w Polsce wynosiła 38 157 000 osób.
Korzystamy z proporcji:
1000 mieszkańców - 963 abonentów
38157000 mieszkańców - x abonentów
x = (963 * 38157000) : 1000
x = 36745191
Odp. Abonentów telefonii komórkowej w 2006 roku było 36745191.
Wskaźnik podobieństwa struktur
W1i - wskaźnik struktury dla pierwszej zbiorowości
W2i - wskaźnik struktury dla drugiej zbiorowości
Im bliższy 1 lub 100 tym większe podobieństwo zbiorowości do siebie.
Ćwiczenie
Strukturę ludności według wieku w woj. łódzkim i Polsce przedstawia poniższa tabela. Sprawdź czy struktura ludności wg wieku w woj. łódzkim jest podobna do tejże struktury w Polsce.
wiek w latach |
liczba ludności w mln |
wskaźnik struktury |
min (w1i w2i) |
||
|
woj. łódzkie |
Polska |
W1i |
W2i |
|
0 -14 |
0,421 |
6,804 |
0,421/2,607 = 0,16 |
6,804/38,219 =0,18 |
0,16 |
15 - 34 |
0,768 |
11,871 |
0,30 |
0,31 |
0,30 |
35 - 54 |
0,776 |
11,195 |
0,30 |
0,29 |
0,29 |
55 i więcej |
0,642 |
8,349 |
0,24 |
0,22 |
0,22 |
∑ |
2,607 |
38,219 |
1 |
1 |
0,97 |
Obliczamy wskaźniki struktury dla obu zbiorowości a następnie wybieramy mniejszy.
Odp. Struktura ludności wg wieku w woj. łódzkim jest bardzo podobna do struktury całej Polski.
Szeregi statystyczne.
szereg szczegółowy - uporządkowany ciąg wartości badanego zjawiska.
x1, x2, ..., xn gdzie i = 1, 2, ..., N
szereg rozdzielczy punktowy - wykorzystujemy do prezentacji materiału statystycznego w sytuacji gdy badana cecha jest cechą niemierzalną lub cechą mierzalną skokową o niewielkiej liczbie wariantów.
xi ni liczba posiadanego liczba uczniów
rodzeństwa
x1 n1 0 10
x2 n2 1 20
. . 2 30
. . 3 20
xk nk 4 10
∑ N ∑ 90
symbolem - oznaczamy:
xi - warianty wartości cechy ni - liczebności absolutne N - ogólna liczba obserwacji
szereg rozdzielczy przedziałowy - wykorzystujemy do prezentacji materiału statystycznego, w sytuacji gdy badana cecha, jest cecha mierzalną ciągłą lub mierzalną skokową o dużej liczbie wariantów.
xoi - x1i ni
xoi - x1i n1
xo2 - x1i n2
. .
. .
. .
xok - x1k nk
∑ N
Przykłady:
1 2 3
wynagrodzenie liczba liczba osób liczba gosp. wiek liczba
w tys. zł pracowników w gospod. w latach pracowników
1 - 2 10 1 - 2 100 poniżej 20 10
2 - 3 15 3 - 4 200 20 - 40 20
3 - 4 20 5 - 6 50 40 - 60 10
4 - 5 5 powyżej 60 5
∑ 50 ∑ 350 ∑ 45
Przykład 3 to szereg rozdzielczy przedziałowy o otwartych przedziałach klasowych natomiast przykład 1 i 2 o zamkniętych przedziałach klasowych.
Aby ustalić rozpiętość przedziałów klasowych posługujemy się następującymi wzorami:
h = x1i - x0i - dla przedziałów <)
h = zliczamy ile wariantów cechy należy do danego przedziału - dla <> np. <1 - 2> h = 2
<1 - 6> h = 6
Miary średnie (przeciętne, tendencji centralnej)
Klasyczne Pozycyjne
X - średnia arytmetyczna Do - dominanta - wartość
Nie możemy jej obliczać, występująca najczęściej w danej
gdy istnieją w zbiorowości zbiorowości. (modalna, moda)
niejednorodnej wartości Me - mediana - wartość, która
skrajne. Dane są przedstawione w uporządkowanym szeregu
w postaci szeregu rozdzielczego znajduje się dokładnie pośrodku.
przedziałowego, gdy ma ( ). Używamy jej zawsze gdy nie
możemy obliczyć średniej.
Q1 - kwartyl 1 - 25% i 75 %
Q3 - kwartyl 3 - 75 % i 25 %
Q1 Me Q3
Ćwiczenie
Pytając o wiek dwie grupy studentów otrzymano następujące odpowiedzi. Oblicz wszystkie poznane miary średnie.
18, 18, 19, 20, 22, 24, 23, 19, 19
20, 20, 21, 21, 19, 19, 18, 22, 23, 24
Po uporządkowaniu dane przedstawione są w postaci szeregu szczegółowego.
Obliczamy miary średnie dla studentów z grupy a: 18, 18, 19, 19, 19, 20, 22, 23, 24
X = 182/9 = 20,2 [lat] - przeciętny wiek studenta należącego do grupy a wynosił 20,2 lat.
Do - najczęściej występujący element
Do = 19 [lat] - najczęściej studenci należący do grupy a mieli 19 lat
Me: 18, 18, 19, 19, 19, 20, 22, 23, 24
Me = 19 [lat] - połowa studentów należących do grupy a miała 19 lat lub mniej, a druga połowa 19 lat lub więcej
Q1 - szukamy medianę dla pierwszej polowy zbiorowości, jeżeli mamy nieparzystą liczbę czynników, aby rozważyć kwartyle bierzemy pod uwagę w obu przypadkach Me.
Q1: 18, 18, 19, 19, 19
Q1 = 19 [lat] - 25 % studentów z grupy a miało 19 lat lub mniej, a 75 % miało 19 lat lub więcej
Q3 - szukamy medianę dla drugiej polowy zbiorowości, jeżeli mamy nieparzystą liczbę czynników, aby rozważyć kwartyle bierzemy pod uwagę w obu przypadkach Me.
Q3: 19, 20, 22, 23, 24
Q3 = 22 [lat] - 75 % studentów z grupy a miało 22 lata lub mniej, a 25 % 22 lata lub więcej.
Obliczamy miary średnie dla studentów z grupy b: 18, 19, 19, 20, 20, 21, 21, 22, 23, 24
X = 207/10 = 20,7 [lat] - przeciętny wiek studentów należących do grupy b to 20,7 lat
Do - jeśli występuje kilka takich samych wartości i nie możemy rozstrzygnąć to wtedy
Do = {19, 20, 21} lub jest jej brak
Me: 18, 19, 19, 20, 20, 21, 21, 22, 23, 24
Me = (20 + 21)/2 = 20,5 [lat] - połowa studentów należących do grupy b miała 20,5 lat lub mniej, a druga połowa 20,5 lat lub więcej.
Q1: 18, 19, 19, 20, 20
Q1 = 19 [lat] - 25 % studentów z grupy b miało 19 lat lub mniej, a 75 % 19 lat lub więcej.
Q3 : 21, 21, 22, 23, 24
Q3 = 22 [lat] - 75 % studentów z grupy b miało 22 lata lub mniej, a 25 % 22 lata lub więcej.
Ćwiczenie
Poniższa tablica przedstawia oceny uzyskane z kolokwium ze statystyki przez badaną grupe studentów. Oblicz miary tendencji centralnej.
ocena (xi) |
liczba studentów (ni) |
xi * ni |
nisk |
2,0 |
4 |
8 |
4 |
Q1 = 2,5 |
3 |
7,5 |
7 |
Do, Me =3,0 |
7 |
21 |
14 |
3,5 |
4 |
14 |
18 |
Q3= 4,0 |
4 |
16 |
22 |
4,5 |
1 |
4,5 |
23 |
5,0 |
2 |
10 |
25 |
∑ |
25 (N) |
81 |
X |
Jest to szereg rozdzielczy punktowy.
X = 81/25 = 3,24 - średnia ocena otrzymana z kolokwium ze statystyki przez studentów to 3,24
Do - sprawdzamy która ocena występuje najczęściej (jakich ocen było najwięcej)
Do = 3,0 - dominująca ocena z kolokwium ze statystyki była ocena 3,0.
Aby wyznaczyć medianę w szeregu rozdzielczym punktowym wykonujemy następujące czynności:
obliczamy Nr Me
Nr Me = (25 + 1)/2 = 13
obliczamy liczebności skumulowane nisk
odszukujemy Nr Me w liczebnościach skumulowanych i odczytujemy wartość Me.
Me = 3,0 - Połowa studentów otrzymało ocenę 3,0 lub mniejszą z kolokwium, a druga połowa 3,0 lub wyższą.
Aby wyznaczyć kwartyl pierwszy postępujemy analogicznie do mediany:
obliczamy Nr Q1
Nr Q1 = (25 + 1)/4 = 6,5
obliczamy liczebności skumulowane nisk
odszukujemy Nr Q1 w liczebnościach skumulowanych i odczytujemy wartość Q1
Q1 = 2,5 co oznacza że 25 % studentów otrzymało ocenę 2,5 lub mniej z kolokwium ze statystyki, a 75 % 2,5 lub więcej.
Aby wyznaczyć kwartyl trzeci postępujemy analogicznie do mediany:
obliczamy Nr Q3
Nr Q3 = 3(25 + 1)/4 = 19,5
obliczamy liczebności skumulowane nisk
odszukujemy Nr Q3 w liczebnościach skumulowanych i odczytujemy wartość Q3
Q3 = 4,0 co oznacza że 75 % studentów otrzymało ocenę 4,0 lub mniej z kolokwium ze statystyki, a 25 % 4,0 lub więcej.
Ćwiczenie
Wynagrodzenie członków rady nadzorczej pewnej firmy przedstawia tablica. Oblicz przeciętny poziom wynagrodzenia. Wykorzystaj w tym celu miary klasyczne i pozycyjne.
wynagrodzenie w tys. zł (xi) |
liczba pracowników (ni) |
0xi |
0xi * ni |
nisk |
0 - 10 |
1 |
5 |
5 |
1 |
Q1 10 - 20 |
2 |
15 |
30 |
3 |
Do, Me20 - 30 |
3 |
25 |
75 |
6 |
Q3 30 - 40 |
2 |
35 |
70 |
8 |
40 - 50 |
2 |
45 |
90 |
10 |
∑ |
10 (N) |
X |
270 |
X |
Jest to szereg rozdzielczy przedziałowy o domkniętych przedziałach.
0xi - środki przedziałów
X = 270/10 = 27 [tys. zł] - średnie wynagrodzenie pracowników rady nadzorczej w danym przedsiębiorstwie to 27 tys. zł
Aby móc skorzystać ze wzoru interpolacyjnego służącego do wyznaczania Do w szeregu rozdzielczym przedziałowym, szereg musi spełniać trzy warunki:
musi występować jedno max wśród liczebności
rozpiętość przedziału w którym znajdzie się dominanta i dwóch przedziałów z nią sąsiadujących musi być taka sama
szereg nie może być skrajnie asymetryczny co w praktyce oznacza, że wartość dominująca nie może się znajdować ani w pierwszym ani w ostatnim przedziale.
Do = 20 + {[(3 - 2)*10]/[(3 - 2) + (3 - 2 )]}= 25 [tys. zł] - dominujące wynagrodzenie pracowników rady nadzorczej to 25 tys. zł.
Aby obliczyć Me i kwartyle postępujemy identycznie jak w szeregu rozdzielczym punktowym.
NrMe = 10/2 = 5
Me = 20 + 10/3 * (5 - 3) = 26,67 [tys. zł] - połowa pracowników rady nadzorczej zarabia 26,67 tys. zł lub mniej, a druga połowa 26,67 tys. zł lub więcej.
Nr Q1 = 10/4 = 2,5
Q1 = 10 + 10/2 *(2,5 - 1) = 17,5 [tys. zł] - 25 % pracowników rady nadzorczej zarabia 17,5 tys. zł lub mniej, a 75% 17,5 tys. zł lub więcej.
Nr Q3 = 3 *10/4 = 7,5
Q3 = 30 + 10/2 * (7,5 - 6) = 37,5 [tys. zł] - 75 % pracowników rady nadzorczej zarabia 37,5 tys. zł lub mniej, a 25 % 37,5 tys. zł lub więcej.
Miary zróżnicowania (dyspersji, rozrzutu, zmienności, rozproszenia)
Bezwzględne Względne
Klasyczne Pozycyjne Klasyczne Pozycyjne
Sx2, Sx Q, Q2 Vs(x) VQ
Sx2 - wariancje
Sx - odchylenia standardowe
Q - odchylenie ćwiartkowe
Q2 - obszar zmienności
Vs(x) - współczynnik zmienności oparty o odchylenie standardowe
VQ - współczynnik zmienności oparty o odchylenie ćwiartkowe.
Miary bezwzględne wykorzystujemy do oceny zróżnicowania jednej zbiorowości pod względem jednej cechy. Miary bezwzględne są wielkościami mianowanymi tzn. są wyrażone w tej samej jednostce co badane zjawisko.
Miary względne wykorzystujemy do porównania zróżnicowania kilku zbiorowości pod względem jednej cechy lub jednej zbiorowości pod względem kilku cech. Miary względne zróżnicowania najczęściej wyrażamy w %.
Ćwiczenie
W pewnym przedsiębiorstwie znajduje się 6 pomieszczeń magazynowych, których powierzchnia składowa jest następująca: 65, 84, 91, 53, 44, 79 [m2].
1. oblicz jaka jest przeciętna powierzchnia magazynu w tym przedsiębiorstwie.
2. oceń zróżnicowanie powierzchni magazynowej w tym przedsiębiorstwie.
Jest to szereg szczegółowy po uporządkowaniu.
Ad 1.
xi = 65 + 84 + 91 + 53 + 44 + 79 = 416
N = 6
X = 416/6 = 69,33 [m2] - przeciętna powierzchnia magazynu w tym przedsiębiorstwie to 69,33 [m2]
Ad 2.
Jest to miara bezwzględna, klasyczna więc obliczamy odchylenie standardowe
xi |
xi - X |
(xi - X)2 |
65 |
-4 |
16 |
84 |
15 |
225 |
91 |
22 |
484 |
53 |
-16 |
256 |
44 |
-25 |
625 |
79 |
10 |
100 |
∑ |
X |
1706 |
Sx = √1706/6 = 16,86 ~ 17 [m2] - powierzchnie magazynowe w tym przedsiębiorstwie odchylają się od przeciętnej powierzchni średnio o plus - minus 17 [m2]
Miary asymetrii (skośności)
współczynnik skośności (asymetrii) dla całej zbiorowości
pozycyjny współczynnik skośności dla 50 % środkowych
Miary asymetrii wskazują nam czy przeważająca część jednostek danej zbiorowości przyjmuje wartości powyżej czy poniżej średniej.
Ws zazwyczaj przyjmuje wartości w przedziale <-1, 1> przy bardzo silnej asymetrii może wykroczyć poza ten przedział. Znak Ws mówi nam o kierunku asymetrii, a wartość bezwzględna o sile. Jeżeli znak jest ujemny mówimy, że asymetria jest ujemna (lewostronna), a oznacza to, że przeważająca część jednostek danej zbiorowości przyjmuje wartości powyżej średniej. Jeżeli znak jest dodatni, mówimy że asymetria jest dodatnia (prawostronna), a to z kolei oznacza, że przeważająca część jednostek danej zbiorowości przyjmuje wartości poniżej średniej. Jeżeli Ws = 0 oznacza to brak asymetrii czyli występowanie zjawiska symetrii.
│Ws│- siła
Poniżej 0,2 - bardzo słaba
0,2 - 0,4 - słaba
0,41 - 0,6 - umiarkowana
0,61 - 0,8 - silna
Powyżej 0,8 - bardzo silna
Ćwiczenie - podobne na kolokwium
W dwóch przedsiębiorstwach przeprowadzono badanie mające na celu porównanie stażu pracy pracowników. Badanie wykazało, że w przedsiębiorstwie pierwszym najliczniej występowali pracownicy, których staż pracy wynosił 5,5 lat. Połowa pracowników tego przedsiębiorstwa miała staż pracy mniejszy niż 6 lat, a średni staż pracy wynosił 6 lat. Ws liczony w oparciu o odchylenie standardowe wynosił 30 %. Dla przedsiębiorstwa drugiego otrzymano następujące informacje. Dokonaj wszechstronnej analizy przedsiębiorstw z punktu widzenia stażu pracy. Wyniki zinterpretuj.
Wszechstronna analiza obejmuje:
miary średnie
miary zróżnicowania
miary asymetrii
Staż pracy xi |
Liczba pracowników ni |
oxi |
oxi * ni |
nisk |
oxi - X |
(oxi - X)2 |
(oxi - X)2 * ni |
|
|
2 - 4 |
10 |
3 |
30 |
10 |
-4,3 |
18,49 |
184,9 |
|
4 - 6 |
20 |
5 |
100 |
30 |
-2,3 |
5,29 |
105,8 |
Me |
6 - 8 |
25 |
7 |
175 |
55 |
-0,3 |
0,09 |
2,25 |
Do |
8 - 10 |
30 |
9 |
315 |
90 |
1,7 |
2,89 |
101,15 |
|
10 - 12 |
10 |
11 |
110 |
100 |
3,7 |
13,69 |
136,9 |
|
∑ |
100 (N) |
X |
730 |
X |
X |
X |
531 |
Jest to szereg rozdzielczy przedziałowy o zamkniętych przedziałach klasowych
Tabelka wynikowa
Miary |
Przedsiębiorstwo I |
Przedsiębiorstwo II |
Do |
5,5 lat |
8,57 lat |
Me |
6 lat |
7,6 lat |
X |
6 lat |
7,3 lat |
Vs(x) |
30 % |
31,5 % |
Sx |
1,8 lat |
2,1 lat |
Ws |
0,27 |
-0,55 |
Obliczamy Ws dla przedsiębiorstwa I
Aby obliczyć Ws potrzebujemy Sx
0,3 = Sx/6
Sx = 1,8 [lat] - oznacza to że średni staż w przedsiębiorstwie I odchyla się o plus - minus 1,8 lat.
Ws = (6 - 5,5)/1,8 = 0,27 - asymetria dodatnia (prawostronna), słaba co oznacza że część pracowników przedsiębiorstwa I ma mniejszy staż niż średni.
Obliczamy kolejno miary dla przedsiębiorstwa II.
Do = 8 + {[(35 - 25) *2] / [(35 - 25) + (35 - 10)]} = 8 + 20/35 = 8,57 [lat] - najwięcej było zatrudnionych pracowników w przedsiębiorstwie II ze stażem pracy 8,57 lat
Obliczamy NrMe
Nr Me = 100/2 = 50
Obliczamy liczebności skumulowane nisk
Me = 6 + 2/25 * (50 - 30) = 7,6 [lat] - połowa pracowników zatrudnionych w przedsiębiorstwie drugim miała staż pracy 7,6 lat lub mniejszy, a druga połowa 7,6 lat lub większy.
Aby obliczyć X musimy najpierw obliczyć środki przedziałów oxi
X = 730/100 = 7,3 [lat] - średni staż w przedsiębiorstwie II wynosił 7,3 lat
Aby obliczyć współczynnik zmienności
potrzebujemy odchylenie standardowe
Sx = √531/100 = 2,3 [lat] - odchylenie od średniego stażu pracy w przedsiębiorstwie I I wynosi 2,3 lat na plus lub minus.
Vs(x)= 2,3/7,3 *100 = 31,5 % - odchylenie standardowe stanowi 31,5 % średniego stażu pracy w przedsiębiorstwie II
Ws = (7,3 -8,57) / 2,3 = -0,55 - asymetria ujemna (lewostronna), umiarkowana co oznacza że część pracowników ma większy niż średni staż
Wnioski końcowe
Przeciętnie wyższym stażem pracy charakteryzowali się pracownicy zatrudnieni w przedsiębiorstwie II, co potwierdzają wszystkie wyznaczone miary średnie.
Większym zróżnicowaniem stażu pracy charakteryzowali się pracownicy zatrudnieni w przedsiębiorstwie II.
Asymetria stażu pracy pracowników zatrudnionych w przedsiębiorstwie I jest dodatnia (prawostronna) i słaba - przeważająca część pracowników ma staż pracy mniejszy niż średni. Asymetria stażu pracy dla pracowników zatrudnionych w przedsiębiorstwie II jest ujemna (lewostronna) i umiarkowana - przeważająca część pracowników ma staż pracy większy niż średni
Analiza korelacji - Ćwiczenie.
W grupie pracowników wykonujących czynność wymagającą wysokiej sprawności manualnej przeprowadzono badania zależności wydajności pracy od stażu pracy. Wyniki przedstawiono w poniżej tablicy.
Staż pracy w latach |
wydajność pracy w szt./h |
1 2 3 4 5 6 7 8 9 10 |
8 15 8 10 22 14 17 28 22 26 |
∑ = 55 |
∑ = 170 |
Sporządź wykres obrazujący powyższą zależność. Co na podstawie diagramu korelacyjnego można powiedzieć o zależności miedzy badaniami zmiennymi.
Oblicz współczynnik korelacji liniowej Pearsona i podaj interpretację otrzymanego wyniku.
Oblicz współczynnik determinacji i podaj jego interpretację.
Wyznacz parametry funkcji regresji i podaj interpretację współczynnika regresji.
Jakiej wydajności pracy można się spodziewać przy stażu pracy wynoszącym 11 lat. Przy jakim założeniu szacunek ten ma sens.
Oblicz średni błąd szacunku i dokonaj interpretacji.
Korelacja dodatnia występuje wtedy, kiedy wzrostowi wartości jednej cechy towarzyszy na ogół wzrost wartości drugiej cechy.
Korelacja jest ujemna, jeżeli wzrostowi wartości jednej cechy towarzyszy na ogół spadek wartości drugiej cechy
Korelacja liniowa ma miejsce wtedy gdy punkty oscylują wokół prostej linii, krzywoliniowa - wokół krzywej. Jeśli nie ma zależności punktów nie układają się wzdłuż jakiejkolwiek linii mówimy o braku korelacji .
Ad 1.
xi - cecha (zmienna) niezależna (objaśniająca)
yi - cecha (zmienna) zależna (objaśniająca)
Korelacja jest dodatnia i liniowa. Korelacja dodatnia oznacza, że wzrostowi stażu pracy towarzyszy na ogół wzrost wydajności pracy.
Tabelka pomocnicza:
Staż pracy w latach |
Wydajność w szt./h |
xi - X |
yi - Y |
(xi - X)*(yi - Y) |
(xi - X)2 |
(yi - Y)2 |
^yi |
yi - ^yi |
(yi - ^yi)2 |
1 |
8 |
-4,50 |
-9,00 |
40,50 |
20,25 |
81,00 |
8,14 |
-0,14 |
0,02 |
2 |
15 |
-3,50 |
-2,00 |
7,00 |
12,25 |
4,00 |
10,11 |
4,89 |
23,91 |
3 |
8 |
-2,50 |
-9,00 |
22,50 |
6,25 |
81,00 |
12,08 |
-4,08 |
16,65 |
4 |
10 |
-1,50 |
-7,00 |
10,50 |
2,25 |
49,00 |
14,05 |
-4,05 |
16,40 |
5 |
22 |
-0,50 |
5,00 |
-2,50 |
0,25 |
25,00 |
16,02 |
5,98 |
35,76 |
6 |
14 |
0,50 |
-3,00 |
-1,50 |
0,25 |
9,00 |
17,99 |
-3,99 |
15,92 |
7 |
17 |
1,50 |
0,00 |
0,00 |
2,25 |
0,00 |
19,96 |
-2,96 |
8,76 |
8 |
28 |
2,50 |
11,00 |
27,50 |
6,25 |
121,00 |
21,93 |
6,07 |
36,84 |
9 |
22 |
3,50 |
5,00 |
17,50 |
12,25 |
25,00 |
23,90 |
-1,90 |
3,61 |
10 |
26 |
4,50 |
9,00 |
40,50 |
20,25 |
81,00 |
25,87 |
0,13 |
0,02 |
∑ 55 |
170 |
x |
x |
162,00 |
82,50 |
476,00 |
x |
x |
157,89 |
Ad 2. Współczynniki korelacji liniowej Pearsona.
<-1, 1>
Warunki skorzystania ze współczynnika korelacji liniowej Pearsona:
obie badane cechy musza być mierzalne.
zależność między cechami musi mieć charakter liniowy lub w przybliżeniu liniowy.
Cov(x,y) - kowariancje cechy x i y.
Sx - odchylenie standardowe zmiennej x
Sy - odchylenie standardowe zmiennej y.
X = 55 / 10 = 5,5 [lat] - średni staż pracy wynosi 5,5 lat.
Y = 170 / 10 = 17 [szt./h] - średnia wydajność pracy wynosi 17 szt./h
Cov(x,y) = 1/10 * 162 = 16,2
Sx = √82,5 / 10 = 2,87
Sy = √476 / 10 = 6,90
rxy = 16,2 / (2,87 * 6,9) = 0,82
Współczynnik korelacji liniowej Pearsona wynosi 0,82 wiec korelacja jest dodatnia i bardzo silna.
Ad 3. Współczynnik determinacji - R2
R2 = (rxy)2 <0,1>, <0, 100>
R2 = 0,82 2 = 0,67 (67 %)
67 % zmienności wydajności pracy (y) zostało wyjaśnione przez zmienność stażu pracy (x)
Ad 4. Teoretyczna postać funkcji regresji.
^yi = bxi + a
b - współczynnik regresji
a - wyraz wolny
b = 16,2 / 2,872 = 1,97 - wzrostowi stażu pracy o jeden rok towarzyszy średnio rzecz biorąc wzrost (b>0) wydajność pracy o 1,97 szt./h
a = Y - bX
a = 17 - 1,97 * 5,5 = 6,17
Ad 5.
^y11 = 1,97 * 11 + 6,17 = 27,84 [szt./h] - przy stażu pracy wynoszącym 11 lat możemy się spodziewać wydajności pracy wynoszącej 27,84 szt./h przy założeniu korelacji liniowej między badanymi cechami.
Ad 6.
Średni błąd szacunku
Se = √157,89 / 8 = 4,44 szt./h
Teoretyczna (wyznaczona na podstawie funkcji regresji) wydajność pracy pracowników odchyla się przeciętnie od rzeczywistej wydajności o +/- 4,44 szt./h
^y11 = 27,84 +/- 4,44
Ćwiczenie
Wśród pytań w ankiecie dotyczącej nastawienia Polaków do wejścia do UE znalazły się między innymi pytania o wiek oraz subiektywne odczucie zamożności. Przebadano pracowników pewnej jednostki i otrzymano następujące wyniki.
Przy pomocy odpowiedniej miary korelacji wyznacz kierunek i siłę związku między badanymi cechami.
Lp. |
Wiek |
Stopień zamożności |
1 2 3 4 5 6 7 8 |
32 33 34 35 43 35 36 39 |
↓P ↓P P ↑P P P P ↑P |
↓P poniżej przeciętnego
P przeciętny
↑P powyżej przeciętnego
Współczynnik korelacji rang Spearmana.
Współczynnik ten stosujemy gdy mamy szereg korelacyjny i cechy są mierzalne i niemierzalne porządkowe.
Wyznaczanie di:
Porządkujemy badane cechy rosnąco lub malejąco wg jednego z wariantów tych cech. Porządkujemy zawsze parami.
Wiek |
Stopień zamożności |
Rangi |
di |
di2 |
|
|
|
Wiek |
Stopień zamożności |
|
|
32 33 34 35 35 36 39 43 |
↓P ↓P P ↑P P P ↑P P |
1 2 3 4,5 4,5 6 7 8 |
1,5 1,5 4,5 7,5 4,5 4,5 7,5 4,5 |
-0,5 0,5 -1,5 -3 0 1,5 -0,5 3,5 |
0,25 0,25 2,25 9 0 2,25 0,25 12,25 ∑ 26,5 |
Rangowanie - nadajemy numery kolejnych liczb naturalnych wariantom cechy.
rs = 1 - 6*26,5/8(82 - 1) = 0,68
Korelacja dodatnia wraz z wiekiem wzrasta stopień subiektywnego odczucia zamożności. Korelacja jest silna.
Ćwiczenie
śród 500 studentów UŁ przeprowadzono badanie ankietowe dotyczące uczestnictwa w imprezach kulturalnych. Okazało się że w grupie 200 studentów najczęściej chodzących do teatru znajduje się 60 mężczyzn, operę preferuje 90 mężczyzn i 35 kobiet, operetkę zaś 30 mężczyzn i 120 kobiet. Filharmonia z kolei odwiedzana jest najczęściej przez 25 studentów w tym przez 5 kobiet. Oceń siłę zależności między analizowanymi cechami.
Tablica korelacyjna
Płeć |
Rodzaj rozrywek kulturalnych |
ni. |
|||
|
Teatr |
Opera |
Operetka |
filharmonia |
|
K M |
140 60 |
35 90 |
120 30 |
5 20 |
300 200 |
n.j |
200 |
125 |
150 |
25 |
N 500 |
n.j - suma liczebności w j - tej kolumnie
ni. - suma liczebności w i - tym wierszu
N - ogólna liczba obserwacji
Współczynnik C - Pearsona.
nij - liczebność empiryczna która znajduje się w i wierszu i j kolumnie
^nij - liczebność teoretyczna która znajduje się w i wierszu i j kolumnie
n11 = 300*200/500=120 n12 =300*125/500= 75 n13 = 300*150/500=90 n14 = 300*25/500=15
n21 = 200*200/500=80 n22 = 200*125/500=50 n23 = 200*150/500=60 n24 = 200*25/500=10
nij |
^nij |
nij -^nij |
(nij -^nij)2 |
(nij -^nij)2/^nij |
140 35 120 5 60 90 30 20 |
120 75 90 15 80 50 60 10 |
20 -40 30 -10 -20 40 -30 10 |
400 1600 900 100 400 1600 900 100 |
3,33 21,33 10,00 6,67 5,00 32,00 15,00 10,00 ∑103,33 |
X2 = 103,33
C = √103,33/103,33+500 = 0,41
Skorygowany współczynnik C - Pearsona.
W - liczba wierszy
K - liczba kolumn
C* = min(2,4) = 2
C skor = 0,41 √2/2-1 = 0,58
Istnieje umiarkowana korelacja między płcią a rodzajem preferowanych rozrywek kulturalnych przez studentów.
Współczynnik Q - Yule'a
mierzy tylko siłę i zawiera się przedziale <-1, 1>
Tablica korelacyjna musi być czteropolowa (2x2)
Xi |
Yi |
|
|
Y1 |
Y2 |
X1 |
a |
b |
X2 |
c |
d |
Ćwiczenie
Dział sprzedaży dużego Domu Handlowego przeprowadził badanie wpływu wieku na rodzaj płatności. Okazało się że wśród 200 klientów znalazło się 150 osób młodszych i 50 starszych. W grupie klientów młodszych 100 osób stosowało kartę kredytową. Natomiast wszystkie osoby starsze płaciły gotówką. Przy pomocy odpowiedniej miary oblicz siłę związku korelacyjnego między badanymi cechami.
Tablica korelacyjna
Wiek |
Forma płatności |
ni |
|
|
Karta |
gotówka |
|
M |
100 |
50 |
150 |
S |
0 |
50 |
50 |
nij |
100 |
100 |
N 200 |
Q = 100*50 - 50*0/100*50 + 50*0 = 1
Korelacja miedzy wiekiem a płcią jest bardzo silna i wynosi 1.
26