Metody statystyczne w socjologii


Metody statystyczne w socjologii - ćwiczenia mgr B. Dobrowolska

Statystyka zajmuje się przede wszystkim badaniem zjawisk zbiorowych.

Zbiorowość statystyczna to ogół jednostek statystycznych podlegających badaniu statystycznemu. Zbiorowość nazywamy zbiorowością statystyczną jeżeli posiada dwie cechy:

  1. posiada co najmniej jedną cechę wspólną

  2. ze względu na jakieś cechy się różni

Jednostka statystyczna to osoba, rzecz lub zjawisko podlegająca badaniu statystycznemu.

Cecha statystyczna jest to własność przysługująca jednostce statystycznej.

Cechy statystyczne

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
Mierzalne (ilościowe) Niemierzalne (jakościowe)

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
Ciągłe Skokowe Nominalne Porządkowe

Np. Wiek Np. Liczba osób Np. Kolor Np. Wykształcenie

w gospodarstwie

domowym (liczba

całkowita)

Pieniądze są cechą quasi ciągłą.

0x08 graphic
0x08 graphic
Populacja generalna, a populacja próbna (próba)

wszystkie jednostki wybrane jednostki,

całej populacji uogólnianie wyników

np. spis ludności na całą populację

np. sondaże

Ćwiczenie.

W pewnym Urzędzie Gminy, zatrudniającym 100 osób dokonano badania pracowników pod względem wieku, płci, zajmowanego stanowiska, wykształcenia i wynagrodzeń. Określ:

1. zbiorowość statystyczną - grupa 100 urzędników

2. ustal czy jest to populacja generalna czy próba - populacja generalna

3. określ jednostkę statystyczną - 1 urzędnik

4. zdefiniuj cechy statystyczne

a) wiek - cecha mierzalna, ciągła

b) płeć - cecha niemierzalna, nominalna

c) stanowisko - cecha niemierzalna, porządkowa

d) wykształcenie - cecha niemierzalna, porządkowa

e) wynagrodzenie - cecha mierzalna, quasi ciągła

Wskaźnik struktury (procent, odsetek, częstość względna, liczebność względna)

0x01 graphic

ni - część liczebności

N - całość liczebności

Ćwiczenie

Strukturę bezrobotnych zarejestrowanych w Polsce w 2006 roku wg wieku i płci przedstawiono w tablicy.

  1. oblicz jaki jest udział bezrobotnych kobiet w wieku 35 lat i więcej w ogólnej liczbie bezrobotnych.

  2. porównaj odsetek bezrobotnych kobiet z odsetkiem bezrobotnych mężczyzn w wieku poniżej 25 lat w ogólnej liczbie bezrobotnych.

  3. wiek w latach

    liczba bezrobotnych w tys.

    kobiety

    mężczyźni

    poniżej 25

    262,4

    210,8

    25 - 34

    313,4

    308,1

    35 - 44

    240,2

    211,8

    45 - 54

    348,6

    237,9

    55 i więcej

    141,0

    35,1

    1305,7

    1003,7

    Ad 1.

    Obliczamy liczbę bezrobotnych kobiet w wieku 35 lat i więcej:

    ni = 240,2 + 348,6 + 141,0 = 729,8

    Obliczamy ogólną liczbę bezrobotnych: N = 1305,7 + 1003,7 = 2309,4

    Obliczamy udział bezrobotnych kobiet w wieku 35 lat i więcej w ogólnej liczbie bezrobotnych: Wi = ni / N = 729,8 / 2309,4 = 0,32 (32%)

    Odp. Kobiety w wieku 35 lat i więcej stanowią 0,32 (32%) całej struktury bezrobotnych w Polsce w 2006 roku

    Ad 2.

    Obliczamy wskaźnik dla kobiet:

    nik - liczba kobiet bezrobotnych w wieku poniżej 25 lat = 262,4

    N - ogólna liczba bezrobotnych = 2309,4

    Wik - wskaźnik struktury kobiet bezrobotnych w wieku poniżej 25 lat

    Wik = nik/N = 262,4/2309,4 = 0,11 (11%)

    Obliczamy wskaźnik dla mężczyzn:

    nim - liczba mężczyzn bezrobotnych w wieku poniżej 25 lat = 210,8

    N - ogólna liczba bezrobotnych = 2309,4

    Wim - wskaźnik struktury mężczyznach bezrobotnych w wieku poniżej 25 lat

    Wim = nim/N = 210,8/2309,4 = 0,09 (9%)

    Odp. Więcej o 2 punkty procentowe było bezrobotnych kobiet niż mężczyzn w wieku poniżej 25 lat w Polsce w 2006 roku

    Wskaźnik natężenia

    0x01 graphic

    n, m - są logicznie ze sobą powiązane

    Ćwiczenie

    Oblicz ilu było w Polsce w 2006 roku abonentów telefonii komórkowej jeżeli wiadomo, że na 1000 mieszkańców przypadało w tym roku 963 abonentów telefonii komórkowej, a liczba ludności w Polsce wynosiła 38 157 000 osób.

    Korzystamy z proporcji:

    1000 mieszkańców - 963 abonentów

    38157000 mieszkańców - x abonentów

    x = (963 * 38157000) : 1000

    x = 36745191

    Odp. Abonentów telefonii komórkowej w 2006 roku było 36745191.

    Wskaźnik podobieństwa struktur

    0x01 graphic

    W1i - wskaźnik struktury dla pierwszej zbiorowości

    W2i - wskaźnik struktury dla drugiej zbiorowości

    Im bliższy 1 lub 100 tym większe podobieństwo zbiorowości do siebie.

    Ćwiczenie

    Strukturę ludności według wieku w woj. łódzkim i Polsce przedstawia poniższa tabela. Sprawdź czy struktura ludności wg wieku w woj. łódzkim jest podobna do tejże struktury w Polsce.

    wiek w latach

    liczba ludności w mln

    wskaźnik struktury

    min (w1i w2i)

    woj. łódzkie

    Polska

    W1i

    W2i

    0 -14

    0,421

    6,804

    0,421/2,607 = 0,16

    6,804/38,219 =0,18

    0,16

    15 - 34

    0,768

    11,871

    0,30

    0,31

    0,30

    35 - 54

    0,776

    11,195

    0,30

    0,29

    0,29

    55 i więcej

    0,642

    8,349

    0,24

    0,22

    0,22

    2,607

    38,219

    1

    1

    0,97

    Obliczamy wskaźniki struktury dla obu zbiorowości a następnie wybieramy mniejszy.

    Odp. Struktura ludności wg wieku w woj. łódzkim jest bardzo podobna do struktury całej Polski.

    Szeregi statystyczne.

    1. szereg szczegółowy - uporządkowany ciąg wartości badanego zjawiska.

    x1, x2, ..., xn gdzie i = 1, 2, ..., N

    1. szereg rozdzielczy punktowy - wykorzystujemy do prezentacji materiału statystycznego w sytuacji gdy badana cecha jest cechą niemierzalną lub cechą mierzalną skokową o niewielkiej liczbie wariantów.

    0x08 graphic
    0x08 graphic
    xi ni liczba posiadanego liczba uczniów

    0x08 graphic
    0x08 graphic
    rodzeństwa

    x1 n1 0 10

    x2 n2 1 20

    . . 2 30

    . . 3 20

    xk nk 4 10

    0x08 graphic
    0x08 graphic

    ∑ N ∑ 90

    symbolem - oznaczamy:

    xi - warianty wartości cechy ni - liczebności absolutne N - ogólna liczba obserwacji

    1. 0x08 graphic
      szereg rozdzielczy przedziałowy - wykorzystujemy do prezentacji materiału statystycznego, w sytuacji gdy badana cecha, jest cecha mierzalną ciągłą lub mierzalną skokową o dużej liczbie wariantów.

    0x08 graphic
    xoi - x1i ni

    xoi - x1i n1

    xo2 - x1i n2

    . .

    . .

    . .

    0x08 graphic
    xok - x1k nk

    ∑ N

    Przykłady:

    1 2 3

    0x08 graphic
    0x08 graphic
    0x08 graphic
    wynagrodzenie liczba liczba osób liczba gosp. wiek liczba

    w tys. zł pracowników w gospod. w latach pracowników

    1 - 2 10 1 - 2 100 poniżej 20 10

    2 - 3 15 3 - 4 200 20 - 40 20

    3 - 4 20 5 - 6 50 40 - 60 10

    0x08 graphic
    0x08 graphic
    0x08 graphic
    4 - 5 5 powyżej 60 5

    ∑ 50 ∑ 350 ∑ 45

    Przykład 3 to szereg rozdzielczy przedziałowy o otwartych przedziałach klasowych natomiast przykład 1 i 2 o zamkniętych przedziałach klasowych.

    Aby ustalić rozpiętość przedziałów klasowych posługujemy się następującymi wzorami:

    h = x1i - x0i - dla przedziałów <)

    h = zliczamy ile wariantów cechy należy do danego przedziału - dla <> np. <1 - 2> h = 2

    <1 - 6> h = 6

    0x08 graphic
    Miary średnie (przeciętne, tendencji centralnej)

    0x08 graphic
    0x08 graphic
    0x08 graphic

    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic
    Klasyczne Pozycyjne

    0x08 graphic
    0x08 graphic
    X - średnia arytmetyczna Do - dominanta - wartość

    Nie możemy jej obliczać, występująca najczęściej w danej

    gdy istnieją w zbiorowości zbiorowości. (modalna, moda)

    0x08 graphic
    niejednorodnej wartości Me - mediana - wartość, która

    skrajne. Dane są przedstawione w uporządkowanym szeregu

    w postaci szeregu rozdzielczego znajduje się dokładnie pośrodku.

    przedziałowego, gdy ma ( ). Używamy jej zawsze gdy nie

    możemy obliczyć średniej.

    0x08 graphic
    Q1 - kwartyl 1 - 25% i 75 %

    0x08 graphic
    Q3 - kwartyl 3 - 75 % i 25 %

    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic

    Q1 Me Q3

    Ćwiczenie

    Pytając o wiek dwie grupy studentów otrzymano następujące odpowiedzi. Oblicz wszystkie poznane miary średnie.

    1. 18, 18, 19, 20, 22, 24, 23, 19, 19

    2. 20, 20, 21, 21, 19, 19, 18, 22, 23, 24

    Po uporządkowaniu dane przedstawione są w postaci szeregu szczegółowego.

    Obliczamy miary średnie dla studentów z grupy a: 18, 18, 19, 19, 19, 20, 22, 23, 24

    0x01 graphic

    X = 182/9 = 20,2 [lat] - przeciętny wiek studenta należącego do grupy a wynosił 20,2 lat.

    Do - najczęściej występujący element

    Do = 19 [lat] - najczęściej studenci należący do grupy a mieli 19 lat

    0x01 graphic

    Me: 18, 18, 19, 19, 19, 20, 22, 23, 24

    Me = 19 [lat] - połowa studentów należących do grupy a miała 19 lat lub mniej, a druga połowa 19 lat lub więcej

    Q1 - szukamy medianę dla pierwszej polowy zbiorowości, jeżeli mamy nieparzystą liczbę czynników, aby rozważyć kwartyle bierzemy pod uwagę w obu przypadkach Me.

    Q1: 18, 18, 19, 19, 19

    Q1 = 19 [lat] - 25 % studentów z grupy a miało 19 lat lub mniej, a 75 % miało 19 lat lub więcej

    Q3 - szukamy medianę dla drugiej polowy zbiorowości, jeżeli mamy nieparzystą liczbę czynników, aby rozważyć kwartyle bierzemy pod uwagę w obu przypadkach Me.

    Q3: 19, 20, 22, 23, 24

    Q3 = 22 [lat] - 75 % studentów z grupy a miało 22 lata lub mniej, a 25 % 22 lata lub więcej.

    Obliczamy miary średnie dla studentów z grupy b: 18, 19, 19, 20, 20, 21, 21, 22, 23, 24

    X = 207/10 = 20,7 [lat] - przeciętny wiek studentów należących do grupy b to 20,7 lat

    Do - jeśli występuje kilka takich samych wartości i nie możemy rozstrzygnąć to wtedy

    Do = {19, 20, 21} lub jest jej brak

    Me: 18, 19, 19, 20, 20, 21, 21, 22, 23, 24

    Me = (20 + 21)/2 = 20,5 [lat] - połowa studentów należących do grupy b miała 20,5 lat lub mniej, a druga połowa 20,5 lat lub więcej.

    Q1: 18, 19, 19, 20, 20

    Q1 = 19 [lat] - 25 % studentów z grupy b miało 19 lat lub mniej, a 75 % 19 lat lub więcej.

    Q3 : 21, 21, 22, 23, 24

    Q3 = 22 [lat] - 75 % studentów z grupy b miało 22 lata lub mniej, a 25 % 22 lata lub więcej.

    Ćwiczenie

    Poniższa tablica przedstawia oceny uzyskane z kolokwium ze statystyki przez badaną grupe studentów. Oblicz miary tendencji centralnej.

    ocena (xi)

    liczba studentów (ni)

    xi * ni

    nisk

    2,0

    4

    8

    4

    Q1 = 2,5

    3

    7,5

    7

    Do, Me =3,0

    7

    21

    14

    3,5

    4

    14

    18

    Q3= 4,0

    4

    16

    22

    4,5

    1

    4,5

    23

    5,0

    2

    10

    25

    25 (N)

    81

    X

    Jest to szereg rozdzielczy punktowy.

    0x01 graphic
    0x01 graphic

    X = 81/25 = 3,24 - średnia ocena otrzymana z kolokwium ze statystyki przez studentów to 3,24

    Do - sprawdzamy która ocena występuje najczęściej (jakich ocen było najwięcej)

    Do = 3,0 - dominująca ocena z kolokwium ze statystyki była ocena 3,0.

    Aby wyznaczyć medianę w szeregu rozdzielczym punktowym wykonujemy następujące czynności:

    1. obliczamy Nr Me

    0x01 graphic

    Nr Me = (25 + 1)/2 = 13

    1. obliczamy liczebności skumulowane nisk

    2. odszukujemy Nr Me w liczebnościach skumulowanych i odczytujemy wartość Me.

    Me = 3,0 - Połowa studentów otrzymało ocenę 3,0 lub mniejszą z kolokwium, a druga połowa 3,0 lub wyższą.

    Aby wyznaczyć kwartyl pierwszy postępujemy analogicznie do mediany:

    1. obliczamy Nr Q1

    0x01 graphic

    Nr Q1 = (25 + 1)/4 = 6,5

    1. obliczamy liczebności skumulowane nisk

    2. odszukujemy Nr Q1 w liczebnościach skumulowanych i odczytujemy wartość Q1

    Q1 = 2,5 co oznacza że 25 % studentów otrzymało ocenę 2,5 lub mniej z kolokwium ze statystyki, a 75 % 2,5 lub więcej.

    Aby wyznaczyć kwartyl trzeci postępujemy analogicznie do mediany:

    1. obliczamy Nr Q3

    0x01 graphic

    Nr Q3 = 3(25 + 1)/4 = 19,5

    1. obliczamy liczebności skumulowane nisk

    2. odszukujemy Nr Q3 w liczebnościach skumulowanych i odczytujemy wartość Q3

    Q3 = 4,0 co oznacza że 75 % studentów otrzymało ocenę 4,0 lub mniej z kolokwium ze statystyki, a 25 % 4,0 lub więcej.

    Ćwiczenie

    Wynagrodzenie członków rady nadzorczej pewnej firmy przedstawia tablica. Oblicz przeciętny poziom wynagrodzenia. Wykorzystaj w tym celu miary klasyczne i pozycyjne.

    wynagrodzenie w tys. zł (xi)

    liczba pracowników (ni)

    0xi

    0xi * ni

    nisk

    0 - 10

    1

    5

    5

    1

    Q1 10 - 20

    2

    15

    30

    3

    Do, Me20 - 30

    3

    25

    75

    6

    Q3 30 - 40

    2

    35

    70

    8

    40 - 50

    2

    45

    90

    10

    10 (N)

    X

    270

    X

    Jest to szereg rozdzielczy przedziałowy o domkniętych przedziałach.

    0x01 graphic

    0xi - środki przedziałów

    X = 270/10 = 27 [tys. zł] - średnie wynagrodzenie pracowników rady nadzorczej w danym przedsiębiorstwie to 27 tys. zł

    0x01 graphic

    Aby móc skorzystać ze wzoru interpolacyjnego służącego do wyznaczania Do w szeregu rozdzielczym przedziałowym, szereg musi spełniać trzy warunki:

    1. musi występować jedno max wśród liczebności

    2. rozpiętość przedziału w którym znajdzie się dominanta i dwóch przedziałów z nią sąsiadujących musi być taka sama

    3. szereg nie może być skrajnie asymetryczny co w praktyce oznacza, że wartość dominująca nie może się znajdować ani w pierwszym ani w ostatnim przedziale.

    Do = 20 + {[(3 - 2)*10]/[(3 - 2) + (3 - 2 )]}= 25 [tys. zł] - dominujące wynagrodzenie pracowników rady nadzorczej to 25 tys. zł.

    Aby obliczyć Me i kwartyle postępujemy identycznie jak w szeregu rozdzielczym punktowym.

    0x01 graphic

    NrMe = 10/2 = 5

    0x01 graphic

    Me = 20 + 10/3 * (5 - 3) = 26,67 [tys. zł] - połowa pracowników rady nadzorczej zarabia 26,67 tys. zł lub mniej, a druga połowa 26,67 tys. zł lub więcej.

    0x01 graphic

    Nr Q1 = 10/4 = 2,5

    0x01 graphic

    Q1 = 10 + 10/2 *(2,5 - 1) = 17,5 [tys. zł] - 25 % pracowników rady nadzorczej zarabia 17,5 tys. zł lub mniej, a 75% 17,5 tys. zł lub więcej.

    0x01 graphic

    Nr Q3 = 3 *10/4 = 7,5

    0x01 graphic

    Q3 = 30 + 10/2 * (7,5 - 6) = 37,5 [tys. zł] - 75 % pracowników rady nadzorczej zarabia 37,5 tys. zł lub mniej, a 25 % 37,5 tys. zł lub więcej.

    Miary zróżnicowania (dyspersji, rozrzutu, zmienności, rozproszenia)

    0x08 graphic
    0x08 graphic
    0x08 graphic

    0x08 graphic
    0x08 graphic
    Bezwzględne Względne

    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic
    0x08 graphic

    Klasyczne Pozycyjne Klasyczne Pozycyjne

    Sx2, Sx Q, Q2 Vs(x) VQ

    Sx2 - wariancje

    Sx - odchylenia standardowe

    Q - odchylenie ćwiartkowe

    Q2 - obszar zmienności

    Vs(x) - współczynnik zmienności oparty o odchylenie standardowe

    VQ - współczynnik zmienności oparty o odchylenie ćwiartkowe.

    Miary bezwzględne wykorzystujemy do oceny zróżnicowania jednej zbiorowości pod względem jednej cechy. Miary bezwzględne są wielkościami mianowanymi tzn. są wyrażone w tej samej jednostce co badane zjawisko.

    Miary względne wykorzystujemy do porównania zróżnicowania kilku zbiorowości pod względem jednej cechy lub jednej zbiorowości pod względem kilku cech. Miary względne zróżnicowania najczęściej wyrażamy w %.

    Ćwiczenie

    W pewnym przedsiębiorstwie znajduje się 6 pomieszczeń magazynowych, których powierzchnia składowa jest następująca: 65, 84, 91, 53, 44, 79 [m2].

    1. oblicz jaka jest przeciętna powierzchnia magazynu w tym przedsiębiorstwie.

    2. oceń zróżnicowanie powierzchni magazynowej w tym przedsiębiorstwie.

    Jest to szereg szczegółowy po uporządkowaniu.

    Ad 1.

    0x01 graphic

    xi = 65 + 84 + 91 + 53 + 44 + 79 = 416

    N = 6

    X = 416/6 = 69,33 [m2] - przeciętna powierzchnia magazynu w tym przedsiębiorstwie to 69,33 [m2]

    Ad 2.

    Jest to miara bezwzględna, klasyczna więc obliczamy odchylenie standardowe

    0x01 graphic

    xi

    xi - X

    (xi - X)2

    65

    -4

    16

    84

    15

    225

    91

    22

    484

    53

    -16

    256

    44

    -25

    625

    79

    10

    100

    X

    1706

    Sx = √1706/6 = 16,86 ~ 17 [m2] - powierzchnie magazynowe w tym przedsiębiorstwie odchylają się od przeciętnej powierzchni średnio o plus - minus 17 [m2]

    Miary asymetrii (skośności)

    0x01 graphic

    współczynnik skośności (asymetrii) dla całej zbiorowości

    0x01 graphic

    pozycyjny współczynnik skośności dla 50 % środkowych

    Miary asymetrii wskazują nam czy przeważająca część jednostek danej zbiorowości przyjmuje wartości powyżej czy poniżej średniej.

    Ws zazwyczaj przyjmuje wartości w przedziale <-1, 1> przy bardzo silnej asymetrii może wykroczyć poza ten przedział. Znak Ws mówi nam o kierunku asymetrii, a wartość bezwzględna o sile. Jeżeli znak jest ujemny mówimy, że asymetria jest ujemna (lewostronna), a oznacza to, że przeważająca część jednostek danej zbiorowości przyjmuje wartości powyżej średniej. Jeżeli znak jest dodatni, mówimy że asymetria jest dodatnia (prawostronna), a to z kolei oznacza, że przeważająca część jednostek danej zbiorowości przyjmuje wartości poniżej średniej. Jeżeli Ws = 0 oznacza to brak asymetrii czyli występowanie zjawiska symetrii.

    │Ws│- siła

    Poniżej 0,2 - bardzo słaba

    0,2 - 0,4 - słaba

    0,41 - 0,6 - umiarkowana

    0,61 - 0,8 - silna

    Powyżej 0,8 - bardzo silna

    Ćwiczenie - podobne na kolokwium

    W dwóch przedsiębiorstwach przeprowadzono badanie mające na celu porównanie stażu pracy pracowników. Badanie wykazało, że w przedsiębiorstwie pierwszym najliczniej występowali pracownicy, których staż pracy wynosił 5,5 lat. Połowa pracowników tego przedsiębiorstwa miała staż pracy mniejszy niż 6 lat, a średni staż pracy wynosił 6 lat. Ws liczony w oparciu o odchylenie standardowe wynosił 30 %. Dla przedsiębiorstwa drugiego otrzymano następujące informacje. Dokonaj wszechstronnej analizy przedsiębiorstw z punktu widzenia stażu pracy. Wyniki zinterpretuj.

    Wszechstronna analiza obejmuje:

    1. miary średnie

    2. miary zróżnicowania

    3. miary asymetrii

    4. Staż pracy xi

      Liczba pracowników ni

      oxi

      oxi * ni

      nisk

      oxi - X

      (oxi - X)2

      (oxi - X)2 * ni

      2 - 4

      10

      3

      30

      10

      -4,3

      18,49

      184,9

      4 - 6

      20

      5

      100

      30

      -2,3

      5,29

      105,8

      Me

      6 - 8

      25

      7

      175

      55

      -0,3

      0,09

      2,25

      Do

      8 - 10

      30

      9

      315

      90

      1,7

      2,89

      101,15

      10 - 12

      10

      11

      110

      100

      3,7

      13,69

      136,9

      100 (N)

      X

      730

      X

      X

      X

      531

      Jest to szereg rozdzielczy przedziałowy o zamkniętych przedziałach klasowych

      Tabelka wynikowa

      Miary

      Przedsiębiorstwo I

      Przedsiębiorstwo II

      Do

      5,5 lat

      8,57 lat

      Me

      6 lat

      7,6 lat

      X

      6 lat

      7,3 lat

      Vs(x)

      30 %

      31,5 %

      Sx

      1,8 lat

      2,1 lat

      Ws

      0,27

      -0,55

      Obliczamy Ws dla przedsiębiorstwa I

      0x01 graphic

      Aby obliczyć Ws potrzebujemy Sx

      0x01 graphic

      0,3 = Sx/6

      Sx = 1,8 [lat] - oznacza to że średni staż w przedsiębiorstwie I odchyla się o plus - minus 1,8 lat.

      Ws = (6 - 5,5)/1,8 = 0,27 - asymetria dodatnia (prawostronna), słaba co oznacza że część pracowników przedsiębiorstwa I ma mniejszy staż niż średni.

      Obliczamy kolejno miary dla przedsiębiorstwa II.

      0x01 graphic

      Do = 8 + {[(35 - 25) *2] / [(35 - 25) + (35 - 10)]} = 8 + 20/35 = 8,57 [lat] - najwięcej było zatrudnionych pracowników w przedsiębiorstwie II ze stażem pracy 8,57 lat

      Obliczamy NrMe

      0x01 graphic

      Nr Me = 100/2 = 50

      Obliczamy liczebności skumulowane nisk

      0x01 graphic

      Me = 6 + 2/25 * (50 - 30) = 7,6 [lat] - połowa pracowników zatrudnionych w przedsiębiorstwie drugim miała staż pracy 7,6 lat lub mniejszy, a druga połowa 7,6 lat lub większy.

      0x01 graphic

      Aby obliczyć X musimy najpierw obliczyć środki przedziałów oxi

      X = 730/100 = 7,3 [lat] - średni staż w przedsiębiorstwie II wynosił 7,3 lat

      Aby obliczyć współczynnik zmienności

      0x01 graphic
      potrzebujemy odchylenie standardowe 0x01 graphic

      Sx = √531/100 = 2,3 [lat] - odchylenie od średniego stażu pracy w przedsiębiorstwie I I wynosi 2,3 lat na plus lub minus.

      Vs(x)= 2,3/7,3 *100 = 31,5 % - odchylenie standardowe stanowi 31,5 % średniego stażu pracy w przedsiębiorstwie II

      0x01 graphic

      Ws = (7,3 -8,57) / 2,3 = -0,55 - asymetria ujemna (lewostronna), umiarkowana co oznacza że część pracowników ma większy niż średni staż

      Wnioski końcowe

      1. Przeciętnie wyższym stażem pracy charakteryzowali się pracownicy zatrudnieni w przedsiębiorstwie II, co potwierdzają wszystkie wyznaczone miary średnie.

      2. Większym zróżnicowaniem stażu pracy charakteryzowali się pracownicy zatrudnieni w przedsiębiorstwie II.

      3. Asymetria stażu pracy pracowników zatrudnionych w przedsiębiorstwie I jest dodatnia (prawostronna) i słaba - przeważająca część pracowników ma staż pracy mniejszy niż średni. Asymetria stażu pracy dla pracowników zatrudnionych w przedsiębiorstwie II jest ujemna (lewostronna) i umiarkowana - przeważająca część pracowników ma staż pracy większy niż średni

      Analiza korelacji - Ćwiczenie.

      W grupie pracowników wykonujących czynność wymagającą wysokiej sprawności manualnej przeprowadzono badania zależności wydajności pracy od stażu pracy. Wyniki przedstawiono w poniżej tablicy.

      Staż pracy w latach

      wydajność pracy w szt./h

      1

      2

      3

      4

      5

      6

      7

      8

      9

      10

      8

      15

      8

      10

      22

      14

      17

      28

      22

      26

      ∑ = 55

      ∑ = 170

      1. Sporządź wykres obrazujący powyższą zależność. Co na podstawie diagramu korelacyjnego można powiedzieć o zależności miedzy badaniami zmiennymi.

      2. Oblicz współczynnik korelacji liniowej Pearsona i podaj interpretację otrzymanego wyniku.

      3. Oblicz współczynnik determinacji i podaj jego interpretację.

      4. Wyznacz parametry funkcji regresji i podaj interpretację współczynnika regresji.

      5. Jakiej wydajności pracy można się spodziewać przy stażu pracy wynoszącym 11 lat. Przy jakim założeniu szacunek ten ma sens.

      6. Oblicz średni błąd szacunku i dokonaj interpretacji.

      Korelacja dodatnia występuje wtedy, kiedy wzrostowi wartości jednej cechy towarzyszy na ogół wzrost wartości drugiej cechy.

      Korelacja jest ujemna, jeżeli wzrostowi wartości jednej cechy towarzyszy na ogół spadek wartości drugiej cechy

      Korelacja liniowa ma miejsce wtedy gdy punkty oscylują wokół prostej linii, krzywoliniowa - wokół krzywej. Jeśli nie ma zależności punktów nie układają się wzdłuż jakiejkolwiek linii mówimy o braku korelacji .

      Ad 1.

      0x01 graphic

      xi - cecha (zmienna) niezależna (objaśniająca)

      yi - cecha (zmienna) zależna (objaśniająca)

      0x08 graphic
      Korelacja jest dodatnia i liniowa. Korelacja dodatnia oznacza, że wzrostowi stażu pracy towarzyszy na ogół wzrost wydajności pracy.

      Tabelka pomocnicza:

      Staż pracy w latach

      Wydajność w szt./h

      xi - X

      yi - Y

      (xi - X)*(yi - Y)

      (xi - X)2

      (yi - Y)2

      ^yi

      yi - ^yi

      (yi - ^yi)2

      1

      8

      -4,50

      -9,00

      40,50

      20,25

      81,00

      8,14

      -0,14

      0,02

      2

      15

      -3,50

      -2,00

      7,00

      12,25

      4,00

      10,11

      4,89

      23,91

      3

      8

      -2,50

      -9,00

      22,50

      6,25

      81,00

      12,08

      -4,08

      16,65

      4

      10

      -1,50

      -7,00

      10,50

      2,25

      49,00

      14,05

      -4,05

      16,40

      5

      22

      -0,50

      5,00

      -2,50

      0,25

      25,00

      16,02

      5,98

      35,76

      6

      14

      0,50

      -3,00

      -1,50

      0,25

      9,00

      17,99

      -3,99

      15,92

      7

      17

      1,50

      0,00

      0,00

      2,25

      0,00

      19,96

      -2,96

      8,76

      8

      28

      2,50

      11,00

      27,50

      6,25

      121,00

      21,93

      6,07

      36,84

      9

      22

      3,50

      5,00

      17,50

      12,25

      25,00

      23,90

      -1,90

      3,61

      10

      26

      4,50

      9,00

      40,50

      20,25

      81,00

      25,87

      0,13

      0,02

      55

      170

      x

      x

      162,00

      82,50

      476,00

      x

      x

      157,89

      Ad 2. Współczynniki korelacji liniowej Pearsona.

      0x01 graphic
      <-1, 1>

      Warunki skorzystania ze współczynnika korelacji liniowej Pearsona:

      1. obie badane cechy musza być mierzalne.

      2. zależność między cechami musi mieć charakter liniowy lub w przybliżeniu liniowy.

      Cov(x,y) - kowariancje cechy x i y.

      Sx - odchylenie standardowe zmiennej x

      Sy - odchylenie standardowe zmiennej y.

      X = 55 / 10 = 5,5 [lat] - średni staż pracy wynosi 5,5 lat.

      Y = 170 / 10 = 17 [szt./h] - średnia wydajność pracy wynosi 17 szt./h

      0x01 graphic

      Cov(x,y) = 1/10 * 162 = 16,2

      0x01 graphic

      Sx = √82,5 / 10 = 2,87

      0x01 graphic

      Sy = √476 / 10 = 6,90

      rxy = 16,2 / (2,87 * 6,9) = 0,82

      Współczynnik korelacji liniowej Pearsona wynosi 0,82 wiec korelacja jest dodatnia i bardzo silna.

      Ad 3. Współczynnik determinacji - R2

      R2 = (rxy)2 <0,1>, <0, 100>

      R2 = 0,82 2 = 0,67 (67 %)

      67 % zmienności wydajności pracy (y) zostało wyjaśnione przez zmienność stażu pracy (x)

      Ad 4. Teoretyczna postać funkcji regresji.

      ^yi = bxi + a

      b - współczynnik regresji

      a - wyraz wolny

      0x01 graphic

      b = 16,2 / 2,872 = 1,97 - wzrostowi stażu pracy o jeden rok towarzyszy średnio rzecz biorąc wzrost (b>0) wydajność pracy o 1,97 szt./h

      a = Y - bX

      a = 17 - 1,97 * 5,5 = 6,17

      Ad 5.

      ^y11 = 1,97 * 11 + 6,17 = 27,84 [szt./h] - przy stażu pracy wynoszącym 11 lat możemy się spodziewać wydajności pracy wynoszącej 27,84 szt./h przy założeniu korelacji liniowej między badanymi cechami.

      Ad 6.

      Średni błąd szacunku

      0x01 graphic

      Se = √157,89 / 8 = 4,44 szt./h

      Teoretyczna (wyznaczona na podstawie funkcji regresji) wydajność pracy pracowników odchyla się przeciętnie od rzeczywistej wydajności o +/- 4,44 szt./h

      ^y11 = 27,84 +/- 4,44

      Ćwiczenie

      Wśród pytań w ankiecie dotyczącej nastawienia Polaków do wejścia do UE znalazły się między innymi pytania o wiek oraz subiektywne odczucie zamożności. Przebadano pracowników pewnej jednostki i otrzymano następujące wyniki.

      Przy pomocy odpowiedniej miary korelacji wyznacz kierunek i siłę związku między badanymi cechami.

      Lp.

      Wiek

      Stopień zamożności

      1

      2

      3

      4

      5

      6

      7

      8

      32

      33

      34

      35

      43

      35

      36

      39

      ↓P

      ↓P

      P

      ↑P

      P

      P

      P

      ↑P

      ↓P poniżej przeciętnego

      P przeciętny

      ↑P powyżej przeciętnego

      Współczynnik korelacji rang Spearmana.

      0x01 graphic

      Współczynnik ten stosujemy gdy mamy szereg korelacyjny i cechy są mierzalne i niemierzalne porządkowe.

      Wyznaczanie di:

      1. Porządkujemy badane cechy rosnąco lub malejąco wg jednego z wariantów tych cech. Porządkujemy zawsze parami.

      Wiek

      Stopień zamożności

      Rangi

      di

      di2

      Wiek

      Stopień zamożności

      32

      33

      34

      35

      35

      36

      39

      43

      ↓P

      ↓P

      P

      ↑P

      P

      P

      ↑P

      P

      1

      2

      3

      4,5

      4,5

      6

      7

      8

      1,5

      1,5

      4,5

      7,5

      4,5

      4,5

      7,5

      4,5

      -0,5

      0,5

      -1,5

      -3

      0

      1,5

      -0,5

      3,5

      0,25

      0,25

      2,25

      9

      0

      2,25

      0,25

      12,25

      ∑ 26,5

      1. Rangowanie - nadajemy numery kolejnych liczb naturalnych wariantom cechy.

      rs = 1 - 6*26,5/8(82 - 1) = 0,68

      Korelacja dodatnia wraz z wiekiem wzrasta stopień subiektywnego odczucia zamożności. Korelacja jest silna.

      Ćwiczenie

      śród 500 studentów UŁ przeprowadzono badanie ankietowe dotyczące uczestnictwa w imprezach kulturalnych. Okazało się że w grupie 200 studentów najczęściej chodzących do teatru znajduje się 60 mężczyzn, operę preferuje 90 mężczyzn i 35 kobiet, operetkę zaś 30 mężczyzn i 120 kobiet. Filharmonia z kolei odwiedzana jest najczęściej przez 25 studentów w tym przez 5 kobiet. Oceń siłę zależności między analizowanymi cechami.

      Tablica korelacyjna

      Płeć

      Rodzaj rozrywek kulturalnych

      ni.

      Teatr

      Opera

      Operetka

      filharmonia

      K

      M

      140

      60

      35

      90

      120

      30

      5

      20

      300

      200

      n.j

      200

      125

      150

      25

      N 500

      n.j - suma liczebności w j - tej kolumnie

      ni. - suma liczebności w i - tym wierszu

      N - ogólna liczba obserwacji

      Współczynnik C - Pearsona.

      0x01 graphic

      0x01 graphic

      nij - liczebność empiryczna która znajduje się w i wierszu i j kolumnie

      ^nij - liczebność teoretyczna która znajduje się w i wierszu i j kolumnie

      0x01 graphic

      n11 = 300*200/500=120 n12 =300*125/500= 75 n13 = 300*150/500=90 n14 = 300*25/500=15

      n21 = 200*200/500=80 n22 = 200*125/500=50 n23 = 200*150/500=60 n24 = 200*25/500=10

      nij

      ^nij

      nij -^nij

      (nij -^nij)2

      (nij -^nij)2/^nij

      140

      35

      120

      5

      60

      90

      30

      20

      120

      75

      90

      15

      80

      50

      60

      10

      20

      -40

      30

      -10

      -20

      40

      -30

      10

      400

      1600

      900

      100

      400

      1600

      900

      100

      3,33

      21,33

      10,00

      6,67

      5,00

      32,00

      15,00

      10,00

      ∑103,33

      X2 = 103,33

      C = √103,33/103,33+500 = 0,41

      Skorygowany współczynnik C - Pearsona.

      0x01 graphic
      0x01 graphic

      W - liczba wierszy

      K - liczba kolumn

      C* = min(2,4) = 2

      C skor = 0,41 √2/2-1 = 0,58

      Istnieje umiarkowana korelacja między płcią a rodzajem preferowanych rozrywek kulturalnych przez studentów.

      Współczynnik Q - Yule'a

      0x01 graphic
      mierzy tylko siłę i zawiera się przedziale <-1, 1>

      Tablica korelacyjna musi być czteropolowa (2x2)

      Xi

      Yi

      Y1

      Y2

      X1

      a

      b

      X2

      c

      d

      Ćwiczenie

      Dział sprzedaży dużego Domu Handlowego przeprowadził badanie wpływu wieku na rodzaj płatności. Okazało się że wśród 200 klientów znalazło się 150 osób młodszych i 50 starszych. W grupie klientów młodszych 100 osób stosowało kartę kredytową. Natomiast wszystkie osoby starsze płaciły gotówką. Przy pomocy odpowiedniej miary oblicz siłę związku korelacyjnego między badanymi cechami.

      Tablica korelacyjna

      Wiek

      Forma płatności

      ni

      Karta

      gotówka

      M

      100

      50

      150

      S

      0

      50

      50

      nij

      100

      100

      N 200

      Q = 100*50 - 50*0/100*50 + 50*0 = 1

      Korelacja miedzy wiekiem a płcią jest bardzo silna i wynosi 1. 0x01 graphic

      26



      Wyszukiwarka

      Podobne podstrony:
      Metody statystyczne w socjologii W , socjologia
      (10464) L.Zaręba- Metody badań w socjologii IIIS, Zarządzanie (studia) Uniwersytet Warszawski - doku
      metody statystyczne, nauka, socjologia, przedmioty, statystyka
      (10464) L.Zaręba- Metody badań w socjologii IIIS, Zarządzanie (studia) Uniwersytet Warszawski - doku
      metody statystyczne w chemii 8
      metody statystyczne w chemii 5
      Metody?dań statystycznych
      Godman N , Uprawianie socjologii Metody badań socjologicznych
      Metody Badań Socjologicznych, Socjologia, Metody badawcze socjologii, remetodybadasocjologicznych
      Podstawy socjologii i metody badan socjologicznych W st
      METODY STATYSTYCZNE WYKORZYSTYWANE W PLANOWANIU I PRZEPROWADZANIU EKSPERYMENTU NAUKOWEGO
      Metody statystyczne pomoce, statystyka
      metody badań socjologiczn, PeDaGoGiKaa
      SOCJOLOGIA-metody badawcze, Socjologia
      modele regresji SGH metody statystyczne 2008
      Statystyka matematyczna, 2.8 2.12, Metody Statystyczne
      Metody statystyczne dla opornych cz 1
      metody statystyczne w chemii 1

      więcej podobnych podstron