03.10.2010 r.
Zadanie 1
Przeprowadzono minibadanie statystyczne. Zapytano 31 studentów kierunku socjologia o liczbę rodzeństwa i ilość czasu spędzanego na powietrzu w tygodniu.
Określić zbiorowość statystyczną
Określić jednostkę statystyczną
Określić badaną cechę statystyczna i jej rodzaj.
Ad. 1 Studenci socjologii z II grupy w dniu 03.10.2010 r.
Ad. 2 Jeden student socjologii z II grupy w dniu 03.10.2010 r.
Ad. 3 Liczba rodzeństwa i ilość czasu spędzanego na świeżym powietrzu w tygodniu.
4 Szereg statystyczny - uporządkowanie ciągu informacji o badanych jednostkach statystycznych względem konkretnej cechy.
1. Cecha - liczba rodzeństwa
Dane: 1 3 2 0 1 3 0 3 1 0 1 2...
Szereg szczegółowy, gdzie x to wartość cechy x1 x2 x3...xN
xi - wartość cechy i tej jednostki
N - liczba jednostki badanej w zbiorowości
Uporządkować szereg rosnąco
0, 0, 0, 1, 1, 2, 2, 3, 3..
Taką metodę obieramy tylko przy małej liczbie zbiorowości
Szereg rozdzielczy - punktowy (przy małej ilości wariantów cechy)
XN |
Ni |
X1 |
N1 |
X2 |
N2 |
XK |
NK |
Gdzie K - liczba wariantów
Ni - liczba jednostek charakteryzujących się tym wariantem cechy (np. jeśli 3 osoby wymieniły ten sam wariant to Ni = 3)
ΣKNi = N, gdzie Σ to - suma
i=1
Liczba rodzeństwa |
Liczba studentów z tą cechą |
0 |
4 |
1 |
17 |
2 |
7 |
3 |
3 |
31
2. Cecha druga - ilość godzin w tygodniu spędzana na świeżym powietrzu
Szereg szczegółowy:
20 30 35 25 28 33 ....
Uporządkowanie
3 7 9 10 10 10 10 14 15 15....
Przy tak dużej ilości wariantów szereg rozdzielczy punktowy nie jest efektywny. Lepszy jest szereg rozdzielczy z przedziałami klasowymi.
X0-Xi1 |
Ni |
X10-X2,1 |
N1 |
X10-X3,1 |
N2 |
XK0-XN,1 |
NK |
Xi1-X0 = h, gdzie h to rozpiętość przedziału
X0 - górna granica tego przedziału
Xi1 - górna granica
K - liczba przedziałów
Ilość czasu |
Liczba studentów z taką cechą |
3-13 |
8 |
13-23 |
10 |
23-33 |
7 |
33-43 |
3 |
43-53 |
1 |
53-63 |
1 |
63-73 |
1 |
31!
lub
Ilość czasu |
Liczba studentów z taką cechą |
0-10 |
8 |
10-20 |
9 |
20-30 |
6 |
30-40 |
5 |
Pow. 40 |
3 |
31!
Zadanie nr 2
Zapytano losowo wybranych mieszkańców Krakowa, Olsztyna i Poznania o ulubione miejsce na wakacje. Określić zbiorowość statystyczną, jednostkę statystyczną, badaną cechę, rodzaj cechy i rodzaj badania statystycznego.
Mamy 3 zbiorowości: mieszkańcy Krakowa, mieszkańcy Olsztyna i mieszkańcy Poznania.
Mamy 3 jednostki zbiorowości: mieszkańca Krakowa, mieszkańca Olsztyna i mieszkańca Poznania.
Badaną cechą będzie preferencja miejsca wakacji.
Rodzaj cechy - niezmierzalny.
Badanie częściowe.
Miejsce wakacji |
Mieszkańcy Krakowa |
Mieszkańcy Olsztyna |
Mieszkańcy Poznania |
Góry |
65 |
30 |
50 |
Morze |
50 |
90 |
110 |
Jeziora |
45 |
85 |
35 |
Wieś |
30 |
35 |
95 |
Ilość badanych mieszkańców |
190 |
240 |
485 |
Jaki jest procent zbiorowości charakteryzuje się określoną cechą?
Wi - wskaźnik struktury cechy
W1 = ni/n
Jaki jest procent Krakowa dla gór?
65/190 = 0,34 = 34%
34% mieszkańców Krakowa preferuje góry
Jaki jest procent Krakowa dla morze?
50/190 = 0,26 = 26%
26% mieszkańców Krakowa preferuje morze
Jaki jest procent Krakowa dla jeziora?
45/190 = 0,24 = 24%
24% mieszkańców Krakowa preferuje jeziora
Jaki jest procent Krakowa dla wsi?
30/190 = 0,16 = 16%
16% mieszkańców Krakowa preferuje wieś
Wskaźnik podobieństwa struktur
Porównujemy zbiorowość Krakowa i Olsztyna
Wp = ΣK min (wi (1), w1 (2)).
i=1
Wskaźnik Krakowa |
Wskaźnik Olsztyna |
Minimalny wskaźnik |
34% |
0,125 |
0,125 |
26% |
0,375 |
0,26 |
24% |
0,354 |
0,24 |
16% |
0,146 |
0,146 |
0,771 - wskaźnik podobieństwa
Wskaźnik podobieństwa <0,1)
Im większa wartość, tym większy wskaźnik podobieństwa
Sprawdzić, które z miast są do siebie najbardziej podobne z punktu widzenia preferencji wakacyjnej
Wskaźnik Krakowa |
Wskaźnik Poznania |
Minimalny wskaźnik |
34% |
0,172 |
0,172 |
26% |
0,379 |
0,26 |
24% |
0,120 |
0,120 |
16% |
0,327 |
0,16 |
Wskaźnik 0,712
Wskaźnik Olsztyna |
Wskaźnik Poznania |
Minimalny wskaźnik |
0,125 |
0,172 |
0,125 |
0,375 |
0,379 |
0,375 |
0,354 |
0,120 |
0,120 |
0,146 |
0,327 |
0,146 |
Wskaźnik 0,766
Wskaźnik podobieństwa Olsztyn-Kraków |
0,771 |
Wskaźnik podobieństwa Poznań-Olsztyn |
0,766 |
Wskaźnik podobieństwa Kraków-Poznań |
0,712 |
Największy wskaźnik podobieństwa jest przy porównaniu Krakowa i Olsztyna - 0,771
17.10.2010 r.
Miary syntetyczne
Ćwiczenie 1:
Przeciętne miesięczne wynagrodzenie brutto Polaka w II kwartale 2010 r. wynosi 3.197,85 zł.
Ta wartość to średnia arytmetyczna.
_
X - symbol średniej arytmetycznej
Pojęcie mediana
_________________________________________________________
-------------------------------------I------------------------------------------------
Xmin 50% 50% Xmax
Pojęcie dominanty - najczęściej występująca wartość w podanych wariantach
Ćwiczenie 2
Ad. ćwiczenia z poprzednich zajęć - ilość czasu, jaką spędza student w ciągu tygodnia na świeżym powietrzu:
Szereg szczegółowy
3, 7, 9, 10, 10, 10, 10, 10, 14, 15, 15, 17, 18, 18, 20, 20, 20, 21, 25, 27, 28, 30, 30, 31, 33, 34, 35, 35, 46, 60, 77
Obliczanie średniej arytmetycznej
N
ΣX1Xi
i = 1
-------- = 3 + 7 + 9... +72 : 31 = 733 : 31 = 23,65
N
Odp. W badanej gr. studentów średnia ilość czasu na świeżym powietrzu to 23,65 h.
Uwaga: średnia arytmetyczna jest wartością teoretyczną i nie musi się pokrywać z żadnym wariantem cechy.
Mediana
Obserwacja nr 16 stanowi medianę w podanym szeregu (jego środkową wartość) z 31 wartości - jest więc liczba 20.
Co oznacza, że 50% grupy spędza 20 h i mniej na świeżym powietrzu, a druga grupa 20 h i więcej czasu.
Dominanta
Wyznaczamy dla szeregu rozdzielczego i szukamy cechy występującej najczęściej (dominującej) - patrz dane z przykładu ilości rodzeństwa z poprzednich zajęć.
l. rodzeństwa l. studentów z tą cechą
0 4
1 17
2 7
3 3
Wnioski: Największa liczba studentów ma jedno rodzeństwo (po polsku 1 brata lub 1 siostrę) - 17. Dominantą jest więc wariant 1 (1 rodzeństwo). D = 1
Mediana dla tego samego przykładu
l. rodzeństwa l. studentów z tą cechą NSK
0 4 4 (od 1 studenta do 4)
1 17 21 (od 5 do 21 studenta) - 16!
2 7 28 (od 22 do 28 studenta)
3 3 31 (od 29 do 31 studenta)
Wnioski. Wiedząc, że w szeregu z 31 cech, szesnasta stanowi medianę znajdujemy ją w przedziale drugim, gdzie wariantem jest jedno rodzeństwo.
NME = 16 - środkowa wartość szeregu; M (mediana) = 1 (ilość rodzeństwa)
Zatem 50% studentów ma jedno rodzeństwo lub mniej, a drugie 50% studentów ma jedno rodzeństwo lub więcej.
Obliczanie średniej arytmetycznej - wzór w tablicach
l. rodzeństwa l. studentów z tą cechą
0 4 0 x 4 = 0
1 17 1 x 17 = 17
2 7 2 x 7 = 14
3 3 3 x 3 = 9
Razem: 40
40: 31 = 1,29
W badanej grupie studentów średnio każdy student ma 1 rodzeństwo (1,29)
Szereg klasowy z przedziałami
Ćwiczenie
32 studentów podało, jaką ilość czasu w godzinach w tygodniu spędza na imprezowaniu
Czas na imprezy Liczba studentów z takim wariantem średnia (połowa przedziału) Xi x Ni
0-4 2 2 (1-2) 2 x 2 = 4
4-8 Me, D 14 Nmax 6 (3-16) 14 x 6 = 84
8-12 10 10 10 x 10 = 100
12-16 3 14 3 x 14 = 42
16-20 2 18 2 x 18 = 36
20-24 1 22 1 x 2 = 2
32 Razem: 288
288 : 32 = 9
Wnioski: Studenci z danej grupy średnio spędzają 9 h tygodniowo na imprezowaniu.
Mediana w tym ćwiczeniu
NME = 32 : 2 = 16
Zatem mediana będzie w przedziale 4-8 - w tym przedziale jest szesnasta wartość!
h0
Me = X0 + --------- (NME - NSK-1)
N0
, gdzie:
0 - granica mediany
X0 - dolny przedział mediany
h0 - rozpiętość przedziału mediany
N0 - liczebność przedziału mediany
NSK-1 - liczebność skumulowana przedziału poprzedzającego przedział mediany
8-4
Me = 4 + ------- (16-2) = 8
14
Połowa badanej grupy na imprezowaniu spędza 8 h lub mniej, a druga połowa 8 h lub więcej.
Dominanta
Uwaga: Mediany nie obliczamy, gdy występuje jeden z poniższych warunków:
- wśród liczebności (Ni) nie występuje jedno wyraźne maximum
- kiedy max liczebności jest w skrajnym przedziale
- kiedy rozpiętości przedziałów sąsiadujących z max liczebności są różne.
N0 - N-1
D = X0 + ------------------ x h0
N0-N1 + N0-1 - N1
14-2
D = 4 + ------------------ x 8 - 4
14-2 + 14-10
12
D = 4 + ------------------ x 4
12 + 41
D = 7
Wnioski: W badanej grupie najwięcej osób spędzało na imprezowaniu 7 h.
_
Kontrola logiczna: x min < X < Xmax
Kontrola średniej arytmetycznej: 0 < 9 < 24
Wynik musi znajdować się w przedziale mediany, tu 4 < Me ≤ 8
Kontrola dominanty: 4 < 7 > 8
Kolejne ćwiczenie - dane z godzin spędzanych na świeżym powietrzu
Czas Liczba studentów z tym wariantem NSK
0-10 8 8
10-20 9 17
20-30 6 23
30-40 5 28
pow. 40 3 31
Średnia arytmetyczna:
Uwaga: Jeżeli jeden z przedziałów jest otwarty nie można technicznie wyliczyć średniej arytmetycznej. Czasem można zamknąć przedział, ale tylko wtedy, jeśli liczba odpowiedzi w tym otwartym przedziale nie przekracza 5% wszystkich wariantów.
Dominanta:
W podanych danych brak wyraźnego maximum wśród liczebności - w takim przypadku dominanta jest nieobliczalna.
Mediana:
Nme = 16
20-10
Me = 10 + ------------ (16-18) = 18,89
9
50% grupy spędza 19 h lub mniej na powietrzu, a połowa 19 h i więcej.
Zadanie 1. Poniżej opisane zostały pewne badania statystyczne (przykłady: a-d). Dla każdego z tych badań:
określić:
zbiorowość statystyczną,
jednostkę statystyczną,
charakter badania,
cechę statystyczną podlegającą badaniu,
rodzaj badanej cechy.
b) zbudować odpowiedni do danej sytuacji szereg statystyczny i określić jaki to jest szereg.
Przykłady do zadania 1.
Badano czas dojazdu do pracy mieszkańców pewnego osiedla w Łodzi i otrzymano wyniki (w minutach)
18, 21, 15, 37, 40, 15, 30, 25, 29, 5, 25, 18, 29, 32, 18
Zbiorowość statystyczną stanowią mieszkańcy pewnego osiedla w Łodzi
Jednostkę statystyczną stanowi mieszkaniec pewnego osiedla w Łodzi
Charakter badania - częściowy
Cechę statystyczną podlegającą badaniu stanowi czas dojazdu do pracy w min.
Rodzaj badanej cechy - ilościowa ciągła.
Szereg szczegółowy
5, 15, 15, 18, 18, 18, 21, 25, 25, 29, 29, 30, 32, 37, 40.
W 50 osobowej grupie studentów badano liczbę dni w miesiącu przeznaczonych na odpoczynek i otrzymano następujące wyniki:
0, 6, 1, 2, 1, 5, 4, 0, 2, 3, 4, 4, 3, 4, 5, 4, 2, 4, 4, 3, 3, 1, 2, 0, 4, 5, 6, 1, 4, 3, 4, 3, 5, 3, 4, 2, 4, 2, 3, 6, 1, 3, 4, 5, 3, 4, 3, 2, 4, 5.
Zbiorowość statystyczną stanowią studenci
Jednostkę statystyczną stanowi student
Charakter badania - częściowy
Cechę statystyczną podlegającą badaniu stanowi liczba dni w miesiącu przeznaczonych na odpoczynek.
Rodzaj badanej cechy - ilościowa ciągła.
Szereg rozdzielczy punktowy
Liczba dni przeznaczonych na odpoczynek |
Liczba studentów z danym wariantem cechy |
0 |
3 |
1 |
5 |
2 |
7 |
3 |
11 |
4 |
15 |
5 |
6 |
6 |
3 |
W pewnym mieście przeprowadzono badania ulubionych gatunków filmów telewizyjnych i otrzymano następujące dane:
Filmy obyczajowe - 36 osób, westerny - 12 osób, horrory - 18 osób, komedie -30 osób, filmy przyrodnicze - 24 osoby.
Zbiorowość statystyczną stanowią osoby oglądające filmy w pewnym mieście
Jednostkę statystyczną stanowi osoba w pewnym mieście oglądająca filmy
Charakter badania - częściowy
Cechę statystyczną podlegającą badaniu stanowi ulubiony gatunek filmów telewizyjnych.
Rodzaj badanej cechy - jakościowa.
Szereg rozdzielczy punktowy
Ulubiony gatunek filmów |
Liczba osób, dla których to ulubiony gatunek |
obyczajowy |
36 |
westerny |
12 |
horrory |
18 |
komedie |
30 |
przyrodnicze |
24 |
W księgarni uczelnianej przeprowadzono losowe badania wydatków na książki 40 studentów w wybranym dniu i otrzymano następujące wyniki (w zł.)
4,04; 4,37; 4,68; 4,98; 5,36; 5,80; 5,96;
6,20; 6,47; 6,57; 6,75; 6,96; 6,96; 7,22; 7,38; 7,44; 7,54; 7,54; 7,54; 7,92; 7,99;
8,01; 8,30; 8,42; 8,78; 8,88; 8,96; 9,00; 9,16; 9,55; 9,59; 9,80; 9,82; 9,84; 9,95;
10,22; 10,71; 11,07; 11,50; 11,98.
Zbiorowość statystyczną stanowią studenci
Jednostkę statystyczną stanowi student
Charakter badania - częściowy
Cechę statystyczną podlegającą badaniu stanowi wydatek na książki w wybranym dniu.
Rodzaj badanej cechy - ilościowa ciągła.
Szereg rozdzielczy z przedziałami klasowymi
Przedział wydatków |
Liczba studentów w tym przedziale |
4-6 zł |
7 |
6-8 zł |
14 |
8-10 zł |
14 |
10-12 |
5 |
Zadanie 2. Na podstawie danych na temat struktury ludności według wieku w wybranych państwach (w poniższej tablicy znajdują się wskaźniki struktury (w %) obliczone na podstawie danych z roku 2009):
- ocenić, które z w/w państw są do siebie najbardziej podobne pod względem struktury według wieku,
- wyznaczyć odpowiednie miary położenia i na ich podstawie porównać przeciętny wiek w w/w państwach.
Wiek Kraj |
0-19 |
20-39 |
40-64 |
65+ |
Polska |
22,16 |
31,05 |
33,3 |
13,49 |
Luksemburg |
21,49 |
25,23 |
40,75 |
12,52 |
Norwegia |
23 |
24 |
40 |
13 |
Austria |
19,19 |
24,52 |
41,26 |
15,03 |
Ukraina |
23,31 |
28,49 |
32,66 |
15,53 |
Indie |
45,22 |
30,99 |
19,01 |
4,78 |
Wiek |
Polska |
Luksemburg |
Min. wskaźnik podobieństwa |
0-19 |
22,16 |
21,49 |
21,49 |
20-39 |
31,05 |
25,23 |
25,23 |
40-64 |
33,3 |
40,75 |
33,3 |
65+ |
13,49 |
12,52 |
12,52 |
|
|
|
92,54 |
Wiek |
Polska |
Norwegia |
Min. wskaźnik podobieństwa |
0-19 |
22,16 |
23 |
22,16 |
20-39 |
31,05 |
24 |
24 |
40-64 |
33,3 |
40 |
33,3 |
65+ |
13,49 |
13 |
13 |
|
|
|
92,46 |
Wiek |
Polska |
Austria |
Min. wskaźnik podobieństwa |
0-19 |
22,16 |
19,19 |
19,19 |
20-39 |
31,05 |
24,52 |
24,52 |
40-64 |
33,3 |
41,26 |
33,3 |
65+ |
13,49 |
15,03 |
13,49 |
|
|
|
90,05 |
Wiek |
Polska |
Ukraina |
Min. wskaźnik podobieństwa |
0-19 |
22,16 |
23,31 |
22,16 |
20-39 |
31,05 |
28,49 |
28,49 |
40-64 |
33,3 |
32,66 |
32,66 |
65+ |
13,49 |
15,53 |
13,49 |
|
|
|
96,80 |
Wiek |
Polska |
Indie |
Min. wskaźnik podobieństwa |
0-19 |
22,16 |
45,22 |
22,16 |
20-39 |
31,05 |
30,99 |
30,99 |
40-64 |
33,3 |
19,01 |
19,01 |
65+ |
13,49 |
4,78 |
4,78 |
|
|
|
76,94 |
Wiek |
Luksemburg |
Indie |
Min. wskaźnik podobieństwa |
0-19 |
21,49 |
45,22 |
21,49 |
20-39 |
25,23 |
30,99 |
25,23 |
40-64 |
40,75 |
19,01 |
19,01 |
65+ |
12,52 |
4,78 |
4,78 |
|
|
|
70,51 |
Wiek |
Norwegia |
Indie |
Min. wskaźnik podobieństwa |
0-19 |
23 |
45,22 |
23 |
20-39 |
24 |
30,99 |
24 |
40-64 |
40 |
19,01 |
19,01 |
65+ |
13 |
4,78 |
4,78 |
|
|
|
70,79 |
Wiek |
Austria |
Indie |
Min. wskaźnik podobieństwa |
0-19 |
19,19 |
45,22 |
19,19 |
20-39 |
24,52 |
30,99 |
24,52 |
40-64 |
41,26 |
19,01 |
19,01 |
65+ |
15,03 |
4,78 |
4,78 |
|
|
|
67,50 |
Wiek |
Ukraina |
Indie |
Min. wskaźnik podobieństwa |
0-19 |
23,31 |
45,22 |
23,31 |
20-39 |
28,49 |
30,99 |
28,49 |
40-64 |
32,66 |
19,01 |
19,01 |
65+ |
15,53 |
4,78 |
4,78 |
|
|
|
75,59 |
Wiek |
Ukraina |
Luksemburg |
Min. wskaźnik podobieństwa |
0-19 |
23,31 |
21,49 |
21,49 |
20-39 |
28,49 |
25,23 |
25,23 |
40-64 |
32,66 |
40,75 |
32,66 |
65+ |
15,53 |
12,52 |
12,52 |
|
|
|
91,90 |
Wiek |
Ukraina |
Norwegia |
Min. wskaźnik podobieństwa |
0-19 |
23,31 |
23 |
23 |
20-39 |
28,49 |
24 |
24 |
40-64 |
32,66 |
40 |
32,66 |
65+ |
15,53 |
13 |
13 |
|
|
|
92,66 |
Wiek |
Ukraina |
Austria |
Min. wskaźnik podobieństwa |
0-19 |
23,31 |
19,19 |
19,19 |
20-39 |
28,49 |
24,52 |
24,52 |
40-64 |
32,66 |
41,26 |
32,66 |
65+ |
15,53 |
15,03 |
15,03 |
|
|
|
91,40 |
Wiek |
Luksemburg |
Norwegia |
Min. wskaźnik podobieństwa |
0-19 |
21,49 |
23 |
21,49 |
20-39 |
25,23 |
24 |
24 |
40-64 |
40,75 |
40 |
40 |
65+ |
12,52 |
13 |
12,52 |
|
|
|
98,01 |
Wiek |
Norwegia |
Austria |
Min. wskaźnik podobieństwa |
0-19 |
23 |
19,19 |
19,19 |
20-39 |
24 |
24,52 |
24 |
40-64 |
40 |
41,26 |
40 |
65+ |
13 |
15,03 |
13 |
|
|
|
96,19 |
Odp. Pod względem struktury wieku najbardziej podobne są do siebie Luksemburg i Austria
Nie można obliczyć średniej arytmetycznej, gdyż przedział jest otwarty.
Dominanta
Polska - brak dominanty.
Luksemburg: dominanta 40,75 - wiek 40-64
Norwegia: dominanta 40 - wiek 40-64
Austria: dominanta 41,26 - wiek 40-64
Ukraina: dominanta 32,66 - wiek 40-64
Indie: dominanta 45,22 - wiek 0-19
Zadanie 3. Badano, ile książek posiadają w domowych biblioteczkach mieszkańcy pewnego bloku i otrzymano dane:
5, 17, 18, 25, 27, 45, 47, 48, 50, 50, 52, 53, 58, 60, 61, 62, 65, 75, 75, 80, 1125.
Wybierając odpowiednie miary wyznaczyć ile przeciętnie książek mają w swych biblioteczkach mieszkańcy tego bloku.
Średnia arytmetyczna: Nie można obliczyć przy skrajnie różnych wartościach.
Mediana: Liczba dziesiąta stanowi medianę w szeregu 21 liczb - czyli 50. Zatem 50% mieszkańców posiada 50 lub mniej książek w domowych biblioteczkach, a 50% - 50 i więcej książek.
Dominanta: Brak liczby występującej najczęściej.
Zadanie 4. W firmie marketingowej „Dundy” przebadano pracowników ze względu na wiek i otrzymane wyniki zebrano w tabeli.
Obliczyć przeciętny wiek pracownika, medianę, dominantę. Odpowiednio zinterpretować otrzymane wyniki.
Wiek pracowników |
Liczba pracowników |
|
20-25 |
4 |
|
25-30 |
16 |
|
30-35 |
28 |
|
35-40 |
40 |
|
40-45 |
8 |
|
45-50 |
4 |
|
(Źródło: dane umowne)
Średnia arytmetyczna
Wiek pracowników |
Liczba pracowników |
Średnia wartość w przedziale |
|
20-25 |
4 |
20 + 25 = 45 : 2 = 22,5 |
4 x 22,5 = 90 |
25-30 |
16 |
25 + 30 = 55 : 2 = 27,5 |
16 x 27,5 = 440 |
30-35 |
28 |
30 + 35 = 65 : 2 = 32,5 |
28 x 32,5 = 910 |
35-40 |
40 |
35 + 40 = 75 : 2 = 37,5 |
40 x 37,5 = 1500 |
40-45 |
8 |
40 + 45 = 85 : 2 = 42,5 |
8 x 42,50 = 340 |
45-50 |
4 |
45 + 50 = 95 : 2 = 47,5 |
4 x 47,5 = 190 |
|
100 |
|
Razem: 3470 |
3470 : 100 = 34,70
Średni wiek pracownik wynosi 35 (34,7) lat.
Mediana
Wiek pracowników |
Liczba pracowników |
|
|
20-25 |
4 |
(1-4) |
|
25-30 |
16 |
(5-20) |
|
30-35 |
28 |
(21-48) |
|
35-40 |
40 |
(49-88) M D |
|
40-45 |
8 |
(89-96) |
|
45-50 |
4 |
(97-100) |
|
|
100 |
|
|
NME = 100 : 2 - 50 liczba w szeregu znajduje się w przedziale
40-35 5 1
Me = 35 + --------------- (50 - 28) = 35 + ------- x 22 = 35 + ---- x 22 = 37,75
40 40 8
Połowa badanej grupy ma 38 (37,75) lub mniej lat, a połowa więcej.
Dominanta
40 -28
D = 4 + -------------------- X 40 -35
40-28 + 40 -
Zadanie 6. Badano czas dojazdu do pracy pracowników dwóch firm A i B i otrzymano następujące dane:
Czas dojazdu (w minutach) |
Liczba pracowników |
|
|
|
|
|
firmy A |
firmy B |
|
|
|
0-10 |
45 |
110 |
|
|
|
10-20 |
60 |
85 |
|
|
|
20-30 |
190 |
80 |
|
|
|
30-40 |
45 |
65 |
|
|
|
40-50 |
10 |
20 |
|
|
|
(Źródło: dane umowne)
Obliczając wartość odpowiedniego parametru,
a) ocenić, czy pod względem czasu dojazdu do pracy istnieje duże podobieństwo w zbadanych grupach pracowników tych firm.
b) ocenić, czy dla pracowników każdej z firm można wyznaczyć dominantę czasu dojazdu do pracy i jeśli tak, to obliczyć jej wartość i podać interpretację
Wskaźnik podobieństwa
Czas dojazdu (w minutach) |
Liczba pracowników |
Wskaźnik podobieństwa |
|
|
|
|
firmy A |
firmy B |
|
|
|
0-10 |
45 0,13 |
110 0,30 |
0,13 |
|
|
10-20 |
60 0,17 |
85 0,24 |
0,17 |
|
|
20-30 |
190 0,54 |
80 0,22 |
0,22 |
|
|
30-40 |
45 0,13 |
65 0,18 |
0,13 |
|
|
40-50 |
10 0,03 |
20 0,06 |
0,03 |
|
|
|
350 |
360 |
0,68 |
|
|
W firmie A dominantą jest przedział 20-30
190 - 60
D = 20 + ----------------------- x 30-20 = 24,72
190-60 + 190 - 45
W firmie B dominantą jest przedział 0-10 - dominanta niemożliwa do obliczenia.
31.10.2010 r.
Miary zróżnicowane depresji rozproszone
Miary klasyczne oparte na średnich:
Rozstęp szeregu
R = XMAX - XMIN - wrażliwa na skrajne wartości.
R = 50 - 0 = 50
Różnica pomiędzy dojazdem najkrótszym i najdłuższym wynosi 50 minut.
Odchylenie standardowe
Σ(Xi - X)2 x hi
S = pierwiastek z ----------------------
N
(środek przedziału minus średnia)2
(5-23)2 x 45 = 0,032 x 45 = 324 I przedział x 45
(15-23)2 x 60 = 64 x 60 = 3840 II p. x 60
(25-23)2 x 190 = 4 x 190 = 760 III p. x 190
(35-23)2 x 45 = 144 x 45 = 6480 IV p. x 45
(45-23)2 x 17 = 8228 V p. x 17
Razem: 33888
S = pierwiastek z 33888 : 357 = 9,74
Czas dojazdu poszczególnych pracowników odchyla się od średniej o 9,74.
Współczynnik zmienności:
VS = S : X x 100 = 9,74 : 23 x 100 = 42% średniej.
X - S < XTYP < X + S
23-9,74 < XTYP < 23 + 9,74
13,26 < XTYP < 32,74
Analiza asymetrii
Bierzemy rozkład liczebności poszczególnej zbiorowości, histiogram - graficzny zapis
Szereg asymetryczny na lewo lub prawostronny - skośność dodatnia lub ujemna. Asymetria jest lewostronna, gdy D jest po prawej stronie od średniej arytmetycznej - ujemny.
Współczynnik asymetrii
X - D
AS = ------------
S
AS = 23-24,7 : 9,74 = -0,176 ≈ -0,18
Jeśli AS jest bliski zeru to szereg jest symetryczny. Szereg jest lekko asymetryczny w lewą stronę lub zbliżony do symetrycznego.
D > X
Spółka budowlana oddała do użytku trzy bloki mieszkalne, struktura lokali mieszkalnych była następująca.
Blok |
Liczba mieszkań |
Średnia (X) |
Odchylenie (S) |
Dominanta (D) |
I blok |
20 |
52 m2 |
5 m2 |
50 m2 |
II blok |
35 |
60 m2 |
10,6 m2 |
65 m2 |
III blok |
20 |
75 m2 |
11,2 m2 |
73 m2 |
|
75 |
187 |
|
|
Wyznaczyć średnią powierzchni mieszkań łącznie. Porównać zróżnicowanie i asymetrię powierzchni mieszkań w poszczególnych blokach.
Ad. 1
Xi x Ni 52 x 20 + 60 x 35 + 75 x 20
średnia wyważona (X) = ------------- = -------------------------------------
N 20 + 35 + 20
1040 + 2100 + 1500
-------------------------- = 4640 : 75 ≈ 61,87
75
Ad. 2
Współczynnik odchylenia
5 : 52 = 0,096
10,6 : 60 = 0,176
11,2 : 75 = 0.149
Asymetria:
X - D 52-50
----------- = -------------- = 2 : 5 = 0,4
5 5
60-65
-------- = -0,47
10,6
75-73
-------- = 0,18
11,2
II Większość osób mieszka w mieszkaniach większych niż średnia.
I. Większość osób mieszka w mieszkaniach mniejszych niż średnia.
28.11.2010 r.
Na podstawie analizy struktury wydatków gospodarstw domowych ustalono wydatki na żywność, mają rozkład normalny, z wartością oczekiwana 620 zł na osobę miesięcznie i odchyleniem standardowym 300 zł. Jakie jest prawdopodobieństwo, że wydatki na żywność u losowo zapytanej osoby:
nie przekroczą 650 zł,
przekroczą 650 zł,
będą z przedziału od 550 do 650 zł.
sigma - odchylenie standardowe rozkładu przy zbiorowości generalnej
X ~ N(µ, δ- sigma)
P(x < t) = F(t) - dystrubuanta zmiennej losowej.
Pole nad całą krzywą jest równe 1, bo każda zapytana osoba coś na żywność wydaje. Połowa pola jest równa 0,5.
Zmienna losowa o rozkładzie standardowym
T ~ N(0,1)
a)
x - 620 650 - 620
P(x < 650) --------- > -----------
300 300
P(T<0,1)
F(0,1) = 0,5398 (z tablic) ≈ 0,54 = 54%
Prawdopodobieństwo, że wydają mniej niż 650 zł wynosi 54%.
b)
P(x > 650) 1 - 0,54 = 0,46.
c)
P(550 < x < 650)
Standaryzujemy
P = 550 - 620/300 < x - 620/300 < 650 - 620/300)
P (-0,23 < T < 0,1)
Ponieważ w tablicach nie ma liczb ujemnych, poprzez analogię przenosimy kawałek do odjęcia.
F(0,1) - (1 - F (0,23))
0,54 - (1 - 0,59 - liczba z tablic) = 0,54 - 0,41 = 0,13
Prawdopodobieństwo wynosi 13%.
HIPOTEZY STATYSTYCZNE
Na podstawie badania 400 losowo wybranych gospodarstw stwierdzono, że średnie wydatki w tej grupie wynoszą 650 zł na osobę, ze współczynnikiem zmienności równym 46%. Czy na podstawie powyższych danych, zakładając prawdopodobieństwo popełnienia błędu I rodzaju na poziomie 0,01 można uznać, że średnie wydatki na żywność ogółu gospodarstw przekraczają 620 zł? Przy jakim poziomie istotności podjęta decyzja weryfikacyjna ulegnie zmianie?
x = 650 zł α = 0,01 (poziom istotności), Vs = 46% N = 400 (próba duża).
Vs = s/x * 100% → s = Vs * x/100% = 46% * 650/100 = 299
s = 299.
I. Zapisanie hipotez:
H0: µ = 620
H1: µ > 620
II. Ustalenie sprawdzianu testu
Wzór sprawdzianu hipotezy o równości testu - próba duża.
U = x-µ0/s * √n = 650 - 620/299 * √400 = 30/299 * √400 = 2,006
Rozkład normalny przy założeniu H0.
P(µ > µα) = α
P(µ > µα) = 1 - α = 0,99.
µα = (z tablic) = 2,33
Obszar krytyczny = (2,33, +∞).
Wartość 2 nie wpada do obszaru krytycznego, a zatem nie ma podstaw do odrzucenia hipotezy zerowej, co nie znaczy, że ją przyjmujemy.
III. Obliczenie poziomu istotnego, gdy 2 wpada do obszaru krytycznego.
P(µ > 2) = α
P(µ > 2) 1 - α.
1 - α = 0,9772 (z tablic)
α = 0,00228
Prawdopodobieństwo, że 2 wpadnie do obszaru krytycznego wynosi 2,28%.
Dyrekcja pewnej firmy podała do ogólnej wiadomości pracowników, że średnie wynagrodzenie brutto wszystkich pracowników w ubiegłym roku wyniosło 3.650 zł. Pracownicy podejrzewają, że podana informacja jest nieprawdziwa. Zebrali dane o wynagrodzeniach 17 pracowników. Po wykonaniu odpowiednich obliczeń doszli do wniosku, że średnie wynagrodzenie w tej grupie było równe 3.348 zł, a odchylenie standardowe wynosiło 596 zł. Na poziomie istotności 0,05 zweryfikować słuszność podejrzenia o nieprawdziwości informacji podanej przez dyrekcję. Należy przyjąć, że założenie o normalności rozkładu zmiennej losowej określającej wysokość wynagrodzenia.
Dane:
x = 3348, µ0 = 3650, s = 596, n = 17 (próba mała), α = 0,05,
niewiadoma - zmienna losowa ok. wynagrodzenie, x ~ N(µ, δ).
I. H0 µ = 3650
H1 µ ≠ 3650
II. Przy próbie małej:
T = x - µ/s * √n-1 = 3348 - 3650/596 * √17-1
T = - 2,03
Przy H0 T-Studenta
P(\t\ > tα) = α - z tablic T-Studenta
P(t < - tα) + P(t > tα) = α
α = 0,05, k = 16
Szukamy z tablic 16 + 0,05
tα = 2,12 - nie wpada do obszaru krytycznego 2,03, przy:
H0 µ = 3650
H1 µ < 3650
Obszar krytyczny wtedy jest jednostronny
2α = 0,1, k = 16 - z tablic
tα = 17,46
Obszar krytyczny (-∞, - 1,746)
Wartość 2,03 nie wpada do obszaru krytycznego.
Dalszy ciąg ćwiczeń podany podczas wykładu w dniu 11.12.2010 r.
Zadanie 1: Zakłada się, że mężczyźni mają większe zdolności do przedmiotów ścisłych niż kobiety. Postanowiono to zbadać. Wśród studentów I roku pewnej uczelni w wylosowanych próbach liczących po 10 studentów i studentek średnia ocena z matematyki wśród studentów była równa 3,13 przy odchyleniu standardowym 0,67. Natomiast wśród studentek średnia ocena wynosiła 3,32 z odchyleniem standardowym 0,42. Zweryfikować pogląd na poziomie istotności 0,1. Należy założyć, że rozkłady ocen z matematyki studentów i studentek są normalne z jednakowym odchyleniem standardowym.
Dane:
x1 = 3,13, s1 = 0,6, x2 = 3,32, s2 = 0,42, rozkład normalny, odchylenie takie samo.
Skoro n1 = 10 i n2 = 10 - to są to próby małe.
H0: m1(µ1) = m2 (µ2)
H1: m1(µ1) > m2 (µ2)
Dane empiryczne (patrz średnia ocen) zaprzeczają H1. Nie można jej potwierdzić, bo:
x2 > x1
Sprawdzamy więc, czy przeciwna hipoteza jest zasadna:
H1: m1(µ1) < m2 (µ2)
x1 - x2
T =---------------------------------
√n1(s1)2 + n2(s2)2/n1 + n2 - 2, gdzie „n1 + n2 - 2” - to wartość k
3,13 - 3,32 - 0,19
T = ------------------------------------------------- = --------------- = - 0,32
√10 * (0,67)2 + 10 * (0,42)2/10 + 10 - 2 √0,253 : 18
Obszar krytyczny (jest obszarem odrzucenia hipotezy zerowej)
2 * α= 0,1 x 2 = 0,2 |
|
K = n1 + n2 - 2= 18 |
|
Szukamy z tablic T-Studenta → wartość 1,33
Zatem obszar krytyczny jest w przedziale: (- ∞, - 1,33)
Wniosek: Liczba -0,32 nie wpada do obszaru krytycznego, zatem brak jest podstaw do odrzucenia hipotezy zerowej.
Zadanie 2: Na 800 zbadanych pacjentów 320 miało grupę krwi „0”. Na poziomie istotności 0,001 zweryfikować hipotezę, że odsetek pacjentów tego szpitala wynosi 35%.
Dane: n = 800, α = 0,001
P = k/n, gdzie:
P - to wskaźnik struktury zbiorowości generalnej;
k - to liczba jednostek ze zbiorowości próby charakteryzująca się określonym wariantem cechy
n - to liczebność zbiorowości próbnej.
k = 320, n = 800
Hipotezy:
P0 = 35%
H0: P = 0,35 (p = p0)
H1: P ≠ 0,35 (p ≠ p0)
wzór nr 30:
k/n - p0 320/800 - 0,35
U = ----------------------- = ----------------------------------- = 2,89
√k/n (1 - k/n) : n √320/800 (1 - 320/800) : 800
Obszar krytyczny:
Gdy jest różne od H0, obszar mamy dwustronny
Zatem:
1 - α/2 = 1 - 0,001/2 = 1 - 0,0005 = 0,9995
Szukamy tej wartości w tablicach, najbliżej jest liczba 3,29
Obszar krytyczny: (- ∞, - 3,29) v (3,29, + ∞)
Wniosek: Liczba 2,89 nie wpada do obszaru krytycznego, a przez to na tym poziomie istotności, brak jest podstaw do odrzucenia hipotezy zerowej.
Czy odpowiedź się zmieni, jeżeli przyjmiemy poziom istotności jako α = 0,01?
1 - α/2 = 1 - 0,01/2 = 1 - 0,005 = 0,995 - z tablic to liczba 2,58
Obszar krytyczny: (- ∞, - 2,58) v (2,58, + ∞)
Zatem przy poziomie istotności 0,01 liczba 2,89 wpada w obszar krytyczny, co wyklucza hipotezę zerową.
Zadanie 3: Wysunięto przypuszczenie, że palących kobiet jest stosunkowo mniej niż mężczyzn. W celu sprawdzenia tej hipotezy wylosowano 500 kobiet i 600 mężczyzn. Okazało się, że wśród kobiet było 200 palących, a wśród mężczyzn 250. Na poziomie istotności 0,05 zweryfikować hipotezę:
Dane: x1 ~ K, x2 ~ M, n1 = 500, k1 = 200, n2 = 600, k2 = 250, α = 0,05
H0: P1 = P2
H1: P1 < P2
Szukamy obszaru krytycznego:
Jednostronny lewostronny, więc: 1 - α
1 - α = 0,95 z tablic:1,65.
Obszar krytyczny: (-∞, -1,65)
200/500 - 250/600
U = ----------------------------------------------------------------------------------------- =- 0,56
√200 + 250/500 + 600 (1 - 200 + 250/500 + 600) / 500 * 600/ 500 + 600
Wniosek: Wartość U (- 0,56) nie wpada do obszaru krytycznego. Nie ma więc podstaw do odrzucenia hipotezy zerowej. Dane nie wskazują na to, że istnieje różnica pomiędzy odsetkiem palących kobiet i odsetkiem palących mężczyzn.
ĆWICZENIA Z DNIA 12.12.2010 r.
ESTYMACJA PRZEDZIAŁOWA WARTOŚCI ŚREDNIEJ
Przykład 1: Próba mała, nie znamy odchylenia
Dane: n ≤ 30, x ~ n(µ, δ), δ = ?
P: x - tα1n-1 * s/√n-1 < µ < x + t α1n-1 * s/√n-1 = 1 - α, gdzie:
µ, to przedział ufności
x - tα1n-1 * s/√n-1 - dolna granica przedziału
x - tα1n-1 * s/√n-1 - górna granica przedziału
tα1n-1 - to maksymalny błąd oszacowania (d)
Nieznana szacowana wartość średnia w zbiorowości generalnej
1- α - poziom ufności
P - prawdopodobieństwo
Prawdopodobieństwo, że wartość parametru µ w zbiorowości generalnej znajduje się w wyznaczonym przedziale ufności wynosi 1 - α.
x - estymator punktowy wartości średniej (średnia arytmetyczna)
s - estymator punktowy odchylenia standardowego
n - liczebność zbiorowości próbnej
tα1n-1 - wartość odczytana z tablic T-Studenta dla ustalonego poziomu ufności 1 - α i liczby stopni swobody k: n - 1.
Wzór nr 20
Próba duża n > 30
x - uα * s/√n < µ < x + uα * s/√n, gdzie
uα, to wartość odczytana z tablic układu normalnego, wiedząc, że dystrybuanta (F (uα) = 1 - α/2) jest równa 1 - α/2.
Wzór 23
Estymacja przedziałowa wskaźnika struktury, czyli przedziału ufności.
n > 100
20