Satystyka- ćwiczenia, I semstr

03.10.2010 r.

Zadanie 1

Przeprowadzono minibadanie statystyczne. Zapytano 31 studentów kierunku socjologia o liczbę rodzeństwa i ilość czasu spędzanego na powietrzu w tygodniu.

Określić zbiorowość statystyczną
Określić jednostkę statystyczną
Określić badaną cechę statystyczna i jej rodzaj.

Ad. 1 Studenci socjologii z II grupy w dniu 03.10.2010 r.

Ad. 2 Jeden student socjologii z II grupy w dniu 03.10.2010 r.

Ad. 3 Liczba rodzeństwa i ilość czasu spędzanego na świeżym powietrzu w tygodniu.

4 Szereg statystyczny - uporządkowanie ciągu informacji o badanych jednostkach statystycznych względem konkretnej cechy.

1. Cecha - liczba rodzeństwa

Dane: 1 3 2 0 1 3 0 3 1 0 1 2...

Szereg szczegółowy, gdzie x to wartość cechy x₁ x₂ x₃...x_N

x_i - wartość cechy i tej jednostki

N - liczba jednostki badanej w zbiorowości

Uporządkować szereg rosnąco

0, 0, 0, 1, 1, 2, 2, 3, 3..

Taką metodę obieramy tylko przy małej liczbie zbiorowości

Szereg rozdzielczy - punktowy (przy małej ilości wariantów cechy)

XN	Ni
X1	N1
X2	N2
XK	NK

Gdzie K - liczba wariantów

Ni - liczba jednostek charakteryzujących się tym wariantem cechy (np. jeśli 3 osoby wymieniły ten sam wariant to Ni = 3)

Σ^KNi = N, gdzie Σ to - suma

i=1

Liczba rodzeństwa	Liczba studentów z tą cechą
0	4
1	17
2	7
3	3

2. Cecha druga - ilość godzin w tygodniu spędzana na świeżym powietrzu

Szereg szczegółowy:

20 30 35 25 28 33 ....

Uporządkowanie

3 7 9 10 10 10 10 14 15 15....

Przy tak dużej ilości wariantów szereg rozdzielczy punktowy nie jest efektywny. Lepszy jest szereg rozdzielczy z przedziałami klasowymi.

X₀-X_i1	N_i
X₁₀-X_2,1	N₁
X₁₀-X_3,1	N₂
X_K₀-X_N,1	N_K

X_i1-X₀ = h, gdzie h to rozpiętość przedziału

X₀- górna granica tego przedziału

X_i1- górna granica

K - liczba przedziałów

Ilość czasu	Liczba studentów z taką cechą
3-13	8
13-23	10
23-33	7
33-43	3
43-53	1
53-63	1
63-73	1

31!

lub

Ilość czasu	Liczba studentów z taką cechą
0-10	8
10-20	9
20-30	6
30-40	5
Pow. 40	3

31!

Zadanie nr 2

Zapytano losowo wybranych mieszkańców Krakowa, Olsztyna i Poznania o ulubione miejsce na wakacje. Określić zbiorowość statystyczną, jednostkę statystyczną, badaną cechę, rodzaj cechy i rodzaj badania statystycznego.

Mamy 3 zbiorowości: mieszkańcy Krakowa, mieszkańcy Olsztyna i mieszkańcy Poznania.
Mamy 3 jednostki zbiorowości: mieszkańca Krakowa, mieszkańca Olsztyna i mieszkańca Poznania.
Badaną cechą będzie preferencja miejsca wakacji.
Rodzaj cechy - niezmierzalny.
Badanie częściowe.

Miejsce wakacji	Mieszkańcy Krakowa	Mieszkańcy Olsztyna	Mieszkańcy Poznania
Góry	65	30	50
Morze	50	90	110
Jeziora	45	85	35
Wieś	30	35	95
Ilość badanych mieszkańców	190	240	485

Jaki jest procent zbiorowości charakteryzuje się określoną cechą?

W_i - wskaźnik struktury cechy

W₁ = ni/n

Jaki jest procent Krakowa dla gór?

65/190 = 0,34 = 34%

34% mieszkańców Krakowa preferuje góry

Jaki jest procent Krakowa dla morze?

50/190 = 0,26 = 26%

26% mieszkańców Krakowa preferuje morze

Jaki jest procent Krakowa dla jeziora?

45/190 = 0,24 = 24%

24% mieszkańców Krakowa preferuje jeziora

Jaki jest procent Krakowa dla wsi?

30/190 = 0,16 = 16%

16% mieszkańców Krakowa preferuje wieś

Wskaźnik podobieństwa struktur

Porównujemy zbiorowość Krakowa i Olsztyna

W_p = Σ^K min (wi ⁽¹⁾, w1 ⁽²⁾).

i=1

Wskaźnik Krakowa	Wskaźnik Olsztyna	Minimalny wskaźnik
34%	0,125	0,125
26%	0,375	0,26
24%	0,354	0,24
16%	0,146	0,146

0,771 - wskaźnik podobieństwa

Wskaźnik podobieństwa <0,1)

Im większa wartość, tym większy wskaźnik podobieństwa

Sprawdzić, które z miast są do siebie najbardziej podobne z punktu widzenia preferencji wakacyjnej

Wskaźnik Krakowa	Wskaźnik Poznania	Minimalny wskaźnik
34%	0,172	0,172
26%	0,379	0,26
24%	0,120	0,120
16%	0,327	0,16

Wskaźnik 0,712

Wskaźnik Olsztyna	Wskaźnik Poznania	Minimalny wskaźnik
0,125	0,172	0,125
0,375	0,379	0,375
0,354	0,120	0,120
0,146	0,327	0,146

Wskaźnik 0,766

Wskaźnik podobieństwa

Olsztyn-Kraków

0,771

Wskaźnik podobieństwa

Poznań-Olsztyn

0,766

Wskaźnik podobieństwa

Kraków-Poznań

0,712

Największy wskaźnik podobieństwa jest przy porównaniu Krakowa i Olsztyna - 0,771

17.10.2010 r.

Miary syntetyczne

Ćwiczenie 1:

Przeciętne miesięczne wynagrodzenie brutto Polaka w II kwartale 2010 r. wynosi 3.197,85 zł.

Ta wartość to średnia arytmetyczna.

X - symbol średniej arytmetycznej

Pojęcie mediana

_________________________________________________________

-------------------------------------I------------------------------------------------

X_min 50% 50% X_max

Pojęcie dominanty - najczęściej występująca wartość w podanych wariantach

Ćwiczenie 2

Ad. ćwiczenia z poprzednich zajęć - ilość czasu, jaką spędza student w ciągu tygodnia na świeżym powietrzu:

Szereg szczegółowy

3, 7, 9, 10, 10, 10, 10, 10, 14, 15, 15, 17, 18, 18, 20, 20, 20, 21, 25, 27, 28, 30, 30, 31, 33, 34, 35, 35, 46, 60, 77

Obliczanie średniej arytmetycznej

ΣX1Xi

i = 1

-------- = 3 + 7 + 9... +72 : 31 = 733 : 31 = 23,65

Odp. W badanej gr. studentów średnia ilość czasu na świeżym powietrzu to 23,65 h.

Uwaga: średnia arytmetyczna jest wartością teoretyczną i nie musi się pokrywać z żadnym wariantem cechy.

Mediana

Obserwacja nr 16 stanowi medianę w podanym szeregu (jego środkową wartość) z 31 wartości - jest więc liczba 20.

Co oznacza, że 50% grupy spędza 20 h i mniej na świeżym powietrzu, a druga grupa 20 h i więcej czasu.

Dominanta

Wyznaczamy dla szeregu rozdzielczego i szukamy cechy występującej najczęściej (dominującej) - patrz dane z przykładu ilości rodzeństwa z poprzednich zajęć.

l. rodzeństwa l. studentów z tą cechą

0 4

1 17

2 7

3 3

Wnioski: Największa liczba studentów ma jedno rodzeństwo (po polsku 1 brata lub 1 siostrę) - 17. Dominantą jest więc wariant 1 (1 rodzeństwo). D = 1

Mediana dla tego samego przykładu

l. rodzeństwa l. studentów z tą cechą N_SK

0 4 4 (od 1 studenta do 4)

1 17 21 (od 5 do 21 studenta) - 16!

2 7 28 (od 22 do 28 studenta)

3 3 31 (od 29 do 31 studenta)

Wnioski. Wiedząc, że w szeregu z 31 cech, szesnasta stanowi medianę znajdujemy ją w przedziale drugim, gdzie wariantem jest jedno rodzeństwo.

N_ME = 16 - środkowa wartość szeregu; M (mediana) = 1 (ilość rodzeństwa)

Zatem 50% studentów ma jedno rodzeństwo lub mniej, a drugie 50% studentów ma jedno rodzeństwo lub więcej.

Obliczanie średniej arytmetycznej - wzór w tablicach

l. rodzeństwa l. studentów z tą cechą

0 4 0 x 4 = 0

1 17 1 x 17 = 17

2 7 2 x 7 = 14

3 3 3 x 3 = 9

Razem: 40

40: 31 = 1,29

W badanej grupie studentów średnio każdy student ma 1 rodzeństwo (1,29)

Szereg klasowy z przedziałami

Ćwiczenie

32 studentów podało, jaką ilość czasu w godzinach w tygodniu spędza na imprezowaniu

Czas na imprezy Liczba studentów z takim wariantem średnia (połowa przedziału) X_i x N_i

0-4 2 2 (1-2) 2 x 2 = 4

4-8 Me, D 14 Nmax 6 (3-16) 14 x 6 = 84

8-12 10 10 10 x 10 = 100

12-16 3 14 3 x 14 = 42

16-20 2 18 2 x 18 = 36

20-24 1 22 1 x 2 = 2

32 Razem: 288

288 : 32 = 9

Wnioski: Studenci z danej grupy średnio spędzają 9 h tygodniowo na imprezowaniu.

Mediana w tym ćwiczeniu

N_ME = 32 : 2 = 16

Zatem mediana będzie w przedziale 4-8 - w tym przedziale jest szesnasta wartość!

h₀

Me = X₀ + --------- (N_ME - N_SK-1)

N₀

, gdzie:

0 - granica mediany

X₀ - dolny przedział mediany

h₀ - rozpiętość przedziału mediany

N₀ - liczebność przedziału mediany

N_SK-1 - liczebność skumulowana przedziału poprzedzającego przedział mediany

8-4

Me = 4 + ------- (16-2) = 8

Połowa badanej grupy na imprezowaniu spędza 8 h lub mniej, a druga połowa 8 h lub więcej.

Dominanta

Uwaga: Mediany nie obliczamy, gdy występuje jeden z poniższych warunków:

- wśród liczebności (Ni) nie występuje jedno wyraźne maximum

- kiedy max liczebności jest w skrajnym przedziale

- kiedy rozpiętości przedziałów sąsiadujących z max liczebności są różne.

N₀ - N-1

D = X₀ + ------------------ x h₀

N₀-N₁ + N₀-1 - N₁

14-2

D = 4 + ------------------ x 8 - 4

14-2 + 14-10

D = 4 + ------------------ x 4

12 + 41

D = 7

Wnioski: W badanej grupie najwięcej osób spędzało na imprezowaniu 7 h.

Kontrola logiczna: x min < X < Xmax

Kontrola średniej arytmetycznej: 0 < 9 < 24

Wynik musi znajdować się w przedziale mediany, tu 4 < Me ≤ 8

Kontrola dominanty: 4 < 7 > 8

Kolejne ćwiczenie - dane z godzin spędzanych na świeżym powietrzu

Czas Liczba studentów z tym wariantem NSK

0-10 8 8

10-20 9 17

20-30 6 23

30-40 5 28

pow. 40 3 31

Średnia arytmetyczna:

Uwaga: Jeżeli jeden z przedziałów jest otwarty nie można technicznie wyliczyć średniej arytmetycznej. Czasem można zamknąć przedział, ale tylko wtedy, jeśli liczba odpowiedzi w tym otwartym przedziale nie przekracza 5% wszystkich wariantów.

Dominanta:

W podanych danych brak wyraźnego maximum wśród liczebności - w takim przypadku dominanta jest nieobliczalna.

Mediana:

Nme = 16

20-10

Me = 10 + ------------ (16-18) = 18,89

50% grupy spędza 19 h lub mniej na powietrzu, a połowa 19 h i więcej.

Zadanie 1. Poniżej opisane zostały pewne badania statystyczne (przykłady: a-d). Dla każdego z tych badań:

określić:

zbiorowość statystyczną,
jednostkę statystyczną,
charakter badania,
cechę statystyczną podlegającą badaniu,
rodzaj badanej cechy.

b) zbudować odpowiedni do danej sytuacji szereg statystyczny i określić jaki to jest szereg.

Przykłady do zadania 1.

Badano czas dojazdu do pracy mieszkańców pewnego osiedla w Łodzi i otrzymano wyniki (w minutach)
18, 21, 15, 37, 40, 15, 30, 25, 29, 5, 25, 18, 29, 32, 18

Zbiorowość statystyczną stanowią mieszkańcy pewnego osiedla w Łodzi

Jednostkę statystyczną stanowi mieszkaniec pewnego osiedla w Łodzi

Charakter badania - częściowy

Cechę statystyczną podlegającą badaniu stanowi czas dojazdu do pracy w min.

Rodzaj badanej cechy - ilościowa ciągła.

Szereg szczegółowy

5, 15, 15, 18, 18, 18, 21, 25, 25, 29, 29, 30, 32, 37, 40.

W 50 osobowej grupie studentów badano liczbę dni w miesiącu przeznaczonych na odpoczynek i otrzymano następujące wyniki:

0, 6, 1, 2, 1, 5, 4, 0, 2, 3, 4, 4, 3, 4, 5, 4, 2, 4, 4, 3, 3, 1, 2, 0, 4, 5, 6, 1, 4, 3, 4, 3, 5, 3, 4, 2, 4, 2, 3, 6, 1, 3, 4, 5, 3, 4, 3, 2, 4, 5.

Zbiorowość statystyczną stanowią studenci

Jednostkę statystyczną stanowi student

Charakter badania - częściowy

Cechę statystyczną podlegającą badaniu stanowi liczba dni w miesiącu przeznaczonych na odpoczynek.

Rodzaj badanej cechy - ilościowa ciągła.

Szereg rozdzielczy punktowy

Liczba dni przeznaczonych na odpoczynek	Liczba studentów z danym wariantem cechy
0	3
1	5
2	7
3	11
4	15
5	6
6	3

W pewnym mieście przeprowadzono badania ulubionych gatunków filmów telewizyjnych i otrzymano następujące dane:

Filmy obyczajowe - 36 osób, westerny - 12 osób, horrory - 18 osób, komedie -30 osób, filmy przyrodnicze - 24 osoby.

Zbiorowość statystyczną stanowią osoby oglądające filmy w pewnym mieście

Jednostkę statystyczną stanowi osoba w pewnym mieście oglądająca filmy

Charakter badania - częściowy

Cechę statystyczną podlegającą badaniu stanowi ulubiony gatunek filmów telewizyjnych.

Rodzaj badanej cechy - jakościowa.

Szereg rozdzielczy punktowy

Ulubiony gatunek filmów	Liczba osób, dla których to ulubiony gatunek
obyczajowy	36
westerny	12
horrory	18
komedie	30
przyrodnicze	24

W księgarni uczelnianej przeprowadzono losowe badania wydatków na książki 40 studentów w wybranym dniu i otrzymano następujące wyniki (w zł.)

4,04; 4,37; 4,68; 4,98; 5,36; 5,80; 5,96;

6,20; 6,47; 6,57; 6,75; 6,96; 6,96; 7,22; 7,38; 7,44; 7,54; 7,54; 7,54; 7,92; 7,99;

8,01; 8,30; 8,42; 8,78; 8,88; 8,96; 9,00; 9,16; 9,55; 9,59; 9,80; 9,82; 9,84; 9,95;

10,22; 10,71; 11,07; 11,50; 11,98.

Zbiorowość statystyczną stanowią studenci

Jednostkę statystyczną stanowi student

Charakter badania - częściowy

Cechę statystyczną podlegającą badaniu stanowi wydatek na książki w wybranym dniu.

Rodzaj badanej cechy - ilościowa ciągła.

Szereg rozdzielczy z przedziałami klasowymi

Przedział wydatków	Liczba studentów w tym przedziale
4-6 zł	7
6-8 zł	14
8-10 zł	14
10-12	5

Zadanie 2. Na podstawie danych na temat struktury ludności według wieku w wybranych państwach (w poniższej tablicy znajdują się wskaźniki struktury (w %) obliczone na podstawie danych z roku 2009):

- ocenić, które z w/w państw są do siebie najbardziej podobne pod względem struktury według wieku,

- wyznaczyć odpowiednie miary położenia i na ich podstawie porównać przeciętny wiek w w/w państwach.

*Wiek* *Kraj*	*0-19*	*20-39*	*40-64*	*65+*
Polska	22,16	31,05	33,3	13,49
Luksemburg	21,49	25,23	40,75	12,52
Norwegia	23	24	40	13
Austria	19,19	24,52	41,26	15,03
Ukraina	23,31	28,49	32,66	15,53
Indie	45,22	30,99	19,01	4,78

Wiek	Polska	Luksemburg	Min. wskaźnik podobieństwa
0-19	22,16	21,49	21,49
20-39	31,05	25,23	25,23
40-64	33,3	40,75	33,3
65+	13,49	12,52	12,52
			92,54

Wiek	Polska	Norwegia	Min. wskaźnik podobieństwa
0-19	22,16	23	22,16
20-39	31,05	24	24
40-64	33,3	40	33,3
65+	13,49	13	13
			92,46
Wiek	Polska	Austria	Min. wskaźnik podobieństwa
0-19	22,16	19,19	19,19
20-39	31,05	24,52	24,52
40-64	33,3	41,26	33,3
65+	13,49	15,03	13,49
			90,05

Wiek	Polska	Ukraina	Min. wskaźnik podobieństwa
0-19	22,16	23,31	22,16
20-39	31,05	28,49	28,49
40-64	33,3	32,66	32,66
65+	13,49	15,53	13,49
			96,80

Wiek	Polska	Indie	Min. wskaźnik podobieństwa
0-19	22,16	45,22	22,16
20-39	31,05	30,99	30,99
40-64	33,3	19,01	19,01
65+	13,49	4,78	4,78
			76,94

Wiek	Luksemburg	Indie	Min. wskaźnik podobieństwa
0-19	21,49	45,22	21,49
20-39	25,23	30,99	25,23
40-64	40,75	19,01	19,01
65+	12,52	4,78	4,78
			70,51

Wiek	Norwegia	Indie	Min. wskaźnik podobieństwa
0-19	23	45,22	23
20-39	24	30,99	24
40-64	40	19,01	19,01
65+	13	4,78	4,78
			70,79

Wiek	Austria	Indie	Min. wskaźnik podobieństwa
0-19	19,19	45,22	19,19
20-39	24,52	30,99	24,52
40-64	41,26	19,01	19,01
65+	15,03	4,78	4,78
			67,50

Wiek	Ukraina	Indie	Min. wskaźnik podobieństwa
0-19	23,31	45,22	23,31
20-39	28,49	30,99	28,49
40-64	32,66	19,01	19,01
65+	15,53	4,78	4,78
			75,59

Wiek	Ukraina	Luksemburg	Min. wskaźnik podobieństwa
0-19	23,31	21,49	21,49
20-39	28,49	25,23	25,23
40-64	32,66	40,75	32,66
65+	15,53	12,52	12,52
			91,90

Wiek	Ukraina	Norwegia	Min. wskaźnik podobieństwa
0-19	23,31	23	23
20-39	28,49	24	24
40-64	32,66	40	32,66
65+	15,53	13	13
			92,66

Wiek	Ukraina	Austria	Min. wskaźnik podobieństwa
0-19	23,31	19,19	19,19
20-39	28,49	24,52	24,52
40-64	32,66	41,26	32,66
65+	15,53	15,03	15,03
			91,40

Wiek	Luksemburg	Norwegia	Min. wskaźnik podobieństwa
0-19	21,49	23	21,49
20-39	25,23	24	24
40-64	40,75	40	40
65+	12,52	13	12,52
			98,01

Wiek	Norwegia	Austria	Min. wskaźnik podobieństwa
0-19	23	19,19	19,19
20-39	24	24,52	24
40-64	40	41,26	40
65+	13	15,03	13
			96,19

Odp. Pod względem struktury wieku najbardziej podobne są do siebie Luksemburg i Austria

Nie można obliczyć średniej arytmetycznej, gdyż przedział jest otwarty.

Dominanta

Polska - brak dominanty.

Luksemburg: dominanta 40,75 - wiek 40-64

Norwegia: dominanta 40 - wiek 40-64

Austria: dominanta 41,26 - wiek 40-64

Ukraina: dominanta 32,66 - wiek 40-64

Indie: dominanta 45,22 - wiek 0-19

Zadanie 3. Badano, ile książek posiadają w domowych biblioteczkach mieszkańcy pewnego bloku i otrzymano dane:

5, 17, 18, 25, 27, 45, 47, 48, 50, 50, 52, 53, 58, 60, 61, 62, 65, 75, 75, 80, 1125.

Wybierając odpowiednie miary wyznaczyć ile przeciętnie książek mają w swych biblioteczkach mieszkańcy tego bloku.

Średnia arytmetyczna: Nie można obliczyć przy skrajnie różnych wartościach.

Mediana: Liczba dziesiąta stanowi medianę w szeregu 21 liczb - czyli 50. Zatem 50% mieszkańców posiada 50 lub mniej książek w domowych biblioteczkach, a 50% - 50 i więcej książek.

Dominanta: Brak liczby występującej najczęściej.

Zadanie 4. W firmie marketingowej „Dundy” przebadano pracowników ze względu na wiek i otrzymane wyniki zebrano w tabeli.

Obliczyć przeciętny wiek pracownika, medianę, dominantę. Odpowiednio zinterpretować otrzymane wyniki.

Wiek pracowników	Liczba pracowników
20-25	4
25-30	16
30-35	28
35-40	40
40-45	8
45-50	4

(Źródło: dane umowne)

Średnia arytmetyczna

Wiek pracowników	Liczba pracowników	Średnia wartość w przedziale
20-25	4	20 + 25 = 45 : 2 = 22,5	4 x 22,5 = 90
25-30	16	25 + 30 = 55 : 2 = 27,5	16 x 27,5 = 440
30-35	28	30 + 35 = 65 : 2 = 32,5	28 x 32,5 = 910
35-40	40	35 + 40 = 75 : 2 = 37,5	40 x 37,5 = 1500
40-45	8	40 + 45 = 85 : 2 = 42,5	8 x 42,50 = 340
45-50	4	45 + 50 = 95 : 2 = 47,5	4 x 47,5 = 190
	100		Razem: 3470

3470 : 100 = 34,70

Średni wiek pracownik wynosi 35 (34,7) lat.

Mediana

Wiek pracowników	Liczba pracowników
20-25	4	(1-4)
25-30	16	(5-20)
30-35	28	(21-48)
35-40	40	(49-88) M D
40-45	8	(89-96)
45-50	4	(97-100)
	100

N_ME = 100 : 2 - 50 liczba w szeregu znajduje się w przedziale

40-35 5 1

Me = 35 + --------------- (50 - 28) = 35 + ------- x 22 = 35 + ---- x 22 = 37,75

40 40 8

Połowa badanej grupy ma 38 (37,75) lub mniej lat, a połowa więcej.

Dominanta

40 -28

D = 4 + -------------------- X 40 -35

40-28 + 40 -

Zadanie 6. Badano czas dojazdu do pracy pracowników dwóch firm A i B i otrzymano następujące dane:

Czas dojazdu (w minutach)	Liczba pracowników
Czas dojazdu (w minutach)		firmy A	firmy B
0-10	45	110
10-20	60	85
20-30	190	80
30-40	45	65
40-50	10	20

(Źródło: dane umowne)

Obliczając wartość odpowiedniego parametru,

a) ocenić, czy pod względem czasu dojazdu do pracy istnieje duże podobieństwo w zbadanych grupach pracowników tych firm.

b) ocenić, czy dla pracowników każdej z firm można wyznaczyć dominantę czasu dojazdu do pracy i jeśli tak, to obliczyć jej wartość i podać interpretację

Wskaźnik podobieństwa

Czas dojazdu (w minutach)	Liczba pracowników		Wskaźnik podobieństwa
Czas dojazdu (w minutach)		firmy A	Wskaźnik podobieństwa	firmy B
0-10	45 0,13	110 0,30	0,13
10-20	60 0,17	85 0,24	0,17
20-30	190 0,54	80 0,22	0,22
30-40	45 0,13	65 0,18	0,13
40-50	10 0,03	20 0,06	0,03
	350	360	0,68

W firmie A dominantą jest przedział 20-30

190 - 60

D = 20 + ----------------------- x 30-20 = 24,72

190-60 + 190 - 45

W firmie B dominantą jest przedział 0-10 - dominanta niemożliwa do obliczenia.

31.10.2010 r.

Miary zróżnicowane depresji rozproszone

Miary klasyczne oparte na średnich:

Rozstęp szeregu

R = X_MAX - X_MIN- wrażliwa naskrajne wartości.

R = 50 - 0 = 50

Różnica pomiędzy dojazdem najkrótszym i najdłuższym wynosi 50 minut.

Odchylenie standardowe

Σ(Xi - X)² x hi

S = pierwiastek z ----------------------

(środek przedziału minus średnia)²

(5-23)² x 45 = 0,032 x 45 = 324 I przedział x 45

(15-23)² x 60 = 64 x 60 = 3840 II p. x 60

(25-23)² x 190 = 4 x 190 = 760 III p. x 190

(35-23)² x 45 = 144 x 45 = 6480 IV p. x 45

(45-23)² x 17 = 8228 V p. x 17

Razem: 33888

S = pierwiastek z 33888 : 357 = 9,74

Czas dojazdu poszczególnych pracowników odchyla się od średniej o 9,74.

Współczynnik zmienności:

V_S = S : X x 100 = 9,74 : 23 x 100 = 42% średniej.

X - S < X_TYP < X + S

23-9,74 < X_TYP < 23 + 9,74

13,26 < X_TYP < 32,74

Analiza asymetrii

Bierzemy rozkład liczebności poszczególnej zbiorowości, histiogram - graficzny zapis

Szereg asymetryczny na lewo lub prawostronny - skośność dodatnia lub ujemna. Asymetria jest lewostronna, gdy D jest po prawej stronie od średniej arytmetycznej - ujemny.

Współczynnik asymetrii

X - D

A_S = ------------

A_S = 23-24,7 : 9,74 = -0,176 ≈ -0,18

Jeśli AS jest bliski zeru to szereg jest symetryczny. Szereg jest lekko asymetryczny w lewą stronę lub zbliżony do symetrycznego.

D > X

Spółka budowlana oddała do użytku trzy bloki mieszkalne, struktura lokali mieszkalnych była następująca.

Blok	Liczba mieszkań	Średnia (X)	Odchylenie (S)	Dominanta (D)
I blok	20	52 m2	5 m2	50 m2
II blok	35	60 m2	10,6 m2	65 m2
III blok	20	75 m2	11,2 m2	73 m2
	75	187

Wyznaczyć średnią powierzchni mieszkań łącznie. Porównać zróżnicowanie i asymetrię powierzchni mieszkań w poszczególnych blokach.

Ad. 1

Xi x Ni 52 x 20 + 60 x 35 + 75 x 20

średnia wyważona (X) = ------------- = -------------------------------------

N 20 + 35 + 20

1040 + 2100 + 1500

-------------------------- = 4640 : 75 ≈ 61,87

Ad. 2

Współczynnik odchylenia

5 : 52 = 0,096

10,6 : 60 = 0,176

11,2 : 75 = 0.149

Asymetria:

X - D 52-50

----------- = -------------- = 2 : 5 = 0,4

5 5

60-65

-------- = -0,47

10,6

75-73

-------- = 0,18

11,2

II Większość osób mieszka w mieszkaniach większych niż średnia.

I. Większość osób mieszka w mieszkaniach mniejszych niż średnia.

28.11.2010 r.

Na podstawie analizy struktury wydatków gospodarstw domowych ustalono wydatki na żywność, mają rozkład normalny, z wartością oczekiwana 620 zł na osobę miesięcznie i odchyleniem standardowym 300 zł. Jakie jest prawdopodobieństwo, że wydatki na żywność u losowo zapytanej osoby:

nie przekroczą 650 zł,
przekroczą 650 zł,
będą z przedziału od 550 do 650 zł.

sigma - odchylenie standardowe rozkładu przy zbiorowości generalnej

X ~ N(µ, δ- sigma)

P(x < t) = F(t) - dystrubuanta zmiennej losowej.

Pole nad całą krzywą jest równe 1, bo każda zapytana osoba coś na żywność wydaje. Połowa pola jest równa 0,5.

Zmienna losowa o rozkładzie standardowym

T ~ N(0,1)

x - 620 650 - 620

P(x < 650) --------- > -----------

300 300

P(T<0,1)

F(0,1) = 0,5398 (z tablic) ≈ 0,54 = 54%

Prawdopodobieństwo, że wydają mniej niż 650 zł wynosi 54%.

P(x > 650) 1 - 0,54 = 0,46.

P(550 < x < 650)

Standaryzujemy

P = 550 - 620/300 < x - 620/300 < 650 - 620/300)

P (-0,23 < T < 0,1)

Ponieważ w tablicach nie ma liczb ujemnych, poprzez analogię przenosimy kawałek do odjęcia.

F(0,1) - (1 - F (0,23))

0,54 - (1 - 0,59 - liczba z tablic) = 0,54 - 0,41 = 0,13

Prawdopodobieństwo wynosi 13%.

HIPOTEZY STATYSTYCZNE

Na podstawie badania 400 losowo wybranych gospodarstw stwierdzono, że średnie wydatki w tej grupie wynoszą 650 zł na osobę, ze współczynnikiem zmienności równym 46%. Czy na podstawie powyższych danych, zakładając prawdopodobieństwo popełnienia błędu I rodzaju na poziomie 0,01 można uznać, że średnie wydatki na żywność ogółu gospodarstw przekraczają 620 zł? Przy jakim poziomie istotności podjęta decyzja weryfikacyjna ulegnie zmianie?

x = 650 zł α = 0,01 (poziom istotności), Vs = 46% N = 400 (próba duża).

Vs = s/x * 100% → s = Vs * x/100% = 46% * 650/100 = 299

s = 299.

I. Zapisanie hipotez:

H₀: µ = 620

H₁: µ > 620

II. Ustalenie sprawdzianu testu

Wzór sprawdzianu hipotezy o równości testu - próba duża.

U = x-µ₀/s * √n = 650 - 620/299 * √400 = 30/299 * √400 = 2,006

Rozkład normalny przy założeniu H₀.

P(µ > µ_α) = α

P(µ > µ_α) = 1 - α = 0,99.

µ_α= (z tablic) = 2,33

Obszar krytyczny = (2,33, +∞).

Wartość 2 nie wpada do obszaru krytycznego, a zatem nie ma podstaw do odrzucenia hipotezy zerowej, co nie znaczy, że ją przyjmujemy.

III. Obliczenie poziomu istotnego, gdy 2 wpada do obszaru krytycznego.

P(µ > 2) = α

P(µ > 2) 1 - α.

1 - α = 0,9772 (z tablic)

α = 0,00228

Prawdopodobieństwo, że 2 wpadnie do obszaru krytycznego wynosi 2,28%.

Dyrekcja pewnej firmy podała do ogólnej wiadomości pracowników, że średnie wynagrodzenie brutto wszystkich pracowników w ubiegłym roku wyniosło 3.650 zł. Pracownicy podejrzewają, że podana informacja jest nieprawdziwa. Zebrali dane o wynagrodzeniach 17 pracowników. Po wykonaniu odpowiednich obliczeń doszli do wniosku, że średnie wynagrodzenie w tej grupie było równe 3.348 zł, a odchylenie standardowe wynosiło 596 zł. Na poziomie istotności 0,05 zweryfikować słuszność podejrzenia o nieprawdziwości informacji podanej przez dyrekcję. Należy przyjąć, że założenie o normalności rozkładu zmiennej losowej określającej wysokość wynagrodzenia.

Dane:

x = 3348, µ₀ = 3650, s = 596, n = 17 (próba mała), α = 0,05,

niewiadoma - zmienna losowa ok. wynagrodzenie, x ~ N(µ, δ).

I. H₀ µ = 3650

H₁ µ ≠ 3650

II. Przy próbie małej:

T = x - µ/s * √n-1 = 3348 - 3650/596 * √17-1

T = - 2,03

Przy H₀ T-Studenta

P(\t\ > t_α) = α - z tablic T-Studenta

P(t < - t_α) + P(t > t_α) = α

α = 0,05, k = 16

Szukamy z tablic 16 + 0,05

t_α = 2,12 - nie wpada do obszaru krytycznego 2,03, przy:

H₀ µ = 3650

H₁ µ < 3650

Obszar krytyczny wtedy jest jednostronny

2α = 0,1, k = 16 - z tablic

t_α = 17,46

Obszar krytyczny (-∞, - 1,746)

Wartość 2,03 nie wpada do obszaru krytycznego.

Dalszy ciąg ćwiczeń podany podczas wykładu w dniu 11.12.2010 r.

Zadanie 1: Zakłada się, że mężczyźni mają większe zdolności do przedmiotów ścisłych niż kobiety. Postanowiono to zbadać. Wśród studentów I roku pewnej uczelni w wylosowanych próbach liczących po 10 studentów i studentek średnia ocena z matematyki wśród studentów była równa 3,13 przy odchyleniu standardowym 0,67. Natomiast wśród studentek średnia ocena wynosiła 3,32 z odchyleniem standardowym 0,42. Zweryfikować pogląd na poziomie istotności 0,1. Należy założyć, że rozkłady ocen z matematyki studentów i studentek są normalne z jednakowym odchyleniem standardowym.

Dane:

x₁ = 3,13, s₁ = 0,6, x₂ = 3,32, s₂ = 0,42, rozkład normalny, odchylenie takie samo.

Skoro n₁ = 10 i n₂ = 10 - to są to próby małe.

H₀: m₁(µ₁) = m₂ (µ₂)

H₁: m₁(µ₁) > m₂ (µ₂)

Dane empiryczne (patrz średnia ocen) zaprzeczają H₁. Nie można jej potwierdzić, bo:

x₂ > x₁

Sprawdzamy więc, czy przeciwna hipoteza jest zasadna:

H₁: m₁(µ₁) < m₂ (µ₂)

x₁ - x₂

T =---------------------------------

√n₁(s₁)² + n₂(s₂)²/n₁ + n₂ - 2, gdzie „n₁ + n₂ - 2” - to wartość k

3,13 - 3,32 - 0,19

T = ------------------------------------------------- = --------------- = - 0,32

√10 * (0,67)² + 10 * (0,42)²/10 + 10 - 2 √0,253 : 18

Obszar krytyczny (jest obszarem odrzucenia hipotezy zerowej)

2 * α= 0,1 x 2 = 0,2
K = n1 + n2 - 2= 18

Szukamy z tablic T-Studenta → wartość 1,33

Zatem obszar krytyczny jest w przedziale: (- ∞, - 1,33)

Wniosek: Liczba -0,32 nie wpada do obszaru krytycznego, zatem brak jest podstaw do odrzucenia hipotezy zerowej.

Zadanie 2: Na 800 zbadanych pacjentów 320 miało grupę krwi „0”. Na poziomie istotności 0,001 zweryfikować hipotezę, że odsetek pacjentów tego szpitala wynosi 35%.

Dane: n = 800, α = 0,001

P = k/n, gdzie:

P - to wskaźnik struktury zbiorowości generalnej;

k - to liczba jednostek ze zbiorowości próby charakteryzująca się określonym wariantem cechy

n - to liczebność zbiorowości próbnej.

k = 320, n = 800

Hipotezy:

P₀ = 35%

H₀: P = 0,35 (p = p₀)

H₁: P ≠ 0,35 (p ≠ p₀)

wzór nr 30:

k/n - p₀320/800 - 0,35

U = ----------------------- = ----------------------------------- = 2,89

√k/n (1 - k/n) : n √320/800 (1 - 320/800) : 800

Obszar krytyczny:

Gdy jest różne od H₀, obszar mamy dwustronny

Zatem:

1 - α/2 = 1 - 0,001/2 = 1 - 0,0005 = 0,9995

Szukamy tej wartości w tablicach, najbliżej jest liczba 3,29

Obszar krytyczny: (- ∞, - 3,29) v (3,29, + ∞)

Wniosek: Liczba 2,89 nie wpada do obszaru krytycznego, a przez to na tym poziomie istotności, brak jest podstaw do odrzucenia hipotezy zerowej.

Czy odpowiedź się zmieni, jeżeli przyjmiemy poziom istotności jako α = 0,01?

1 - α/2 = 1 - 0,01/2 = 1 - 0,005 = 0,995 - z tablic to liczba 2,58

Obszar krytyczny: (- ∞, - 2,58) v (2,58, + ∞)

Zatem przy poziomie istotności 0,01 liczba 2,89 wpada w obszar krytyczny, co wyklucza hipotezę zerową.

Zadanie 3: Wysunięto przypuszczenie, że palących kobiet jest stosunkowo mniej niż mężczyzn. W celu sprawdzenia tej hipotezy wylosowano 500 kobiet i 600 mężczyzn. Okazało się, że wśród kobiet było 200 palących, a wśród mężczyzn 250. Na poziomie istotności 0,05 zweryfikować hipotezę:

Dane: x₁ ~ K, x₂ ~ M, n₁ = 500, k₁ = 200, n₂ = 600, k₂ = 250, α = 0,05

H₀: P₁ = P₂

H₁: P₁ < P₂

Szukamy obszaru krytycznego:

Jednostronny lewostronny, więc: 1 - α

1 - α = 0,95 z tablic:1,65.

Obszar krytyczny: (-∞, -1,65)

200/500 - 250/600

U = ----------------------------------------------------------------------------------------- =- 0,56

√200 + 250/500 + 600 (1 - 200 + 250/500 + 600) / 500 * 600/ 500 + 600

Wniosek: Wartość U (- 0,56) nie wpada do obszaru krytycznego. Nie ma więc podstaw do odrzucenia hipotezy zerowej. Dane nie wskazują na to, że istnieje różnica pomiędzy odsetkiem palących kobiet i odsetkiem palących mężczyzn.

ĆWICZENIA Z DNIA 12.12.2010 r.

ESTYMACJA PRZEDZIAŁOWA WARTOŚCI ŚREDNIEJ

Przykład 1: Próba mała, nie znamy odchylenia

Dane: n ≤ 30, x ~ n(µ, δ), δ = ?

P: x - t_α_1n-1 * s/√n-1 < µ < x + t_α_1n-1 * s/√n-1 = 1 - α, gdzie:

µ, to przedział ufności

x - t_α_1n-1 * s/√n-1 - dolna granica przedziału

x - t_α_1n-1 * s/√n-1 - górna granica przedziału

t_α_1n-1- to maksymalny błąd oszacowania (d)

Nieznana szacowana wartość średnia w zbiorowości generalnej

1- α - poziom ufności

P - prawdopodobieństwo

Prawdopodobieństwo, że wartość parametru µ w zbiorowości generalnej znajduje się w wyznaczonym przedziale ufności wynosi 1 - α.

x - estymator punktowy wartości średniej (średnia arytmetyczna)

s - estymator punktowy odchylenia standardowego

n - liczebność zbiorowości próbnej

t_α_1n-1- wartość odczytana z tablic T-Studenta dla ustalonego poziomu ufności 1 - α i liczby stopni swobody k: n - 1.

Wzór nr 20

Próba duża n > 30

x - u_α * s/√n < µ < x + u_α * s/√n, gdzie

u_α_,to wartość odczytana z tablic układu normalnego, wiedząc, że dystrybuanta (F (u_α) = 1_-α/2) jest równa 1- α/2.

Wzór 23

Estymacja przedziałowa wskaźnika struktury, czyli przedziału ufności.

n > 100

Wyszukiwarka

Podobne podstrony:
sprawko z ćwiczenia 11, Farmacja, II rok farmacji, I semstr, fizyczna, Fizyczna, Sprawozdania z fizy
IMiR-program cwiczen, MiBM, Nauczka, 2 semstr, elektrotechnika
R 6 ZMIANA POSTAW, ⇒ NOTATKI, I semstr, !ĆWICZENIA, Psychologia społeczna (ćwiczenia)
SPRAWOZDANIE Z ĆWICZENIA NR 2, Farmacja, II rok farmacji, I semstr, fizyczna, Fizyczna, Sprawozdania
R 3 ATRYBUCJE WNIOSKOWANIE NA PODSTAWIE ZACHOWANIA, ⇒ NOTATKI, I semstr, !ĆWICZENIA, Psychologia spo
SPRAWOZDANIE Z ĆWICZENIA 4, Farmacja, II rok farmacji, I semstr, fizyczna, Fizyczna, Sprawozdania z
Satystyka 2014 Zasady zaliczania ćwiczeń, STUDIA PŁ, TECHNOLOGIA ŻYWNOŚCI I ŻYWIENIA CZŁOWIEKA, ROK
Sprawozdanie z cwiczenia 19, Farmacja, II rok farmacji, I semstr, fizyczna, Fizyczna, Sprawozdania z
materiały dla grupy, ⇒ NOTATKI, I semstr, !ĆWICZENIA, Psychologia społeczna (ćwiczenia)
SPRAWOZDZANIE Z ĆWICZENIA NR 6, Farmacja, II rok farmacji, I semstr, fizyczna, Fizyczna, Sprawozdani
SPRAWOZDANIE Z ĆWICZEŃ1, Studia, I rok, II semstr, fizyka jądrowa, cw1
sprawko z ćwiczenia 11, Farmacja, II rok farmacji, I semstr, fizyczna, Fizyczna, Sprawozdania z fizy
3 ćwiczenia BADANIE asfaltów
Ćwiczenie7
Cwiczenia 2
Ćwiczenia V

więcej podobnych podstron