Statystyka ćw sem I

Ćwiczenia 1 07.11.2009r.

T1: Obliczanie miar przeciętnych w różnych typach szeregów.

Zad. 1: W pewnej firmie zatrudnionych jest 12 pracowników, ich staż pracy to następująco: 8, 3,2,2,1,10,4,5,2,7,3,1.

P1: Jaki rodzaj cechy zmiennej występuje w tym przykładzie.

P2: Zaproponuj wyniki obserwacji w postaci szeregu szczegółowego oraz rozdzielczego jednostopniowego (szczegółowego).

P3: Oblicz i zinterpretuj miary przeciętne, średnią arytmetyczną, medianę i dominantę.

Ad.P1:

Mierzalne, skokowe – bo są wyrażone w liczbach, a ich wartości nie są kolejne.

Ad.P3:

Miara pozycyjna – mediana, dominanta, kwantyle

D = 2 lata

Mediana (Me) to średnia arytmetyczna z pozycji mediany

poz.1 $\frac{n}{2}$6 (3) (pozycja 6, a w szeregu szczegółowym na miejscu nr 6 jest wartość 3)

poz2. $\frac{n2}{2}$7 (3) (pozycja 6, a w szeregu szczegółowym na miejscu nr 7 jest wartość 3)

Połowa pracowników ma staż pracy większy niż 3 lata, zaś dryga połowa ma mniejszy niż 3 lata.

Ad.P2:

Szereg szczegółowy (wyliczający, prosty) 1,1,2,2,2,3,3,4,5,7,8,10

Średnia arytmetyczna (miara klasyczna) ­­
n=12

n – zbiorowość mała (np. pracownicy małej firmy)

N – zbiorowość duża (np. pracownicy w całym kraju)

Xi – cecha mierzalna

Szereg rozdzielczy jednostopniowy (szczegółowy, skokowy)

Dominanta i jej wartość Liczebność skumulowana

x i(staż pracy w latach) n i x i*n i n ski

1

2

3

4

5

7

8

10

2

3

2

1

1

1

1

1

2

6

6

4

5

7

8

10

2

5

7

8

9

10

11

12

12 48

Średnia arytmetyczna ważona =$\frac{\sum xi\ *\ ni}{n}$

Dominanta (D) miara pozycyjna, cecha, której występuje największa liczebność, wartość najczęściej powtarzająca się, dominująca.

D = 2 lata

Me = $\frac{3 + 3}{2} = 3\ lata$

Do prezentacji szeregu szczegółowego wykorzystuje się wykres punktowy

Wielobok liczebności

Forma prezentacji tabelarycznej cech niemierzalnych – szereg statystyczny

Płeć n i

Mężczyźni

Kobiety

8

4

12

Kobiet 4/12 = 1/3 badanie częściowe

Mężczyzna 8/12 = 2/3

Zad. 2: Dzienne zużycie energii elektrycznej wyrażonej w kWh odnotowane w 100 losowo wybranych gospodarstwach domowych przedstawia się następująco.

Szereg rozdzielczy wielostopniowy (przedziałowy):

prawostronnie zamknięty”(„ , a lewostronnie otwarty „>”

xi (kWh) ( > ni

o

xi

o

xi * ni

nski

o _

(xi * x) 2-ni

o _

(xi – x) 3 * ni

2 - 4

4 - 6

6 - 8

8 - 10

10 - 12

12 - 14

6

10

30

40

10

4

3

5

7

9

11

13

18

50

210

360

110

52

6

16

46

86

96

100

150

90

30

40

90

100

-750

-270

-30

+40

+270

+500

100 - 800 500 -240

Środek przedziału Mediana Dominanta Q1

P1: Dokonać prezentacji graficznej przedstawionego szeregu.

P2: Scharakteryzuj dzienne zużycie energii elektrycznej w badanych gospodarstwach domowych stosując poznane miary przeciętne.

P3: Komentarz ekonomiczny.

Ad.P1:

Prezentacja graficzna dla szeregu rozdzielczego wielostopniowego (przedziałowego)

Histogram Krzywa liczebności

Ad.P2:

o

=$\ \frac{\sum xi\ *\ ni}{n}$ średnia arytmetyczna ważona do szeregu rozdzielczego wielostopniowego

= $\frac{800}{100} = 8\ kWh$

D = xo + $\frac{(n0\ n - 1\ \ )\ }{\left( n0\ n\ - 1 \right) + \ (n0\ - \ n - 1)}*C$

C – rozpiętość przedziału

C = 2

D = 8+ $\frac{\left( 40 - 30 \right)}{\left( 40 - 30 \right) + \ \left( 40 - 10 \right)}*2$

D = 8+ $\frac{10}{10 + 30}*2 = 8 + \ \frac{10}{40}*2 = 8,5\ \text{kW}h$

poz. Me $\frac{n + 1}{2}$

poz. Me $\frac{101}{2} = 50,5 \approx 51$

Me = xo+$(\frac{n + 1}{2} - n$ski -1$)*\frac{\begin{matrix} C \\ \text{\ \ \ o} \\ \end{matrix}}{\begin{matrix} n \\ \text{\ \ \ \ o} \\ \end{matrix}}$

Me = $8 + \left( 50,5 - 46 \right)*\frac{2}{40} = 8 + 4,5*\frac{2}{40} = 8,225\ \text{kW}h$

Połowa gospodarstw zużywa nie więcej niż 8,225 kWh, a druga połowa co najmniej 8,225kWh.

Q2=Me

Q1 = xo+$(\frac{n + 1}{n} - n$sk -1)$*\frac{\begin{matrix} c \\ \text{\ \ \ o} \\ \end{matrix}}{\begin{matrix} n \\ \text{\ \ \ o} \\ \end{matrix}}$

poz. Q1 = $\frac{100 + 1}{4} = 25,25 \approx 46 \rightarrow \left( 6 - 8 \right)$

Q1 = $6 + \left( 25,25 - 16 \right)*\frac{2}{30} \approx 6,62\ kWh$

¼ zużywa nie więcej niż 6,62 kWh, a ¾ zużywa co najmniej 6,62 kWh.

Q3=x0 $+ \lbrack\frac{3\left( n + 1 \right)}{4} - n$ski -1$\rbrack*\frac{\begin{matrix} C \\ \text{\ \ o} \\ \end{matrix}}{\begin{matrix} n \\ \text{\ \ o} \\ \end{matrix}}$

Q3=$\frac{3*101}{4} = 75,75$

Q3=8+(75,75 – 46) $*\frac{2}{40} \approx 9,49\ kWh$

75% gospodarstw domowych zużywa nie więcej niż 9,49 kWh, a 25% gospodarstw domowych zużywa co najmniej 9,49 kWh

Ad.P3:

Połowa gospodarstw domowych zużywa nie więcej niż 8,225 kWh, gdzie druga połowa co najmniej 8,225 kWh, przy czym ¼ zużywa tego prądu nie więcej niż 6,62 kWh, gdzie pozostałe ¾ gospodarstw zużywa go co najmniej 6,62 kWh, ale aż 75% gospodarstw zużywa nie więcej niż 9,49 kWh, a 25% zużywa go co najmniej 9,,49 kWh.

Obliczanie miar dyspersji i asymetrii:

Dyspersja – zróżnicowanie, rozproszenie

Odchylenie standardowe

S = $\sqrt{\frac{\mathbf{\sum(xi -}\mathbf{x)}^{\mathbf{2}}\mathbf{*ni}}{\mathbf{n}}}$ pierwiastek z wariancji

S = $\sqrt{\frac{500}{100}}$ 2, 24 kWh

Zużycie energii elektrycznej w poszczególnych gospodarstwach domowych różni się średnio od wartości średniej arytmetycznej ± 2,24 kWh

Współczynnik zmienności $\frac{S}{\begin{matrix} - \\ x \\ \end{matrix}}*100\% = V$(s)

V(s)=$\frac{2,24}{8}*100\% = 28\%$

Typowy obszar zmienności badanej cechy XTYP

_ _

X –S XTYPX + S

5,76 XTYP10,24 kWh

Odchylenie ćwiartkowe (pozycyjna miara dyspersji) Qw = $\frac{Q3 - Q1}{2}$

Qw = $\frac{9,49\ - \ 6,62}{2} \approx 1,34\ kWh$

Mówi nam ile wynosi połowa maksymalnej różnicy między wartościami cechy zaobserwowanymi wśród 50% jednostek znajdujących się w środku uporządkowanego szeregu.

V(Q)=$\frac{Q}{\text{Me}}*100\%$ współczynnik zmienności, względna miara dyspersji

V(Q)=$\frac{1,4}{8,225}*100\% \approx 17,4\%$

Asymetria – skośność – Pearson

_

A(x) =$\ \frac{\begin{matrix} \_ \\ \ \ \ \ \ \ \ \ x\ - \ 20 \\ \end{matrix}}{S}$

_

A(x) = $\frac{8 - 8,5}{2,24} = - 0,2$

_

A(x) = ε < −1, +1>

Moment trzeci względny $\alpha_{3 = \frac{\mu_{3}}{S^{3}}}$

Moment trzeci centralny $\mu_{3 = \frac{(xio - {x)}^{3}*ni}{n}}$


$$\mu_{3} = \frac{- 240}{100} = - 2,4$$


$$\alpha_{3 = \frac{- 2,4}{({2,24)}^{3}} \approx - 0,21}$$


α3ϵ(−2, 2)


$$A\left( Q \right) = \frac{\left( Q3 - Me \right) - (Me - Q1)}{\left( Q3 - Me \right) + (Me - Q1)}$$


$$A\left( Q \right) = \frac{\left( 9,49 - 8,23 \right) - (8,23 - 6,26)}{\left( 9,49 - 8,23 \right) + (8,23 - 6,62)} = - 0,12$$


A(Q)ϵ < −1, +1>

Ćwiczenia2 08.11.2009r.

T: Estymacja i testowanie hipotez statystycznych.

Zad.1: Zakładając, że czas oczekiwania na obsługę w pewnym banku ma rozkład normalny o parametrach 6 minut i odchyleniu standardowym 1,4 min.

N=(6 ; 1,4) min.

P1: Jakie jest prawdopodobieństwo oczekiwania klienta na obsługę w czasie nie dłuższym niż 3 minuty.

P2: Jaka jest szansa, że wchodzący do banku klient będzie musiał czekać na obsługę nie krócej niż 10 minut.

P3: Jakie jest prawdopodobieństwo, że klienci będą oczekiwać na obsługę ponad 4 min, lecz nie dłużej niż 7 minut.

N = (μ,ς) jeśli znamy przynajmniej jedna cyfrę to mówimy, że znamy rozkład

N = (0 , 1) X(x1,x2,…,xn) N = (μ, ς) Z = (Z1,Z2,…,Zn)

Zi$= \frac{xi - \ u}{\varsigma}$

Ad.P1:

P(x<3)=F(3) dystrybuanta w punkcie 3 = $\varphi\left( \frac{3 - 6}{1,4} \right) = \varphi\left( - 2,14 \right)$

Grecka litera (fi) – oznaczamy nią dalej w dystrybuancie rozkład normalny standaryzowany.

φ=(2,14)=0,0162 Oczekiwanie na obsługę przez klienta w czasie do 3 min. jest mało prawdopodobne, wręcz niemożliwe.

Ad.P2:

P(x>9)=1-P(x<9)

1-F(9)=1-$\varphi(\frac{9 - 6}{1,4})$

1-φ(+2,24) = 1 − 0, 9838 = 0, 0162

Mało prawdopodobne, żeby klient czekał na obsługę więcej niż 10 minut.

Ad.P3:

P(4<x<7)=F(7)-F(4)


$$\varphi\left( \frac{7 - 6}{1,4} \right) - \varphi\left( \frac{4 - 6}{1,4} \right) = \varphi\left( 0,71 \right) - \varphi\left( - 1,43 \right) = 0,7611 - 0,0764 = 0,6847$$

Prawdopodobieństwo, że klient będzie oczekiwał 4-7 minut wynosi 70%, tzn., że 7/10 klientów będzie oczekiwać na obsługę 4-7 minut.

Estymacja – służy do oszacowania nieznanej wartości parametru.

Zad.2: Pewien wyrób ma wagę o rozkładzie normalnym o wartości średniej „mi” nieznanej i odchyleniu średnim 0,05 kg. Wylosowano 9 wyrobów, których waga wynosiła następująco: 0,80; 0,85; 0,90; 0,95; 1,0; 1,05; 1,10; 1,15; 1,20.

P1: Oszacować metodą punktową i przedziałową nieznaną wartość średniej wagi wyrobów.

n=9

_ _

XN(μ, ςx)

_

ςx=$\frac{\varsigma}{\sqrt{n}}$=$\frac{0,05}{\sqrt{9}}$ rozkład zmiennej losowej jest rozkładem takim samym.

Estymacja punktowa – za nieznaną wartością „mi”.

μ=x±ςx


μ = 1 ± 0, 017 kg (17 g)

Nieznana średnia wartość wynosi 1 kg z możliwością popełnienia błędu ± 17 g.

Estymacja przedziałowa:

$\varphi\left\{ x - Zx - \frac{\varsigma}{\sqrt{n}} \leq \mu \leq x + Z\alpha*\frac{\varsigma}{\sqrt{n}} \right\} = 1 - \alpha$

Maksymalny błąd szacunku.

1-α - to współczynnik ufności (przyjmujemy go z góry)

1-α : 0,9; 0,95; 0,98; 0,99.

1Zα − 0, 017 ≤ μ ≤ 1 + Zα * 0, 017

Wartość zmiennej losowej odczytana z tablicy dystrybuanty rozkładu normalnego standaryzowanego dla danego współczynnika ufności.

1-α = 0, 99


α = 0, 01

Z$\ \alpha \rightarrow \frac{1}{2}\alpha = 0,005$

Z α = −2, 58

1-2,58*0,017μ ≤ 1 + 2, 58 − 0, 017

0,956μ ≤ 1, 044kg

Nieznana wartość średnia wagi wyrobu w całej populacji pokrywana jest przez przedział 0,956μ1,044kg z prawdopodobieństwem równym 0,09.

Maksymalny błąd szacunku to połowa długości czyli 1,044-0,950, czyli d=0,044.

1-α = 0, 95


α = 0, 05

½ α = 0, 025

Z α = −1, 96

0,967μ ≤ 1.033kg

d=0,033

w estymacji przedziałowej im większa pewność tym mniejsza precyzja; im większa precyzja tym mniejsza pewność.

P.2: Ile wyrobów należy wylosować do próby, aby z prawdopodobieństwem = 0.99 maksymalny błąd szacunku średniej wagi wyrobu wynosił 0,01kg.

Z$\ \alpha*\frac{\varsigma}{\sqrt{n}} = d$

n=$(\frac{Z\alpha*\varsigma}{d})^{2} = (\frac{- 2,58*0,05}{0,01})^{2} = 166,41 \rightarrow 167$

Ile wyrobów należy wylosować do próby, aby maksymalny błąd szacunku średniej wagi wyrobu wyniósł 5g.

Zad.3: W celu określenia długości łodyg goździków wyrażonych w cm z dostawy partii pobrano losowo 10 goździków: 80, 74, 72, 73, 81, 69, 68, 76, 75, 69.

P.1: Oszacować metodą punktową i przedziałową ze współczynnika ufności 0,9 średnią długość łodygi w całej dostawie partii goździków.

P.2: Ile Gożdzików należy dobrać do tej próby, aby z prawdopodobieństwem równym 0,98 maksymalny błąd średniej długości szacunku wyniósł 3 cm.

Ad. P1:


$$\varsigma = \frac{\varsigma}{\sqrt{n - 1}} = \frac{4,24}{\sqrt{9}} = \mathbf{1,41}$$

u=± ςμ = 73, 7 ± 1, 41cm


μ = 73, 7cm


$$\varsigma = \sqrt{\frac{\sum(xi - )^{2}}{n}}$$

ς = 4,24cm

Nieznana średnia długość łodygi w dostarczonej partii wynosi 73,7cm z możliwością popełnienia błędu 1,41 cm.

Ad. P2:

Estymacja przedziałowa:

$P*\left\{ - t\alpha*\frac{\varsigma}{\sqrt{n - 1}} \leq \mu \leq + t\alpha*\frac{\varsigma}{\sqrt{n - 1}} \right\} = 1 - \alpha$


1 − α = 0, 9


α = 0, 1


tα → 1, 833

Wartość zmiennej losowej odczytuje się z tablicy rozkładu t-studenta dla n-1 stopni swobody i dla danego współczynnika zmienności.


73, 7 − 1, 833 * 1, 44 ≤ u ≤ 73, 7 + 1, 833 * 1, 41


71, 11 ≤ u ≤ 76, 29

Nieznana średnia długość łodygi w dostarczonej partii goździków pokrywana jest przez przedział 71,11 cm i 76,29 cm z prawdopodobieństwem 0,9.


$$n = (\frac{t\alpha*\varsigma}{d})^{2} + 1$$


$$n = (\frac{2,821*4,23}{3})^{2} + 1 = 15,9 + 1 = 16,9 \approx 17$$

Trzeba wylosować minimum 7 goździków.

Zad.4: W próbie 200 dorosłych osób 40 z nich posiada ROR, oszacować metodą punktową i przedziałową przyjmując współczynnik równości 1α0, 96, odsetek ogółu dorosłych osób posiadających ROR-y.

Testowanie hipotez statystycznych:

Zad.5:

Pewien automat w fabryce czekolady wytwarza tabliczki czekolady o nominalnej wadze 250g. Wiadomo, że rozkład wagi produkowanych tabliczek czekolady jest rozkładem normalnym o wartości średniej µ nienzanym i odchyleniu standardowym 5g. Kontrola techniczna pobrała w pewnym dniu próbę losową liczącą 16 tabliczek czekolady i otrzymała ich średnią wagę 244g.

P.1: Czy można tweirdzić, że automat rozregulował się i produkuje tabliczki czekolady o mniejszej niż przewiduje norma wadze.

Na poziomie istotności α = 0, 005zweryfikować odpowiednią hipotezę statystyczną.

Znaleźliśmy się w obszarze krytycznym testu, przyjmiemy hipoteze pierwszą, że automat się rozregulował i produkuje tabliczki czekolady mniejsze niż norma.

Zad.6:

W pewnym kinie odbywa się projekcja filmu, który według pracowników jest filmem kasowym. Zakładamy, że frekfencja widzów = 250. Aby sprawdzić to przypuszczenie na losowo wybranych 49 seansach notowano liczbę widzów i okazało się, że średnia frekfecja wynosi 231 osób przy odchyleniu standardowym 19 osób.

P.1: Czy można na poziomie istotności α = 200 twierdzić, że kierownictwo przewidziało za wysoką liczbę widzów na seansie.

Zad.7:

Na losowo wybranej próbie 10 samochodów marki Skoda felicia przeprowadzono badania zużycia benzyny na 100km. Okazało się, że średnie zużycie benzyny wyniosło 0,9 l. jednocześnie wiadomo, że norma fabryczna zużycia benzyny na 100km. wyniosła 7,7l.

P.1: Czy rzeczywiste zużycie benzyny różni się istotnie od normy fabrycznej jeśli przyjąć poziom istotności.

H0:μ = μ0 = 7, 7l.

H1:μ ≠ μ0


$$t = \frac{- \mu 0}{\varsigma}*\sqrt{n - 1}$$


$$t = \frac{8,3 - 7,7}{0,9}*\sqrt{9}$$


t = 2


tα = 1, 833

|t| > |tα| tzn., H0 odrzucić, przyjąć H1

Średnie zużycie benzyny różni się od normy.


αα = 2, 262


|t| < |tα|

Nie ma podstawy do odrzucenia H0, wtedy zużycie byłoby zgodnie z normą.

Zad.8:

Firma zatrudniająca około 2000 pracowników ma zamiar budować parking, ponieważ przypuszcza się, że ponad 60% pracowników przyjeżdża do pracy swoim samochodem. Sprawdź czy przypuszczenie jest prawdziwe jeśli spośród 250 losowo wybranych osób 206 przyjeżdża do pracy swoim zamochodem. Poziom istotności α = 200.

Ćwiczenia 3 19.09.2009r.

T: Analiza korelacji i regresji.

Są w związku przyczynowo – skutkowym. Kształt tej zależności.

(Płeć – wykształcenie).

Opis siły i kierunków współzależności.

Zad.1:

Na podstawie danych zawartych w poniższej tabeli oblicz współczynnik korelacji liniowej Pearsona, pomiędzy stażem pracy, a wydajnością pracy. Ponadto przedstaw ilustrację graficzną tej zależności i sprawdź istotność współczynnika korelacji na poziomie istotności α = 0, 05.

xi y i (x i -) (y i - ) (x i -)(y i - ) (x i -)2 (y i - )2

2

3

0

1

4

6

8

6

5

7

0

1

-2

-1

2

-0,4

1,6

-0,4

-1,4

0,6

0

1,6

0,8

1,4

1,2

0

1

4

1

4

0,16

2,56

0,16

1,96

0,36


$$\sum_{}^{}\mathbf{10}$$
32 -
0

5

10

5,2
= 2 = 4

Szereg korelacyjny – opisujący związek między dwiema cechami.

Prezentacja graficzna:

Wykres punktowy, diagram korelacyjny, jeżeli wykreślimy linie, która z osią x stworzy kąt ostry to ten wykres nazywa się związkiem korelacyjnym liniowym.

Im krótszy czas pracy tym mniejsza wydajność. Im bardziej te punkty są skupione tym bardziej ten związek jest trwalszy, im bardziej rozproszony tym słabszy. Związek jest dodatni (wraz ze wzrostem wydajności wzrasta staż pracy).

Współczynnik korelacji liniowej Pearsona.

r – Pearsona

rx i y$\mathbf{\ =}\frac{\sum_{}^{}\mathbf{(xi -}\mathbf{}\mathbf{)(xi -}\mathbf{}\mathbf{)}}{\sqrt{\mathbf{\sum(xi -}}\mathbf{}\mathbf{)}^{\mathbf{2}}\mathbf{*\sum(yi -}\mathbf{}\mathbf{)}^{\mathbf{2}}}$

rx i y$= \ \frac{5}{\sqrt{10*5,2}} = 0,69$

r x i y ε < −1, 1>

Związek jest nikły (0; 0,1),

Związek jest słaby (0,1; 0,3),

Związek przeciętny (0,3; 0,5),

Związek silny (0,5; 0,7),

Związek bardzo silny (0,7; 0,9),

Związek pełny (0,9; 1).

Obliczanie współczynnika korelacji rang:

xi yi dxi dyi (dxi-dyi) (dxi-dyi)2=di2

2

3

0

1

4

6

8

6

5

7

3

4

1

2

5

2,5

5

2,5

1

4

0,5

-1

-1,5

1

1

0,25

1

2,25

1

1

10 32 0 (musi być=0) 5,5

5 6 6 7 8

1 2 3 4 5

2+3=5/2=2,5

rs=$\mathbf{\ 1 - \ }\frac{\mathbf{6}\mathbf{*}\mathbf{\sum}\mathbf{d}\mathbf{i}^{\mathbf{2}}}{\mathbf{n}\mathbf{(}\mathbf{n}^{\mathbf{2}}\mathbf{-}\mathbf{1}\mathbf{)}}$

rs$\ = 1 - \frac{6*5,5}{5(25 - 1)} = 0,725$

Związek jest o bardzo dużej sile.

Regresja (kształt związku między cechami):

y = a + bx rozwiązań jest nieskończenie wiele bo wartości a i b są dowolne.

y = ax+b

Szacowanie parametrów liczby funkcji regresji:

yi (yi-yi)2

6,4

6,9

5,4

5,9

7,4

0,16

1,21

0,36

0,81

0,16

2,7

Funkcja liniowa (opisująca związek między stażem pracy, a wydajnością) współczynnik regresji mówi nam o ile zmieni się średnia wartość zmiennej zależnej jeżeli wartość zmiennej niezależnej (xi) zmieni się o jednostkę.

Jeżeli staż pracy zmieni się o jednostkę to wydajność wzrośnie o 0,5 szt./h.

Odchylenie standardowe reszty.

xi yi yi

2

3

0

1

4

6

8

6

5

7

6,4

6,9

5,4

5,9

7,4

Odchylenie standardowe reszt (standardowy błąd szacunku) mówi nam o ile średnio różnią się wartości rzeczywiste zmiennej zależnej (yi) od wartości teoretycznej zmiennej zależnej (yi) wyznacznika na podstawie oszacowanej funkcji regresji.

Ta funkcja nie zbyt dobrze opisuje związek.

Współczynnik zbieżności:

Współczynnik determinacji liniowej.

Dopełnienie do jedności:

Nie zbyt dobrze opisuje zmianę.

φ2 mówi nam w jakiej części (bądź w ilu %) zmienność cechy y (zmiana zależna) nie jest wyjaśnioną zmiennością cechy x (czyli zmiennej niezależnej).

t<tα i nie ma podstaw do przyjęcia H1 i dlategoprzyjmujemy H0.

Tylko dla zależnej liniowej:

T: Badanie współzależności między 2 cechami niemierzalnymi.

płeć <->wykształcenie

Zad.1:

Pewien produkt można wytworzyć trzema metodami (A, B i C), pewnego razu wylosowano próbę liczącą 270 wyrobów wyprodukowanych jedną z tych metod, w celu określenia jakości tych wyrobów (dobra, zła).

P.1: Ocenić siłę związku między tymi 2 cechami na podstawie wylosowanej próby.

Jakość Metoda wytworzenia nij nij
$$\frac{\mathbf{(nij - nij}\mathbf{)}^{\mathbf{2}}}{\mathbf{\text{nij}}}$$
A B C
Dobra 45 72 36 153

45

15

72

Zła 15 48 54 117

48

36

54

60 120 90 270

Kontyngencja (macierz)

Współczynnik kontyngencji:

Im bliższa jedności tym silniejszy związek. Jakość wyrobów w niewielkim stopniu zależy od metody wytwarzania.

Zad.2:

Wylosowano 250 klientów pewnego banku chcąc ocenić siłę związku pomiędzy płcią klienta, a faktem posiadanie przez niego karty bankomatowej.

Karta bankomatowa Płeć
Kobiety Mężczyźni
Posiada 20 90
Nie posiada 110 30
130 120

Kontyngencji, tablica asocjacji (macierz kwadratowa 2x2)

Związek silniejszy bo wartość bliższa jedności (1), związek znaczący. W znacznym stopniu fakt posiadanie/nieposiadania zależy od płci klienta.

Oszacować wydajność robotnika, gdy jego staż pracy to 5 lat.

Wydajność robotnika na staż pracy 5 lat zawiera się w przedziale 6,95 i 8.85.

Zad.3:

W wynikach badań zależności między liczbą reklam pewnego wyrobu emitowanych dziennie w TVP, a wielkością sprzedaży tego wyrobu w milionach zł uzyskano następujące informacje.

Xi (ilość reklam) Yi (wilekość sprzedaży)

3

5

4

5

6

7

115

133

142

150

148

151

P.1: Przedstaw szereg graficznie.

P.2: Oblicz parametry liniowej funkcji regresji opisującej wpływ reklamy na wielkość sprzedaży oraz ocenić dopasowanie tych funkcji do danych empirycznych

P.3: Jeżeli producent zamierza zwiększyć liczbę reklam do 8 dziennie to jakich obrotów może się spodziewać?

Zad.4:

W 8 dobranych losowo gospodarstwach domowych zbadano wysokość miesięcznych wydatków na cele rekreacyjno – sportowe. Sformułowano przypuszczenie, że poziom tych wydatków zależy od wysokości dochodu przypadającego na 1 osobę oraz od liczby dzieci na utrzymaniu.

Wydatki rekreacyjno - sportwe Dochód (na 1 osobę) Liczba dzieci

20

29

40

52

63

73

85

95

0,8

1,2

1,8

2,0

2,5

3

3,6

4

5

4

3

2

2

0

1

0

P.1: Przedstaw graficzną zależność między wydajnością, a dochodami oraz zależność między wydajnością i liczbą dzieci oznaczając odpowiednio każdą zmianę.

P.2: Scharaktreryzuj rodzaj, kierunek i siłę obu badanych związków na podstawie rozrzutu punktów w diagramie korelacyjnym.

P.3: Oblicz i zinterpretuj współczynnik korelacji liniowej Pearsona. Oceń czy wyniki obliczeń są zgodne z analizą graficzną.

Ćwiczenia 4 23.01.2010r.

T: Analiza szeregów czasowych.

1. Obliczanie indeksów indywidualnych i agregatowych w szeregach.

Szereg czasowy składa się z dwóch kolumn:

t y ti

t1

t2

.

.

.

t n

y t1

y t2

.

.

.

y tn

Prezentacja graficzna:

Za pomocą wykresu liniowego.

Szeregi czasowe:

2. Indeksy wskaźniki dynamiki

Abonenci telefonów komórkowych w Polsce (stan w dniu 31.12. Rocznik Statystyczny RP)

Lata

y ti

(w tys.)

Przyrost naturalny



Tempo

T (%)

Indeks łańcuchowy

i t/t-1

Indeks jednopodstawowy

2000=100 i t/t0

2000

2001

2002

2003

2004

2005

2006

2007

6748

9605

13898

17401

23096

29166

36758

41510

-

2857

4293

3503

5695

6070

7592

4752

-

42.34

44,70

25,21

32,73

26,28

26,03

12,93

-

142,34

144,70

125,21

132,73

126,28

126,03

112,93

100,00

142,34

205,96

257,87

342,26

432,22

544,72

615,15

Przyrost absolutny: =yt − yt − 1 

Tempo: $\ T = \frac{}{y_{t - 1}}*100\% = \left( \frac{y_{t}}{y_{t - 1}} - 1 \right)*100\%$

Indeks indywidualny łańcuchowy: $i_{t/t - 1} = \frac{y_{t}}{y_{t - 1}}*100\%$

Indeks indywidualny jednopodstawowy: $i_{t/t0} = \frac{y_{t}}{y_{t0}}*100\%$

Średnie tempo: $T = \left( 1_{\frac{t}{t} - 1} - 1 \right)*100\%$


$$1_{t/t - 1} = \sqrt[{n - 1}]{\frac{y_{2}}{y_{1}}*\frac{y_{3}}{y_{2}}*\frac{y_{4}}{y_{3}}*\ldots*\frac{y_{n}}{y_{n - 1}}}$$


$$1_{t/t - 1} = \sqrt[7]{6,1515} = 1,2963$$


T = (1,2963−1) * 100%=29, 63%

Dysponując ciągiem indeksów łańcuchowych chcąc obliczyć dowolny indeks jednopodstawowy należy pomnożyć przez siebie wybrane kolejne indeksy łańcuchowe.


$$\frac{\mathbf{y}_{\mathbf{4}}}{\mathbf{y}_{\mathbf{1}}}\mathbf{=}\frac{\mathbf{y}_{\mathbf{4}}}{\mathbf{y}_{\mathbf{3}}}\mathbf{*}\frac{\mathbf{y}_{\mathbf{3}}}{\mathbf{y}_{\mathbf{2}}}\mathbf{*}\frac{\mathbf{y}_{\mathbf{2}}}{\mathbf{y}_{\mathbf{1}}}\mathbf{=}\frac{\mathbf{y}_{\mathbf{4}}}{\mathbf{y}_{\mathbf{1}}}$$

Dysponując ciągiem indeksów jednopodstawowych chcąc obliczyć dowolny indeks łańcuchowy należy podzielić przez siebie wybrane 2 kolejne indeksy jednopodstawowe.


$$\frac{y_{4}}{y_{3}} = \frac{\frac{y_{4}}{y_{1}}}{\frac{y_{3}}{y_{1}}} = \frac{y_{4}}{y_{1}}*\frac{y_{1}}{y_{3}} = \frac{y_{4}}{y_{3}}$$

Obliczanie indeksów agregatowych:

Indeksy (wskaźniki dynamiki)

Indywidualne Agregatowe

Łańcuchowe Jednopodstawowe Cen Ilości Wartości

Obliczanie indeksów agregatowych wielkości absolutnych

W IV.2009r. właściciel pewnej stacji benzynowej w Sopocie postanowił dokonać analizy zmian sprzedaży paliw w III.2009r., w stosunku do sprzedaży w marcu 2008r. Dane o ilości sprzedaży paliw (w tonach) oraz w cenach (w zł) dla tych dwóch okresów przedstawia poniższa tabela:

Rodzaj paliwa

III 2008

Cena p0

III 2008

Ilość q0

III 2009

Cena pt

III 2009

Ilość qt

p0*q0 pt*qt p0*qt pt*q0

ON

E 95

E 98

4,45

4,27

4,60

-

50

150

50

-

3,55

3,79

4,14

-

60

140

40

-

222,5

640.5

230,0

1093,0

213,0

530.6

165,6

909,2

267,0

597,8

184,0

1048,8

177,5

568,5

207,0

953,0

Bazowy Badany

Dokonać analizy zmian wartości sprzedanych paliw z uwzględnieniem wpływu ilości i cen.

Indeks wartości: Iw$\ = \frac{\sum p_{\text{jt}}*q_{j0}}{\sum p_{j0}*q_{j0}}*100\% = \frac{909,2}{1093,0}*100\% = 83,18\%$

Indeks cen Laspeyresa: IpL$\ = \frac{\sum p_{\text{jt}}*q_{j0}}{\sum p_{j0}*q_{j0}}*100\% = \frac{963,0}{1093,0}*100\% = 87,19\%$

Indeks cen Paaschego: IpP$\ = \frac{\sum p_{\text{jt}}*q_{\text{jt}}}{\sum p_{j0}*q_{\text{jt}}}*100\% = \frac{909,2}{1048,8}*100\% = 86,69\%$

 Indeks cen Fishera: IpF$\ = \ \sqrt{IpL*IpP} = \sqrt{0,,8719*0,8669} = 0,8694 = 86,94\%$

Indeks ilości Laspeyresa: IqL$\ = \frac{\sum p_{j0}*q_{\text{jt}}}{\sum p_{j0}*q_{j0}}*100\% = \frac{1049,8}{1093,0}*100\% = 95,96\%\ $

Indeks ilości Paaschego: IqP$\ = \frac{\sum p_{\text{jt}}*q_{\text{jt}}}{\sum p_{\text{jt}}*q_{j0}}*100\% = \frac{909,2}{953,0}*100\% = 95,40\%$

Indeks ilości Fishera: IqF$\ = \sqrt{IqL*IqP} = \sqrt{0,9596*0,9540} = 0,9568 = 95,68\%$

Równość indeksowa: Iw = IpL * IqP = IpP*IqL = IpF*IqF

Np. IpL*IqP = 0,8719*0,9540 = 0,8318*100% = 83,18% Iw

Iw Indeks wartości sprzedanych paliw w stosunku III 2009r. do III 2008r. zmalała o 16,82%.

IpL Przy założeniach stałych ilości z okresu bazowego (III 2008) wartość sprzedanych paliw w III 2009r. w stosunku do III 2008 zmalała o 12,81% z powodu zmian cen.

IpP Przy założeniach stałych ilości z okresu badanego (III 2009) wartość sprzedanych paliw w III 2009 w stosunku do III 2008 zmalała o 13,31% z powodu zmian cen.

IpF Ceny średnio zmalały w stosunku III 2009r. do III 2008r. o 13,06%

IqL Przy założeniu stałych cen z okresu bazowego (III 2008) wartość sprzedanych paliw w III 2009 w stosunku do III 2008 zmalała o 4,04% pod wpływem zmiany w ilości sprzedanych paliw.

IqP Przy założeniu stałych cen z okresu badanego (III 2009) wartość sprzedanych paliw w III 2009 w stosunku do III 2008 zmalała o 4,6% pod wpływem zmian w ilości sprzedanych paliw.

IqF Ilość sprzedanych paliw w III 2009 w stosunku do III 2008 zmalała średnio o 4,32%.

yt = f(yt, U, Se)

Wpływ tych trzech czynników powoduje, że środowisko ukształtowało się na takim, a nie innym poziomie.

Produkcja papieru i tektury w Polsce (w mln t) w latach 2000 – 2006 przedstawiała się następująco:

Lata yt (w mln t) ti ti*yt ti2 yt

2000

2001

2002

2003

2004

2005

2006

1.93

2.09

2,34

2,46

2,64

2,73

2,86

17,05

1

2

3

4

5

6

7

28

1,93

4,18

7,02

9,84

13,02

16,38

20,02

73.01

1

4

9

16

25

36

49

140

1,97

2,13

2,29

2,45

2,61

2,77

2,93

Prezentacja graficzna:

P.2: Oblicz I zinterpretuj parametry liniowej funkcji trendu.

P.3: Oblicz miary dopasowania funkcji do danych empirycznych.

P.4: Oszacuj rozmiar produkcji papieru i tektury w Polsce w 2007r. (prognoza) zakładając, że zarówno trend jak i wahania przypadkowe nie ulegają zmianie.

yi = a + b * xi liniowa funkcja regresji

yi = a + b * ti liniowa funkcja trendu

a = yt – b * t


$$b = \frac{n\sum t_{i}*y_{t} - \sum t_{i}*\sum y_{t}}{n\sum t_{i}^{2} - (\sum t_{i})^{2}}$$


$$b = \frac{7*72,50 - 28*17,05}{7*140 - 784} = \frac{507,5 - 477,4}{980 - 784} = \frac{30,1}{196} \approx 0,156$$


a = 2, 436 − 0, 156 * 4


a = yt − b * t = 1, 812


yt = 1, 812 + 0, 1556 * ti

Liniowa funkcja trendu produkcji papieru i tektury w latach 2000 – 2006.


yt = 1, 81 + 0, 16 * ti

a mówi nam jaka była hipotetyczna (teoretyczna) wielkość obserwowanego zjawiska w okresie t=0

bwspółczynnik zmian, mówi nam o ile średnio zmienia się wielkość obserwowanego zjawiska jeżeli zmienna czasowa t zmieni się o jednostkę.

Jeżeli upływ czasu zmieni się o rok to wielkość produkcji wzrasta średnio o 0,16%.


$$S_{e} = \sqrt{\frac{\sum(y_{t} - y_{t})^{2}}{n - 2}}$$


$$\varphi^{2} = \frac{\sum(y_{t} - y_{t})^{2}}{\sum(y_{t} + y_{t})^{2}}$$


Se ≈ 0, 051 mln t


φ2 ≈ 0, 019


Wyszukiwarka

Podobne podstrony:
Statystyka II sem, statystyka
Stat FiR TEORIA II (miary cd, sggw - finanse i rachunkowość, studia, II semestr, Statystyka ĆW
FIZJOLOGIA I rok tematy cw sem wyk 2012-13, Medycyna, I rok, Fizjologia
ćw 7 sem 2
cw 9 sem 2
Prawo administracyjne ćw.sem.III.;IV, Prawo, Prawo administracyjne
statystyka ćw, ZiM, Soc-struktura - zadania (1,2), Zadanie 2
TERAPIA MANUALNA ćw sem" 02 kurbiel
statystyka cw 3
statystyka ćw, regresja - zadania Zarz+Soc, Zadanie 2
KOLOS STATYSTYKAAAAAAAA!!!, ZiIP, ZiIP, R1, SII, statystyka cw+kolosy
ćw. sem 2, Płyta farmacja Poznań, IV rok, technologia postaci leku 2, ćwiczenia, sem 2
Kolokwium zaliczeniowe patofizjologia 2014 2015, far, II rok III sem, patofizjologia, ćw sem
Statystyka-wykłady I sem, statystyka
Stat FiR TEORIA III (estymacja, sggw - finanse i rachunkowość, studia, II semestr, Statystyka ĆW
statystyka cw 3, Psychologia UŚ, Semestr IV, Metodologia badań psychologicznych i statystyka
FIZJOLOGIA cw sem III, Fizjoterapia

więcej podobnych podstron