STATA.WYKĂşAD I i II, Podstawy statystyki


Statystyka obejmuje metody zbierania, prezentacji i analizy danych dotyczących zjawisk masowych.

Zadaniem statystyki jest badanie prawidłowości zachodzących w zjawiskach masowych na podstawie badań.

Badanie statystyczne:

- planowanie badania

- obserwacja statystyczna

- opracowanie i prezentacja zebranego materiału statystycznego

- opis i wnioskowanie statystyczne

Planowanie badania - na etapie planowania badania należy określić:

- cel badania

- przedmiot badania

- zakres badania

Przedmiotem badania jest zawsze pewna zbiorowość statystyczna (populacja generalna).

Zbiorowością statystyczną nazywamy zbiór przedmiotów bądź osób (fizycznych bądź prawych) posiadających wiele cech wspólnych oraz przynajmniej jedną cechę pozwalającą rozróżnić elementy tego zbioru pomiędzy sobą.

Jednostką statystyczną nazywamy dowolny element zbiorowości statystycznej.

Przykład 1:

Celem badania jest diagnoza kondycji finansowej gospodarstw domowych w mieście Katowice za styczeń 2005 r.

Populacja: wszystkie gospodarstwa domowe w Katowicach

Jednostka statystyczna: jedna lub kilka osób prowadzących gospodarstwo domowe

Przykład 2:

Celem badania jest spędzanie wolnego czasu studentów GWSH w Katowicach za styczeń 2005 r.

Populacja: studenci GWSH w styczniu 2005 r.

Jednostka statystyczna: 1 osoba (1 student).

Wszystkie badania ze względu na zakres dzielimy na:

Badanie nazywamy pełnym, jeżeli badaniu podlega cała populacja.

Rejestracja są to badania prowadzone w czasie ciągłym (na potrzeby zarządzania państwem).

0x08 graphic
Spisy są to badania, które prowadzone są okazjonalnie, mają ustaloną datę początku, czas trwania oraz datę końca (np. spisy powszechne, rolne, inwentażowe).

Badania częściowe są to badania, w których badaniu podlega wybrana część zbiorowości statystycznej, którą nazywamy próbą statystyczną.

Próba reprezentatywna - próbę nazywamy reprezentatywną, jeżeli struktura jednostek statystycznych w próbie odpowiada strukturze jednostek w populacji. Żeby poprawnie wybrać taką próbę należy znać wiedzę o populacji (poprzez powtarzanie zadania)

Obserwacja statystyczna:

  1. cechy statystyczne, które będą podlegać badaniu

  2. skale statystyczne służące uporządkowaniu wartości badanych cech statystycznych obserwowanych w próbie

  3. należy zdecydować jaki będzie rodzaj ankiety

  4. przeprowadzamy kontrolę zebranego materiału statystycznego

Cechy statystyczne:

Cechy stałe są to cechy, które nie podlegają badaniu. Służą identyfikacji jednostki statystycznej ze zbiorowością statystyczną.

Cechy zmienne są to cechy, które podlegają badaniu - mają zrealizować cel badania.

Skale statystyczne:

- nominalna (klasyfikacja) - służy do opisu wartości cech jakościowych, pozwala na klasyfikację wartości obserwowanej cechy na podzbiory, np. kolor żółty lub czerwony lub zielony

- porządkowa - wykorzystywana do cech jakościowych i ilościowych, mamy możliwość uporządkowania i klasyfikacji wartości badanych cech na podzbiory, np. wykształcenie, miejsce zamieszkania, porządek alfabetyczny, nazwy

- przedziałowa (interwałowa) - dotyczy cech ilościowych. Skala ma dwie charakterystyki:

brak stałego zera, przedziały mają ustaloną długość

- stosunkowa (proporcjonalna, ilorazowa) - zero absolutne, przedziały mają ustaloną długość

Brak stałego zera - zero ma pozycję umowną, np. skala temperaturowa.

W ankiecie mogą być pytania zamknięte (wybór jednej z podanych odpowiedzi), otwarte (należy wpisać odpowiedź) lub kombinacja tych podejść.

Kontrola:

- formalna - weryfikuje odpowiedzi dotyczące cech stałych

- merytoryczna - weryfikuje odpowiedzi dotyczące cech zmiennych - błędne odpowiedzi i brak odpowiedzi

Opracowanie i prezentacja zebranego materiału statystycznego

Zebrany materiał statystyczny można zaprezentować jako:

- szeregi statystyczne

- tablice statystyczne

- wykresy statystyczne

Szeregi statystyczne:

Każda prezentacja statystyczna powinna mieć:

- tytuł, w którym ujmujemy cechy stałe oraz cechę zmienną, która jest przedmiotem prezentacji (nad wykresem)

- źródło - podać pod spodem

Przykład:

Szereg wyliczający czasu dojazdu na zajęcia wybranej grupy studentów kierunku administracja GWSH w dniu 6.03.2005 r. (w min.)

Cechy wspólne: studenci kierunku administracja GWSH

23, 34, 45, 23, 34, 23, 45

Źródło: dane umowne

7 obserwacji

3 różne wartości

Rozdzielenie informacji dotyczących wartości badanej cechy oraz liczebności danej wartości.

xi

yi

23

3

34

2

45

2

xi - wartość obserwowanej cechy

yi - liczebność z jaką występuje kolejna wartość

n - liczba obserwacji

∑ - suma (sigma)

Jeżeli pojawia się subskrypt dolny „i” - będziemy mieli do czynienia z ciągiem, a jeśli subskryptu nie ma to będzie tylko 1 liczba

0x01 graphic

0x08 graphic

0x01 graphic

Szereg rozdzielczy przedziałowy

<0x01 graphic
)

ni

4-6

12

6-8

10

8-10

8

10-12

6

Przedziały są lewostronnie domknięte, a prawostronnie otwarte, np. 6 należy do drugiego przedziału

0x01 graphic

Agregacja (grupowanie) danych - „zgubienie” pewnej informacji, nie można zmienić szeregu rozdzielczego przedziałowego w szereg wyliczający.

Szereg czasowy okresowy

ti

yi

1998

24

1999

25

2000

23

2001

22

2002

23

Szereg momentów - jeśli w pierwszej kolumnie są obserwacje dzienne.

Tablica statystyczna - jest to więcej niż jeden szereg statystyczny.

1. Poprawny dobór typu wykresów do informacji zawartych w szeregu bądź tablicy statystycznej.

2. Porównywalność wykresów między sobą - wykresy muszą być wykonane w tej samej skali.

Wykresy statystyczne:

- diagram

- wykres słupkowy

- histogram

- wielobok liczebności

- krzywa liczebności

Opis i wnioskowanie statystyczne

Opis statystyczny to analiza wartości badanych cech statystycznych obserwowanych w próbie statystycznej:

- analiza struktury zbiorowości

- analiza współzależności cech

- analiza zmian zjawisk w czasie

Wnioskowanie statystyczne - to przenoszenie wniosków badań z próby na populację statystyczną z wykorzystaniem rachunku prawdopodobieństwa.

Analiza struktury zbiorowości

Analiza statystyczna - przeprowadzana jest przy wykorzystaniu mierników i parametrów statystycznych.

Parametry statystyczne - są to liczby służące do opisu zbiorowości statystycznej.

Badanie prowadzimy z wykorzystaniem mierników które służą do oszacowania przybliżenia parametrów populacji.

Grupy mierników:

- miary poziomu przeciętnego

- miary zmienności

- miary asymetrii.

Miara poziomu przeciętnego:

- średnia arytmetyczna - podstawowy miernik do podziału średniej w szeregu wyliczającym

0x01 graphic

n - wielkość próby

0x01 graphic
- wartość badanej cechy w próbie

- średnia arytmetyczna ważona w szeregu rozdzielczym punktowym

xi

ni

x1

n1

...

...

xk

nk

0x01 graphic

k - liczba wartości cechy szeregu

ni - liczebność i-tej wartości cechy

n - suma liczebności ni

wagi = liczebności = ni

- średnia arytmetyczna ważona w szeregu rozdzielczym przedziałowym

0x01 graphic

0x08 graphic

n - suma liczebności ni

k - liczba klas (wierszy) w szeregu

0x01 graphic
- środek i-tego przedziału

ni - liczebność i-tego przedziału

Scharakteryzować zużycie energii w 168 gospodarstwach domowych na podstawie informacji <0x01 graphic
>

Zużycie energii (w kWh)

Liczba gospodarstw domowych

cum ni

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0-2

3

3

1

3

-6,8

46,24

138,72

2-4

12

15

3

36

-4,8

23,04

276,48

4-6

22

37

5

110

-2,8

7,84

172,48

6-8

48

85

7

336

-0,8

0,64

30,72

8-10

52

137

9

468

1,2

1,44

74,88

10-12

24

161

11

264

3,2

10,24

245,76

12-14

7

168

13

91

5,2

27,04

189,28

168

1308

1128,32

0x01 graphic

Miary poziomu przeciętnego (konsumpcyjne):

- dominanta

- kwartyle

Dominanta (moda, wartość modalna) - wartość cechy, która występuje w danej próbie najczęściej.

23, 34, 45, 23, 34, 23, 45

D=23

Dominanta ma w tym szeregu wartość 23.

xi

ni

2

8

3

10

4

5

5

2

D=3

xi

ni

2

3

3

5

4

2

5

5

D=3

D=5

Szereg dwumodalny - występują dwie dominanty.

  1. Wyznaczamy przedział, w którym jest dominanta

  2. Wyznaczamy dominantę wykorzystując wzór:

D ε <8;10)

0x01 graphic

k - k-ty przedział

xk - lewy koniec przedziału

∆xk - długość przedziału, w którym jest dominanta

nk - liczebność w przedziale dominanty

nk-1 - liczebność w przedziale poprzedzającym przedział dominanty

nk+1 - liczebność w przedziale następnym po przedziale dominanty

D= 0x01 graphic

W badanej próbie zużycie energii najczęściej wynosiło 825 kWh.

Mediana - wartość cechy, która dzieli próbę na 2 części, tak że połowa wartości jest nie większa oraz połowa wartości jest niemniejsza od mediany (wartość środkowa w próbie).

43, 56, 76, 84, 102 Me=(56+76)/2=66

Próba musi być uporządkowana

xi

ni

2

3

3

5

4

2

5

5

15


0x01 graphic

Szereg rozdzielczy przedziałowy:

  1. wyznaczyć przedział, gdzie mieści się mediana

  2. wyznaczyć wartość miernika wykorzystując wzór

0x08 graphic

0x01 graphic
- suma liczebności w przedziałach od jeden (i=1) do przedziału poprzedzającego przedział (k-1), w którym jest mediana

0x08 graphic

Kwartyle dla szeregu rozdzielczego

Kwartyle - są to liczby, które dzielą uporządkowaną próbę na 4 części, w taki sposób, że ¼ wartości jest nie większa oraz ¾ wartości jest niemniejsza od mediany (wartość środkowa w próbie).

Q1=0,25

Q3=0,75

0x08 graphic
Q1=x42 <6;8)

Q2=x84 <6;8)

Q3=x126 <8;10)


0x01 graphic

W badanej próbie ½ gospodarstw domowych miała mnie3jsze zużycie energii nie przekraczające 6,2kWh.

0x01 graphic

Połowa badanych gospodarstw domowych miała zużycie energii nie przekraczające 2,96kWh.

0x01 graphic

25% badanych gospodarstw domowych miało zużycie energii przekraczające 9,58kWh.

2, 2, 3, 4

0x01 graphic

Me = 2

Miary zmienności (zróżnicowanie, rozproszenie, dywersyfikacja)

Badając zmienność wartości badanej cechy obserwujemy zmienność odległości od wartości przeciętnej. Im większe odchylenia tym większa zmienność wartości badanej cechy.

Wariancja - jest to średnia kwadratowa odchyleń wartości cechy od wartości przeciętnej.

Wariancja w szeregu rozdzielczym przedziałowym

0x01 graphic

n - suma liczebności ni

k - liczba klas (wierszy) w szeregu

0x01 graphic
- środek i-tego przedziału

ni - liczebność i-tego przedziału

W szeregu punktowym nie występuje ^

W szeregu wyliczającym nie występuje ni

Wariancja jest miarą zmienności - im mniejsza wartość wariancji tym mniejsza zmienność badanej cechy.

Ze względu na trudną do interpretacji jednostkę z jaką wyznaczamy wariancję celem interpretacji obliczamy odchylenie standardowe jako:

0x01 graphic

Dla porównań zmienności cech statystycznych, które obserwowane są w różnych jednostkach nieporównywalnych wyznaczamy względną miarę względności i współczynnik zmienności.

0x01 graphic

Liczba nieinterpretowana (bez jednostki), więc podajemy w %.

0x01 graphic

W badanej próbie przeciętne zużycie energii wyniosło 7,8 kWh z odchyleniem +/- 2,6kWh, czyli typowe zużycie energii w badanej próbie mieściło się w przedziale od (5,2; 10,4kWh).

0x01 graphic

Asymetria rozkładu

0x08 graphic
0x08 graphic
0x08 graphic
0x01 graphic

Średnia większa od dominanty.

0x08 graphic
Asymetria prawostronna

0x08 graphic
0x08 graphic
0x01 graphic

Asymetria lewostronna

0x08 graphic
0x08 graphic
0x08 graphic
0x01 graphic

Rozkład symetryczny

Dla szeregu symetrycznego 0x01 graphic

Do pomiaru asymetrii rozkładu służy współczynnik skośności Persona

0x01 graphic

Współczynnik skośności jest miarą unormowaną. Wartości tego miernika należą do przedziału [-1; 1].

O znaku decyduje licznik, ponieważ S(x) jest zawsze dodatnie.

I Rozkład symetryczny

As=0

II Prawostronna asymetria

As>0

III Lewostronna asymetria

As<0

Jeżeli wartość bezwzględna współczynnika skośności rośnie do 1 wówczas rośnie siła asymetrii.

ANALIZA ZALEŻNOŚCI POMIĘDZY DWOMA CECHAMI STATYSTYCZNYMI

x

y

x1

x2

.

.

xn

y1

y2

.

.

yn

Zależność funkcjonalna - zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej.

y = f(x)

Zależność funkcjonalna nie zawsze może być stosowana. Może być stosowana w momencie, kiedy znane są jakieś nadrzędne prawa, które pozwalają wyznaczyć tą zależność.

Zależność stochastyczna - wraz ze zmianą jednej zmiennej następuje zmiana rozkładu prawdopodobieństwa drugiej zmiennej.

Rozkład prawdopodobieństwa wyznaczamy wykorzystując wcześniejsze badania.

Przy zastosowaniu tego podejścia należy zadać pytanie o stabilność wyznaczonych rozkładów w czasie.

Zależność korelacyjna (statystyczna) - określonym wartością jednej zmiennej przyporządkowane są ściśle określone wartości średnie drugiej zmiennej.

Jest to podejście, które może być powszechnie stosowane.

Aby zbadać zależność korelacyjną miedzy dwoma cechami statystycznymi należy ustalić:

  1. jaki jest rodzaj zależności korelacyjnej

  2. jaka jest siła zależności korelacyjnej

Odpowiadając na pytanie 1 wykonujemy wykres, który nazywa się wykres rozrzutu lub diagram korelacyjny.

Odpowiadając na pytanie 2 należy wyznaczyć odpowiedni miernik.

0x08 graphic
0x08 graphic
0x08 graphic
0x01 graphic
0x01 graphic
0x01 graphic
0x01 graphic

0x08 graphic

0x08 graphic

Kształt nie jest uzależniony od skali.

Zależność korelacyjna liniowa

Korelacja dodatnia - wraz ze wzrostem wartości jednej cechy następuje wzrost wartości drugiej cechy (zmiany są wprostproporcjonalne).

Korelacja ujemna - wzrostowi wartości jednej cechy odpowiada spadek wartości drugiej cechy (zmiany są odwrotnieproporcjonalne, tempo tych zmian nie musi być takie samo).

Badając siłę zależności liniowej korelacyjnej wyznaczamy współczynnik korelacji liniowej Pearsona przyjmujący wartości z przedziału [-1;1]

rxy = 0x01 graphic
= 0x01 graphic

Licznik: iloraz kowariancji cech X i Y

Mianownik: iloczyn odchylenia standardowego cechy X i odchylenia standardowego cechy Y.

Przy analizie korelacji mamy symetrię. Obie zmienne oddziałowują na siebie tak samo.

S(x) = 0x01 graphic
>0

Odchylenie standardowe jest pierwiastkiem wariancji.

O znaku współczynnika w korelacji decyduje znak korelacji.

r = 1 Jeżeli punkty ułożą się na prostej o nachyleniu dodatnim

0x01 graphic

r = -1 Jeżeli punkty ułożą się na prostej o nachyleniu ujemnym

0x01 graphic

Przykład:

Zbadaj zależności między wydatkami na reklamę (x) oraz wielkością sprzedaży (y).

xi

yi

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic
2

0x01 graphic
2

24

58

-13,4

-10,2

137,4

180,75

104,49

32

64

-5,4

-4,2

23,0

29,64

17,83

31

64

-6,4

-4,2

27,2

41,53

17,83

37

68

-0,4

-0,2

0,1

0,2

0,05

42

75

4,6

6,8

30,9

20,75

45,94

46

74

8,6

5,8

49,4

73,2

33,38

48

70

10,6

1,8

18,8

111,42

3,16

38

68

0,6

-0,2

-0,1

0,31

0,005

39

73

1,6

4,8

7,4

2,42

22,83

337

614

294,1

460,22

245,56

Wykonujemy wykres rozrzutu.

0x08 graphic
0x08 graphic
0x01 graphic

Wniosek: W badanej próbie zależność pomiędzy wielkością wydatków ma reklamę a wielkością sprzedaży jest korelacyjna liniowa dodatnia.

Siła zależności:

  1. obliczmy wartości średnie badanych cech

0x01 graphic
37,4 zł

0x01 graphic
68,2 zł

W badanej próbie średnia wydatków na reklamę wynosi 37,4 zł.

  1. odchylenia od średnich

(0x01 graphic
)

(0x01 graphic
)

  1. kowariancja

cov (X,Y)=32,7

  1. wariancja

S(x) = 0x01 graphic
= 7,15

S(y) = 0x01 graphic
= 5,22

S(x)*S(y) = 34,35

  1. 0x08 graphic
    współczynnik korelacji

Vxy =0x01 graphic
= 0,87

  1. współczynnik determinacji - informuje w jakim stopniu zmiany wartości cechy x wyjaśniają zmiany wartości cechy y

d = r2 = 0,77

W badanej próbie zaobserwowano silną liniową zależność korelacyjną, co oznacza, że wraz ze wzrostem wydatków na reklamę rośnie wielkość sprzedaży. W badanej próbie poziom sprzedaży w 77% zależał od poziomu wydatków na reklamę, natomiast w pozostałych 23% zależał od innych czynników.

Współczynnik RANG

0x01 graphic
0x01 graphic

n - wielkość próby

Vx, Vy - rangi nadane wartościom badanych cech

Własności jak poprzednio omawiany miernik - stosowany tylko do liniowych.

Przykład:

Zbadaj zależność pomiędzy liczbą emitowanych reklam a wielkością obrotów wyznaczając współczynnik korelacji i rang.

L. reklam

Wielkość

obrotów

Vx

Vy

Vx-Vy

(Vx-Vy)2

3

115

1

1

0

0

5

133

3,5

2

1,5

2,25

4

142

2

3

-1

1

5

150

3,5

5

-1,5

2,25

6

148

5

4

1

1

7

151

6

6

0

0

6,5

n = 6

  1. wykres rozrzutu

0x08 graphic
0x08 graphic
0x01 graphic

zależność dodatnia liniowa

  1. rangi

0x01 graphic
0x01 graphic
= 0,814

współczynnik determinacji

d=0,662

W badanej próbie zaobserwowano silną liniową zależność korelacyjną dodatnią. Wielkość obrotów w 66,2% zależało od liczby emitowanych reklam.

Jeżeli badamy zależność korelacyjną pomiędzy:

- cechą jakościową i ilościową

- dwoma cechami jakościowymi

należy zastosować współczynnik rangowy.

Dane zagregowane (pogrupowane szeregi rozdzielcze) występują w postaci tablicy, która nazywa się tablicą korelacyjną.

X/Y

y1

y2

x1

x2

a

c

b

d

a+b

c+d

a+d

b+d

n

Sumy liczebności w wierszach oraz sumy liczebności w kolumnach są to liczebności brzegowe.

Współczynnik asocjacji Yulea Q

Q=0x01 graphic

Własności jak w poprzednich miernikach.

Przykład:

W 500 rodzinach przeprowadzono obserwacje dotyczące koloru oczu ojca i syna.

Kolor oczu ojca

Kolor oczu syna

jasny

ciemny

jasny

30

80

110

ciemny

170

220

390

200

300

500

Q=0x01 graphic

W badanej próbie zaobserwowano słabą zależność pomiędzy dziedziczeniem koloru oczu.

0x08 graphic

Tablica tychotomiczna - każda badana cecha ma tylko dwie wartości.

Analiza regresji

W analizie korelacji nie ma znaczenia, która zmienna została nazwana x, a która y.

Analiza regresji - pomiędzy badanymi cechami x i y przeprowadzamy, jeżeli pomiędzy badanymi cechami istnieje związek przyczynowo-skutkowy:

- badana cecha x ma wpływ na cechę y

- badana cecha y ma wpływ na cechę x

- badane cechy wpływają na siebie wzajemnie.

W przypadku zależności korelacyjnej liniowej przeprowadzając analizę regresji wyznaczamy liniowe funkcje regresji.

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x01 graphic

Funkcję regresji wyznaczamy posługując się metodą najmniejszych kwadratów.

Metoda najmniejszych kwadratów pozwala na wyznaczanie funkcji regresji tak, aby suma kwadratów odległości wartości empirycznych od wartości teoretycznych była minimalna.

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x01 graphic

zmienność ogólna = zmienność wyjaśniona regresją + zmienność resztowa

(0x01 graphic
) (0x01 graphic
0x01 graphic
) (0x01 graphic
)

0x08 graphic
0x08 graphic
Dla opisu wpływu zmian wartości cechy x na cechę y wyznaczamy w przypadku zależności liniowej funkcję regresji

0x01 graphic

wyznaczając minimum następującej funkcji:

0x01 graphic

niewiadome: a1, a0

Niezależne współczynniki linii regresji (a1; a0) uzyskujemy rozwiązując układ równań normalnych.

0x01 graphic

W wyznaczonym równaniu regresji interpretujemy wartość współczynnika a1, który informuje jak średnio zmienia się wartość cechy y, jeżeli cecha x rośnie o jedną jednostkę.

0x08 graphic
0x08 graphic
Dla opisu wpływu zmian wartości cechy y na zmiany wartości cechy x w przypadku zależności liniowej wyznaczamy równanie regresji

0x01 graphic

wyznaczając minimum następującej funkcji

0x01 graphic

Niewiadome współczynniki równania regresji (b1, b0) wyznaczamy rozwiązując układ równań normalnych

0x01 graphic

W wyznaczonym równaniu interpretujemy wartość współczynnika b1, który informuje jak średnio zmienia się wartość cechy x, jeżeli cecha y rośnie o jedną jednostkę.

a0, b0 - współczynniki przesunięcia, nie podlegają komentarzowi

a1, b1 - współczynniki kierunkowe linii regresji

Przykład:

Obliczanie parametrów funkcji regresji opisującej wpływ liczby zatrudnionych osób (x) na obroty w mln złotych (0x01 graphic
) w sklepach branży spożywczej.

0x01 graphic

0x01 graphic

xi2

xiyi

yi2

0x01 graphic

0x01 graphic

23

149

529

3427

22201

160,9

141,61

4

35

16

140

1225

29,6

29,16

12

69

144

828

4761

84,9

0x08 graphic
252,81

3

33

9

99

1089

22,7

106,09

17

119

289

2023

14161

119,5

0,25

2

6

4

12

36

15,8

96,04

21

176

441

3696

30976

147,1

835,21

9

98

81

882

9604

62,2

1142,44

7

48

49

336

2304

50,4

5,76

12

47

144

564

2209

84,9

1436,41

110

780

1706

12007

88566

778

4045,78

  1. wykres - zależność liniowa

  2. 0x08 graphic
    które równanie? (X - Y czy Y - X)

X wpływa na Y

0x01 graphic

0x01 graphic

0x01 graphic

Równanie regresji ma postać: 0x01 graphic

Współczynnik regresji informuje, że wraz ze zwiększeniem zatrudnienia o 1 osobę wielkość obrotów rośnie średnio o 6,91 mln zł.

Przykład:

Obliczanie parametrów funkcji regresji opisującej wpływ wielkości obrotów w mln zł (0x01 graphic
) na liczbę zatrudnionych osób w sklepach branży spożywczej.

0x08 graphic
Y X

0x01 graphic

0x01 graphic

0x01 graphic
0x01 graphic

0x01 graphic

Równanie regresji ma postać: 0x01 graphic

Współczynnik regresji informuje, że zwiększenie obrotów o 10 mln zł powoduje zwiększenie zatrudnienia średnio o 1,24 osoby (1 osobę).

Równoważna metoda wyznaczania współczynników linii regresji

Współczynnik regresji informuje, ze wraz ze zwiększeniem zatrudnienia o 1 osobę wielkość obrotów rośnie średnio o 6,91 mln zł.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

Związki pomiędzy współczynnikami regresji i współczynnikiem korelacji

0x01 graphic

Współczynnik korelacji jest średnią geometryczną wyznaczoną ze współczynników kierunkowych linii regresji.

0x08 graphic
0x01 graphic

0x08 graphic

0x08 graphic

Jeżeli zmienne są niezależne wówczas linie regresji są prostopadłe.

Miary dopasowania linii regresji do danych empirycznych.

0x08 graphic
0x08 graphic
0x01 graphic
0x01 graphic

Trzy mierniki:

  1. współczynnik determinacji (powinien być jak największy) r2

  2. współczynnik zbieżności (powinien być jak najmniejszy) 1 - r2

  3. wariancja resztowa

Współczynniki determinacji i zbieżności są miernikami symetrycznymi (wyrażone w %) i wyznaczane są dla obydwu linii regresji jednocześnie.

Wariancje resztowe:

- dla funkcji regresji y względem x wariancję resztową określamy wzorem:

0x01 graphic

- dla funkcji regresji x względem y wariancję resztową określamy wzorem

0x01 graphic

n - liczba elementów w próbie

k - liczba szacowanych elementów (dla funkcji liniowej k = 2)

S(u) [] taka jednostka jak cecha y

S(z) [] taka jednostka jak cecha x

Im mniejsza wartość wariancji resztowej tym lepsze dopasowanie linii regresji do danych.

0x01 graphic
mln zł

Oznacza to, że faktycznie zaobserwowane obroty w sklepach różnią się od szacowanego za pomocą funkcji regresji o 22,49 mln zł.

Analiza indeksowa szeregów czasowych

ti

yi

t1

y1

t2

y2

t3

y3

...

...

tn-1

yn-1

tn

yn

szereg dynamiczny

Proste metody badania zmian szeregu dynamicznego:

- przyrosty absolutne ∆

- przyrosty względne p

- wskaźniki dynamiki (indeksy) i

Przyrosty absolutne:

- ciąg przyrostów o podstawie stałej, za podstawę porównań przyjmujemy wielkość yk

y1-yk, y2-yk, y3-yk, ..., yn-1-yk, yn-yk

k=1,...,n

- ciąg przyrostów o podstawie łańcuchowej

y2-y1, y3-y2, y4-y3, ..., yn-1-yn-2, yn-yn-1

Ciąg przyrostów o podstawie stałej informuje o ile zmieniła się wartość badanej cechy w porównaniu z wartością yk.

Ciąg przyrostów o podstawie łańcuchowej informuje o ile zmieniła się wartość badanej cechy w porównaniu z wartością w okresie poprzednim.

Obydwie grupy mają jednostkę taką jak badana cecha.

Przyrosty względne:

- ciąg przyrostów o podstawie stałej, za podstawę porównań przyjmujemy wielkość yk

y1-yk / yk , y2-yk / yk, y3-yk / yk, ..., yn-1-yk / yk, yn-yk / yk

- ciąg przyrostów o podstawie łańcuchowej

y2-y1 / yk, y3-y2 / yk, y4-y3 / yk, ..., yn-1-yn-2 / yk, yn-yn-1 / yk

Ciąg przyrostów względnych o podstawie stałej informuje o ile zmieniła się wartość badanej cechy w stosunku do wartości yk.

Ciąg przyrostów względnych łańcuchowych informuje o ile zmieniła się wartość badanej cechy w stosunku do wartości w okresie poprzednim.

Dla interpretacji zamieniamy te liczby na procenty (ponieważ są liczbami niemianowanymi).

Wskaźniki dynamiki (indeksy):

- ciąg indeksów o podstawie stałej, za podstawę porównań przyjmujemy wielkość yk:

y1/yk, y2/yk, y3/yk ,..., yn-1/yk ,yn/yk

- ciąg indeksów o podstawie łańcuchowej

0x08 graphic
y2/y1, y3/y2, y4/y3, ..., yn-1/yn-2, yn/yn-1

Ciąg indeksów o podstawie stałej informuje ile razy wzrosła (zmalała) wartość badanej cechy w porównaniu z wartością yk.

Ciąg indeksów łańcuchowych informuje ile razy zmieniła się wartość badanej cechy w porównaniu z wartością w okresie poprzednim.

Indeksy są to mierniki niemianowane, które dla interpretacji zamieniamy na procenty.

Między dwoma ostatnimi grupami mamy następujące zależności:

indeks = przyrost względny + 1

i = p + 1

Przykład:

Ludność województwa śląskiego (w tys. osób)

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

1998

4882,4

0,0

-

0

1

1999

4872,8

-9,7

-9,7

-0,002

-0,002

0,998

0,998

2000

4863,3

-19,1

-9,4

-0,004

-0,002

0,996

0,998

2001

4855,3

-27,1

-8,0

-0,006

-0,002

0,994

0,998

2002

4848,2

-34,3

-7,2

-0,007

-0,001

0,993

0,999

  1. wyznaczyć przyrosty absolutne o podstawie stałej z roku 1998

k = 1998

W roku 2002 liczba mieszkańców w porównaniu z rokiem 1998 zmalała o 34,3 tys. osób.

  1. wyznaczyć przyrosty absolutne łańcuchowe

W roku 2002 w porównaniu z rokiem 2001 nastąpił spadek liczby ludności o 7,2 tys. osób.

  1. wyznaczyć przyrosty względne o podstawie stałej z roku 1998

W 2002 roku nastąpił spadek liczby ludności o 0,7% w porównaniu z rokiem 1998.

  1. wyznaczyć przyrosty względne łańcuchowe

W roku 2002 nastąpił spadek liczby ludności w porównaniu z rokiem 2001 o 0,1%.

  1. wyznaczyć indeksy o podstawie stałej z roku 1998

  2. wyznaczyć indeksy łańcuchowe

Aby wyznaczyć średnia wartość badanego zjawiska w czasie należy wyznaczyć średnie tempo zmian, czyli średnią geometryczną obliczoną w ciągu indeksów łańcuchowych.

0x01 graphic

Agregatowe wskaźniki dynamiki dla wielkości absolutnych:

- zbiór produktów, towarów lub usług

q = [q1, q2, ..., ql]

Każda współrzędna tego wektora wyrażona jest w innej, nieporównywalnej bezpośrednio jednostce, np.: kg, zł

- wektor cen jednostkowych

p = [p1, p2, ..., pl]

- łączna wartość badanego zjawiska

0x01 graphic

Badanie prowadzimy w dwóch wybranych okresach czasu. Okres badany będziemy zapisywać „n”, okres podstawowy „o”. Badane okresy czasu mają jednostki porównywalne między sobą (2 lata, 2 miesiące, 2 kwartały).

Agregatowy indeks wartości informuje jak zmieniła się łączna wartość badanego zjawiska w okresie badanym w porównaniu z okresem podstawowym.

0x01 graphic

Przykład:

Wyznaczanie indeksów agregatowych charakteryzujących dynamikę produkcji wybranej grupy artykułów w marcu w porównaniu z lutym.

Miesięczna produkcja

Cena jednostkowa w zł

Wartość faktyczna w zł

Wartość hipotetyczna w zł

qo

qn

po

pn

qopo

qnpn

qopn

qnpo

luty

marzec

luty

marzec

A[t]

20

25

20

22

400

500

440

500

B[szt.]

100

120

10

8

1000

960

800

1200

C[kg]

360

300

8

9

2880

2700

3240

2400

4280

4210

4480

4100

0x01 graphic

Łączna wartość trzech obserwowanych artykułów produkowanych w marcu zmalała o 1,64% w porównaniu z wartością produkcji w lutym.

Agregatowe indeksy ilości i cen - służą wyodrębnieniu wpływu ilości lub cen na zmianę wartości:

0x08 graphic
- formuła standaryzacyjna Paaschego polega na tym, że czynnik eliminowany stabilizujemy na poziomie okresu badanego (n)

0x01 graphic

- formuła standaryzacyjna Laspeyresa - czynnik eliminowany stabilizujemy na poziomie okresu podstawowego

0x01 graphic

0x01 graphic

0x01 graphic

liczebność

x

D

ni

D x

ni

x

D

Zależność liniowa dodatnia

r>0

Brak zależności

(współczynnik korelacji w przybliżeniu wynosi 0)

Zależność nieliniowa

(nie wyznaczamy rxy)

Zależność liniowa ujemna

r<0

10 20 30 40 50

80

75

70

65

60

55

1 2 3 4 5 6 7

160

150

140

130

120

110

0x01 graphic

0x01 graphic

a>0

a<0

Zależność liniowa ujemna

Zależność liniowa dodatnia

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

Zmienność ogólna

Zmienność wyjaśniona regresją

Zmienność resztowa (niewyjaśniona regresją)

X Y

Y X

a0

b0

Stat. i dem. 1

Stat. i dem. 2

Stat. i dem. 3

Stat. i dem. 4

Stat. i dem. 5

Stat. i dem. 6

Stat. i dem. 7

Stat. i dem. 8

Stat. i dem. 9

Stat. i dem. 10

Stat. i dem. 11

Stat. i dem. 12



Wyszukiwarka