Analiza współzależności
Poznawanie związków między cechami jest analizą ze względów poznawczych. W rzeczywistości rzadko jest tak aby jakaś cecha obiektów lub zjawisko pewnego rodzaju kształtowało się zupełnie niezależnie od innych cech lub zjawisk. Właściwie pobieżne obserwacje różnych właściwości pozwalają stwierdzić istnienie pewnych związków lub zgodności między nimi.
Cecha Y - wydatki na żywność
Cecha X - dochody gospodarstw domowych.
(
) - wartość cechy
Zależności między zjawiskami nie mają charakteru funkcyjnego, mają charakter probabilistyczny - nazywamy je zależnościami stochastycznymi. Zależność stochastyczna (probabilistyczna) polega na tym, że jedna ze zmiennych reaguje na zmianę drugiej w ten sposób, że zmienia swój rozkład. Danej wartości cechy X odpowiadają różne rozkłady wartości cechy Y. Analiza zależności ma na celu ustalenie siły i kierunku występujących związków między cechami oraz skwantyfikowanie wpływu czynników na badane zmienne.
Kwantyfikacja (wyrażenie za pomocą liczby)
Prezentacja danych w analizie współzależności
Szereg korelacyjny.
Próba n-elementowa. Obiekty obserwujemy ze względu na dwie cechy ilościowe: X;Y.
Każda jednostka jest opisywana charakterystyczną parą liczb (
).
Jeśli n jest mała, tworzymy szereg korelacyjny.
Numer jednostki |
Wartość cechy |
Wartość cechy |
1 |
|
|
2 |
|
|
N |
|
|
Szereg korelacyjny jest uporządkowany. Szereg korelacyjny można porządkować tylko wg jednej wartości cechy.
Trzecia forma prezentacji danych to wykres korelacyjny. Diagram korelacyjny jest wykresem punktowym. Diagram jest tworzony po to aby przeprowadzić wstępną ocenę współzależności. Ocena jest ważna dla dalszego toku postępowania. Ma odpowiadać na pytania:
Czy między zmiennymi występuje zależność (Tak, Nie)
Jaki jest charakter i siła zależności
Ocena zależności na podstawie diagramu korelacyjnego.
Brak zależności Słaba zależność liniowa dodatnia
Zasadnicze pytanie (2) czy zależność jest liniowa czy nieliniowa. Inaczej się bada zależności liniowe i nieliniowe.
Zależność statystyczna lub stochastyczna jest to uproszczenie koncepcji stochastycznej , powiadamy, że zmienne są niezależne statystycznie lub nie są nieskorelowane jeżeli poszczególnym odmianom jednej zmiennej odpowiadają takie same wartości średnich warunkowych.
W przeciwnym przypadku mówimy, że zmienne są skorelowane. Ponieważ koncepcja zależności stochastycznej jest szersza, to z niezależności stochastycznej wynika niezależność statystyczna (korelacyjna) ale nie odwrotnie. Czyli jeżeli stwierdzimy, że zmienne są nieskorelowane to nie wynika z tego, że są niezależne stochastycznie (probabilistycznie).
Współczynnik korelacji Pearsona.
Do badania siły liniowej zależności korelacyjnej służy współczynnik korelacji Pearsona.
Inne nazwy - współczynnik korelacji liniowej
- parami
- współczynnik wg momentu iloczynowego.
Współczynnik korelacji w próbie -
Współczynnik korelacji w populacji -
Wartość współczynnika korelacji przyjmuje:
Jeżeli zależność jest funkcyjna to wartość współczynnika może przyjąć wartości graniczne.
- oznacza nieskorelowanie
- korelacja dodatnia
- korelacja ujemna
Rozkład w próbie silnie zależny od liczebności próby i współczynnika korelacji
. Może się okazać, że dla małej próby współczynnik korelacji
nieistotnie różni się od 0 nawet przy względnie wysokich wartościach tego współczynnika.
Współczynnik korelacji jeżeli próba jest mała musi być testowany.
S( T-studenta, dwa punkty swobody )
odrzucamy jeżeli
(efekt nieistotny)
Analiza współzależności (zadanie)
Twierdzi się, żę karta kredytowa jest przydatna w podróży. Pewna firma „VISA” wylosowała spośród posiadaczy jej kart 7 osób i zbadała roczne obciążenie ich kart (w tys. zł )oraz długości tras podróży w (tyś. km). Otrzymano dane:
Długość trasy |
Obciążenie karty |
|
|
|
|||
|
|
|
|
|
|
|
|
4,5 |
|
3 |
|
13,5 |
20,25 |
9 |
|
8,5 |
|
4 |
|
34 |
72,25 |
16 |
|
10 |
|
8,5 |
|
85 |
100 |
72,25 |
|
16 |
|
8 |
|
128 |
256 |
64 |
|
18 |
|
13,5 |
|
243 |
324 |
182,25 |
|
22 |
|
10,5 |
|
231 |
484 |
110,25 |
|
25 |
|
14,5 |
|
362,5 |
625 |
210,25 |
|
104 |
|
62 |
|
1097 |
1881,5 |
664 |
Przeprowadzić analizę współzależności:
Sporządzamy diagram korelacyjny
Czy istnieje współzależność
Tak - mały rozrzut punktów
Charakter zależności
Zależność liniowa.
Zależność dodatnia.
współczynnik korelacji Pearsona
kowariancja
- odchylenie standardowe
0,895 >0
Oznacza to silną dodatnią współzależność. Im większa łączna długość trasy tym większe obciążenie karty.
Testujemy istotność współczynnika korelacji. (nie dotyczy tego przypadku)
n-2 - stopnie swobody
Należy odrzucić hipotezę
o braku zależności. Zależność jest istotna.
Analiza regresji
Założenie:
jest liniową funkcją X.
- zmienna losowa
Metoda najmniejszych kwadratów
a - estymator parametru
b -estymator parametru
Estymatory najmniejszych kwadratów.
(zaokrąglać dopiero po obliczeniu a)
- reszta
- współczynnik regresji (współczynnik kierunkowy prostej)
Jeżeli zmienna zależna x wzrośnie o 1 jednostkę to y wzrośnie przeciętnie o 0,523 jednostki.
Test istotności współczynnika regresji.
Rozkład T-studenta
- odchylenie standardowe reszt
Współczynnik korelacji:
Funkcje regresji i jej dopasowanie
Zbadano zależność między wysokością wydatków na bezpieczeństwo i ubezpieczenie ( w tyś. zł ) w skali roku (Y) a rozmiarami (w mln. t.) przewozów towarowych (X) w 10 losowo wybranych firmach przewozowych pewnego typu. Otrzymano dane:
|
13 |
18 |
14 |
18 |
23 |
21 |
14 |
25 |
23 |
14 |
|
10 |
16 |
12 |
18 |
17 |
17 |
9 |
19 |
17 |
11 |
Uporządkować szereg korelacyjny.
Wykreślić diagram korelacyjny i ocenić charakter współzależności
Dopasować funkcje regresji zmiennej Y ze względu na zmienną X i ocenić jej dokładność.
Jakich wydatków na ubezpieczenia i bezpieczeństwo należy się spodziewać przy przewozach w wielkości 30 mln. t.
n |
|
|
|
|
|
1 |
9 |
14 |
126 |
81 |
196 |
2 |
10 |
13 |
130 |
100 |
169 |
3 |
11 |
14 |
154 |
121 |
196 |
4 |
12 |
14 |
168 |
144 |
196 |
5 |
16 |
18 |
288 |
256 |
324 |
6 |
17 |
21 |
357 |
289 |
441 |
7 |
17 |
23 |
391 |
289 |
529 |
8 |
17 |
23 |
391 |
289 |
529 |
9 |
18 |
18 |
324 |
324 |
324 |
10 |
19 |
25 |
475 |
361 |
625 |
Suma |
146 |
183 |
2804 |
2254 |
3529 |
Szacujemy liniową funkcje regresji.
jeżeli wzrośnie przewóz o 1 mln. t. To wzrost ubezpieczenia wzrośnie o 1,08 tyś. $.
(brak zależności)
Jest zależność wydatków od ilości przewozów.
inne wpływy (zmienna losowa) Wartość oczekiwania = 0
2 parametry szacowania a i b
( zalecany wzór do obliczeń )
( odchylenie standardowe reszt )
tyś. $ ( interpretacja Y )
Poszczególne zaobserwowane wartości nakładów na bezpieczeństwo i ubezpieczenia różnią się od wartości teoretycznych oczekiwanych
przeciętnie o 2,16 tysięcy $.
współczynnik zmienności reszt
błąd przeciętny w danym zbiorze danych
Współczynnik indeterminacji (zbieżności)
Na kształtowanie y mają wpływ inne czynniki w 20,7%
Współczynnik determinacji
Na kształtowanie się wydatków na ubezpieczenia i bezpieczeństwo wpływ ma w 79,3 % wielkość przewozów.
współczynnik determinacji
- współczynnik korelacji Pearsona
r = 0,8905
odchylenie standardowe y , odchylenie standardowe x
Jakich wydatków na ubezpieczenia i bezpieczeństwo należy się spodziewać gdy będziemy przewozić 25 mln. t.
tyś $
Należy się spodziewać wzrostu wydatków na ubezpieczenia i bezpieczeństwo średnio o 29,532 tyś $
P - prognoza dla x=25 mln. t.
Zrobić analizę zadania domowego i zadania zrobionego na ćwiczeniach.
Analiza współzależności
istotne badania dokładności funkcji regresji
Parametry funkcji regresji badamy metodą najmniejszych kwadratów, która polega na takim doborze parametrów
funkcji regresji, które minimalizują sumę kwadratów odchyleń wartości empirycznych zmiennej zależnej Y od wartości teoretycznych (represyjnych).
Ocena dokładności funkcji represji opiera się na analizie wariancji. Bierze się tu za punkt wyjścia następującą tożsamość:
zsumować po wszystkich i
całkowita zmienność
suma kwadratów całkowita
suma kwadratów reszt
suma kwadratów regresji
Z
związane jest n-1 stopni swobody
stopni swobody
suma kwadratów regresji
( wzór do stosowania )
Współczynnik determinacji (stopień wyjaśniania y przez x)
Współczynnik identerminacji (stopień nie wyjaśniania y przez x)
Odchylenie standardowe reszty
wariancja resztkowa
błąd szacunkowy funkcji regresji
współczynnik zmienności resztkowy
Dla tej hipotezy stosuje się test
wariancja resztkowa
Funkcja Snedecora F - wykres jest zawsze symetrycznie prawostronny z 1, n-2 (stopnia swobody)
Rozkład Snedecora
Jeżeli układ punktów na diagramie korelacyjnym nie imituje linii prostej to znaczy , że regresje zmiennej y względem zmiennej x nie ma charakteru liniowego. Mówimy wówczas o regresji nieliniowej lub krzywoliniowej. Dokładny charakter nieliniowej zależności można ocenić na podstawie wykresu korelacyjnego. Należy przy tym pamiętać, że do danego rozrzutu układu punktów mogą pasować różne funkcje nieliniowe, które mogą mieć zbliżony przebieg.
Funkcja potęgowa
>0
< 0
>0
0
>0
>1
Funkcja wykładnicza
Korelacja cech jakościowych
Cechy dwudzielcze
Do cech jakościowych niemierzalnych zaliczamy cechy dwudzielcze (dychotomiczne) - tylko dwie wzajemnie wykluczające się kategorie. Np. kobieta - mężczyzna, wykształcenie wyższe-inne
Charakter wielodzielczy (wiele kategorii wykluczających się np. poziomy wykształcenia , typy gospodarstw domowych .
Asocjacje - współzależność dwóch cech dychotomicznych .
Sposób prezentacji danych:
|
B |
B |
|
A |
a |
b |
a+b |
A |
c |
d |
c+d |
|
a+c |
b+d |
a+b+c+d=n |
Tablica czteropolowa 2x2 tablica asocjacji
Dwie cechy A i B są niezależne jeżeli znajdujemy taką samą proporcję A wśród B jak i wśród nie B.
kryterium niezależności
Określa się dwa współczynniki Yule'a (Q)
jest odpowiednikiem współczynnika korelacji
Pearsona
Współczynnik korelacji rang -Spearmana
Współczynnik Pearsona dla liczb naturalnych:
różnica rang i-tego obiektu
ranga i-tego obiektu ze względu na własności x
ranga i-tego obiektu ze względu na własności y
Współczynnik Spearmana przyjmuje wartości w zakresie:
0 - oznacza brak skorelowania
Rangi wiązane - jeżeli oba zjawiska mają te same wartości .
Np. kolejność 1
kolejność 2
Ranga = 1,5
Istotność współczynnika Spearmana
brak zależności
zbór krytyczny dwustronny
Jeżeli próba jest duża n>10 to statystyka jest taka sama jak dla testu na współczynnik
Pearsona
( Test Studenta )
Jeżeli próba jest duża n>20 rozkład korelacji Spearmana dąży do rozkładu normalnego,
wtedy należy stosować
Zadanie:
Dziesięć przedsiębiorstw handlowych o zbliżonej wielkości należących do jednej branży porangowano pod względem dwóch różnych własności - jakości obsługi klienta i zaopatrzenia.
Przedsiębiorstwo |
|
|
|
|
A |
1 |
3 |
-2 |
4 |
B |
2 |
3 |
-1 |
1 |
C |
3,5 |
1 |
2,5 |
6,25 |
D |
3,5 |
5 |
-1,5 |
2,25 |
E |
5 |
3 |
2 |
4 |
F |
6 |
7 |
-1 |
1 |
G |
7 |
6 |
1 |
1 |
H |
8 |
8,5 |
-0,5 |
0,25 |
I |
9 |
8,5 |
0,5 |
0,25 |
J |
10 |
10 |
0 |
0 |
Razem |
X |
X |
X |
20 |
Współczynnik jest wysoki i wskazuje na zgodność działań pod kątem zaopatrzenia i dbałości o klienta
brak zależności
-2,306 0 2,306
należy odrzucić
Współczynnik korelacji istotnie różni się od 0.
Korelacja cech jakościowych
Badanie skuteczności szczepionki cholery przeprowadzone w trakcie zachorowań dostarczyły następujących informacji:
|
Nie zachorowali |
Zachorowali |
|
Zaszczepieni |
192 ( a ) |
4 ( b ) |
196 |
Nie zaszczepieni |
113 ( c ) |
34 ( d ) |
147 |
|
305 |
38 |
343 |
Test niezależności
badane cechy są niezależne ( hipoteza)
- hipoteza niezależności
badane cechy są zależne
- zaprzeczenie hipotezy
Test niezależności Chi-kwadrat
- liczebność teoretyczna
Statystyka
ma rozkład
z (r-1)(S-1) stopni swobody gdzie r, S - liczba wariantów cech. W tablicy (2x2) df =(2-1)(2-1)=1
- z jednym stopniem swobody.
Rozkład Chi-kwadrat jest rozkładem dodatnio asymetrycznym.
3,841
Zmienna losowa
Im większa ilość stopni swobody tym rozkład jest mniej asymetryczny.
obliczone w próbie jest większe
. Hipotezę o niezależności należy zdecydowanie odrzucić.
Kryterium niezależności:
Silna asocjacja między badanymi zjawiskami.
Zadanie :
W celu zbadania czy studentki zdają egzaminy lepiej niż studenci wylosowano próbę 180 osób i otrzymano następujące wyniki zaliczenia sesji egzaminacyjnej:
Sesja |
Studentki |
Studenci |
|
Zaliczona |
75 |
25 |
100 |
Nie zaliczona |
55 |
25 |
80 |
|
130 |
50 |
180 |
Obliczyć :
1. Współczynnik Youl'a
Współczynnik Pearsona
Test niezależności
Jest miarą skojarzenia cech. Istnieje niewielka zależność między płcią a zaliczeniami.
- badane cechy są niezależne
-0,865 0,865 -3,841 3,841
Nie możemy odrzucić hipotezy
, że płeć nie ma wpływu na wyniki egzaminów. Wpływ płci na wyniki egzaminów jest statystycznie nieistotny.
Analiza szeregów czasowych
Szeregiem czasowym nazywamy ciąg wartości zmiennej uporządkowanej zgodnie z następstwem momentu lub wartości czasu , których tego dotyczą.
Jest to zbiór obserwacji statystycznych charakteryzujących zmiany poziomu zjawiska w czasie. Poszczególne obserwacje nazywamy wyrazami tego szeregu.
Szereg czasowy zapisujemy za pomocą symbolu
lub
gdzie t reprezentuje kolejne momenty lub okresy czasu.
Momenty lub okresy są oznaczone kolejnymi liczbami całkowitymi np. 1992, 1993, 1994 itd.
w ogólności mogą to być dowolne liczby n, których każda następna jest większa
od poprzedniej. Zmienna czasowa jako wielkość niezależna jest zmienną ciągłą.
Zapis szeregu czasowego
lub
pokazuje, że należy traktować ten szereg jako funkcję czasu. Wyróżnia się dwa rodzaje szeregu czasowego.
szeregi czasowe momentów - ich wyrazy odpowiadają jednakowo odległym momentom czasu. Szeregi momentów podają stan liczbowy zbiorowości w ściśle określonych momentach lub sumę wartości pewnej zmiennej posiadanej przez jednostki populacji.
( np. liczba ludności Polski w dniu 31.12. kolejnego roku .Liczba statków polskiej floty handlowej - stan liczebny cechy tworzącej zbiorowość, pojemność statków - suma wartości cechy tworzącej zbiorowość )
Dodawanie wyrazów szeregu czasowego momentów jest pozbawione sensu.
szeregi czasowe okresów - ich wartości odpowiadają okresom czasu o jednakowej
długości. Wyrażają one poziom zjawiska lub liczbę faktów, które zaszły w kolejnych
okresach. ( np. produkcja telewizorów w Polsce, eksport owoców i warzyw. Liczba
faktów może być przedmiotem szeregu , liczba zgonów, liczba zawartych małżeństw,
liczba wypadków ).
Dodawanie wyrazów szeregu czasowego okresów jest zasadne.
Szeregi czasowe ilustrujemy za pomocą wykresów sporządzanych w układach współrzędnych ograniczonych do I - szej ćwiartki dodatnich wartości. Na osi odciętych - okresy, na osi rzędnych - wielkość zjawiska. Wykres jest liniowy.
Zagadnienia ogólne dotyczące szeregu czasowego.
Wyrazy szeregu czasowego powinny być wielkościami jednolitymi w czasie tzn. jednorodnymi i porównywalnymi. Należy to rozumieć w ten sposób, że w całym analizowanym okresie szereg powinien dotyczyć jednego i tego samego zjawiska lub zbiorowości, definiowanego i mierzonego w ten sam sposób.
Zmiany granic obszarów organizacyjnych jest powodem zerwania jednolitości w czasie.
Badanie dynamiki zjawisk w czasie.
Istnieje parę sposobów badania dynamiki zjawiska. Zadaniem tego badania jest określenie zmian zachodzących w poziomie danego zjawiska oraz kierunku , tempa i intensywności. Jednym z narzędzi badania dynamiki są wskaźniki dynamiki. Jeżeli zjawisko jest jednorodne lub właściwie zagregowane to obliczenie współczynników sprowadza się do dzielenia lub odejmowania dwóch wyrazów szeregu czasowego. Wskaźniki dynamiki mogą być wyznaczane dla dwóch wybranych okresów lub momentów lub dla całej ich sekwencji.
Jeżeli wielkość zjawiska w kolejno po sobie następujących momentach lub okresach odnosimy stale do pierwszego wybranego wyrazu szeregu to wskaźniki nazywamy jednopodstawowymi.
Jeżeli natomiast wielkość zjawiska w kolejno po sobie następujących okresach lub momentach odnosimy do wielkości zjawiska lub momentu poprzedzającego to wskaźniki nazywamy łańcuchowymi ( sekwencja zjawisk ). Jeżeli chodzi o konstrukcję wskaźników to wyróżniamy następujące:
Przyrosty absolutne
- przyrost jednopodstawowy
- przyrost łańcuchowy
Przyrosty absolutne informują o ile jednostek zmieniło się ( wzrosło lub zmalało ) zjawisko w okresie lub momencie badanym względem okresu lub momentu poprzedniego lub podstawowego. Jeżeli wielkości wyrażamy w jednostkach to różnice też wyrażamy w tych samych jednostkach. Przyrosty absolutne są liczbami mianowanymi.
Przyrosty względne -
- przyrost jednopodstawowy
-
- przyrost łańcuchowy
Uzyskujemy je przez dzielenie przyrostów absolutnych przez wielkość zjawiska w okresie lub momencie odniesienia.
Przyrosty względne informują o ile w wyrażeniu względnym (%) zmieniło się ( wzrosło lub zmalało ) zjawisko w drugim okresie lub momencie w stosunku do okresu lub momentu podstawowego lub poprzedniego. Jeżeli zjawisko wzrosło to przyrost wyraża się liczbą dodatnią, jeżeli zmalało to przyrost wyraża się liczbą ujemną.
Przykład:
jednostek
Wzrost o 20 jednostek co stanowi 20% podstawy.
Indeksy dynamiki
Indeksy dynamiki uzyskujemy dzieląc wielkość zjawiska w danym okresie lub momencie przez wielkość zjawiska w okresie lub momencie podstawowym lub poprzednim.
- indeks jednopodstawowy
- indeks łańcuchowy.
Indeks dynamiki informuje ile razy w ujęciu względnym zjawisko w danym okresie lub momencie jest większe lub mniejsze w stosunku do okresu lub momentu podstawowego lub poprzedniego.
Przykład:
- stanowi 120 % zjawiska z poziomu 0.
Odjęcie od indeksu dynamiki liczby 1 lub 100% da odpowiedni przyrost względny.
Jeżeli zjawisko wzrasta to indeks dynamiki jest >1.
Jeżeli zjawisko spada to indeks dynamiki jest < 1.
Najczęściej stosowanymi indeksami dynamiki są indeksy dynamiki ujęte w procentach.
W Roczniku Statystycznym indeksy są uzupełniane indeksami dynamiki.
Indeks jednostkowy - 1995 = 100%
Indeks łańcuchowy - rok poprzedni = 100%
Indeksy agregatowe.
Agregatowe indeksy dynamiki
(ilość / cena)
(późniejszy okres / wcześniejsze odniesienie)
L - indeks Laspeyersa 0
P - indeks Paascha n
Tablica większa niż 2x2 nazywana jest tablicą kontyngencyjną
Jeżeli cech A i B są niezależne to zachodzi :
- liczebność teoretyczna
- cechy są niezależne
- czym większe różnice tym większa zależność
- kontyngencyjność kwadratowa
- cechy są zależne
- cechy są niezależne
( cechy są niezależne)
( cechy są zależne )
stopnie swobody
- współczynnik zbieżności (korelacji) Czupurowa
rxr - tablica kwadratowa
rxs - tablice niekwadratowe
Zadanie:
Pewien produkt można wytwarzać trzema metodami produkcyjnymi. Wysunięto hipotezę, że wadliwość produktów nie zależy od metody produkcji. Wylosowano niezależną próbę 276 sztuk wyrobu i otrzymano następujące wyniki badania jakości dla poszczególnych metod. Dla istotności
zweryfikować hipotezę o niezależności jakości od metody produkcji i policzyć współczynnik Czupurowa.
Jakość |
Metoda produkcji I |
Metoda produkcji II |
Metoda produkcji III |
Razem |
||||||
Dobra |
1,333 |
|
44,4 |
1,905 |
|
177,8 |
0,833 |
|
44,4 |
|
|
|
40 |
|
|
80 |
|
|
60 |
|
180 |
|
33,3 |
|
-6,7 |
93,3 |
|
13,3 |
53,3 |
|
-6,7 |
|
Zła |
2,667 |
|
44,4 |
3,81 |
|
177,8 |
1,667 |
|
44,7 |
|
|
|
10 |
|
|
60 |
|
|
20 |
|
90 |
|
16,7 |
|
6,7 |
46,7 |
|
-13,3 |
26,6 |
|
6,7 |
|
Razem |
|
|
|
|
|
|
|
|
|
|
|
|
50 |
|
|
140 |
|
|
80 |
|
270 |
i=1; j=1
- należy do zbioru krytycznego
.
Wniosek: jakość zależy od metody produkcji. Hipotezę
odrzucamy.
Zależność nie jest wysoka.
Analiza dynamiki (analiza szeregów czasowych)
Liczba abonentów telefonii cyfrowej na tysiąc ludności kształtowała się następująco:
Lata |
Liczba abonentów
|
|
|
|
1992 |
102,5 |
0 |
0 |
1 |
1993 |
114,7 |
12,2 |
1,119024 |
1,119024 |
1994 |
129,8 |
15,1 |
1,131648 |
1,266341 |
1995 |
148,4 |
18,6 |
1,143297 |
1,447805 |
1996 |
169,1 |
20,7 |
1,139488 |
1,649756 |
1997 |
193,1 |
24 |
1,141928 |
1,883902 |
1998 |
219,4 |
26,3 |
1,136199 |
2,140488 |
Suma |
X |
116,9 |
X |
X |
Jaki jest szereg czasowy (momentów) określa stan liczebny zbiorowości ( przeliczony na 1000 mieszkańców )
Wykres szeregu czasowego.
Scharakteryzować dynamikę zjawiska za pomocą wskaźników indywidualnych
Przyrost absolutny łańcuchowy
Indeksy łańcuchowe
(100)
Indeksy jednopodstawowe
(100)
Musimy zastosować średnią geometryczną
- średni indeks zmian
wzrost abonentów
Zadanie:
W latach 1992 - 1998 liczba samochodów zarejestrowanych w tysiącach sztuk była następująca:
Lata |
Liczba samochodów w tys. szt. |
|
|
|
1992 |
6505 |
0 |
0 |
1 |
1993 |
6771 |
266 |
1,040892 |
1,040892 |
1994 |
7153 |
382 |
1,056417 |
1,099616 |
1995 |
7517 |
364 |
1,050888 |
1,155573 |
1996 |
8054 |
537 |
1,071438 |
1,238125 |
1997 |
8533 |
479 |
1,059474 |
1,31176 |
1998 |
8891 |
358 |
1,041955 |
1,366795 |
Razem |
|
2386 |
X |
X |
wzrost ilości zarejestrowanych samochodów
Indeksy agregatowe - wartości
Zadanie:
Sprzedaż wyrobów nabiałowych sklepu spożywczego kształtowała się następująco:
Artykuł |
Rok 1993 |
Rok 1994 |
|||||||
|
Jedn. miary |
Il. Sprzedane |
Cena jednostkowa |
Ilości sprzedane |
Cena jednostkowa |
||||
|
|
|
|
|
|
|
|
|
|
Jaja |
tyś. szt. |
340 |
115,6 |
0,34 |
103,6 |
3701 |
95,2 |
0,28 |
125,8 |
Masło |
tyś. kg. |
15 |
60,3 |
4,02 |
87 |
12 |
108,75 |
7,25 |
48,24 |
Mleko |
tyś. litrów |
34 |
37,4 |
1,1 |
55,1 |
38 |
49,3 |
1,45 |
41,8 |
X |
X |
X |
213,3 |
|
245,7 |
|
253,25 |
|
215,84 |
Obliczyć indeks wartości
Ocenić wpływ cen na dynamikę sprzedaży obliczając indeksy cen wg formuły L i P
Ocenić wpływ wolumenu (ilość) sprzedaży na dynamikę sprzedaży obliczając indeksy ilości.
Ad 1.
= Wartość sprzedaży 94/Wartość sprzedaży 93
Wartość sprzedaży wzrosła o 15,2% w stosunku do 1993 roku.
Ad 2.
(Laspeyers'a)
Wartość sprzedaży wzrosła o 18,7 % pod wpływem zmiany cen (przeważający wpływ na dynamikę sprzedaży miał wzrost cen)
(Paasch'a)
(Fisher'a)
Zmiany cen wywołały zmiany wzrostu wartości sprzedaży o 16,2%
Indeksy ilości
Ilości sprzedane wpłynęły dodatnio na wartość sprzedaży
Ceny z okresu bieżącego wskazują na ujemny wpływ sprzedanej ilości na wartość.
(Fisher'a)
Zmiany cen sprzyjały wzrostowi wartości sprzedaży. Zmiany ilości powodowały spadek wartości sprzedaży.
Zadanie:
Zbadać dynamikę majątku trwałego przedsiębiorstwa.
Maszyny |
Wartość maszyn w tyś zł w 1998 r.
( |
Wartość maszyn w 1999 r. w cenach z 1998 r.
( |
Zmiany cen |
Indywidualny indeks cen
( |
( |
( |
A |
800 |
800 |
-10% |
0,9 |
720 |
720 |
B |
350 |
500 |
bez zmian |
1 |
350 |
500 |
C |
250 |
400 |
4% |
1,04 |
260 |
416 |
Razem |
1400 |
1700 |
X |
X |
1330 |
1636 |
Obliczyć indeks wartości
Obliczyć indeks ilości
Obliczyć indeks ceny
Ad 2)
Ad 3)
Ceny sprzyjały obniżeniu wartości maszyn.
Ad 1)
wartość maszyn uwzględniając bieżące ceny wzrosła o 16,9 % z czego ilość działała w kierunku podwyższenia tej wartości zaś ceny w kierunku obniżenia.
ilość
ceny
Zadanie:
Porównać sprzedaż wyrobów w przedsiębiorstwie handlowym w latach 1994-1995 obliczając indeksy wartości , ilości, cen.
Towary |
Wartość sprzedaży w cenach bieżących w mln zł |
Wartość sprzedaży w cenach z 1994 r. dla roku 1995 |
|
|
|
|
1994 ( |
1995 ( |
( |
|
|
A |
320 |
300 |
360 |
30/36=5/6 |
266,7 |
B |
210 |
300 |
250 |
30/25=1,2 |
252 |
C |
400 |
420 |
400 |
42/40=1,05 |
420 |
Razem |
930 |
1020 |
1010 |
X |
938,7 |
wzrost
Tendencja rozwojowa albo trend jest to długookresowa zmiana w szeregu czasowym o której zakłada się, że wraz z oscylacjami i składnikami losowymi generuje obserwacje.
Trend jest to długookresowa zmiana zjawiska zachodząca pod wpływem przyczyn głównych. Przyczyny główne - czynniki które działają przez dłuższy okres czasu.
Zadaniem analizy tendencji rozwojowej jest wyodrębnienie przyczyn głównych poprzez określenie ogólnej tendencji rozwoju zjawiska.
Istnieją różne sposoby wyodrębniania tendencji rozwojowych. Dzielimy je na dwie grupy.
Metoda wyodrębniania trendu czyli metoda wygładzania szeregu czasowego
Metody mechaniczne czyli metody średnich podokresów i średnie ruchome.
Metody analityczne - sprawdza się dopasowanie funkcji matematycznej (metoda najmniejszych kwadratów)
Na podstawie wykresu szeregu czasowego dokonuje się wyboru funkcji matematycznej, która naszym zdaniem oddaje najlepiej przebieg zjawiska w czasie.
Przyjmujemy, że zjawisko jest funkcją czasu
(wartość zjawiska rośnie/maleje przeciętnie o b)
jeżeli b>0
Zjawisko przeciętnie z roku na rok przeciętnie rośnie
Jeżeli b<0
Zjawisko przeciętnie z roku na rok maleje.
Wyodrębnianie tendencji rozwojowej służy opisywaniu przebiegu zjawiska w przeszłości oraz przewidywania zjawiska w przyszłości. Jest również determinowana stopniem dopasowania do danych empirycznych. Przed przystąpieniem do opracowywania należy zbadać dopasowanie funkcji trendu do danych empirycznych
Błąd standardowy szacunku funkcji trendu.
Współczynnik zbieżności (indenterminacji)
Wahania sezonowe - są trzecim składnikiem szeregu czasowego obok tendencji rozwojowych i wahań przypadkowych. Polegają one na tym, że przyczyny działające periodycznie powodują, że badane zjawisko powtarza się z jednakowym w przybliżeniu natężeniem w kolejnych jednakowo odległych podokresach jakiegoś dłuższego (wieloletniego) okresu czasu. Takie podokresy nazywamy jednoimiennymi. Wahania sezonowe charakteryzują się tym, że pełny ich cykl zamyka się w okresie rocznym. Okresami jednoimiennymi są miesiące, kwartały, półrocza. Przyczyny, które wywołują wahania sezonowe wynikają z kalendarza obok tego na powstawanie zjawiska sezonowości mają wpływ organizacja życia zbiorowego lub zwyczaju (system organizacji roku szkolnego, urlopy). Zatem wiele zjawisk będzie podlegać wpływom sezonowym.
By móc wykryć wahania sezonowe musimy dysponować odpowiednim szeregiem czasowym dla okresów miesięcznych (kwartalnych).
Minimalną liczbą okresów jest pięć lat.
Zasady wyodrębniania wahań sezonowych.
Wyróżniamy dwa modele szeregu czasowego:
Addytywny (sumacyjny)
- jest to obserwacja w szeregu czasowym (wyraz) w i-tym okresie jednoimiennym
w roku j.
- wartość trendu (wyznaczona metodą najmniejszych kwadratów).
- składnik sezonowy dla i-tego okresu jednoimiennego.
- składnik losowy
Model multiplikatywny (iloczynowy)
Z typu modelu wynikają wskazówki do wyodrębnienia wskaźnika sezonowego.
Wyznaczyć trend (metodą najmniejszych kwadratów)
Wahania o periodyczności bezwzględnej ( o taką samą wartość )
Sytuacje, którą należy uwzględniać przy wyborze modelu - istnienie trendu.
Rozróżnia się dwie metody:
Metoda skrócona - bez eliminacji trendów.
Metoda stosunków do trendów
Metoda skrócona
Obliczamy średnie wartości zjawiska w okresach jednoimiennych
Obliczamy średnią wielkość zjawiska w całym okresie badania.
Obliczamy wskaźniki sezonowości w formie ilorazów średnich dla okresów jednoimiennych i średniej łącznej.
- (%)
Wskaźniki
(sezonowości) informują ile razy wartość zjawiska w poszczególnych okresach jednoimiennych są wyższe (
>1) lub niższe (
<1) od przeciętnej rocznej.
lub 100
Tendencja rozwojowa wyodrębniana metodą najmniejszych kwadratów i sezonowość
Wyznaczanie funkcji trendu.
Dopasować funkcje trendu do danych dotyczących liczby widzów w kinach w latach 1992 do 1997.
Lata
|
Liczba widzów |
t
|
|
|
|
|
|
|
|
|
|
1992 |
13,3 |
1 |
13,3 |
1 |
176,89 |
1993 |
14,9 |
2 |
29,8 |
4 |
222,01 |
1994 |
18,1 |
3 |
54,3 |
9 |
327,61 |
1995 |
22,6 |
4 |
90,4 |
16 |
510,76 |
1996 |
21,4 |
5 |
107 |
25 |
457,96 |
1997 |
24,3 |
6 |
145,8 |
36 |
590,49 |
Suma |
114,6 |
21 |
440,6 |
91 |
2285,72 |
Sporządzić wykres szeregu czasowego
Jeżeli zmienna niezależna wzrośnie o 1 jednostkę to nastąpi wzrost liczby widzów przeciętnie o 2,26 mln.
W badanym okresie liczba widzów w kinach wzrastała przeciętnie o 2,26 mln.
2. Badanie dopasowania funkcji do danych empirycznych.
Zaobserwowane liczby widzów w latach 1993 do 1997 odchylają się od linii trendu przeciętnie o 1,4 mln widzów. Zaobserwowane liczby widzów różnią się od teoretycznej linii trendu o 1,4 mln.
Czynniki przypadkowe są odpowiedzialne za 7,95% zmienności w szeregu czasowym. Na tendencje trendu wpływ mają w 7,95% czynniki przypadkowe a resztę stanowią czynniki główne. Trend pasuje dobrze ponieważ
jest mały.
Prognoza dla roku 1998.
1.
a) ile wynosi
b)
Oczekiwana przez nas liczba widzów bez uwzględnienia błędu:
Liczba widzów waha się w granicach (25,63 - 28,41)
Sezonowość
Na podstawie danych kwartalnych dotyczących zjawiska y ocenić wahanie sezonowe.
Lata (j) |
1994 |
1995 |
1996 |
1997 |
|
|
|
Kwartały (i) |
|
|
|
|
|
|
|
I |
6 |
8 |
7 |
7 |
28 |
7 |
0,8000 |
II |
9 |
9 |
10 |
8 |
36 |
9 |
1,0286 |
III |
12 |
13 |
13 |
14 |
52 |
13 |
1,4857 |
IV |
6 |
5 |
6 |
7 |
24 |
6 |
0,6857 |
Suma |
X |
X |
X |
X |
140 |
X |
X |
1. Zrobić wykres szeregu czasowego.
Rozpoznanie charakteru powiązań:
Brak trendu.
i.t.d.
Suma sezonowości musi się równać: kwartały =4, rok=12, 1/2 roku=2
W pierwszych kwartałach wielkość zjawiska kształtowała się na poziomie 80% średniej wielkości zjawiska dla całego okresu.
W pierwszych kwartałach zjawisko kształtuje się na poziomie o 20% niższym niż średnia kwartalna.
Wartość krytyczna
Wartość krytyczna
5,991