UNIWERSYTET SZCZECIŃSKI
WYDZIAŁ NAUK EKONOMICZNYCH I ZARZĄDZANIA
Model ekonometryczny
wywołań stron WWW
Szczecin 2002
Wstęp
Niniejszy model ma na celu określenie zależności ogólnej liczby wywołań stron WWW http://20020107 od pozostałych czynników. Dane dotyczą roku 2001.W ostatnim czasie wiele witryn internetowych przechodzi spadek oglądalności, a niniejszy model ma na celu estymację parametrów mających główną przyczynę na aktualny stan popularności danego serwisu stron WWW.
Zmienną objaśnianą (endogeniczną) określoną jako Y w badaniu będzie zmienna ogólnej ilości wywołań stron WWW w danym miesiącu. Za zmienne objaśniające posłużą następujące zmienne:
Ogólnej wielkości transferu danych z danych stron X1
Ilości odwiedzonych stron i podstron X2
Ilości sesji odbywających się na stronach. X3
Dane :inernet
miesiąc |
Liczba wywołanych stron |
Transfer w kb. |
Odwiedzona ilość stron |
Liczba sesji |
styczeń |
18129 |
52185 |
1749 |
539 |
luty |
17345 |
47432 |
5006 |
2641 |
marzec |
81537 |
250631 |
19234 |
1448 |
kwiecień |
23456 |
18753 |
6536 |
1305 |
maj |
52444 |
172970 |
7065 |
1235 |
czerwiec |
40861 |
76543 |
6334 |
1387 |
lipiec |
17463 |
47717 |
2374 |
814 |
sierpień |
13245 |
3456 |
3875 |
1765 |
wrzesień |
13195 |
9366 |
706 |
453 |
październik |
5923 |
2456 |
500 |
798 |
listopad |
1005 |
231 |
63 |
26 |
Wybór zmiennych do ekonometrycznego modelu związku
Przez wybór zmiennych objaśniających do modelu ekonometrycznego rozumieć należy taką selekcję (redukcję) zbioru złożonego z „kandydatek”, aby miał on sensowną interpretację merytoryczną i aby zapewniał opis zmiennej objaśnianej z założoną z góry dokładnością.
Kryteria w metodach wyboru zmiennych:
Zmienne występujące w modelu powinny charakteryzować się dużą zmiennością,
Należy zapewnić maksymalne skorelowanie zmiennej objaśnianej ze zmiennymi objaśniającymi,
Zmienne objaśniające nie powinny być istotnie skorelowane między sobą,
Należy dążyć do maksymalnego stopnia dopasowania modelu do rzeczywistych relacji gospodarczych, co wyraża się w maksymalizacji współczynnika determinacji R^2.
METODA HELLWIGA -(tzw. Metoda pojemności integralnych informacji) :
Idea tej metody sprowadza się do powołania na zmienne objaśniające takich zmiennych, które są mocno skorelowane ze zmienną objaśnianą i jednocześnie słabo skorelowane między sobą.
Punktem wyjścia jest zatem oszacowanie macierzy „R” - współczynników korelacji między potencjalnymi objaśniającymi („kandydatkami”) oraz wektora „Ro” -współczynników korelacji między zmienną objaśnianą z potencjalnymi zmiennymi objaśniającymi.
Mając wyznaczone macierz R i wektor Ro przystępuje się do obliczania tzw. indywidualnych pojemności nośników informacji Xi o zmiennej Y, wchodzących w skład różnych kombinacji utworzonych z elementów danego k -elementowego zbioru potencjalnych zmiennych objaśniających. A ogólna liczba tych kombinacji wynosi: l=2k-1.
Indywidualne pojemności nośników informacji dla poszczególnych potencjalnych zmiennych objaśniających w ramach każdej kombinacji definiujemy według wzoru:
hmj=rj2 : 1+∑|rij|
hmj- wskaźnik indywidualnej pojemności informacji zmiennej Xj w m-tej kombinacji;
rj- współczynnik korelacji zmiennej objaśnianej ze zmienną Xj;
rij- współczynnik korelacji między potencjalnymi zmiennymi objaśniającymi Xi oraz Xj;
km- liczba potencjalnych zmiennych objaśniających w m-tej kombinacji.
Następnie oblicza się wskaźniki integralnej pojemności informacji w ramach każdej z „m”- kombinacji według wzoru: Hm=∑hmj.
Przedstawiona metoda postępowania pozwala na wybór optymalnej kombinacji zmiennych objaśniających. Kryterium wyboru takiej kombinacji można zapisać jako: Hoptimum = max Hm
Obliczenia :
L=2^3-1=7
C1 |
x1 |
|
|
|
H1 |
0,92989 |
C2 |
x2 |
|
|
|
H2 |
0,870898 |
C3 |
x3 |
|
|
|
H3 |
0,097854 |
C4 |
x1x2 |
0,495126 |
0,463716 |
|
H4 |
0,958842 |
C5 |
x1x3 |
0,744742 |
0,078371 |
|
H5 |
0,823113 |
C6 |
x2x3 |
0,602627 |
0,067711 |
|
H6 |
0,670338 |
C7 |
x1x2x3 |
0,437247 |
0,374861 |
0,057773 |
H7 |
0,869881 |
Optymalną kombinacją zmiennych objaśniających liczbę wywołań są:
X1 i X2 .
Szacowanie parametrów modelu z wieloma zmiennymi objaśniającymi
Szacowanie parametrów modelu ekonometrycznego sprowadza się do przypisywania nieokreślonym liczbowo parametrom konkretnych wartości liczbowych. Szacowanie to powinno być przeprowadzone w taki sposób, aby zapewniło najlepsze dopasowanie modelu do danych empirycznych.
Powszechnie wykorzystywaną metodą szacowania parametrów liniowych modeli ekonometrycznych jest metoda najmniejszych kwadratów.
Zastosowanie metody najmniejszych kwadratów wymaga przyjęcia następujących założeń:
szacowany model jest modelem liniowym,
zmienne objaśniające są wielkościami nielosowymi o elementach ustalonych,
nie występuje zjawisko współliniowości zmiennych objaśniających,
składnik losowy ma wartość oczekiwaną równą zeru i stałą skończoną wariancję,
nie występuje zjawisko autokorelacji składnika losowego, czyli zależności składnika losowego w różnych jednostkach czasu.
W celu przedstawienia klasycznej metody najmniejszych kwadratów w zastosowaniu do modelu liniowego z wieloma zmiennymi objaśniającymi:
Y = α1 X1 + α2 X2 +...+ αk Xk + ε
wprowadzimy wzór na wektor (α^ )- ocen parametrów strukturalnych modelu :
α^ = ( X` * X ) ¹ * X` * Y gdzie:
α^ - to estymator wektora parametrów strukturalnych;
X - to macierz obserwacji dokonanych na zmiennych objaśniających;
Y - to wektor obserwacji dokonanych na zmiennej objaśnianej.
Obliczenia:
miesiąc |
y |
x1 |
x2 |
y^ |
et |
et^2 |
(Yt-Ysr)^2 |
styczeń |
18129 |
52185 |
1749 |
18919,23838 |
-790,2383817 |
624476,6999 |
59969536 |
luty |
17345 |
47432 |
5006 |
23401,55226 |
-6056,552259 |
36681825,27 |
72726784 |
marzec |
81537 |
250631 |
19234 |
84786,89891 |
-3249,898909 |
10561842,92 |
3098480896 |
kwiecień |
23456 |
18753 |
6536 |
20570,71353 |
2885,286467 |
8324877,999 |
5841889 |
maj |
52444 |
172970 |
7065 |
50228,87361 |
2215,126389 |
4906784,92 |
706018041 |
czerwiec |
40861 |
76543 |
6334 |
31024,74038 |
9836,25962 |
96752003,32 |
224640144 |
lipiec |
17463 |
47717 |
2374 |
19115,62232 |
-1652,622321 |
2731160,534 |
70728100 |
sierpień |
13245 |
3456 |
3875 |
13328,44774 |
-83,44774407 |
6963,525991 |
159466384 |
wrzesień |
13195 |
9366 |
706 |
9207,175982 |
3987,824018 |
15902740,4 |
160731684 |
październik |
5923 |
2456 |
500 |
7577,747141 |
-1654,747141 |
2738188,1 |
398002500 |
listopad |
1005 |
231 |
63 |
6441,98974 |
-5436,98974 |
29560857,43 |
618417424 |
|
|
|
|
|
suma |
208791721,1 |
5575023382 |
Y śred= |
25873 |
||||||||||||||||
Se^2= |
23199080,12 |
||||||||||||||||
Se= |
4816,542341 |
||||||||||||||||
Fi^2= |
0,037451273 |
||||||||||||||||
|
18129 |
|
|
1 |
52185 |
1749 |
|||||||||||
|
17345 |
|
|
1 |
47432 |
5006 |
|||||||||||
|
81537 |
|
|
1 |
250631 |
19234 |
|||||||||||
|
23456 |
|
|
1 |
18753 |
6536 |
|||||||||||
|
52444 |
|
|
1 |
172970 |
7065 |
|||||||||||
|
40861 |
|
|
1 |
76543 |
6334 |
|||||||||||
y= |
17463 |
|
x= |
1 |
47717 |
2374 |
|||||||||||
|
13245 |
|
|
1 |
3456 |
3875 |
|||||||||||
|
13195 |
|
|
1 |
9366 |
706 |
|||||||||||
|
5923 |
|
|
1 |
2456 |
500 |
|||||||||||
|
1005 |
|
|
1 |
231 |
63 |
|||||||||||
|
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
|||||||
X T= |
52185 |
47432 |
250631 |
18753 |
172970 |
76543 |
47717 |
3456 |
9366 |
2456 |
|||||||
|
1749 |
5006 |
19234 |
6536 |
7065 |
6334 |
2374 |
3875 |
706 |
500 |
|
11 |
681740 |
53442 |
|||||
|
681740 |
1,06301E+11 |
7113305938 |
|||||
|
53442 |
7113305938 |
552222776 |
|||||
|
|
|
|
|||||
|
|
|
|
|||||
|
0,17167185 |
7,79045E-08 |
-1,76172E-05 |
|||||
|
7,79045E-08 |
6,81893E-11 |
-8,85901E-10 |
|||||
|
-1,76172E-05 |
-8,85901E-10 |
1,49273E-08 |
|
284603 |
|
35860622427 |
|
2574580221 |
|
6295,009322 |
|
0,18665937 |
|
1,64860481 |
Postać modelu:
Badanie istotności parametrów strukturalnych
Badanie istotności parametrów strukturalnych (1, (2, ..., (k liniowego modelu ekonometrycznego ma na celu sprawdzenie, czy zmienne objaśniające istotnie oddziałują na zmienną objaśnianą, czy też nie. Dla każdego i = 1,2,...k weryfikuje się hipotezę zerową H0: [(i = 0] wobec alternatywnej H1: [(i <0].
Sprawdzianem tej hipotezy jest statystyka:
t(i) =|α^i | : S(α^i)
α^i - wartość oceny parametru strukturalnego
D(α^i) - standardowy błąd szacunku tego parametru
Z tablic testu „ t ” -studenta dla przyjętego poziomu istotności ( oraz dla n-k stopni swobody odczytuje się wartość krytyczną I*. Jeśli Ii ≤ I*, nie ma podstaw do odrzucenia hipotezy H0. Parametr strukturalny (i różni się nie istotnie od zera, a zmienna objaśniająca Xi nie wpływa w istotny sposób na zmienną objaśniającą Y. Natomiast jeśli Ii > I*, hipotezę H0 należy odrzucić na rzecz hipotezy H1.
W tym przypadku parametr (i różni się w sposób istotny od zera i zmienna objaśniająca Xi oddziałuje w sposób istotny na zmienną objaśniającą Y.
Lub prościej:
t≥2 to parametr badany jest ISTOTNY;
t<2 to parametr badany jest NIE ISTOTNY.
Po zastosowaniu testu istotności T-studenta okazało się, że zmienna X5 czyli zmienna obrazująca liczbę samochodów o złym stanie technicznym nie jest zmienną istotną. W takim wypadku należy oszacować ponownie model wykluczając zmienną nieistotną.
Obliczenia:
|
3982629 |
1,807312534 |
-408,7039431 |
|
1,807312534 |
0,001581929 |
-0,020552093 |
|
-408,7039431 |
-0,020552093 |
0,346299305 |
|
1995,652525 |
|
3,154361415 |
|
0,039773476 |
|
4,693061564 |
|
0,588472009 |
|
2,801500811 |
Test Studenta wykazał istotność obydwu zmiennych modelu liniowego.
Przy zastosowaniu KMNK linowy model ekonometryczny ma postać:
[1995,65] [0,3997] [0,5884]
Interpretacja:
Przy wzroście wielkości transferu o jedną jednostkę ilość wywołań wzrośnie o 0,1866 jednostki.
Przy wzroście ilości odwiedzonych stron i podstron o jedną jednostkę ilość wywołań wzrośnie o 1,649 jednostki.
Przy szacowaniu parametru α1 mylimy się średnio o ± 0,3997, że wyniesie on 0,1866.
Przy szacowaniu parametru α2 mylimy się średnio o ± 0,5884, że wyniesie on 1,649.
Średnia wielkość liczby wywołań stron WWW wyniosła 25873.
Odchylenie standardowe reszt wynosi 3755,3 co oznacza, że wartości empiryczne liczby wywołań stron WWW odchylają się od wartości teoretycznych o ± 4816,46
Współczynnik zbieżności wynosi 0,0374 Informuje, że 3,74 % ilość wywołań stron WWW nie jest wyjaśniona przez zbudowany model.
Prognoza
Prognoza- wynik predykcji (czyli wnioskowania przyszłości na podstawie modelu ekonometrycznego).
Celem prognozy jest oszacowanie przyszłej ilości wywołań stron WWW na podstawie dostępnych obecnie danych.
Celem niniejszej pracy jest oszacowanie czy witryna będzie odwiedzana przez potencjalnych użytkowników sieci w grudniu danego roku.
Etapy prognozowania:
wyznaczenie przyszłych wielkości parametrów x1 i x2
Na podstawie linii trendu oszacowana wielkość transferu dla grudnia wyniesie : -9989
Na podstawie linii trendu oszacowana ilość odwiedzanych stron dla grudnia wyniesie -162,66
2) Po otrzymaniu prognoz dla poszczególnych zmiennych należy obliczyć przewidywaną ogólną liczbę wywołań stron WWW wg wzoru:
Ygrudzien=6295,01+0,1866*( -9989)+1,649*(-162,66)= 4162,8
Prognozowana liczba wywołań stron WWW wyniesie 4162,8 odwiedziny.
Średni błąd predykcji
Średni błąd predykcji określa w jakim stopniu rzeczywista wartość zmiennej objaśnianej morze odchylać się od wyznaczonej prognozy
Obliczenia:
|
1 |
|
|
|
|
|
-9989 |
|
|
|
|
|
-162,66 |
X |
1 |
-9989 |
-162,66 |
|
0,17167185 |
7,79045E-08 |
-1,76172E-05 |
XTX-1 |
7,79045E-08 |
6,81893E-11 |
-8,85901E-10 |
|
-1,76172E-05 |
-8,85901E-10 |
1,49273E-08 |
Se^2= |
23199080,12 |
2044,432
Rzeczywista liczba wywołań stron WWW może odchylać się od wyznaczonej prognozy o +/- 2044,432
0,04911 *100%=4,9 %
Błąd predykcji stanowi 4,9 % prognozowanej liczby wywołań stron WWW .
Nie można obliczyć błędu prognozy ze względu na brak danych o rzeczywistym poziomie zjawiska.
Podsumowanie.
Na podstawie otrzymanych wyników widać wyraźny spadek zainteresowania witryną internetową http://20020107. Obecny model w dobrym stopniu opisuje zależności pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi.
1