ZASTOSOWANIE ALGORYTMÓW GRUPOWANIA
W SIECI WWW I E-BIZNESIE
Sprawozdanie VI
Analiza użytkowania sieci WWW
Czemiel Paulina
Hałaburda Krzysztof
Zadanie
Analiza plików access.log serwera WWW.
1.
Załadować przykładowy plik access.log
2.
Wypisać następujące statystyki (summary stats):
•
liczba użytkowników (visitors):
-
51
•
liczba żądanych stron (hits):
-
1135
•
liczba krajów (countries):
-
12
•
3 najczęstsze strony początkowe (entry points):
-
/
-
/weblogsuite/
-
/WebLogExplorer/
•
3 najczęstsze strony wyjściowe (exit points):
-
/img/td_bg1.gif
-
/wlesetup.exe
-
/wlssetup.exe
•
3 najczęściej odwiedzane strony serwisu (Pages/Files)
-
/img/style.css
-
/img/slash.gif
-
/img/dot.gif
3.
Przeanalizować ścieżki odwiedzania serwisu (Access Stats):
•
wypisać 3 najczęstsze ścieżki składające się z co najmniej 3 stron
−
/img/mn_order.gif -> /img/mn_home.gif -> /img/style.css ->
/img/mn_support.gif -> (...) -> /weblogdb/screenshots6.gif ->
/weblogdb/screenshots4.gif
−
/ -> /img/logo.gif -> /img/style.css -> /img/separ2.gif ->
/img/mn_home.gif -> /img/slash.gif -> (…) -> /img/td_bg1.gif ->
/img/backgr.gif -> / -> /img/style.css
−
/robots.txt -> /weblogdb -> /weblogdb/ -> /weblogdb/faq.html ->
/weblogdb/order.html -> /weblogdb/support.html ->
/weblogdb/screenshots.html -> /weblogdb/feedback.html ->
/weblogdb/problem.html
•
sprawdzić, czy na tych ścieżkach znajduje się jedna ze stron wyjściowych
−
/img/td_bg1.gif jest w pierwszej i drugiej ścieżce
−
/wlesetup.exe i /wlssetup.exe nie występuje w żadnej ścieżce
4.
Zbadać automatyczne wpisy w pliku access.log (User Agent Stats)
•
wypisać liczbę i nazwy robotów internetowych
−
almaden.ibm.com
−
askjeeves.com
−
google.com
−
altavista.com
•
wypisać wybrany wpis z pliku access.log, który zarejestrował aktywność robota
-
66.147.154.3 (United States), 2009-12-01 03:45:28, /support.html,
http://www.almaden.ibm.com/cs/crawler
•
sprawdzić, czy na liście 10 najczęstszych ścieżek znajduje się którakolwiek ścieżka
robota
-
żadna ze ścieżek robotów nie znajduje się na liście 10 najczęstszych
ścieżek
5.
* Scharakteryzować aktywność użytkowników w czasie (Activity Stats).
•
Statystyka godzinowa
-
3.00 13 odwiedzin
-
12.00 9 odwiedzin
-
00.00 3 odwiedziny
•
Statystyka dni tygodnia
-
wtorek 16 odwiedzin
-
poniedziałek 9 odwiedzin
•
Statystyka tygodniowa
-
2009-11-29 - 2009-12-05
25 odwiedzin
•
Statystyka miesięczna
-
Grudzień 16 odwiedzin
-
Listopad 9 odwiedzin
•
statystyka roczna
-
2009 25 odwiedzin
•
Statystyka miesięcy w roku
-
Grudzień 2009 16 odwiedzin
-
Listopad 2009 9 odwiedzin
•
Statystyka dzienna
-
2009-12-01 16 odwiedzin
-
2009-11-30 9 odwiedzin