3803952799

3803952799



W dalszej części pracy używam następujących oznaczeń:

U - zbiór użytkowników M - zbiór filmów

W zbiorze wszystkich par U x M wyróżniam następujące rozłączne podzbiory:

Train - dane treningowe Testi, Test2, Tests - dane testowe Quiz - dane testowe Netflixa

Wszystkie udostępnione przez Netflbc oceny zostały podzielone na zbiór danych treningowych (Train - 99072112 ocen) oraz 3 zbiory danych testowych (Testi, Test2, Test^ - łącznie 1408395 ocen). Quiz jest to zbiór danych testowych z ukrytymi odpowiedziami (2817131 ocen) - na ich podstawie ustalany jest ranking konkursu. Często teoretycznie możliwe byłoby użycie zbioru Quiz jako zbioru testowego, jednak z uwagi na to, że Netflbc ogranicza liczbę zgłaszanych rozwiązań do jednego dziennie wygodniej jest wydzielić część danych treningowych. Wszystkie algorytmy były testowane na zbiorze Testi, a zbiory Test2 i Testu, zostały użyte do końcowego składania rozwiązań.

Dodatkowo w pracy używam też następujących oznaczeń:

Mi - zbiór filmów ocenionych przez użytkownika i

Uj - zbiór użytkowników, którzy ocenili film j

Powyższe oznaczenia zależą oczywiście od zbioru ocen, których dotyczą, jednak w większości sytuacji wynika to jednoznacznie z kontekstu (zazwyczaj jest to zbiór treningowy - Train).

2.2. RMSE

Kryterium wybranym przez Netflbc do oceny jakości prognozy na zbiorze A jest RMSE (od angielskiego terminu Root Mean Sąuare Error) obliczany wzorem:

(2.1)


RMSE =

gdzie:

rij - oryginalna wartość oceny filmu j przez użytkownika i fij - prognozowana wartość oceny filmu j przez użytkownika i

Pomijając pewne wymogi formalno-prawne, podstawowym warunkiem wygrania głównej nagrody jest wygenerowanie prognozy dla zbioru Quiz, która osiągnie wartość RMSE nie większą niż 0.8563 (czyli o 10% mniej niż wynik algorytmu Cinematch).

Przy badaniu jakości otrzymywanych prognoz warto zwrócić uwagę na następujące, często spotykane zjawiska. Przede wszystkim wartość RMSE na zbiorze treningowym jest zazwyczaj zdecydowanie niższa niż na zbiorze testowym. Często także używając modelu z większą liczbą



Wyszukiwarka

Podobne podstrony:
W celu uporządkowania istniejącego nazewnictwa w dalszej części pracy przyjęto następujący podział
22 Andrzej Szlęk wać wzdłuż rusztu. Jednak, jak wykazały badania przedstawione w dalszej części prac
img082 (22) W dalszej części pracy przedstawione zostaną: kryteria diagnostyczne według ICD-10, DSM-
okazało w dalszej części pracy, wybór ten był prawidłowy. Oprócz C# zaistniała także konieczność
78715 Obraz (8) Wybrane procedury systemu sygnalizacji DSS1. W dalszej części użyte zostały następuj
Wprowadzenie do MatLab (28) Typy złożono będą omówione w dalszej części pracy. Formowanie zmiennych
Wykład 1 Pojęcia wstępne Będziemy używać, następujących oznaczeń: N — {0,1,2,3,.. .}-zbiór
p1080008 (5) lowuu w dalszej części pracy), metoda nauczania łącznego Linkego oraz tzw. szkoła nowoc
zagrożeniami z Internetu. Dlatego te zastosowania będą poruszone i rozważone w dalszej części pracy.
17 publikacjach (M. Grześ 1974, 1976), jak również na przekrojach poprzecznych w dalszej części prac

więcej podobnych podstron