W dalszej części pracy używam następujących oznaczeń:
U - zbiór użytkowników M - zbiór filmów
W zbiorze wszystkich par U x M wyróżniam następujące rozłączne podzbiory:
Train - dane treningowe Testi, Test2, Tests - dane testowe Quiz - dane testowe Netflixa
Wszystkie udostępnione przez Netflbc oceny zostały podzielone na zbiór danych treningowych (Train - 99072112 ocen) oraz 3 zbiory danych testowych (Testi, Test2, Test^ - łącznie 1408395 ocen). Quiz jest to zbiór danych testowych z ukrytymi odpowiedziami (2817131 ocen) - na ich podstawie ustalany jest ranking konkursu. Często teoretycznie możliwe byłoby użycie zbioru Quiz jako zbioru testowego, jednak z uwagi na to, że Netflbc ogranicza liczbę zgłaszanych rozwiązań do jednego dziennie wygodniej jest wydzielić część danych treningowych. Wszystkie algorytmy były testowane na zbiorze Testi, a zbiory Test2 i Testu, zostały użyte do końcowego składania rozwiązań.
Dodatkowo w pracy używam też następujących oznaczeń:
Mi - zbiór filmów ocenionych przez użytkownika i
Uj - zbiór użytkowników, którzy ocenili film j
Powyższe oznaczenia zależą oczywiście od zbioru ocen, których dotyczą, jednak w większości sytuacji wynika to jednoznacznie z kontekstu (zazwyczaj jest to zbiór treningowy - Train).
Kryterium wybranym przez Netflbc do oceny jakości prognozy na zbiorze A jest RMSE (od angielskiego terminu Root Mean Sąuare Error) obliczany wzorem:
(2.1)
RMSE =
gdzie:
rij - oryginalna wartość oceny filmu j przez użytkownika i fij - prognozowana wartość oceny filmu j przez użytkownika i
Pomijając pewne wymogi formalno-prawne, podstawowym warunkiem wygrania głównej nagrody jest wygenerowanie prognozy dla zbioru Quiz, która osiągnie wartość RMSE nie większą niż 0.8563 (czyli o 10% mniej niż wynik algorytmu Cinematch).
Przy badaniu jakości otrzymywanych prognoz warto zwrócić uwagę na następujące, często spotykane zjawiska. Przede wszystkim wartość RMSE na zbiorze treningowym jest zazwyczaj zdecydowanie niższa niż na zbiorze testowym. Często także używając modelu z większą liczbą