Opisywany model zastosowany do danych konkursu Netflix osiąga na zbiorze treningowym wynik 1.0846, a na zbiorze testowym (Testi) 1.1289. Dość spora różnica jest konsekwencją wyższej (3.6728 w stosunku do 3.6033) średniej ocen w zbiorze Testi ■ Przyczyną tego jest prawdopodobnie fakt, że zaproponowanych przez Netflbc zbiór danych testowych został w większości złożony z najnowszych ocen (zbiory Testi i Test$ mają średnią zbliżoną do Testi).
Nieco bardziej rozbudowanym modelem jest:
ni = (3.7)
czyli założenie, że każdy użytkownik ocenia filmy zawsze na tę samą ocenę. Rozumując analogiczne jak poprzednio, łatwo pokazać, że optymalnymi wartościami c* są:
(3'8)
Tak zbudowany model osiąga na danych treningowych wartość RM SE równą 0.9923, a na zbiorze testowym 1.06796.
Analogiczny model tyle, że oparty na filmach sprawdza się nieco lepiej - osiąga 1.0519 na zbiorze testowym (1.0104 na treningowym).
Kolejnym pomysłem jest połączenie wszystkich wyżej wymienionych modeli, czyli założenie, że:
fy = Ui + rrij + c (3-9)
Tak zbudowany układ równań nie jest niestety liniowo niezależny, ale po drobnych modyfikacjach można znaleźć optymalne (w sensie minimalnego RM SE na zbiorze treningowym) rozwiązanie z użyciem metody najmniejszych kwadratów (patrz rozdział 4.1). W praktyce pojawia się jednak inny, trudniejszy do pokonania problem - rozmiar danych. Zmuszony więc, byłem do zastosowania algorytmu, który w ogólności znajduje jedynie aproksymację wyniku. Zauważmy, że jeśli tylko x+y+z = 0, następujące podstawienie nie wpływa na wartości fy:
ui *— Ui + x (3.10)
mj *— mj + y c *— c+ z
(3.11)
(3.12)
Widać więc, że wyjściowy układ równań nie jest liniowo niezależny. Ponad to widać, że wartość c można wybrać dowolnie. W dalszej części opisu przyjmuję:
C=TT\ Y. r*i (3-13)
1A1 (iJ)eA
14