3803952803

Opisywany model zastosowany do danych konkursu Netflix osiąga na zbiorze treningowym wynik 1.0846, a na zbiorze testowym (Testi) 1.1289. Dość spora różnica jest konsekwencją wyższej (3.6728 w stosunku do 3.6033) średniej ocen w zbiorze Testi ■ Przyczyną tego jest prawdopodobnie fakt, że zaproponowanych przez Netflbc zbiór danych testowych został w większości złożony z najnowszych ocen (zbiory Testi i Test$ mają średnią zbliżoną do Testi).

3.2. Średnie dla użytkowników

Nieco bardziej rozbudowanym modelem jest:

ni = (3.7)

czyli założenie, że każdy użytkownik ocenia filmy zawsze na tę samą ocenę. Rozumując analogiczne jak poprzednio, łatwo pokazać, że optymalnymi wartościami c* są:

⁽³'⁸⁾

Tak zbudowany model osiąga na danych treningowych wartość RM SE równą 0.9923, a na zbiorze testowym 1.06796.

3.3. Średnie dla filmów

Analogiczny model tyle, że oparty na filmach sprawdza się nieco lepiej - osiąga 1.0519 na zbiorze testowym (1.0104 na treningowym).

3.4. Połączenie obu modeli

Kolejnym pomysłem jest połączenie wszystkich wyżej wymienionych modeli, czyli założenie, że:

fy = Ui + rrij + c (3-9)

Tak zbudowany układ równań nie jest niestety liniowo niezależny, ale po drobnych modyfikacjach można znaleźć optymalne (w sensie minimalnego RM SE na zbiorze treningowym) rozwiązanie z użyciem metody najmniejszych kwadratów (patrz rozdział 4.1). W praktyce pojawia się jednak inny, trudniejszy do pokonania problem - rozmiar danych. Zmuszony więc, byłem do zastosowania algorytmu, który w ogólności znajduje jedynie aproksymację wyniku. Zauważmy, że jeśli tylko x+y+z = 0, następujące podstawienie nie wpływa na wartości fy:

ui *— Ui + x (3.10)

mj *— mj + y c *— c+ z

(3.11)

(3.12)

Widać więc, że wyjściowy układ równań nie jest liniowo niezależny. Ponad to widać, że wartość c można wybrać dowolnie. W dalszej części opisu przyjmuję:

^C=TT\ Y. ^r*i (³-¹³)

¹A1 (iJ)eA

Wyszukiwarka

Podobne podstrony:
ProgramProdukcjiSTAR16 CIĄGNIK SIODŁOWY STAR C200 Zastosowanie: do holowania naczepy w transporcie o
Tal A: X Cmow ui .itrtg,i prnrtr.K ji . to sZrargia cm niskich pctr/iui mu do milki acjt rynków i os
ProgramProdukcjiSTAR16 rCIĄGNIK SIODŁOWY STAR C200 Zastosowanie: do holowania naczepy w transporcie
Zarz Ryz Finans R052 182 Zarządzanie ryzykiem finansowym Model czynnikowy do pomiaru ryzyka zmiany
SAM35 ZASTOSOWANIE do przewodów wentylacyjnych KLASA 5 Zużycie na 1 m2 4 szt.
2. Kalendarz konkursu: • Zgłoszenia do udziału w konkursie prosimy kierować na adr
img032 (27) . Przepisy ustawy - Prawo o ruchu drogowym mają zastosowanie do ruchu odbywającego się:
img048 (25) 33.Przepisy ustawy- Prawo o ruchu drogowym mają zastosowanie do ruchu odbywającego się:
skanuj00060003 Model SPACE Konkurencyjną techniką w stosunku do metody TOWS/SW0T pozwalającą na wybó
Politechnika WrocławskaProblemy dostępności do danych Rys. Model problemów związanych z
Rysunek 2 przedstawia przykładowy model logiczny bazy danych do rejestracji danych osób, ich numerów
Model wielowarstwowy • Dostęp do danych oraz logika biznesowa oddzielone zostały od samego

więcej podobnych podstron