Rozdział 2
Jedną z firm, które jakość swojego systemu preferencji uznały za kluczowy element sukcesu jest niewątpliwie Netflix - wysyłkowa wypożyczalnia filmów, która w październiku 2006 roku ogłosiła konkurs Netflix Pńze przeznaczając główną nagrodę (1 min $) dla zespołu, który wskaże algorytm o 10% lepszy niż aktualnie przez nich wykorzystywany Cinematach.
Nagroda jest dość pokaźna, ale przyglądając się modelowi biznesowemu firmy Netflix, łatwo dojść do wniosku, że nawet minimalne usprawnienie procesu przewidywania preferencji może przynieść nieporównywalnie większe korzyści. Klienci wypożyczalni w zamian za stały miesięczny abonament mają prawo do wypożyczenia kilku wybranych przez siebie tytułów. Odpowiednie płyty DVD dostarczane są pocztą, a po obejrzeniu i odesłaniu ich z powrotem klient ma prawo otrzymać kolejne. Co ważne, przy odsyłaniu każdej z płyt Netflbc prosi o ocenę obejrzanego filmu, a na podstawie zebranych ocen rekomenduje klientowi kolejne tytuły, dzięki czemu nie musi on poszukiwać ich samodzielnie przeglądając ogromne zasoby wypożyczalni. Kluczowa jest oczywiście jakość tej prognozy - dopóki otrzymujemy filmy, które trafiają w nasze gusta, utrzymujemy umowę i płacimy abonament. Jeśli natomiast dostajemy dość przypadkowe zestawy, który nie do końca nam odpowiadają, prawdopodobnie szybko zrezygnujemy z usług tej wypożyczalni.
W ramach konkursu udostępnione zostały dane na temat 100480507 ocen dokonanych przez 480189 użytkowników dla 17770 filmów. Każda ocena jest jedną z liczb ze zbioru {1,2,3,4,5}. Dodatkowo dla każdej z ocen dostępna jest data oceny, a dla każdego filmu jego tytuł w języku angielskim oraz rok wydania płyty DVD. Na temat użytkowników nie zostały udostępnione żadne dodatkowe informacje. Ponadto dla 2817131 ocen stwierdzony został jedynie sam fakt oceny (oraz podana została data), ale wartość oceny została ukryta. Celem konkursu jest wygenerowanie dla nich możliwie dokładnej prognozy. Warty odnotowania jest fakt, że o ile wystawiane przez użytkowników oceny muszą być liczbą całkowitą, o tyle przewidywane wartości mogą być dowolną liczbą rzeczywistą z przedziału [1,5].
Teoretycznie specyfikacja konkursu dopuszcza możliwość wielokrotnej oceny tego samego filmu przez tego samego użytkownika, jednak taka sytuacja nie pojawia się ani razu w dostępnych danych. Dalej zakładam więc, że para użytkownik i film jednoznacznie identyfikują ocenę.
9