Rozdział 1
Pod pojęciem problemu przewidywania preferencji użytkowników można rozumieć wiele mniej lub bardziej powiązanych za sobą zagadnień, jednak większość z nich w prosty sposób można sprowadzić do następującego pytania:
Jak użytkownik X oceni obiekt Y ?
Powyższa definicja jest oczywiście bardzo ogólna. Oceną może być zarówno liczba rzeczywista z określonego przedziału czy wartość ze skończonego zbioru (np. szkolne 2, 3, 4, 5) jak i opis słowny. Podobnie pod pojęciem obiektu może kryć się konkretny produkt z asortymentu sklepu albo bardziej abstrakcyjny byt (np. gra wybranego aktora w określonym filmie).
Warto zwrócić uwagę, że o ile inne powiązane problemy zwykle łatwo jest sprowadzić do wskazanej definicji w sensie matematycznym, o tyle praktycznie może się to okazać stosunkowo trudne. Przykładowo, w rzeczywistości często zachodzi potrzeba wskazania jedynie kilku rekomendacji dla danego klienta. Oczywiście, jeśli potrafimy trafnie przewidzieć ocenę dla każdego produktu z osobna, teoretycznie możemy po prostu wybrać te z najwyższą wartością, jeśli jednak liczba obiektów jest zbyt duża, problem może okazać się nierozwiązywalny w rozsądnym czasie.
Pierwsze i najbardziej naturalne podejścia do problemu przewidywania preferencji opierały się na wykorzystaniu możliwie szerokiej bazy atrybutów obiektów oraz użytkowników. Atrybutem obiektu może być np. kolor samochodu, gatunek filmu czy też średnia ocena krytyków. Z kolei użytkownika określać mogą m.in.: wiek, pleć, wykształcenie oraz bezpośrednio zadeklarowane preferencje (np. poprzez zaznaczenie w ankiecie pola nie lubię komedii).
Mając dostępną tego rodzaju bazę danych, problem przewidywania preferencji można przedstawić jako standardowy problem decyzyjny. W skład pojedynczej obserwacji wchodzą umieszczone kolejno atrybuty ocenianego obiektu i atrybuty oceniającego użytkownika oraz decyzja, czyli ocena, jaka została wystawiona. Tego typu problemy możemy z lepszym lub gorszym skutkiem próbować rozwiązywać stosując wiele znanych algorytmów np. drzewa decyzyjne, systemy regułowe, czy też regresję liniową, jednak jasne jest, że podstawowym warunkiem skuteczności takiego podejścia jest dostępność odpowiednio rozbudowanej bazy danych. O ile w przypadku obiektów jest to względnie osiągalne (chociaż często kosztowne),
7