background image

 

Praca magisterska 

 

 

 

 

INTERAKTYWNY SYSTEM REGUŁOWEJ 

ANALIZY DANYCH MARKETINGOWYCH 

DOTYCZĄCYCH SATYSFAKCJI KLIENTA 

 

background image

SPIS TREŚCI 

SPIS TREŚCI ............................................................................................................................................. 4

 

1

 

WSTĘP.............................................................................................................................................. 5

 

2

 

CEL I ZAKRES PRACY................................................................................................................. 8

 

3

 

PRZEGLĄD WYBRANYCH ZAGADNIEŃ ANALIZY SATYSFAKCJI KLIENTA (ASK) 10

 

3.1

 

S

POSOBY ANALIZY SATYSFAKCJI KLIENTA

.............................................................................. 10

 

3.1.1

 

Badanie poziomu zadowolenia klienta............................................................................... 10

 

3.1.2

 

Indeks satysfakcji klienta ................................................................................................... 12

 

3.1.3

 

Zarządzanie relacjami z klientem....................................................................................... 13

 

3.2

 

ASK

 PRZY WYKORZYSTANIU REGUŁ DECYZYJNYCH

............................................................... 14

 

3.2.1

 

Elementy teorii zbiorów przybliżonych i indukcji reguł decyzyjnych................................. 14

 

3.2.2

 

Wprowadzenie do metodologii ASK w oparciu o reguły decyzyjne ................................... 22

 

3.2.3

 

Formalne przedstawienie metodologii............................................................................... 22

 

3.3

 

T

ECHNOLOGIA ANALIZY WIELOWYMIAROWYCH DANYCH 

OLAP............................................ 25

 

3.3.1

 

Terminologia i przykłady ................................................................................................... 25

 

3.3.2

 

Zastosowanie ..................................................................................................................... 27

 

4

 

PROPOZYCJE ROZSZERZEŃ METODOLOGII ASK W OPARCIU O REGUŁY 

DECYZYJNE........................................................................................................................................... 28

 

4.1

 

P

RZYKŁAD DANYCH WEJŚCIOWYCH DO ANALIZY SATYSFAKCJI KLIENTA

................................ 28

 

4.2

 

T

ESTOWANIE STRATEGII INTERWENCJI

.................................................................................... 29

 

4.2.1

 

Przykład analizy danych metodą testowania strategii interwencji .................................... 29

 

4.2.2

 

Algorytm testowania strategii interwencji ......................................................................... 31

 

4.2.3

 

Możliwe zastosowania i kierunki rozwoju.......................................................................... 31

 

4.3

 

S

ZUKANIE STRATEGII INTERWENCJI

......................................................................................... 32

 

4.3.1

 

Przykład analizy danych metodą szukania strategii interwencji........................................ 32

 

4.3.2

 

Algorytm szukania strategii interwencji............................................................................. 33

 

4.3.3

 

Możliwe zastosowania i kierunki rozwoju.......................................................................... 34

 

4.4

 

P

OŁĄCZENIE 

OLAP

 I 

DRSA

 DO ANALIZY SATYSFAKCJI KLIENTA

........................................... 34

 

5

 

PROJEKT SYSTEMU I IMPLEMENTACJA............................................................................ 38

 

5.1

 

A

RCHITEKTURA SYSTEMU I WYKORZYSTANE TECHNOLOGIE

................................................... 38

 

5.2

 

E

LEMENTY SYSTEMU I POWIĄZANIA MIĘDZY NIMI

................................................................... 39

 

5.2.1

 

Moduł komunikacji z bazą danych ..................................................................................... 40

 

5.2.2

 

Moduły do prezentacji atrybutów i przykładów ................................................................. 41

 

5.2.3

 

Moduł do prezentacji reguł ................................................................................................ 42

 

5.2.4

 

Moduły prezentacji danych OLAP ..................................................................................... 43

 

5.2.5

 

Moduły do analizy satysfakcji klienta ................................................................................ 43

 

6

 

STUDIUM PRZYPADKÓW – EKSPERYMENT I WYNIKI................................................... 45

 

6.1

 

D

ANE WEJŚCIOWE PRZEZNACZONE DO ANALIZY SATYSFAKCJI KLIENTA

................................. 45

 

6.2

 

P

RZEBIEG EKSPERYMENTU

...................................................................................................... 46

 

6.2.1

 

Etap 1 – prezentacja danych marketingowych do analizy ................................................. 48

 

6.2.2

 

Etap 2 – analiza metodą szukania strategii interwencji..................................................... 51

 

6.2.3

 

Etap 3 – analiza metodą testowania strategii interwencji ................................................. 54

 

6.2.4

 

Etap 4 – badanie oczekiwanej efektywności strategii interwencji ..................................... 57

 

6.3

 

K

OŃCOWE WNIOSKI

................................................................................................................. 61

 

7

 

PODSUMOWANIE I WNIOSKI.................................................................................................. 62

 

BIBLIOGRAFIA ..................................................................................................................................... 65

 

DODATEK A – WYKAZ TABEL I RYSUNKÓW .............................................................................. 67

 

DODATEK B – PRZEWODNIK INSTALACYJNY UŻYTKOWNIKA........................................... 68

 

DODATEK C – PRZEWODNIK INSTALACYJNY PROGRAMISTY ............................................ 70

 

DODATEK D – SPIS CD ........................................................................................................................ 71

 

background image

 

5

1  Wstęp 

 

Strategia każdej firmy, działającej na rynku konkurencyjnym opiera się na 

utrzymywaniu i pozyskiwaniu nabywców swojego produktu lub usługi. Ze 

strategicznego punktu widzenia wynika więc,  że najważniejsi dla firmy są klienci, 

ponieważ to oni decydują tak naprawdę o sukcesie firmy. W warunkach nasilającej się 

konkurencji najważniejszym czynnikiem wpływającym na zdobycie klienta i 

zatrzymanie go, a co za tym idzie – sukces przedsiębiorstwa, staje się zadowolenie 

klienta.  

Co tak naprawdę kryje się pod pojęciem „satysfakcja klienta” (ang. Customer 

Satisfaction)? Klienci od dawna już nie płacą za produkt w sensie fizycznym, ale za to, 

co w produkcie czy usłudze cenią i czego od niego/niej oczekują. W wyniku zakupu i 

korzystania z produktu/usługi klient zaspokaja lub nie swoje oczekiwania. W 

końcowym efekcie może on być niezadowolony (jego oczekiwania były większe), 

zadowolony (oczekiwania spełniają się) lub bardzo zadowolony (oczekiwania były 

mniejsze) [26]. Usatysfakcjonowani klienci są bardziej lojalni i dzielą się swoimi 

korzystnymi opiniami o produkcie/usłudze z innymi, natomiast obniżenie poziomu ich 

satysfakcji zmniejsza prawdopodobieństwo ponownego zakupu, a szansa na to, że nie 

odejdą redukuje się do kilkunastu procent [15]. Stopień satysfakcji staje się jednym z 

najlepszych wskaźników przyszłych zysków firmy oraz dużą pomocą w ustalaniu 

strategii przedsiębiorstwa oraz zwiększaniu wpływów i udziału w rynku. Wszystko to 

wskazuje na celowość badań ukierunkowanych na poznanie stopnia satysfakcji 

klientów. 

Pojawia się problem sprawnego i wiarygodnego badania tej satysfakcji ze 

względu na wpływ różnorodnych czynników, czy zależność od dziedziny życia. Firmy 

posiadają szereg własnych informacji bądź mają możliwość ich zgromadzenia, 

najczęściej przez indywidualne wywiady grupowe, wywiady telefoniczne oraz ankiety 

pocztowe. Aby dokonać najlepszej i najbardziej obiektywnej analizy satysfakcji klienta 

(ASK) stosuje się wiele metod badawczych zarówno ilościowych jak i jakościowych, 

m.in.: analizę poziomu sprzedaży, analizę utraty klientów, analizę reklamacji lub 

kontrolowany zakup [6]. Podejmowane są próby ujednolicenia sposobów określających 

stopień satysfakcji klienta, czego przykładem może być amerykański indeks satysfakcji 

background image

 

6

klienta (ang. American Customer Satisfaction Index) [26] oraz jego odpowiednik 

szwedzki (ang. Swedish Customer Satisfaction Barometr). Wymienione indeksy oparte 

są na modelu opracowanym przez C. Fornella [14], którego podstawą jest analizowanie 

satysfakcji klienta w oparciu o trzy grupy czynników, tj. postrzeganą jakość, 

oczekiwaną jakość i postrzeganą wartość oraz powiązania i zależności między nimi. 

Otrzymywane informacje można skutecznie wykorzystać do analizy zadowolenia 

odbiorców, ale są one bezwartościowe, jeśli nie są systematycznie analizowane, nie 

wyciąga się z nich wniosków i nie wprowadza w życie. 

Najczęstszą i najpopularniejszą formą zbierania potrzebnych informacji przez 

firmy jest opracowywanie kwestionariuszy i przeprowadzanie ankiet. Pozwalają one na 

wyróżnienie czynników satysfakcjonujących i 

niesatysfakcjonujących klienta, 

tkwiących w samym produkcie/usłudze, oraz na ocenę różnorodnych cech 

produktu/usługi. Otrzymane rezultaty (dane marketingowe) można  łatwo przedstawić 

w postaci tabeli zwanej tablicą decyzyjną; wiersze tej tablicy zawierają uzyskane 

ankiety, a kolumny kryteria oceny. Na przecięciu wiersza i kolumny znajduje się ocena 

produktu/usługi ze względu na dane kryterium. Opisany powyżej model danych stanowi 

typowe dane wejściowe dla metody eksploracji danych i odkrywania wiedzy opartej na 

teorii zbiorów przybliżonych (ang. Rough Set Theory) zaproponowanej przez Z. 

Pawlaka [20]. Podstawą filozofii zbiorów przybliżonych jest wyrażenie wiedzy o 

klasyfikacji obiektów ze względu na zmienną niezależną (zwaną decyzją) za pomocą 

wiedzy o klasyfikacji obiektów ze względu na zbiór zmiennych zależnych (kryteria 

ocen). To wyrażenie jednej wiedzy w kategoriach innej nosi nazwę przybliżenia (ang. 

approximation). Teoria ta podaje również definicje jakości przybliżenia klasyfikacji 

oraz zależności występujących w danych [8][20][21]. Wynikiem analizy danych za 

pomocą teorii zbiorów przybliżonych jest zbiór reguł decyzyjnych, które stanowią 

zwartą reprezentację wiedzy zawartej w danych. 

W zakresie poszukiwania metod i sposobów skutecznego pomiaru stopnia 

satysfakcji klientów wiele jest jeszcze możliwości ich doskonalenia. Dostępne na rynku 

narzędzia są najczęściej bardzo kosztowne, a same metody analizy nie są wolne od wad. 

Konieczne jest więc ciągłe poszukiwanie takich sposobów pomiaru, które pozwalałyby 

na osiągnięcie możliwie najwyższej skuteczności i wiarygodności przy możliwie 

największej prostocie wykonania i ograniczonych kosztach. Wydaje się,  że 

przeprowadzanie ankiet spełnia dwa ostatnie warunki. Niniejsza praca podejmuje 

background image

 

7

powyższe wyzwanie z zamiarem wykorzystania podejścia zbiorów przybliżonych do 

analizy wyników ankiet. Celem pracy jest sprawdzenie, czy reguły decyzyjne mogą być 

pomocne w analizie satysfakcji klienta i czy możliwa jest ocena skuteczności strategii 

interwencji opracowanej na podstawie uzyskanych reguł. 

background image

 

8

2  Cel i zakres pracy 

 

Podstawowym celem mojej pracy było stworzenie interaktywnego systemu 

wykorzystującego metodę analizy danych marketingowych dotyczących satysfakcji 

klienta (kwestionariuszy, ankiet) w oparciu o teorię zbiorów przybliżonych z relacją 

dominacji. W systemie należało dodatkowo zaimplementować metodologię badania 

wpływu strategii interwencji wywiedzionej z reguł decyzyjnych [7], prezentację 

otrzymanych wyników, a także sam algorytm indukcji satysfakcjonującego zbioru 

reguł.  

W ramach pracy inżynierskiej wykonanej w 2003r. na Politechnice Poznańskiej, 

powstał system GoalProject [1][19] wspierający szeroko pojętą eksplorację danych. 

Zawiera on m.in. moduł dostępu do danych pozwalający na odczyt/zapis plików z 

tablicą decyzyjną (ISF) i ze zbiorem reguł decyzyjnych (RLS) do pamięci i do bazy 

danych (MySQL) oraz moduł obliczeniowy generujący redukty i reguły decyzyjne. Aby 

uniknąć powtórnego pisania powtarzalnych części systemu ustalono, że tworzony 

program będzie komunikował się z GoalProject-em poprzez bazę danych MySQL i 

wyciągał z niej potrzebne dane - wykorzysta się tym samym zaimplementowane już 

parsery plików oraz algorytmy generowania reguł. 

Ważnym elementem pracy jest odpowiedni wybór technologii programistycznej. 

Ponieważ moim celem było stworzenie aplikacji wieloplatformowej, łatwo dostępnej i 

darmowej, mój wybór padł na Javę. Takie założenie dodatkowo przyczyni się do 

łatwiejszego rozbudowywania i dostępności systemu w przyszłości, bez ponoszenia 

dodatkowych kosztów. 

 

Główne cele projektu przedstawiają się następująco: 

•  stworzenie systemu regułowej analizy danych marketingowych dotyczących 

satysfakcji klienta, obejmujące: 

o

 

implementację zaproponowanej w pracy [7] metodologii badania 

wpływu strategii interwencji wywiedzionej z reguł decyzyjnych, 

o

 

opracowanie i implementację  własnych propozycji i pomysłów 

wykorzystania reguł decyzyjnych do analizy satysfakcji klienta, 

background image

 

9

•  wykorzystanie systemu GoalProject 

o

 

wczytywanie plików z danymi wejściowymi (ISF/RLS), 

o

 

algorytmy generowania reguł, 

•  implementację modułu prezentacji otrzymywanych wyników analizy, 

•  dobre udokumentowanie pracy. 

 

Główne założenia projektu: 

•  „otwartość” oprogramowania – umożliwienie  łatwej rozbudowy systemu w 

przyszłości, 

•  „przenośność” oprogramowania – możliwość uruchamiana na różnych 

platformach systemowych, 

•  „ergonomiczność” oprogramowania – umożliwienie  łatwego i możliwie 

najprostszego korzystania z systemu, 

•  niezawodność oprogramowania, 

•  spójność i uniwersalność modułów. 

 

Powyższym celom i założeniom podporządkowana jest struktura pracy złożonej 

z 7 rozdziałów. W rozdziale 3 dokonano przeglądu istniejących sposobów analizy 

satysfakcji klienta i nowego podejścia wykorzystującego reguły decyzyjne, a także 

zaprezentowano technologię OLAP. Rozdział 4 zawiera propozycje rozszerzeń 

metodologii ASK w oparciu o reguły decyzyjne. Dokładny opis powstałej aplikacji 

można znaleźć w rozdziale 5. Natomiast przykład jej zastosowania w postaci 

przeprowadzonego eksperymentu znajduje się w rozdziale 6. Pracę kończą 4 dodatki, 

wśród których są przewodnik instalacyjny użytkownika i programisty. 

background image

 

10

3  Przegląd wybranych zagadnień Analizy Satysfakcji 

Klienta (ASK) 

Rozdział ten zawiera opis wybranych zagadnień z problematyki pracy i 

dotychczasowy stan wiedzy w danym zakresie. Omówione zostały najpopularniejsze 

metody badania satysfakcji klienta stosowane w praktyce, a także nowa metodologia 

wykorzystująca do tego celu reguły decyzyjne. W rozdziale przedstawiono również 

elementy wykorzystane w stworzonym w ramach pracy magisterskiej systemie: bardzo 

efektywną i przejrzystą formę wielowymiarowej prezentacji danych, a także 

zastosowanie języka SQL oraz systemu zarządzania bazą danych MySQL. 

3.1  Sposoby analizy satysfakcji klienta 

Uzyskanie przez przedsiębiorstwo przewagi konkurencyjnej w silnie zmiennym 

otoczeniu wymaga ciągłego analizowania sytuacji rynkowej i wyprzedzania 

konkurentów. W tych działaniach podstawową kategorią jest zaspokajanie potrzeb 

klienta i jego (możliwie jak największe) zadowolenie. Przedstawione w tym rozdziale 

metody pomiaru stopnia zadowolenia klienta, zarówno ilościowe, jakościowe i 

wielowariantowe, dostarczają przedsiębiorstwu informacji do oceny satysfakcji klienta. 

Ze względu na przedstawione ograniczenia tych metod konieczne jest jednak 

doskonalenie ich i propagowanie w środowisku decydentów podejmujących 

strategiczne decyzje rynkowe. 

3.1.1  Badanie poziomu zadowolenia klienta 

•  Analiza poziomu sprzedaży 

Ogólna analiza sprzedaży pozwala na wyznaczenie wzrostu lub spadku 

sprzedaży w określonych okresach. Na poziomie pojedynczego klienta poziom 

sprzedaży to analiza liczby transakcji zawartych z danym klientem w określonym 

czasie oraz ich wartość pieniężna. Niestety metoda ta nie pozwala w pełni określić 

poziomu zadowolenia klienta – daje jedynie ogólny pogląd na liczbę klientów 

dokonujących zakupu. 

Trzeba sobie zadać pytania: Czy wysoka sprzedaż oznacza zadowolenie 

klientów? Czy klient dokonujący stałych zakupów jest zadowolony i pozostanie 

background image

 

11

lojalny wobec firmy w przyszłości? W tym przypadku nie można odpowiedzieć na 

nie jednoznacznie. Wysoka sprzedaż może oznaczać zadowolenie klientów, ale 

również może być wynikiem obniżek cen i promocji w danym okresie czasu. 

Natomiast stałe zakupy dokonywane przez klientów mogą być spowodowane 

przyzwyczajeniem lub brakiem czasu na zakupy w innej konkurencyjnej firmie. 

•  Analiza utraty klientów 

Analiza utraty klientów jest metodą badania niezadowolenia klientów. Jeżeli 

zmniejsza się liczba klientów firmy to można zakładać, że są oni niezadowoleni z jej 

usług, produktów lub obsługi. Należy wtedy na bieżąco analizować ich utratę i 

próbować odpowiedzieć na pytanie, dlaczego tak się dzieje, a następnie 

przeciwdziałać takim sytuacjom w przyszłości. 

•  Analiza reklamacji 

Reklamacje to cenna informacja dla firmy. W rzeczywistości reklamacje 

składane przez klientów nie są dobrze odbierane przez firmy i traktowane jako 

krytyka ich działań. Firma musi jednak wyciągać wnioski ze składanych skarg i 

zażaleń. Z analiz wynika bowiem, że jeżeli klient zgłasza swoje niezadowolenie to 

oznacza, że zależy mu na współpracy z firmą i jest do niej przywiązany. Natomiast 

klient niezadowolony nie traci czasu na składanie reklamacji i woli przejść do 

konkurencyjnej firmy. 

•  Analiza kontrolowanego zakupu 

Kontrolowany zakup może być badany przez wprowadzenie klienta – aktora 

(osoby zatrudnionej z zewnątrz) do udziału w zakupie. Taki klient przechodzi przez 

wszystkie etapy sprzedaży i obsługi posprzedażowej, notując na bieżąco swoje 

odczucia, potrzeby i uwagi. Analiza informacji zebranych w ten sposób pozwala 

stwierdzić, co spodoba się potencjalnemu klientowi, a co może spowodować spadek 

jego zadowolenia. 

Drugą metodą analizy kontrolowanego zakupu jest zakup przez klienta – 

pracownika firmy. Metoda sprowadza się do tego, że pracownik ma do wyboru 

zakup produktu w sklepie firmowym z określoną zniżką lub takiego samego 

produktu w konkurencyjnej firmie. Po dokonanym zakupie analizuje się, co wybrał 

pracownik i jakimi kryteriami kierował się przy zakupie. 

background image

 

12

3.1.2  Indeks satysfakcji klienta 

Indeks satysfakcji klienta [26] (ang. Customer Satisfaction Index – CSI) pozwala 

na analizę poziomu zadowolenia klienta pod względem każdej cechy istotnej z punktu 

widzenia satysfakcji klienta jak i całości produktu/usługi. Jest również doskonałym 

narzędziem do podejmowania decyzji związanych ze strategią marketingową firmy, 

ponieważ pozwala analizować zmiany preferencji i oceniać poziom satysfakcji z 

produktów konkurencyjnych. Dokładniej CSI daje odpowiedź na pytania: jakie są 

oczekiwania klienta co do produktu/usługi, które z tych oczekiwań mają największą 

wartość dla klienta, w jakim stopniu nasz produkt lub konkurencyjny spełnia te 

oczekiwania, oraz w które elementy należy inwestować i rozwijać, a które są 

przeinwestowane. 

W analizie można wyróżnić trzy etapy: 

•  Etap I – wtórna eksploracja 

Celem tego etapu jest zdefiniowanie cech, które mają być oceniane i 

wyeliminowanie niepotrzebnych elementów badania. W praktyce wiele informacji 

posiada sama firma, dlatego też w tym etapie przeprowadza się analizę informacji 

dostępnych wewnątrz firmy prowadząc rozmowy z pracownikami poszczególnych 

działów (sprzedaży, marketingu, produkcji). W wyniku definiowane są czynniki 

generujące zadowolenie lub niezadowolenie klienta oraz kryteria, którymi kierują 

się nabywcy. 

•  Etap II – budowa kwestionariusza 

Budowa kwestionariusza polega na umieszczaniu w nim odpowiednich pytań 

dotyczących czynników satysfakcji klienta, zdefiniowanych w pierwszym etapie, 

dających się zwymiarować za pomocą skali Likerta (od 1 do 5). Respondenci 

dodatkowo nadają powyższym czynnikom wagi, co w rezultacie powoduje, że 

otrzymana ocena konkretnego czynnika jest miara ważoną. Ponieważ stworzenie 

dobrego kwestionariusza nie jest rzeczą trywialną, więc istnieją różne podejścia 

tworzenia takich kwestionariuszy, przykładem może być amerykański lub szwedzki 

indeks satysfakcji klienta [10]. 

•  Etap III – prezentacja i analiza wyników 

Ogólny ważony CSI jest miarą średnią z ważonych ocen wszystkich czynników. 

Procedura wyliczania ważonych ocen każdego czynnika jest dokonywana dla 

background image

 

13

każdego respondenta, natomiast miara CSI wykonywana jest dla danej firmy jak 

również dla każdej firmy konkurencyjnej, co umożliwia dokonywanie 

pozycjonowania firm pod względem ich atrakcyjności dla klientów. 

Skonstruowany indeks zadowolenia klienta przedstawiany jest również w 

powiązaniu z przychodami firmy. Przychody wynikające z zadowolenia klienta 

opisuje się w postaci funkcji zależnej od kształtowania się tego indeksu. Funkcja 

jest z założenia rosnąca, co oznacza, że im wyższy jest indeks tym przedsiębiorstwo 

osiąga wyższe przychody. 

Na sam koniec należy zaznaczyć, że omawiana w tym punkcie metoda badania 

satysfakcji klienta nie jest bez wad i ma swoje ograniczenia. Jej stosowanie wymaga 

systematycznego prowadzenia badań rynkowych. Poza tym wyższy indeks zadowolenia 

klienta może, lecz nie musi, oznaczać wyższych przychodów ze sprzedaży i-tego 

produktu. Ograniczeniem jest to, że przyjmuje się teoretyczne założenia dotyczące 

tworzenia indeksu – wielowariantową ocenę produktu przez klienta przy użyciu  n 

różnych parametrów oraz uwzględnienie znaczenia każdego z parametrów przez 

przyporządkowanie mu odpowiedniego współczynnika znaczenia (wagi). Dodatkowo 

należy zapewnić porównywalność parametrów i ich wag.  

3.1.3  Zarządzanie relacjami z klientem 

Zarządzanie relacjami klienta [4] (ang. Customer Relationship 

Management – CRM) to koncepcja określana mianem strategii, której głównym celem 

jest budowanie długotrwałych i pozytywnych relacji z klientami. Program ten obejmuje 

zarówno same przedsiębiorstwo, jak i jego partnerów rynkowych (dostawców, 

uczestników kanałów dystrybucji, klientów) tworząc w ten sposób tzw. sieć wartości. 

Na strategie składają się cztery etapy: zdefiniowanie wartości dla klienta, kreowanie 

wartości dla klienta, komunikowanie wartości dostarczonej klientom (dotarcie do 

wybranych klientów, umiejętność kształtowania ich oczekiwań i wsłuchiwania się w ich 

potrzeby), dostarczanie klientom oczekiwanej wartości. 

Takie rozwiązanie pozwala firmom na podnoszenie zadowolenia klientów, na lepsze 

utrzymanie ich najbardziej wartościowych klientów i zdobywanie nowych w tym 

samym czasie. Ponieważ bardzo trudnym staje się rozpoznanie potrzeb i preferencji 

klientów, to około 55% wdrożonych programów nie przyniosło oczekiwanych korzyści. 

background image

 

14

3.2  ASK przy wykorzystaniu reguł decyzyjnych 

Reguły decyzyjne są wynikiem eksploracji danych i stanowią pewien rodzaj 

odkrytej wiedzy. Zawierają one informacje o regularnościach w danych z przeszłości, 

ale mogą być również bardzo użyteczne w podejmowaniu decyzji w przyszłości. 

Przykładowo w odniesieniu do medycyny reguła z jednej strony ukazuje zależności 

między objawami a chorobą, ale może także pomagać w diagnozowaniu nowych 

pacjentów. Dodatkowo taka reguła może nam podpowiedzieć określoną strategię 

interwencji, która umożliwi osiągnięcie wyznaczonego celu – dla opisywanego 

przypadku medycznego z reguły możemy się dowiedzieć, co zrobić, aby zwiększyć 

wyleczalność z danej choroby. 

W punkcie tym zostały przedstawione elementy teorii zbiorów przybliżonych 

oraz indukcji reguł decyzyjnych, a także elementy metodologii badania oczekiwanej 

efektywności strategii interwencji, której dokładny opis można znaleźć w artykule [7]. 

3.2.1  Elementy teorii zbiorów przybliżonych i indukcji reguł decyzyjnych 

a.  Wprowadzenie 

Teoria zbiorów przybliżonych [8][20][23][24][25] jest jednym z podejść 

rozumienia pojęcia zbioru, natomiast z praktycznego punktu widzenia teoria ta jest 

nową metodą analizy danych. W klasycznej teorii mnogości, zbiór jest definiowany 

poprzez swoje elementy, przy czym nie jest tu potrzebna żadna dodatkowa wiedza o 

elementach uniwersum, z których tworzymy zbiory. W teorii zbiorów przybliżonych 

przeciwnie, zakłada się, iż istnieją pewne dane o elementach uniwersum i dane te są 

wykorzystywane w tworzeniu zbiorów. Elementy, o których mamy identyczną 

informację są nierozróżnialne i tworzą tzw. zbiory elementarne. Stanowią one podstawę 

rozumowań w teorii zbiorów przybliżonych. Suma dowolnych zbiorów elementarnych 

jest nazywana zbiorem definiowalnym. Zbiory, które nie są zbiorami definiowalnymi 

nazywane są zbiorami przybliżonymi.  

Oczywiście, zbiory definiowalne można jednoznacznie scharakteryzować 

poprzez własności ich elementów, natomiast zbiorów przybliżonych nie można 

scharakteryzować w ten sposób. Np. zbiór „liczb parzystych” jest pojęciem 

definiowalnym (ostrym), gdyż każdą liczbę naturalną możemy jednoznacznie 

zaklasyfikować jako parzystą lub nieparzystą. Natomiast zbiór „zdolnych studentów” 

background image

 

15

jest pojęciem przybliżonym (nieostrym), gdyż nie o każdym studencie możemy 

jednoznacznie twierdzić, iż jest on zdolny czy też nie. Dlatego w teorii zbiorów 

przybliżonych wprowadza się pojęcia dolnego i górnego przybliżenia zbioru, które 

pozwalają każdy zbiór niedefiniowalny (przybliżony) scharakteryzować za pomocą dwu 

zbiorów definiowalnych 

− jego dolnego i górnego przybliżenia. 

 

b.  Zbiory przybliżone – pojęcia podstawowe 

System informacyjny, jest parą 

)

,

,

,

(

f

V

A

U

, gdzie U jest niepustym i 

skończonym zbiorem obiektów zwanym uniwersum, A jest niepustym i skończonym 

zbiorem atrybutów. 

U

A

a

a

V

V

=

a

 jest dziedziną atrybutu a

A, oraz 

V

A

U

f

×

  

:

  

 

jest funkcją informacyjną, taką,  że 

a

A,  x

U,  f(a,x)

a

V

. Jeżeli w systemie 

informacyjnym wyróżniamy rozłączne zbiory atrybutów warunkowych C i atrybutów 

decyzyjnych D (gdzie A=C

D), to system taki nazywany jest tablicą decyzyjną. 

Z każdym podzbiorem atrybutów P

A związana jest binarna relacja I(P)

nazywana relacją nierozróżnialności, zdefiniowana jako: 

I(P) = {(x,y)

∈U×U : f(a,x)=f(a,y), ∀a∈P} 

Jeśli (x,y)

I(P) to obiekty x i y są nierozróżnialne ze względu na podzbiór atrybutów P 

(relacja nierozróżnialności jest relacją równoważności).  P(x) oznacza klasę abstrakcji 

relacji I(P) zawierającą obiekt x i nazywane są zbiorami P-elementarnymi. 

Niech 

)

,

,

,

(

f

V

A

U

S

=

  będzie systemem informacyjnym, X niepustym 

podzbiorem  U oraz P

A. Celem jest opisanie zbioru X w kategoriach wartości 

atrybutów z P. Prowadzi to zdefiniowania dwóch zbiorów 

( )

X

P

 i 

( )

X

P

, nazywanych 

odpowiednio  P-dolnym przybliżeniem i P-górnym przybliżeniem  X, zdefiniowanych 

jako: 

 

( )

}

)

(

:

{

X

x

P

U

x

X

P

=

   

( )

( )

{

}

=

X

x

P

U

x

X

P

:

 

 

Zbiór (różnica między górnym a dolnym przybliżeniem) BN

P

(X) = 

( )

X

P

 

– 

( )

X

P

 jest 

nazywany  P-brzegiem zbioru X. Dolne przybliżenie 

( )

X

P

 zbioru X jest zbiorem 

obiektów, które można z pewnością zaliczyć do X na podstawie zbioru atrybutów P (w 

świetle posiadanej wiedzy mogą być zaklasyfikowane jednoznacznie do rozważanego 

zbioru), podczas gdy obiekty z 

( )

X

P

 mogą być tylko uznane za możliwie należące do 

background image

 

16

X, na podstawie atrybutów P (nie można ich wykluczyć, w świetle posiadanej wiedzy, z 

danego zbioru). P-brzeg  BN

P

(X) zawiera obiekty, których nie można jednoznacznie 

przydzielić do X z uwagi na sprzeczny opis w terminach atrybutów P. Natomiast 

obiekty z U\

( )

X

P

 z pewnością nie należą do X. O zbiorze X mówimy, że jest 

P-przybliżony, jeśli  BN

P

(X) 

 

 (gdy jego obszar brzegowy jest niepusty) w 

przeciwnym razie jest on P-definiowalny (dokładny). Zauważmy też,  że konstrukcja 

przybliżeń ma charakter obliczeń granularnych, gdyż operuje na blokach obiektów 

nierozróżnialnych przez atrybuty P, czyli na zbiorach P-elementarnych. 

Wiersze tablicy decyzyjnej określają reguły decyzyjne, które można wyrazić w 

postaci wyrażeń  „jeżeli…,to…”

Ψ

Φ

, gdzie 

m

Φ

Φ

Φ

=

Φ

...

2

1

 jest częścią 

warunkową reguły, a 

Ψ  jej częścią decyzyjną. Każda reguła decyzyjna wyznacza 

decyzje, które musza być podjęte, jeśli warunki podane w tablicy są spełnione. Reguły 

decyzyjne są  ściśle związane z przybliżeniami. Dolne przybliżenia klas decyzyjnych 

wyznaczają deterministyczne reguły decyzyjne, to jest takie reguły, które jednoznacznie 

wyznaczają decyzje na podstawie warunków; zaś górne przybliżenia klas decyzyjnych 

wyznaczają niedeterministyczne reguły decyzyjne, to jest reguły nie wyznaczające 

jednoznacznie decyzji na podstawie warunków. 

Atrybuty z dziedziną uporządkowaną według preferencji nazywane są 

kryteriami, ponieważ dotyczą oceny w określonej skali preferencji. Przykład natomiast 

to wiersz tablicy decyzyjnej, czyli obiekt z opisem i przydziałem do klasy. 

 

c.  Podejście zbiorów przybliżonych oparte na relacji dominacji 

Ogólnie semantyczna korelacja między kryteriami warunkowymi a decyzyjnymi 

wymaga, by obiekt x dominujący obiekt y na wszystkich kryteriach warunkowych (tzn. 

x mający oceny co najmniej tak dobre jak y na wszystkich kryteriach warunkowych) 

powinien również dominować y na wszystkich kryteriach decyzyjnych (tzn. x powinien 

być oceniony co najmniej tak dobrze jak y na wszystkich kryteriach decyzyjnych). 

Zasada ta zwana jest zasadą dominacji (lub zasadą Pareto) i jest to jedyna obiektywna 

zasada wielokryterialnego porównywania obiektów, której racjonalności nikt nie 

podważa. 

Każda reguła decyzyjna określona jest przez profil warunkowy i profil 

decyzyjny, które są wektorami wartości progowych na wybranych atrybutach i 

background image

 

17

kryteriach, odpowiednio, po stronie warunkowej i decyzyjnej. Mówimy, że jeden profil 

dominuje drugi, jeśli oba profile mają takie same wartości na zwykłych atrybutach, a 

wartości kryteriów pierwszego profilu są nie gorsze od wartości kryteriów drugiego 

profilu. 

Zachowując oznaczenia, przyjmiemy ponadto, że  X

C

=

=

C

q

q

V

1

 i X

D

=

=

D

q

q

V

1

 

oznaczają odpowiednio, przestrzenie atrybutów warunkowych i decyzyjnych. Punkty 

przestrzeni X

C

 i X

D

 są wektorami możliwych ocen obiektów, odpowiednio, za pomocą 

atrybutów warunkowych C={1,…,|C|} i decyzyjnych D={1,…,|D|}. Ocena obiektu x na 

atrybucie q

A jest oznaczona przez x

q

. Relacja nierozróżnialności na U ze względu na 

zbiór atrybutów decyzyjnych D dokonuje podziału  U na skończoną liczbę klas 

decyzyjnych Cl={Cl

t

, t=1,...,n}. Każdy obiekt x

U należy do jednej i tylko jednej klasy 

Cl

t

Cl. Załóżmy bez utraty ogólności,  że wszystkie atrybuty warunkowe w C i 

decyzyjne w D są kryteriami, oraz że C i D są skorelowane semantycznie. 

Niech 

q

f

  będzie relacją  słabej preferencji na U (zwaną też relacją 

przewyższania) reprezentującą preferencję na zbiorze obiektów ze względu na 

kryterium  q

{C

D};  x

q

q

f

y

q

 oznacza, że “x

q

 jest co najmniej tak dobry jak y

q

 ze 

względu na kryterium q”. Z drugiej strony mówimy, że  x dominuje y ze względu na 

P

C  (x  P-dominuje  y) w przestrzeni atrybutów warunkowych X

P

 (oznaczenie: xD

P

y

jeśli  x

q

q

f

y

q

 dla wszystkich kryteriów q

P. Zakładając, bez utraty ogólności,  że 

dziedziny wszystkich kryteriów są liczbowe, tzn. X

q

R dla każdego  q

C, oraz, że są 

uporządkowane w ten sposób, że preferencja rośnie z wartością, można powiedzieć, że 

xD

P

y jest równoważne:  x

q

y

q

 dla wszystkich q

P,  P

C. Zauważmy,  że dla każdego 

x

X

P

,  xD

P

x, tzn. P-dominacja jest zwrotna. Analogiczną definicję dominacji można 

sformułować dla przestrzeni atrybutów decyzyjnych X

R

 (oznaczenie: xD

R

y), R

D

Relacje dominacji xD

P

y i xD

R

y  (P

C i R

D) są stwierdzeniami 

ukierunkowanymi, w których x jest podmiotem a y jest obiektem odniesienia. Jeśli 

x

X

P

 jest obiektem odniesienia, P

C, to można zdefiniować zbiór obiektów y

X

P

 P-

dominujących x, zwany zbiorem P-dominującym: 

D

P

+

(x)={y

UyD

P

x}. Jeśli x

X

P

 jest 

podmiotem, P

C, to można zdefiniować zbiór obiektów y

X

P

 P-zdominowanych przez 

x, zwany zbiorem P-zdominowanym: 

D

P

(x)={y

UxD

P

y}. 

background image

 

18

Jeśli chodzi o przestrzeń atrybutów decyzyjnych X

R

,  R

D, to relacja  

R-dominacji pozwala na zdefiniowanie zbiorów: Cl

x

R

={y

UyD

R

x}, 

Cl

x

R

={y

UxD

R

y}. 

q

t

Cl

={x

X

D

: x

q

=t

q

} jest klasą decyzyjną ze względu na pojedyncze kryterium 

decyzyjne q

D.  Cl

x

R

 nazywamy złożeniem klas „w górę”, a  Cl

x

R

, złożeniem klas „w 

dół”. Jeśli x

Cl

x

R

, to x należy do klasy 

q

t

Cl

x

q

=t

q

, lub lepszej, na każdym kryterium 

decyzyjnym q

R. Jeśli z kolei x

Cl

x

R

, to x należy do klasy 

q

t

Cl

x

q

=t

q

, lub gorszej, na 

każdym kryterium decyzyjnym q

R. Złożenia klas w górę i w dół odpowiadają 

pozytywnym i negatywnym stożkom dominacji w X

R

, z początkiem w punkcie x o 

współrzędnych [

q

t

Cl

x

q

=t

q

q

R]. 

 

d.  Podejście zbiorów przybliżonych oparte na dominacji – DRSA 

W sytuacjach praktycznych zbiór D atrybutów decyzyjnych jest zazwyczaj 

jednoelementowy, D={d}. Przyjmijmy to założenie, aczkolwiek nie jest ono konieczne 

dla DRSA. Atrybut decyzyjny d dokonuje, tak samo jak poprzednio zbiór D, podziału U 

na skończona liczbę klas decyzyjnych Cl={Cl

t

t=1,...,n}. Także tutaj, im wyższy numer 

klasy, tym lepsza klasa. Złożenia klas decyzyjnych w górę i w dół sprowadzają się, 

odpowiednio, do:  

U

t

s

s

t

Cl

Cl

=

, 

U

t

s

s

t

Cl

Cl

=

t=1,...,n

co odpowiada określeniom: „klasa co najmniej Cl

t

” i „klasa co najwyżej  Cl

t

”. 

Zauważmy, że 

U

Cl =

1

U

Cl

n

=

, oraz dla t=2,...,n mamy  Cl

t

=U– Cl

t

−1

, tzn. wszystkie 

obiekty nie należące do klasy Cl

t

 lub lepszej, należą do klasy Cl

t-1

 lub gorszej. 

Wyjaśnijmy jak pojęcie zbioru przybliżonego zostało uogólnione w podejściu 

DRSA w celu umożliwienia obliczeń granularnych na stożkach dominacji. Dla danego 

zbioru kryteriów P

C, zaliczenie obiektu xU do złożenia klas w górę  Cl

t

t=2,…,n

jest niespójne z zasadą dominacji, gdy zachodzi jedna z poniższych sytuacji:  

•  obiekt x należy do klasy Cl

t

 lub lepszej, lecz jest P-zdominowany przez obiekt y 

należący do klasy gorszej od Cl

t

, tzn. x

Cl

t

 lecz 

)

(

x

D

P

+

−1

t

Cl

≠∅, 

background image

 

19

•  obiekt  x należy do klasy gorszej od Cl

t

 lecz 

P-dominuje obiekt y należący do 

klasy 

Cl

t

 lub lepszej, tzn. 

x

Cl

t

 lecz 

)

(

x

D

P

Cl

t

≠∅. 

Jeśli dla danego zbioru kryteriów 

P

C, zaliczenie xU do Cl

t

t=2,…,n, jest niespójne 

z zasadą dominacji, to mówimy, że 

x należy do  Cl

t

 

z pewną  wątpliwością. Zatem, x 

należy do  Cl

t

 bez wątpliwości

, biorąc pod uwagę  P

C, jeśli  xCl

t

 i nie ma 

niespójności z zasadą dominacji. To oznacza, że wszystkie obiekty 

P-dominujące  x 

należą do  Cl

t

, tzn. 

)

(

x

D

P

+

Cl

t

. Ponadto, x być może należy do  Cl

t

, biorąc pod 

uwagę 

P

C, gdy zachodzi jedna z poniższych sytuacji: 

•  zgodnie z decyzją d, x należy do Cl

t

•  zgodnie z decyzją d, x nie należy do Cl

t

, lecz obiekt ten jest niespójny w sensie 

zasady dominacji z obiektem 

y należącym do  Cl

t

Używając pojęcia wątpliwości, 

x być może należy do  Cl

t

, biorąc pod uwagę 

P

C, jeśli x należy do Cl

t

 z wątpliwością lub bez. Ze względu na zwrotność relacji 

dominacji 

D

P

, powyższe sytuacje mogą być podsumowane następująco: biorąc pod 

uwagę 

P

C,  x być może należy do klasy Cl

t

 lub lepszej, jeśli wśród obiektów 

P-zdominowanych przez x istnieje obiekt y należący do klasy Cl

t

 lub lepszej, tzn. 

)

(

x

D

P

Cl

t

≠∅. 

Dla 

P

C, zbiór wszystkich obiektów należących bez wątpliwości do  Cl

t

 

tworzy 

P-dolne przybliżenie złożenia klas  Cl

t

, oznaczone przez 

)

(Cl

P

t

; natomiast 

zbiór wszystkich obiektów należących być może do  Cl

t

 tworzy 

P-górne przybliżenie 

złożenia klas  Cl

t

, oznaczone przez 

)

(Cl

P

t

)

(Cl

P

t

={

x

U:

)

(

x

D

P

+

⊆ Cl

t

},  

)

(Cl

P

t

={

x

U:

)

(

x

D

P

Cl

t

≠∅

},  

t=2,…,n 

Analogicznie można zdefiniować 

P-dolne przybliżenie i P-górne przybliżenie złożenia 

klas  Cl

t

)

(Cl

P

t

={

x

U:

)

(

x

D

P

⊆ Cl

t

},  

)

(Cl

P

t

={

x

U:

)

(

x

D

P

+

Cl

t

≠∅

}, 

 t=1,...,n-1 

 

 

 

background image

 

20

e.  Indukcja reguł decyzyjnych 

Zdefiniowane w poprzednim punkcie przybliżenia złożeń klas decyzyjnych „w 

górę” i „w dół” są punktem wyjścia dla indukcyjnego generowania reguł decyzyjnych 

opartych na dominacji. Dla danego złożenia klas  Cl

t

, reguły decyzyjne indukowane 

przy założeniu,  że obiekty należące do dolnego przybliżenia 

)

(Cl

P

t

  są pozytywne, a 

wszystkie inne negatywne, zalecają przydział do „klasy 

Cl

t

 lub lepszej”. Analogicznie, 

dla danego złożenia klas 

s

Cl , reguły decyzyjne indukowane przy założeniu, że obiekty 

należące do dolnego przybliżenia 

)

(

s

Cl

P

 są pozytywne, a wszystkie inne negatywne, 

zalecają przydział do „klasy Cl

s

 lub gorszej”. Z drugiej strony, reguły decyzyjne 

indukowane przy założeniu,  że obiekty należące do przekroju 

)

(

)

(

t

s

Cl

P

Cl

P

  są 

pozytywne, a wszystkie inne negatywne, zalecają przydział do ciągu dwóch lub więcej 

klas od 

Cl

s

 do 

Cl

t

 (

s<t). 

W celu uwzględnienia porządku preferencyjnego, zaproponowano reguły 

decyzyjne o składni opartej na dominacji. W zależności od źródła obiektów 

pozytywnych w procedurze indukcji reguł, rozpatruje się następujące typy reguł: 

1)  D≥-reguły pewne, dla których obiektami pozytywnymi są obiekty należące do 

)

(Cl

P

t

Jeżeli  x

q1

f

q1

r

q1

 

oraz x

q2

f

q2

r

q2

 

oraz … x

qp

f

qp

r

qp

to  x  należy do  Cl

t

gdzie dla każdego 

w

q

,z

q

X

q

, “

w

q

f

q

z

q

” oznacza, że “

w

q

 jest co najmniej tak dobry 

jak 

z

q

”, 

2)  D≥-reguły możliwe, dla których obiektami pozytywnymi są obiekty należące do 

)

(Cl

P

t

Jeżeli x

q1

f

q1

r

q1

 

oraz x

q2

f

q2

r

q2

 

oraz … x

qp

f

qp

r

qp

to x być może należy do 

Cl

t

3)  D≤-reguły pewne, dla których obiektami pozytywnymi są obiekty należące do 

)

(Cl

P

t

Jeżeli  x

q1

p

q1

r

q1

 

oraz  x

q2

p

q2

r

q2

 

oraz … x

qp

p

qp

r

qp

to  x należy do  Cl

t

gdzie dla każdego 

w

q

,z

q

X

q

, “

w

q

p

q

z

q

” oznacza, że “

w

q

 jest co najwyżej tak 

dobry jak 

z

q

”,

 

4)  D≤-reguły możliwe, dla których obiektami pozytywnymi są obiekty należące do 

)

(Cl

P

t

Jeżeli x

q1

p

q1

r

q1

 

oraz x

q2

p

q2

r

q2

 

oraz … x

qp

p

qp

r

qp

to x być może należy do 

Cl

t

,

 

background image

 

21

5)  D≥≤-reguły przybliżone, dla których obiektami pozytywnymi są obiekty 

należące do 

)

(

)

(

t

s

Cl

P

Cl

P

  (

s<t):  Jeżeli  x

q1

f

q1

r

q1

 oraz...  x

qk

f

qk

r

qk

 oraz 

x

qk+1

p

qk+1

r

qk+1

 

oraz ... x

qp

p

qp

r

qp

to x należy do Cl

s

Cl

s+1

∪…∪Cl

t

W części warunkowej D≥≤-reguł przybliżonych możemy mieć warunki “x

q

f

q

r

q

” i 

x

q

p

q

r'

q

”, gdzie 

r

q

r'

q

, dla tego samego kryterium 

q

C. Ponadto, jeśli r

q

=

r'

q

, to te dwa 

warunki sprowadzają się do “

x

q

q

r

q

”, gdzie dla każdego 

w

q

,z

q

X

q

, “

w

q

q

z

q

” oznacza, że 

w

q

 jest nierozróżnialny z 

z

q

”. 

Reguły decyzyjne typu 1) i 3) reprezentują wiedzę pewną wyindukowaną z 

tablicy decyzyjnej, podczas gdy reguły typu 2) i 4) reprezentują wiedzę możliwą (być 

może wątpliwą), a reguły typu 5) reprezentują wiedzę wątpliwą. Ponadto, reguły typu 1) 

i 3) są dokładne, jeśli nie pokrywają obiektów spoza klas wskazanych w części 

decyzyjnej; w przeciwnym razie są one probabilistyczne. Reguła probabilistyczna jest 

scharakteryzowana przez współczynnik wiarygodności, określający 

prawdopodobieństwo,  że obiekt spełniający część warunkową reguły spełnia również 

jej część decyzyjną. Aby go czytelnie zapisać wprowadźmy na początek pewne 

oznaczenia: 

)

(

Φ

m

  będzie oznaczać zbiór obiektów spełniających wyrażenie 

warunkowe 

Φ , 

)

(

Ψ

m

 zbiór obiektów należących do klasy decyzyjnej  Ψ , 

)

(

Φ

m

 to 

liczba obiektów spełniających część warunkową reguły, a 

)

(

)

(

Ψ

Φ

m

m

 to liczba 

obiektów spełniających zarówno część warunkową jak i decyzyjną reguły. Drugą 

natomiast zaufanie reguły lub inaczej jej pewność: 

)

(

)

(

)

(

)

,

(

Φ

Ψ

Φ

=

m

m

m

U

r

conf

 

Zakres tej miary zawiera się w przedziale <0, 1> i jeśli otrzymaną wartość pomnożymy 

razy 100% to można ją interpretować jako prawdopodobieństwo przynależności 

obiektów do danej klasy 

Ψ  przy spełnionych warunkach  Φ . 

Inną miarą jest siła reguły definiowana przez liczbę obiektów pokrywanych 

przez część warunkową reguły i należących do zalecanej klasy (spełniających jej część 

decyzyjną): 

)

(

)

(

)

,

(

Ψ

Φ

=

m

m

U

r

strength

 

background image

 

22

3.2.2  Wprowadzenie do metodologii ASK w oparciu o reguły decyzyjne 

Załóżmy,  że mam przykładowy zbiór danych 

U

 w postaci tablicy decyzyjnej. 

Indukujemy z niego zbiór reguł decyzyjnych informujący nas o występujących 

regularnościach w danych. Dodatkowo posiadamy inny zbiór danych 

'

U

, w 

szczególnym przypadku może się on pokrywać z 

U

, na którym chcemy sprawdzić 

wywiedzioną z reguł strategię interwencji. W wyniku jej zastosowania na zbiorze 

'

U

 

otrzymujemy nowy zbiór 

''

U

. Jeśli odnieść to do rzeczywistości to przykładowo w 

medycynie mamy zbiór pacjentów i strategię w postaci leczenia objawów powiązanych 

z chorobą w celu wyleczenia pacjenta. Innym przykładem może być dziedzina 

marketingu i zbioru danych w postaci klientów oraz strategii polegającej na zmianach 

ocen produktów/usług przez klientów w celu zwiększenia liczby zadowolonych. 

W szczególności przypuśćmy,  że mamy regułę decyzyjną wyidukowaną ze 

zbioru 

U

 postaci: „jeśli pewien składnik 

α  jest obecny we krwi pacjenta, to pacjent 

jest zdrowy” z zaufaniem 

)

,

U

r

conf

. Zależy nam oczywiście na jak największej liczbie 

zdrowych pacjentów. Strategia wywiedziona z takiej reguły nakazuje nam „wstrzyknąć 

składnik 

α  do krwi tym pacjentom, którzy go nie mają i są chorzy”. W tym momencie 

nasuwa się pytanie o oczekiwany procentowy wzrost zdrowych pacjentów po 

zastosowaniu takiego rodzaju leczenia (co nam da zastosowanie takiej właśnie strategii 

interwencji). Formalny zapis powyższej metodologii został zaproponowany w [7] i jest 

przedstawiony w kolejnym podpunkcie. Należy zaznaczyć, że całość propozycji opiera 

się na hipotezie homogeniczności (jednorodności) zbiorów 

U

 i 

'

U

3.2.3  Formalne przedstawienie metodologii 

Niech dana będzie reguła 

, dla której liczona będzie miara skuteczności 

wywiedzionej strategii interwencji: 

Ψ

Φ

Φ

Φ

n

r

...

2

1

 

W odniesieniu do medycyny powyższą regułę można zapisać w postaci „jeżeli składniki 

A

1

 i 

A

2

 … i 

A

n

  są obecne we krwi pacjenta, to pacjent jest zdrowy” z 

prawdopodobieństwem 

)

,

U

r

conf

Załóżmy, że strategią dla tej reguły będzie leczenie 

T - „wprowadź składnik A

1

 i 

A

2

 … i 

A

n

 do krwi pacjentom, którzy nie mają tych składników i są chorzy”. Leczenie 

T może 

być w takim przypadku dodatkowo rozbite na pewne bardziej szczegółowe leczenia 

background image

 

23

T

P

 – „wprowadź tylko składniki 

A

i

  (

N

P

i

) do krwi pacjentom, którzy nie mają 

żadnego ze składników 

A

i

 (

P

i

), ale mają składniki 

A

j

 (

P

j

∉ ) i są chorzy”. W takim 

przypadku dla każdego 

N

P

⊆  można zadać pytanie, jaki będzie oczekiwany wzrost 

liczby zdrowych pacjentów po zastosowaniu leczenia 

T

P

W oparciu o powyższe rozważania i wprowadzone wcześniej oznaczenia 

oczekiwany wzrost liczby zdrowych pacjentów można wyliczyć następująco: 

'

)

(

'

)

(

'

)

(

'

)

,

(

)

(

U

m

m

m

U

r

conf

i

P

i

i

P

i

P

Ψ

¬

⎥⎦

⎢⎣

Φ

⎥⎦

⎢⎣

Φ

¬

×

=

Ψ

I

I

δ

 

Ten sam wzór można zapisać inaczej: 

'

)

(

'

)

(

'

)

(

'

)

(

'

)

(

'

)

(

)

(

)

(

)

(

U

m

m

m

m

m

m

m

m

i

P

i

i

P

i

i

N

i

i

N

i

P

Ψ

¬

×

Ψ

¬

Ψ

¬

⎥⎦

⎢⎣

Φ

⎥⎦

⎢⎣

Φ

¬

×

⎥⎦

⎢⎣

Φ

Ψ

⎥⎦

⎢⎣

Φ

=

Ψ

I

I

I

I

δ

 

'

)

(

'

)

'

,

(

)

,

(

)

(

U

m

U

s

conf

U

r

conf

P

P

Ψ

¬

×

×

=

Ψ

δ

, gdzie 

(

)

( )

i

P

i

i

P

i

P

s

Φ

Φ

¬

Ψ

¬

 

Na podstawie powyższej formuły można zdefiniować wskaźnik efektywności 

stworzonej strategii pod względem konsekwencji reguły decyzyjnej  , wyidukowanej 

ze zbioru 

U

 i zastosowanej na 

i

P

i

Φ

 w zbiorze 

'

U

)

'

,

(

)

,

(

)

'

,

,

(

U

s

conf

U

r

conf

U

U

r

E

P

P

×

=

Ψ

 

Oczekiwany wzrost liczy zdrowych pacjentów można wyrazić także formułą: 

'

)

(

'

)

(

'

)

(

'

)

(

'

)

(

'

)

(

'

)

(

'

)

(

)

(

)

(

)

(

U

m

m

m

m

m

m

m

m

m

m

i

P

i

i

P

i

i

P

i

i

P

i

i

P

i

i

P

i

i

N

i

i

N

i

P

⎥⎦

⎢⎣

Φ

⎥⎦

⎢⎣

Φ

¬

×

×

⎥⎦

⎢⎣

Φ

⎥⎦

⎢⎣

Φ

¬

Ψ

¬

⎥⎦

⎢⎣

Φ

⎥⎦

⎢⎣

Φ

¬

×

⎥⎦

⎢⎣

Φ

Ψ

⎥⎦

⎢⎣

Φ

=

Ψ

I

I

I

I

I

I

I

I

δ

 

'

)

(

'

)

(

'

)

'

,

(

)

,

(

)

(

U

m

m

U

t

conf

U

r

conf

i

P

i

i

P

i

P

P

⎥⎦

⎢⎣

Φ

⎥⎦

⎢⎣

Φ

¬

×

×

=

Ψ

I

I

δ

, gdzie 

(

)

( )

Ψ

¬

Φ

Φ

¬

i

P

i

i

P

i

P

t

 

background image

 

24

Na bazie powyższych wyliczeń można zdefiniować inny indeks – efektywności 

wywiedzionej strategii pod względem przesłanki reguły decyzyjnej  , wyidukowanej 

ze zbioru 

U

 i zastosowanej na 

i

P

i

Φ

 w zbiorze 

'

U

)

'

,

(

)

,

(

)

'

,

,

(

U

t

conf

U

r

conf

U

U

r

E

P

P

×

=

Φ

 

Podsumowując, oczekiwany wzrost liczby zdrowych pacjentów po zastosowaniu 

leczenia 

T będzie równy: 

Ψ

=

Ψ

N

P

P

)

(

)

(

δ

δ

 

Opisywana metodologia wprowadza jeszcze dwa współczynniki pomocne w 

mierzeniu oczekiwanej efektywności strategii interwencji opartej na regułach 

decyzyjnych. Pierwszy z nich określa udział (wkład) warunku 

N

i

i

Φ ,

 

użytego w 

strategii bazującej na regule 

 i jest ilorazem sumy oczekiwanych wzrostów 

)

(

Ψ

P

δ

 na 

skutek leczeń 

T

P

 i liczności zbioru 

P, dla wszystkich P zawierających i

Ψ

=

Φ

P

i

N

P

P

i

P

c

:

)

(

)

(

δ

 

Drugi natomiast definiuje kompletną skuteczność warunku 

N

i

i

Φ ,

 

użytego w tej 

strategii: 

Ψ

=

Φ

P

i

N

P

P

i

P

U

U

r

E

I

:

)

'

,

,

(

)

(

 

Opisana tutaj metodologia jest jednym ze sposobów wykorzystania odkrytej 

wiedzy. Pokazuje jak tworzyć strategie bazujące na regułach decyzyjnych 

wyidukowanych z danych, a także jak mierzyć oczekiwaną efektywność ich stosowania. 

Całe działanie sprowadza się do 3 kroków: 

1)  Indukcja reguł decyzyjnych w zbiorze 

U

2)  Interwencja (modyfikacja) w zbiorze 

'

U

 tak, aby w rezultacie otrzymać 

pożądane wyniki, 

3)  Przejście ze zbioru 

'

U

 do zbioru 

''

U

 na skutek interwencji dokonanej w 

kroku 2. 

background image

 

25

3.3  Technologia analizy wielowymiarowych danych OLAP 

Technologia OLAP (ang. On-line Analytic Processing) jest bardzo dynamicznie 

rozwijającym się narzędziem do interakcyjnego tworzenia, zarządzania i analizy danych 

postrzeganych jako struktury wielowymiarowe [5]. Podstawowymi korzyściami 

wynikającymi ze struktur wielowymiarowych do przechowywania informacji to 

przejrzysta reprezentacja wiedzy i znaczenie efektywnościowe. Interakcyjna eksploracja 

i zgłębianie danych to najpopularniejsze wykorzystanie techniki OLAP. Należy 

zauważyć, że pomimo swej nazwy (on-line) analizy nie muszą być przeprowadzane na 

bieżąco (w czasie rzeczywistym). 

Systemy wykorzystujące tę technikę możemy traktować nie tylko jako sposób na 

dokonywanie wszechstronnych analiz danych, ale jako sposób na odkrywanie wiedzy. 

Mogą one operować na dowolnym typie nieprzetworzonej informacji, nawet informacji 

nie ujętej w określone struktury, oraz mogą być stosowane do przeglądania i 

zestawiania danych generowanych za pomocą OLAP w celu dostarczenia bardziej 

dogłębnej, a często również bardziej wieloaspektowej wiedzy. 

Rezultaty osiągane technikami OLAP mogą mieć bardzo prostą postać (np. tablice 

liczebności, statystyki opisowe, proste tabele krzyżowe) lub nieco bardziej złożoną (np. 

mogą uwzględniać pewnie korekty, usuwanie odstających obserwacji lub inne metody 

filtracji danych). 

3.3.1  Terminologia i przykłady 

Dana wielowymiarowa (ang. cube, multi-dimensional array) jest zbiorem 

komórek danej (ang. cell) zlokalizowanych w przestrzeni wielowymiarowej, określonej 

przez wymiary (ang. dimension) danej. 

Pojedyncza komórka wyznaczona przez zbiór wartości wymiarów reprezentuje miarę 

danej w określonym punkcie przestrzeni – np. ilość towarów lub obrót ze sprzedaży, są 

nazwane miarą. 

Wymiary danych są strukturalnymi i w ogólności złożonymi atrybutami grupującymi 

elementy (ang. member) tego samego typu, np. wymiar czasu jest zbiorem elementów: 

dekada, rok, kwartał, miesiąc, tydzień, dzień, godzina. W typowych zastosowaniach 

rolę wymiarów pełnią czas, lokalizacja i typ produktu. Operacja grupowanie dla 

wskazanych wymiarów tworzy i wylicza tzw. agregaty. 

background image

 

26

Wymiary mogą być wewnętrznie złożone i opisane za pomocą wielu atrybutów, a 

atrybuty mogą pozostawać w pewnych zależnościach, tworząc hierarchię atrybutów, np. 

dla miejsca sprzedaży hierarchia może przyjąć postać klient-miasto-województwo. 

 

Rys. 1 Struktura danych wielowymiarowych z wykorzystaniem agregacji 

(źródło: T.Morzy) 

 

Formą prezentacji jest kostka danych (Rys. 1 i 2). Pozwala to na swobodne 

manipulowanie perspektywami analizy, przechodzenie od danych ogólnych do coraz 

bardziej szczegółowych, wybieranie do analizy dowolnego fragmentu danych, 

filtrowanie wymiarów według dowolnych kryteriów. 

 

Rys. 2 Przykładowa kostka danych OLAP  

(źródło: T.Morzy) 

 

background image

 

27

Najpopularniejsze metody analizy: 

•  wyznaczanie punktu centralnego (ang. pivoting) – polega na wskazaniu miary i 

wybraniu wymiarów, w których ma ona być zaprezentowana, np. country=USA, 

•  eksploracja danych w górę lub w dół (rozwijanie (ang. drill-down), zwijanie 

(ang. roll-up lub drill-up)) wzdłuż hierarchii wymiarów. Powoduje to 

zwiększenie lub zmniejszenie stopnia szczegółowości analizy, np. rozwijanie lub 

zwijanie hierarchii czasu, 

•  obracanie (ang. rotating) – pozwala na analizę miary w kolejnych wymiarach 

danej, np. obrót kostki o 

°

90

 w lewo, 

•  projekcja (ang. slice and dice) – polega na wycinaniu wybranych fragmentów 

danej wielowymiarowej. W rezultacie następuje zmniejszenie liczby wymiarów 

i agregacja danych, 

•  ranking (ang. ranking) – np. wg wzrostu miary lub jej agregatu. 

3.3.2  Zastosowanie 

OLAP jest jedną z popularnych metod do aktywnego wykorzystywania 

informacji gromadzonych w firmach. Istnieje wiele danych w przedsiębiorstwie, które 

opisane są przez kilka wymiarów jednocześnie, np. czas, produkt, region, klient, 

dostawca. Wartościowe informacje biznesowe powstają najczęściej dopiero po 

połączeniu pojedynczych danych w wielowymiarowej strukturze. Możliwość dokładnej 

analizy takich informacji pozwala na poprawę jakości procesu podejmowania decyzji, 

co w konsekwencji może wpłynąć na zwiększenie stopnia satysfakcji klientów. 

Narzędzia OLAP mogą być również integrowane z systemami baz danych 

(korporacyjnymi) tworząc magazyny danych [29] i umożliwiając analitykom i 

menedżerom  śledzenie wydajności przedsiębiorstwa (np. różnych aspektów procesu 

produkcyjnego lub ilości i rodzajów transakcji przeprowadzanych w różnych 

oddziałach) lub rynku. Wynikiem analizy może być dotarcie do tak niezbędnych 

informacji jak trendy, relacje czy wartości charakterystyczne. W ten sposób otrzymuje 

się natychmiastowe odpowiedzi na najistotniejsze pytania biznesowe oraz wsparcie w 

podejmowaniu decyzji krótko i długookresowych. 

 

background image

 

28

4  Propozycje rozszerzeń metodologii ASK w oparciu o 

reguły decyzyjne 

W rozdziale tym można się zaznajomić z propozycjami rozszerzeń podejścia do 

analizy satysfakcji klienta, które wykorzystuje mechanizm reguł decyzyjnych. Próbują 

one odpowiedzieć na pytanie, co należy zrobić, aby jak największa liczba obiektów 

zmieniła swój obecny przydział do klasy na klasę przynajmniej o jeden lepszą. W opisie 

wykorzystano przykładowe dane ankietowe przedstawione na samym wstępie rozdziału. 

Opisaną wcześniej technologię OLAP można powiązać z teorią zbiorów przybliżonych, 

co daje w rezultacie bogate narzędzie do prezentacji i analizy danych opisane poniżej. 

4.1  Przykład danych wejściowych do analizy satysfakcji klienta 

Przedstawiony w tym punkcie prosty problem będzie kanwą wykorzystaną do 

opisu proponowanego narzędzia. Przypuśćmy,  że dysponujemy danymi ankietowymi 

uzyskanymi od kilku osób na temat oceny Polskiej Kolei Państwowej (PKP). W 

ankiecie respondenci dokonywali oceny PKP według sześciu kryteriów a następnie 

wyrażali ogólną satysfakcję z usług PKP dokonując przydziału do odpowiedniej klasy. 

Definicja problemu wygląda następująco: 

•  Kryteria: rozkład jazdy, punktualność, wygoda, czystość, obsługa, cena 

•  Skala ocen kryteriów: bardzo źle (1), źle (2), dostatecznie (3), dobrze (4), bardzo 

dobrze(5) 

•  Klasa: przeciętna (1), standard (2), komfort (3) 

Wyniki ankiety (posortowane rosnąco wg przydziału do klas): 

Tabela 1 Wyniki ankiety PKP 

Odp. Rozkład jazdy  Punktualność Wygoda Czystość Obsługa Cena Klasa 

4  4  3 3 3 2 1 

3  3  1 1 2 1 1 

4  3  3 2 4 3 1 

4  3  3 2 3 3 1 

1  4  3 2 3 3 2 

3  2  2 3 4 3 2 

3  2  2 2 5 3 2 

4  3  5 5 5 4 3 

4  4  4 4 5 4 3 

 

background image

 

29

Dla przedstawionego problemu, przy pomocy programu 4eMka2, wygenerowano reguły 

decyzyjne (opcja Minimal Cover Algorithm - DomLEM), które znajdują się poniżej: 

 

Tabela 2 Reguły decyzyjne dla ankiety PKP 

Nr Reguła 

Liczba przykł. 

wspierających 

Relatywna 

siła [%] 

Przykłady 

pokrywane 

1  (Cena <= 2) => (Klasa <= 1) 

50 

1,2 

(Obsługa <= 4) & (Czystość <=2) & (Punktualność<=2) 
=> (Klasa <= 1) 

3 75 

2,3,4 

3  (Cena <= 3) => (Klasa <= 2) 

100 

1,2,3,4,5,6,7

4 (Czystość >= 4) => (Klasa >= 3) 

100 

8,9 

5 (Obsługa >= 5) => (Klasa => 2) 

60 

7,8,9 

6  (Cena => 2) & (Czystość => 3) => (Klasa => 2) 

60 

6,8,9 

7 (Punktualność => 4) & (Cena => 3) => (Klasa => 2) 

40 

5,9 

4.2  Testowanie strategii interwencji 

Dla przypomnienia reguła mówi o minimalnych warunkach, których spełnienie 

powoduje, że spełniona jest również jej część decyzyjna. Z regułą związane jest również 

wsparcie wyrażone przez liczbę przykładów, które ona pokrywa (spełniona jest część 

warunkowa i część decyzyjna). Analiza w tej metodzie polega na hipotetycznej zmianie 

warunku(ów) elementarnych w danej regule i sprawdzeniu jak ta zmiana wpłynęła na 

liczbę przykładów pokrywanych przez regułę, czy ich liczba się zwiększyła czy 

zmniejszyła i w jakim stopniu. Innymi słowy przy pomocy reguły definiujemy pewną 

strategię interwencji i testujemy jej wpływ. Można sobie zadać pytania – co nam to 

daje? Jak interpretować otrzymany w rezultacie wynik? Odpowiedź na te pytania 

znajduje się w poniższym przykładzie analizy danych proponowaną metodą. 

4.2.1  Przykład analizy danych metodą testowania strategii interwencji 

Ponieważ najlepiej coś  tłumaczyć na przykładzie, dlatego poniżej znajduje się 

przykładowa analiza danych metodą testowania strategii interwencji (ang. Strategy of 

Intervention Test), bazująca na wynikach ankiety PKP (Tabela 1) i przeprowadzona dla 

reguły nr 5 (Tabela 2): 

•  Reguła nr 5 mówi, że jeżeli  Obsługa PKP jest oceniana na co najmniej 5 to 

następuje przydział PKP do Klasy co najmniej 2. Przykłady z tablicy decyzyjnej, 

które ją wspierają to 7,8 i 9. 

background image

 

30

•  Zmieniając hipotetycznie warunek elementarny reguły (w tym przypadku tylko 

jeden) np. na Obsługa>=3 (ocena Obsługi PKP na co najmniej 3) można 

zauważyć,  że taka reguła, a dokładniej jej część warunkowa (na tym etapie 

analizy pomija się część decyzyjną reguły), pokrywa oprócz wcześniejszych 

przykładów również przykłady nr 1, 3, 4, 5 i 6. Jak interpretować ten przyrost? 

Otrzymany wynik wskazuje ilu klientów PKP, którzy aktualnie oceniają 

Obsługę na co najmniej 3 po jej zmianie na co najmniej 5 (jeśli spowoduje się u 

nich taką zmianę oceny przez zastosowanie testowanej strategii interwencji) 

może zmienić przydział do Klasy na co najmniej 2. 

•  Z ankiety PKP wynika, że klienci nr 5 i 6 przydzielają już teraz PKP do Klasy 2, 

więc zmiana oceny Obsługi u nich nic nie zmieni, dlatego pomija się ich w 

dalszej analizie. Odwrotnie jest w przypadku klientów nr 1, 3 i 4, którzy obecnie 

przydzielają PKP do Klasy 1 – oznacza to, że po zmianie oceny Obsługi z 3 na 

co najmniej 5 zgodnie z regułą nr 6 zmienią przydział z Klasy 1 na co najmniej 

2. 

•  Ponieważ analizowana reguła nie jest jedyną w zbiorze reguł, dlatego trzeba też 

mieć wzgląd na możliwe niezgodności występujące w zbiorze. Dla danej reguły 

za takie niezgodności uznaje się wszystkie takie reguły, których część decyzyjna 

jest negacją decyzji wybranej reguły – dla relacji „co najmniej” oznaczać będzie 

to relację „co najwyżej” klasa o jeden niższa (np. dla Klasa>=2 zaprzeczeniem 

będzie Klasa<=1) i odwrotnie, dla „co najwyżej” będzie to „co najmniej” klasa 

o jeden wyższa. Ponadto reguły niezgodne to takie, które będą nadal pokrywać 

wybrane przykłady po hipotetycznej zmianie ich oceny na danych kryteriach. 

•  Dla analizowanej reguły możliwie niezgodne są wszystkie reguły, których część 

decyzyjna ma postać: co najwyżej 1 (Klasa<=1) – w analizowanym zbiorze 

mogą to być reguły nr 1 i 2. Rozpatruje się każdy przykład osobno. Przykłady nr 

3 i 4 nie są pokrywane przez regułę 1, ponieważ ich ocena Ceny wynosi 3, ani 

przez regułę nr 2 po hipotetycznej zmianie oceny Obsługi na co najmniej 5. 

Sytuacja jest inna dla klienta nr 1, gdyż pokrywa go reguła nr 1 (ocenia Cenę na 

2). Należy pozbyć się niezgodności przez dodanie dodatkowego wymogu, że dla 

tego konkretnego przykładu ocena Ceny musi być co najmniej 3. W tym 

momencie nastąpiły dwie hipotetyczne zmiany, dalej postępuje się podobnie i 

sprawdza czy po tych zmianach nadal są reguły, które są niezgodne. 

background image

 

31

•  Podsumowując powyższą analizę okazuje się, że ze wszystkich ankietowanych, 

którzy oceniają aktualnie Obsługę PKP na co najmniej 3, po zastosowaniu 

strategii i zmianie ich ocen na tym kryterium na co najmniej 5, trzech zmieni 

swój przydział z Klasy 1 na co najmniej 2, przy dodatkowym wymogu dla 

klienta nr 1, że należy spowodować dodatkowo zmianę oceny Ceny z 2 na co 

najmniej 3. 

4.2.2  Algorytm testowania strategii interwencji 

Dokładny algorytm postępowania w tej metodzie wygląda następująco: 

•  Określ interesującą Cię strategię interwencji przez wskazanie reguły do analizy, 

•  Zmodyfikuj według uznania warunek/warunki wybranej reguły, 

•  Wyszukaj wszystkie przykłady, które pokrywa zmieniona część warunkowa 

reguły decyzyjnej, 

•  Dokonaj hipotetycznej zmiany wartości w znalezionych przykładach na tych 

kryteriach, dla których zostały zmienione warunki reguły, 

•  Dla wybranej reguły znajdź reguły, które mogą być niezgodne, 

•  Dla każdego przykładu z osobna przeglądaj zbiór tych reguł i sprawdzaj, czy nie 

jest pokrywany przez którąś z nich, 

•  Jeśli tak jest (reguła niezgodna) to dodaj dodatkowy wymóg, jaki musi być 

spełniony dla tego przykładu taki, żeby reguła go nie pokrywała (np. negacja 

pierwszego warunku w regule), 

•  Dokonaj kolejnej hipotetycznej zmiany w przykładzie będącej wynikiem 

nałożenia dodatkowego wymogu i kontynuuj przeglądanie zbioru możliwych 

niezgodnych reguł. 

4.2.3  Możliwe zastosowania i kierunki rozwoju 

Opisane tutaj podejście pozwala w łatwy sposób zdefiniować konkretną strategię 

interwencji, która jest interesująca z punktu widzenia przedsiębiorstwa i wskazać, co 

należy zrobić (jakich zmian dokonać w ocenach satysfakcji klientów), aby dała ona 

zamierzone rezultaty. Dla przykładu firma może być zainteresowana zwiększeniem 

liczby klientów, którzy przydzielaliby ją do klasy najwyższej. W metodzie testowania 

background image

 

32

strategii interwencji wystarczy wskazać regułę odpowiadającą zamierzonej strategii i 

zmianami na warunkach tej reguły sterować liczbą i rodzajem klientów, którzy zostaną 

jej poddani. 

Należy zauważyć,  że w zbiorze wszystkich reguł  będzie się znajdować 

przynajmniej kilka reguł, które będą odpowiadać określonej przez nas strategii. W 

rezultacie możemy otrzymać kila różnych rozwiązań. Dodatkowo, w rzeczywistości, z 

każdą zmianą oceny satysfakcji klienta związany jest pewien koszt zależny od 

kryterium, na którym ta zmiana jest dokonywana. Wskazane by więc było określenie 

dla każdego kryterium kosztów zmian na jego wartościach, co umożliwiłoby 

wprowadzenie elementu optymalizacji i wyboru najlepszej strategii – jak największy 

wzrost liczby klientów przy jak najmniejszym koszcie koniecznych zmian. 

4.3  Szukanie strategii interwencji 

W metodzie szukania strategii interwencji zaczynamy analizę nie od zbioru 

reguł, ale od zbioru przykładów. Wybieramy konkretny przykład i wskazujemy 

konkretną decyzję. Celem tego podejścia jest wskazanie zmian, jakich należy dokonać, 

aby dany przykład miał określoną decyzję – poszukanie możliwej strategii interwencji, 

która pozwoli osiągnąć zamierzony cel. Dokonuje się tego na podstawie zbioru reguł 

decyzyjnych. 

4.3.1  Przykład analizy danych metodą szukania strategii interwencji 

W celu wyjaśnienia metody dokonano przykładowej analizy danych metodą 

szukania strategii interwencji (ang. Strategy of Intervention Search) w oparciu o ankietę 

PKP (Tabela 1) i zbiór reguł decyzyjnych (Tabela 2): 

•  Do analizy ze zbioru danych wejściowych wybrany został przykład (klient) nr 2. 

•  Interesuje nas strategia interwencji mająca na celu zmianę przydziału PKP tego 

klienta do Klasy co najmniej 2. Chcemy wiedzieć, co musimy zrobić, aby tak się 

stało. 

•  Należy w tym celu przeanalizować zbiór reguł i wybrać takie, których decyzja 

odpowiada określonej strategii; w tym przypadku będą to wszystkie reguły z 

decyzją Klasa>=2 (nr 5, 6 i 7). Każda z takich reguł jest jednym z możliwych 

rozwiązań. 

background image

 

33

•  Tak jak w metodzie testowania strategii interwencji również i tutaj mogą 

występować niezgodności w zbiorze reguł decyzyjnych. W naszym przykładzie 

mogą ją ewentualnie wprowadzać reguły o decyzji Klasa<=1 (nr 1 i 2). 

•  Reguła nr 5 wskazuje, że jeżeli Obsługa PKP jest oceniona na co najmniej 5 to 

PKP zostaje przydzielone do Klasy co najmniej 2. Wybrany klient ocenia to 

kryterium na 2, a więc zmieniając ocenę na co najmniej 5 według tej reguły, 

spowoduje się, że zmieni on przydział z Klasy 1 na co najmniej 2. 

•  Należy zauważyć, że po zmianie oceny Obsługi analizowany klient nr 2 spełnia 

część warunkową już tylko reguły nr 1 (niezgodność). Reguła nr 1 pokazuje, że 

Cena musi być co najmniej 3, żeby nie pokrywała przykładu. 

•  Analizując regułę nr 6 tak samo jak nr 5 okazuje się, że trzeba zmienić ocenę 

Ceny i Czystości z 1 na co najmniej 3. Po tych hipotetycznych zmianach klient 

nie będzie już pokrywany przez żadną ze niezgodnych reguł. 

•  Dla reguły nr 7 postępując analogicznie jak w dwóch powyższych przypadkach 

otrzymujemy,  że należy zmienić ocenę  Punktualności z 3 na co najmniej 4 i 

Ceny z 1 na co najmniej 3. Po takich zmianach nie zachodzi już  żadna 

niezgodność. 

•  Podsumowując, w końcowym rezultacie otrzymujemy trzy różne rozwiązania – 

strategie interwencji (z 3 reguł). Klient nr 2 zmieni przydział z Klasy 1 na co 

najmniej 2 jeśli: spowodujemy u niego zmianę oceny Obsługi na co najmniej 5 i 

Ceny na co najmniej 3 lub Czystości i Ceny na co najmniej 3 lub Punktualności 

na co najmniej 4 i Ceny na co najmniej 3. 

4.3.2  Algorytm szukania strategii interwencji 

Dokładny algorytm tej metody przedstawia się następująco: 

•  Wybierz interesujący Cię przykład w danych wejściowych, 

•  Określ interesującą Cię strategię interwencji przez wskazanie decyzji, 

•  Znajdź w zbiorze reguł decyzyjnych takie, które odpowiadają pożądanej decyzji, 

tzn. ich część decyzyjna pokrywa się ze wskazaną decyzją. Każda ze 

znalezionych reguł stanowi jedno z możliwych rozwiązań strategicznych, 

background image

 

34

•  Znajdź w zbiorze reguł decyzyjnych reguły mogące stanowić niezgodność dla 

reguł znalezionych w poprzednim kroku – negacja wskazanej decyzji, 

•  Dla każdego znalezionego rozwiązania dokonaj hipotetycznej zmiany wartości 

w wybranym przykładzie na tych kryteriach, które wskazują zmienione warunki 

reguły, 

•  Przejrzyj zbiór reguł, które mogą wprowadzać niezgodność dla 

zmodyfikowanego przykładu i sprawdzaj, czy nie jest pokrywany przez którąś z 

nich, 

•  Jeśli tak jest (reguła niezgodna) to dodaj dodatkowy wymóg, jaki musi być 

spełniony dla tego przykładu taki, żeby reguła go nie pokrywała (np. negacja 

pierwszego warunku w regule), 

•  Dokonaj kolejnej hipotetycznej zmiany w przykładzie będącej wynikiem 

nałożenia dodatkowego wymogu i kontynuuj przeglądanie zbioru możliwych 

niezgodnych reguł. 

4.3.3  Możliwe zastosowania i kierunki rozwoju 

Powyższa metodologia pozwala firmie sprawdzić możliwe sposoby osiągnięcia 

zamierzonego celu dla interesującego ją klienta, np. takim ogólnym celem może być 

chęć zwiększyć przez niego ogólnej oceny firmy. Ponieważ strategii interwencji może 

być dużo (zależy to od zbioru reguł decyzyjnych) wskazane jest wprowadzenie kosztów 

zmian dla poszczególnych kryteriów, co umożliwi w końcowym efekcie posortowanie 

otrzymanych wyników względem kosztu przeprowadzenia strategii. 

Podejście to można rozwinąć również na kilka przykładów i przeprowadzać 

analizę nie dla pojedynczego przypadku, ale dla pewnej grupy (klastra), którą sami 

ustalamy, np. wg konkretnej wartości jakiegoś kryterium lub decyzji. W tym przypadku 

rozwiązania będą dotyczyć zmian satysfakcji dla wszystkich wskazanych klientów. 

4.4  Połączenie OLAP i DRSA do analizy satysfakcji klienta 

W trakcie licznych konsultacji z projektantami platformy GoalProject [2] 

narodziła się idea wykorzystania do badania satysfakcji klienta opisanej wcześniej 

technologii analizy wielowymiarowych danych OLAP i teorii zbiorów przybliżonych 

background image

 

35

DRSA. W rezultacie powstała metodologia bezpośredniej analizy satysfakcji przy 

użyciu teorii zbiorów przybliżonych bazujących na relacji dominacji [7][24] 

(ang. On-Line Satisfaction Analysis using Dominancie-based Rough Set Approach) i 

pozwalająca na tworzenie OLAP-owych raportów w oparciu o tablicę decyzyjną. 

Dzięki połączeniu OLAP i DRSA dane z tablicy decyzyjnej można 

zaprezentować w innej postaci – wielowymiarowej tabeli. Wymiary są wewnętrznie 

złożone i opisane za pomocą wielu atrybutów (typu wyliczeniowego). Wartościami tych 

wymiarów, w oparciu o teorię zbiorów przybliżonych, są możliwe wartości z dziedziny 

atrybutów przyjmujące postać: 

•  wartość atrybutu = kolejna wartość z dziedziny atrybutu (wartość równa), 

•  wartość atrybutu >= kolejna wartość z dziedziny atrybutu (wartość co najmniej), 

•  wartość atrybutu <= kolejna wartość z dziedziny atrybutu (wartość co najwyżej). 

Pojedyncza komórka w wielowymiarowej tabeli wyznaczona przez zbiór 

wartości wymiarów reprezentuje miarę danej w określonym punkcie przestrzeni. W 

opisywanej metodologii są wykorzystywane dwie takie miary: 

•  liczność (ang. count), 

•  decyzja 

„Liczność” pozwala zliczać w danej komórce liczbę przykładów z tablicy 

decyzyjnej, które przyjmują odpowiednie wartości na kryteriach (atrybutach) 

zdefiniowanych jako wymiary w tabeli dla tej komórki. Poniżej znajduje się 

przykład tabeli wielowymiarowej (Tabela 3), stworzonej na podstawie tablicy 

decyzyjnej PKP (Tabela 1), dla której zostały określone trzy wymiary: Cena

Punktualność i Wygoda oraz wartość co najmniej:  

Tabela 3 Przykład połączenia OLAP i DRSA - liczność 

Cena

>=1 >=2 >=3 >=4 >=5 >=1 >=2 >=3 >=4 >=5 >=1 >=2 >=3 >=4 >=5

>= 1

7

>= 2

3

>= 3

7

5

2

>= 4

1

1

>= 5

Wygoda

Wygoda

Punktualność

>= 3

>= 4

>= 2

Wygoda

 

 

 

background image

 

36

„Decyzja” wykorzystuje atrybut decyzyjny z tablicy decyzyjnej, a w komórkach 

tabeli wielowymiarowej znajdują się jego wartości (decyzje) zależne od sposobu 

dodatkowo wybranego podejścia. Każdej komórce tabeli odpowiada zbiór 

przykładów 

N

 z tablicy decyzyjnej przyjmujących odpowiednie wartości 

wymiarów dla tej komórki. Dla danej komórki postępowanie rozpoczynamy od 

wyznaczenia dla każdego przykładu z 

N

 zbioru decyzji przykładów, które go 

dominują 

+

P

 i zbioru decyzji przykładów zdominowanych przez niego 

P

. Oba 

wyznaczone zbiory służą do wyznaczenia przedziału decyzji dla danego przykładu 

postaci 

)

(

max

),

(

min

+

P

P

D

dec

D

dec

. Pozwala to wykryć przykłady niespójne w 

tablicy decyzyjnej – w przypadku, gdy przykład będzie spójny to obie wartości 

(decyzje) będę równe. 

Dla dalszych rozważań przyjmuje się 

)

(

min

+

P

D

dec

L

 oraz 

)

(

min

P

D

dec

R

Do wyboru jest 8 podejść uwzględniając różne wartości wymiarów (Tabela 4).  

Tabela 4 Podejścia dla miary - decyzja 

Podejście Typ 

reguł Wartość wymiaru 

Miara w komórce 

pewne co 

najmniej 

>= 

pewne co 

najwyżej <= 

i

N

i

L

min

 

możliwe co 

najmniej 

>= 

w górę (ang. upward 
decision) 

możliwe co 

najwyżej <= 

i

N

i

R

min

 

pewne co 

najmniej 

>= 

pewne co 

najwyżej <= 

i

N

i

L

max

 

możliwe co 

najmniej 

>= 

w dół (ang. downward 
decision) 

możliwe co 

najwyżej <= 

i

N

i

R

max

 

 

Z powyższej tabeli wynika, że sposób wyliczania miary zależy od trzech 

czynników: wybranego podejścia, typu reguł i typu wartości wymiaru. W tabeli 

poniżej (Tabela 5) zawiera przykład wielowymiarowej tabeli dla decyzji w górę, 

reguł pewnych i wartości dla wymiarów co najmniej: 

Tabela 5 Przykład połączenia OLAP i DRSA – decyzja 

Cena

>=1 >=2 >=3 >=4 >=5 >=1 >=2 >=3 >=4 >=5 >=1 >=2 >=3 >=4 >=5

>= 1

1

>= 2

1

>= 3

1

1

2

>= 4

3

3

>= 5

Wygoda

Wygoda

Punktualność

>= 3

>= 4

>= 2

Wygoda

 

background image

 

37

Podsumowując, wielowymiarowe tabele opisane powyżej pozwalają w prosty 

sposób określić dane do wizualizacji i jej formę m.in. przez sterowanie szczegółowością 

prezentowanych danych. Taki rodzaj prezentacji danych może być bardzo pomocny 

przy analizie satysfakcji klienta, ponieważ najczęściej ma na nią wpływ kilka 

czynników (wymiarów), np. płeć, wiek. Przykładowa analiza mogłaby mieć wtedy 

postać: prezentacja rozkładu oceny 

Obsługi przez klientów w rozróżnieniu na płeć i 

przedziały wiekowe. Dodatkowo wymiary wraz z wartościami można traktować jak 

część warunkową reguły – spełnienie jej warunków spowoduje, że pojawi się wartość 

miary w danej komórce tabeli.  

background image

 

38

5  Projekt systemu i implementacja 

Rozdział omawia stworzony w ramach pracy magisterskiej system regułowej 

analizy danych marketingowych dotyczących satysfakcji klienta – OLSA System 

(ang. On-Line Satisfaction Analysis System). Można tutaj zapoznać się z projektem 

systemu,  środowiskiem realizacji, wykorzystywanymi bibliotekami oraz innymi 

systemami i oczywiście zasadą działania całego systemu. 

5.1  Architektura systemu i wykorzystane technologie 

Na w pełni działający system składają się trzy duże bloki: stworzony w ramach 

tej pracy OLSA System, baza danych MySQL oraz system analityczny dla eksploracji 

danych o nazwie GoalProject (Rys. 3): 

 

Rys. 3 Architektura systemu OLSA i wykorzystane technologie 

 

Centrum całego systemu jest baza danych, która stanowi pewien pomost między 

dwoma systemami i umożliwia wymianę między nimi danych. Ze względu na 

początkowe założenia co do systemu: otwartość i przenośność, a także na fakt, że miał 

on współpracować z platformą GoalProject, wybrano łatwy w obsłudze i szybki system 

zarządzania bazą danych MySQL [18]. Jest to bardzo popularna, dynamicznie się 

background image

 

39

rozwijająca i co ważne darmowa baza danych spełniająca powyższe założenia 

(wykorzystano najnowszą wersję w wersji 5.0.0a). 

Do wczytywania danych z plików lub generacji danych wejściowych dla 

systemu OLSA posłużono się projektem zrealizowany w ramach dwóch prac 

inżynierskich – GoalProject [1][19]. Architektura klient-serwer tego sytemu pozwala na 

uruchomienie przetwarzania z dowolnego miejsca na świecie. Klient odpowiada za 

zarządzanie i komunikację z użytkownikiem, natomiast odległy serwer (bazujący na 

technologii Letrix II [16]) za uruchamianie obliczeń i zwracanie wyników do klienta. 

Jedną z możliwości jest zapisanie tych wyników w odpowiednich tabelach w bazie 

danych, do której mogą mieć dostęp inne systemy/aplikacje znajdujący się w różnych 

miejscach na świecie.  

Jedną z takich aplikacji jest stworzony w ramach tej pracy magisterskiej OLSA 

System. Aby spełnić założenia do jej stworzenia wykorzystano język JAVA [11][22], 

który obecnie jest najbardziej rozwijającym się środowiskiem do tworzenia aplikacji (w 

większości JAVA Swing do tworzenia interfejsów [3][27]). Należy zaznaczyć,  że 

główną jego cechą jest fakt, że to język interpretowany a nie kompilowany – oznacza 

to,  że do uruchomienia programów w nim napisanych wymagana jest maszyna 

wirtualna (JavaVM) pracująca w danym środowisku, jednak dzięki temu nie ważne jest 

na jakim sprzęcie będzie uruchamiana aplikacja. 

System do komunikacji z bazą danych MySQL korzysta ze specjalnej do tego celu 

biblioteki napisanej w Javie – MySQL Connector/J [17], która dostarcza odpowiedni 

interfejs i funkcje do zapisu i odczytu danych. Dodatkowo do systemu OLSA dołączone 

są dwie inne biblioteki odpowiedzialne za wizualizację danych w postaci wykresów: 

JFreeChart [13] oraz JCharts [12]. Wszystkie wymienione biblioteki są oczywiście w 

pełni darmowe. 

5.2  Elementy systemu i powiązania między nimi 

Zasadę działania aplikacji w postaci poszczególnych elementów systemu (ich 

dokładniejszy opis można znaleźć  właśnie w tym punkcie) i powiązań między nimi 

przedstawiono na rysunku poniżej (Rys. 4): 

 

background image

 

40

 

Rys. 4 Elementy systemu OLSA i ich powiązania 

5.2.1  Moduł komunikacji z bazą danych 

Moduł komunikacji z bazą danych (Rys. 5) wykorzystuje do tego celu darmową 

bibliotekę MySQL Connector/Java [17], udostępnioną przez twórców darmowej bazy 

danych MySQL [18]. Dzięki temu istnieje możliwość wczytywania do OLSA System 

danych wejściowych umieszczonych przez system GoalProject w bazie danych: plików 

ze zdefiniowanymi problemami (ISF) i z regułami (RLS) do odpowiednich struktur w 

aplikacji. Należy zaznaczyć, że aplikacja i baza danych mogą znajdować się zarówno na 

jednym komputerze jak i w różnych częściach  świata. Biorąc to pod uwagę, a także 

podobną zasadę, jeśli chodzi o GoalProject daje to możliwość bardzo dużego 

rozproszenia działania wszystkich elementów i dokonywanych obliczeń oraz analiz. 

Schemat tabel w bazie danych zależny jest od systemu GoalProject, dlatego nie 

uległ zmianom, a dostosowany do niego został system OLSA. Aby ułatwić i uprościć 

zarządzanie danymi struktury do ich przechowywania w Javie swoim „wyglądem”, 

możliwościami i udostępnionymi funkcjami odpowiadają tym z GoalProject 

(funkcjonalność funkcji jest praktycznie identyczna łącznie z nazwami). Jedynie na 

background image

 

41

potrzeby OLSA System struktury zostały dodatkowo rozszerzone o pewne nowe 

funkcje. 

5.2.2  Moduły do prezentacji atrybutów i przykładów 

Wczytywany problem (plik ISF) to zbiór przykładów – obiektów opisanych 

atrybutami, z których jeden stanowi atrybut decyzyjny. W aplikacji są dostępne moduły 

umożliwiające wyświetlenie tego problemu w przejrzystej i czytelnej postaci – tabelach 

z odpowiednimi danymi. Należy wspomnieć,  że istnieje możliwość wgrania dwóch 

plików z przykładami: jeden z nich jest bazowy a drugi dodatkowy (może być ten sam), 

wykorzystywany/wymagany przez metodę badania oczekiwanej efektywności 

zastosowania strategii interwencji wywiedzionej z reguł (punkt 3.2). Jak wynika z 

Rys. 4 dla obu przypadków są dostępne podobne opcje w programie. 

Moduł do prezentacji atrybutów (Rys. 10) przedstawia ich charakterystykę: 

nazwę atrybutu, kierunek preferencji, typ i możliwe wartości jakie przyjmuje, czy jest 

opisowy oraz czy jest to atrybut decyzyjny. Dodatkowo w prosty sposób można 

wskazać, który z atrybutów ma być decyzyjnym. 

Właściwe dane w obu przypadkach plików wyświetlane są w postaci prostej 

tablicy decyzyjnej (Rys. 9), w której wiersze to przykłady, a kolumny to kryteria ocen 

(atrybuty). Wskazując konkretny przykład (dla pliku bazowego) można rozpocząć jego 

analizę metodą szukania strategii interwencji (punkt 4.3). Wykorzystanie bazy MySQL 

do przechowywania danych pozwoliło stworzyć dodatkowy mechanizm umożliwiający 

przedstawienie ich w praktycznie dowolnej postaci (ograniczonej tabelą 

dwuwymiarową). Mechanizm ten wykorzystuje język zapytań do bazy danych 

SQL [28], dzięki któremu można sprecyzować dokładnie, jakie dane mają być 

zaprezentowane w tabeli – które z atrybutów i przykładów. Dokonuje się tego przez 

zapisanie prostego zapytania, w którym podaje się atrybuty oraz odpowiednie warunki 

filtracji dla przykładów (Rys. 8). Takie zapytanie dla ankiety PKP (Tabela 1) może 

mieć postać:  

SELECT id, example_name, punktualnosc, wygoda, cena, klasa FROM pkp WHERE klasa > 2 

Odpowiednie słowa kluczowe (pogrubione) określają, co wyświetlić (SELECT), skąd 

(FROM) i przy jakich ograniczeniach (WHERE). Aby w aplikacji była możliwość 

kontroli tego, co faktycznie jest wczytywane z bazy danych wprowadzono dwa 

obowiązkowe pola w zapytaniu identyfikujące w sposób jednoznaczny dany przykład: 

background image

 

42

identyfikator (id) oraz jego nazwę (example_name). Należy wspomnieć,  że symbol 

gwiazdki (*) w zapytaniu SQL oznacza, że pobiera się z bazy danych wszystkie 

kolumny. W wyniku tego zapytania w tabeli zostaną wyświetlone przykłady z ankiety 

PKP o przydziale do klasy co najmniej 2 i opisane tylko 4 atrybutami w tym jednym 

decyzyjnym plus pola je identyfikujące. Dodanie możliwości generacji reguł (przez 

dodatkową komunikację z systemem GoalProject) dla tak przefiltrowanych danych 

wejściowych jest jednym ze sposobów na rozszerzenie aplikacji w przyszłości i większe 

możliwości ich analizy. 

Aplikacja OLSA pozwala również wizualizować dane z plików w postaci dwóch 

wykresów: zwykłego liniowego XY (Rys. 13 i 14) oraz tak zwanego radarowego. Na 

pierwszym wykresie na osi X umieszczone są kryteria opisujące przykłady natomiast 

oś Y zawiera ich znormalizowane wartości od 0 do 100% na tych kryteriach. Drugi 

wykres różni się od pierwszego tym, że każde kryterium znajduje się na osobnej osi, a 

wszystkie zbiegają się centralnym punkcie odpowiadającemu 0%. Istnieje więc tyle osi 

ile jest kryteriów i gdy umieści się na wykresie przykłady to wszystko wyglądem 

przypomina właśnie radar. W obu wizualizacjach zastosowano darmowe komponenty 

napisane w Javie: JFreeChart dla liniowego oraz JCharts dla radarowego. 

Podsumowując moduły odpowiedzialne za prezentację problemu pozwalają na: 

•  wczytanie dwóch plików z problemem: bazowego i dodatkowego, 

•  wyświetlanie atrybutów i ich charakterystyki oraz wybór atrybutu decyzyjnego, 

•  wyświetlanie przykładów w postaci prostej tablicy decyzyjnej, 

•  łatwe wskazanie danych do prezentacji przy pomocy języka zapytań SQL, 

•  wizualizację przykładów w postaci wykresu liniowego i radarowego, 

•  rozpoczęcie analizy danych metodą szukania strategii interwencji. 

5.2.3  Moduł do prezentacji reguł 

Reguły decyzyjne dla pliku bazowego, podobnie jak przykłady, są wczytywane 

z bazy danych (ich generacja odbywa się po stronie platformy GoalProject) i 

prezentowane z podziałem na część warunkową i decyzyjną. Dodatkowo z każdą regułą 

związana jest jej pewność oraz wsparcie, czyli liczba przykładów, które ona pokrywa – 

ich lista pojawia się po wskazaniu danej reguły (Rys. 11). Istnieje możliwość 

background image

 

43

stworzenia filtra dla reguł m.in. w celu ograniczenia ich liczby. Można ustawić 

maksymalną długość reguły, tzn. maksymalną liczbę warunków elementarnych oraz jej 

minimalne wsparcie (Rys. 12). Dodanie nowych metod filtracji reguł jest kolejnym ze 

sposobów na rozszerzenie aplikacji i większe możliwości przy ich wyświetlaniu. 

Wskazanie określonej reguły umożliwia: wizualizację przykładów ją 

wspierających na wykresach, rozpoczęcie analizy metodą testowania strategii 

interwencji (punkt 4.2) lub szacowania efektywności strategii wywiedzionej z reguł 

(punkt 3.2). Dla drugiej metody wymagane jest wczytanie dodatkowego pliku z danymi. 

5.2.4  Moduły prezentacji danych OLAP 

Moduły prezentacji danych OLAP implementują sposób analizy danych będący 

połączeniem wielowymiarowych tabel OLAP oraz teorii zbiorów przybliżonych DRSA 

omówiony w punkcie 4.4 pracy (Rys. 17). W oknie ustawień (Rys. 16) definiuje się 

wymiary tabeli (kryteria opisujące przykłady), wartości dla wymiarów oraz 

analizowaną miarę (jest ich jedenaście). Ten sposób wizualizacji danych jest dostępny 

zarówno dla pliku bazowego jak i dodatkowego. 

Wskazanie określonej komórki w tabeli OLAP dla pliku bazowego umożliwia 

wykonanie identycznych operacji jak w przypadku wybrania reguły. Ponieważ wymiary 

stanowią jakby część warunkową reguły, dlatego dodatkowo po wybraniu metod 

analizy koniecznym staje się podanie części decyzyjnej, dla wizualizacji wykresowej 

podanie tej części nie jest obowiązkowe (dla tak stworzonej reguły obliczany jest 

współczynnik wiarygodności) – Rys. 18. Dla przykładu dodatkowego nie ma analizy 

metodą szukania strategii, ponieważ do tego celu wymagane są reguły, a te dotyczą 

bazowego. 

5.2.5  Moduły do analizy satysfakcji klienta  

Moduły do analizy danych są dostępne z różnych miejsc w aplikacji, co 

zwiększa jej funkcjonalność i daje większą swobodę w pracy z programem. 

Umożliwiają one analizę satysfakcji klienta różnymi sposobami: metodą szukania lub 

testowania strategii interwencji (punkt 4.3 lub 4.2) oraz metodą badania oczekiwanej 

efektywności strategii interwencji wywiedzonych z reguł (punkt 3.2). 

background image

 

44

W module do analizy metodą szukania strategii (Rys. 15) dla danego przykładu 

wskazuje się decyzję, którą miałby on uzyskać. W wyniku obliczeń otrzymuje się 

proponowane strategie interwencji w postaci reguł decyzyjnych. Po wybraniu 

konkretnego sposobu działania (reguły) pojawia się informacja o dodatkowych 

wymogach, jakie muszą zostać dla niego spełnione, aby dany przykład zmienił decyzję 

w pożądany sposób. 

Postępowanie w module dla metody testowania strategii interwencji (Rys. 19) 

jest bardzo podobne jak w metodzie wyżej, ale dotyczy oczywiście reguły. Tutaj 

zmienia się warunki elementarne w regule ustalając w ten sposób rodzaj i motyw 

strategii działania, a w rezultacie otrzymuje się zbiór nowych przykładów, dla których 

można ją ewentualnie zastosować. Po wskazaniu już konkretnego przykładu pojawia się 

dodatkowa informacja o wymogach, jakie należy spełnić, aby uzyskać zamierzony cel 

określony przez strategię. 

Ostatni moduł analizy satysfakcji klienta umożliwia określenie reguły, na 

podstawie której będą tworzone strategie interwencji, a następnie obliczenie 

oczekiwanych efektywności w przypadku ich zastosowania (Rys. 20). Pierwszy krok 

odbywa się przez wybranie warunków elementarnych na podstawie których będzie 

wywiedziona strategia. W drugim kroku następują odpowiednie obliczenia, w wyniku 

których otrzymuje się wartości współczynników charakteryzujących daną strategię. 

Istnieje również możliwość wybrania opcji, która umożliwi od razu wykonanie obliczeń 

dla wszystkich kombinacji warunków elementarnych, a tym samym dla kilku 

możliwych strategii interwencji jednocześnie. Końcowe wyniki prezentowane są w 

tabeli, a dokładniejszy przebieg obliczeń w formie tekstowej. 

 

background image

 

45

6  Studium przypadków – eksperyment i wyniki 

Rozdział zawiera przebieg wykonanego eksperymentu, którego celem było 

przedstawienie przykładu praktycznego zastosowania powstałej aplikacji OLSA 

System. Otrzymane wyniki zostały poddane analizie i odpowiednio zinterpretowane, a 

rezultaty badań znajdują się w tej części pracy. 

6.1  Dane wejściowe przeznaczone do analizy satysfakcji klienta 

Pewien włoski magazyn „Anna” przeprowadził  wśród swoich czytelników 

ankietę dotyczącą oceny jego tematycznej zawartości. Respondenci mieli za zadanie 

ocenić je w skali od 1 do 5 (kierunek preferencji to zysk) pod względem różnych 

tematów poruszanych na łamach pisma odpowiadających kryteriom w problemie 

(Tabela 6). Na końcu wyrażali ogólną opinię na temat jego zawartości. 

Zadaniem ankiety było zapoznanie się z rzeczywistym zadowoleniem czytelników 

czasopisma i zdobycie danych, które byłyby pomocne w określeniu działań mających 

na celu zwiększenie satysfakcji klientów i zdobycie nowych. 

Tabela 6 Kryteria oceny magazynu "Anna" 

Kryterium Oznaczenie Kryterium 

Oznaczenie 

Bieżące Wydarzenia 

B1 

Telewizja 

B14 

Społeczeństwo B2 Listy 

do 

Gazety 

B15 

Moda B3 

Odpowiedzi 

Ekspertów 

B16 

Sprzęt B4 

Małżeństwo B17 

Uroda B5  Seks 

B18 

Kuchnia B6 

Uczucia 

Emocje B19 

Zdrowie B7 

Psychologia 

Testy 

B20 

Meble B8  Praca 

B21 

Podróże B9 Ekonomia 

B22 

Osobistości B10  Internet 

B23 

Sztuka i Kultura 

B11 

Dzieci 

B24 

Kino B12 

Domowe 

Zwierzęta B25 

Muzyka 

B13 

Kwiaty i Rośliny B26 

  

Ogólna 

ocena 

magazynu

 

Plik ISF z wynikami ankiety znajduje się na dołączonej płycie CD w katalogu 

„CD/Install/GoalProject/ScriptsSamples/Survey/Magazines/…” (łącznie zawiera 23 

przykłady opisane 27 kryteriami). 

background image

 

46

6.2  Przebieg eksperymentu 

Przeprowadzany eksperyment zakłada,  że dane wejściowe w postaci wyników 

ankiety zostały już wczytane do bazy danych przez system GoalProject, a następnie 

wygenerowano dla nich reguły decyzyjne. Pracę z systemem OLSA można więc 

rozpocząć od połączenia z bazą danych, gdzie znajduje się problem, podając 

odpowiednie opcje połączenia  [File->Database...] (Rys. 5): 

 

Rys. 5 Moduł komunikacji z bazą danych 

 

Kolejnym krokiem po udanym połączeniu z bazą danych jest oczywiście wczytanie 

pliku z danymi do analizy [File->Open file…] (Rys. 6) – w tym przypadku będą to 

wyniki ankiety magazynu „Anna”. Ponieważ w bazie znajdują się wygenerowane 

reguły dla tego pliku to zostaną one automatycznie wgrane do aplikacji. 

background image

 

47

 

Rys. 6 Moduł do wczytywania danych wejściowych 

 

W tym momencie można rozpocząć analizę danych, co zostało przedstawione poniżej w 

postaci kolejnych etapów pracy z systemem OLSA. Dostęp do odpowiednich opcji 

możliwy jest z paska menu, paska narzędziowego, szczegółowego drzewa projektu oraz 

przy pomocy skrótów klawiszowych (Rys. 7). 

 

Rys. 7 Aplikacja OLSA System 1.0 

background image

 

48

6.2.1  Etap 1 – prezentacja danych marketingowych do analizy 

Danymi marketingowymi dla magazyny „Anna” są odpowiedzi respondentów 

na ankietę dotyczącą jego zawartości. Właścicielom magazynu zależy na wzroście 

liczby czytelników oceniających ogólną zawartość czasopisma najwyżej, tzn. na 5. 

Naszym celem jest znalezienie takich strategii interwencji, których zastosowanie 

pozwoli na osiągnięcie zamierzonych celów – wykorzystamy do tego system OLSA. 

Można się spodziewać, że na początku będzie to najłatwiejsze i najmniej kosztowne u 

czytelników, którzy obecnie oceniają go na 4. Aby przekonać się ilu ich jest, 

przefiltrujmy zbiór danych właśnie do takich przykładów. Taką filtrację dokonuje się w 

bardzo prosty sposób wydając odpowiednie zapytanie do bazy danych wyciągające z 

niej interesujące użytkownika przykłady [opcja Edit SQL Query] (Rys. 8): 

 

Rys. 8 Wybór z klasy c=4 

 

Okazuje się, że ze wszystkich 23 ankietowanych czytelników ośmiu jest takich, którzy 

oceniają ogólną zawartość magazynu na 4 (Rys. 9). 

 

Rys. 9 Prezentacja przykładów dla klasy c=4 

background image

 

49

Aplikacja OLSA System daje użytkownikowi ogromne możliwości, jeśli chodzi 

o prezentacje problemu i jego własności. Przykłady dodatkowo można obrazować w 

postaci dwóch wykresów oraz technologii OLAP i DRSA. Poza przykładami można 

podejrzeć dokładną charakterystykę atrybutów (kryteriów), możliwe wartości jakie 

mogą przyjmować, kierunek preferencji i wskazać, który z nich ma być decyzyjnym 

(Rys. 10). 

 

Rys. 10 Moduł prezentacji atrybutów 

 

Ponieważ cała analiza danych marketingowych oraz metody szukania strategii 

interwencji bazują na wygenerowanych regułach decyzyjnych, dlatego dużo zależy od 

sposobu ich generacji, tj. algorytmu oraz własności danej reguły: zaufania oraz 

wsparcia. Aktualnie w systemie GoalProject zaimplementowany jest prosty algorytm 

generujący wszystkie możliwe reguły, który dla analizowanego problemu 23 

przykładów i 27 kryteriów stworzył aż 1071 reguł. Istnieje także możliwość wczytania 

do bazy danych przez GoalProject reguł wygenerowanych w innych programach przy 

pomocy różnych algorytmów lub przez późniejsze dodanie do aplikacji OLSA System 

komunikacji z GoalProject-em i generację reguł np. dla przefiltrowanych przykładów. 

Dla każdej z reguł prezentowane są jej własności oraz lista przykładów, które ona 

pokrywa. Należy zaznaczyć,  że liczba przykładów w kolumnie „Support” nie zawsze 

musi być równa faktycznej liczbie wyświetlanych przykładów pokrywanych przez tą 

regułę. Pierwsza wartość dotyczy reguły wczytanej z bazy danych i wygenerowanej dla 

całego zbioru przykładów, natomiast druga dotyczy już przypadku, który analizujemy w 

aplikacji i modyfikujemy, np. po filtracji przykładów będą wyświetlane tylko te, które 

spełniają warunki filtru, zazwyczaj będzie ich mniej (Rys. 11): 

background image

 

50

 

Rys. 11 Moduł prezentacji reguł 

 

Przy bardzo dużej liczbie reguł sensowna analiza jest mocno utrudniona lub wręcz 

niemożliwa. Aby strategie interwencji wywiedzione z reguł decyzyjnych były jak 

najbardziej wiarygodne można dokonać filtracji reguł wg dwóch kryteriów: 

minimalnego wsparcia reguły oraz maksymalnej liczby warunków elementarnych 

(długości reguły) [opcja Filter Options] (Rys. 12): 

 

Rys. 12 Moduł do filtrowania reguł 

 

background image

 

51

6.2.2  Etap 2 – analiza metodą szukania strategii interwencji 

Załóżmy, że magazyn „Anna” jest zainteresowany zwiększeniem ogólnej oceny 

jego zawartości z 4 na 5 dla konkretnych ankietowanych. Pytanie, jakie może się 

nasunąć w tym momencie to, dla których z nich będzie to łatwe, a dla których 

trudniejsze? Teoretycznie im więcej lepszych ocen na poszczególnych kryteriach tym 

wyższa ogólna ocena końcowa. Dlatego należy szukać takich czytelników, którzy mają 

jak najwyższe oceny tematycznej zawartości czasopisma. Pomocna w tej sytuacji może 

być wizualizacja przykładów na wykresie [Analysis->Line Chart->Examples] (Rys. 13): 

 

Rys. 13 Moduł wykresu liniowego 

 

Zaznaczony fragment wykresu wskazuje, że powyższe warunki spełnia m.in. 

respondent oznaczony numerem 11 (example_name = __ex11), ponieważ na dużej 

ilości kryteriów ma on wysoką ocenę. Powyższy rysunek jest niestety nieczytelny. Z 

pomocą przychodzi w takiej sytuacji możliwość filtracji przykładów. Dokonajmy takiej 

filtracji i wyświetlmy tylko tą część przykładów, która wizualnie ma wysokie oceny na 

dużej ilości kryteriów: nr 7, 11, 22: 

SELECT * FROM magazine_Anna WHERE example_name IN (‘__ex7’, ‘__ex11’, ‘__ex22’)

 

Okazuje się, że największą liczbę kryteriów z najwyższymi ocenami ma przykład nr 11 

(kolor niebieski) – aż 20, mniej bo 13 ma przykład nr 7 (kolor czerwony), a 10 nr 22 

(kolor zielony) – Rys. 14: 

background image

 

52

 

Rys. 14 Wykres liniowy dla przykładów: __ex7, __ex11, __ex22 

 

Czytelnik nr 11 ocenia już ogólną zawartość magazynu na 5, więc do analizy 

wybieramy respondenta nr 7. Przekonajmy się, co należy zrobić, aby zmienił on ogólną 

ocenę zawartości magazynu z 4 na 5 wykorzystując do tego celu metodą szukania 

strategii interwencji. 

Po wskazaniu w tabeli decyzyjnej interesującego nas przykładu i wybraniu 

metody szukania strategii [opcja 

Search of strategy pod prawym przyciskiem myszki] 

określamy decyzję co najmniej 5 i uruchamiamy obliczenia. W ich wyniku 

otrzymujemy aż 43 reguły – możliwe strategie interwencji, których zastosowanie 

pozwoli na zmianę ogólnej oceny z 4 na 5, a wśród której poszukujemy najlepszej. Nie 

można zapomnieć o niezgodnościach w zbiorze reguł, które w tym przypadku nie 

występują (Rys. 15). 

background image

 

53

 

Rys. 15 Moduł szukania strategii interwencji 

 

Ponieważ dla czasopisma „Anna” ważne jest osiągnięcie celu jak najmniejszym 

wysiłkiem i kosztem ustalono, że pod uwagę  będą brane reguły o minimalnej liczbie 

warunków elementarnych. Takie postępowanie jest zrozumiałe, gdyż w konsekwencji 

będzie to równoważne małym zmianom na kryteriach przy zastosowaniu strategii 

wywiedzionej z takich reguł. Wśród otrzymanych rezultatów znajduje się 8 reguł 

(propozycji strategii interwencji) posiadających tylko jeden warunek elementarny. 

Dla przykładu strategia wywiedziona z reguły nr 26 mówi, że wybrany przez nas 

czytelnik będzie oceniał zawartość czasopisma na 5, jeśli jego ocena na kryterium 

Praca będzie wynosić co najmniej 5 – aktualnie ocenia on je tylko na 3. Dla magazynu 

oznacza to, że jeśli chce on, aby ten właśnie respondent zmienił ogólną ocenę 

zawartości magazynu, musi spowodować podwyższenie jego oceny z 3 na 5 na 

kryterium 

Praca

Aby powyższa analiza miała sens należy założyć, że magazyn „Anna” wie jak 

nakłonić czytelników do zmiany ich oceny na poszczególnych kryteriach. Gdyby z 

każdym kryterium i określoną zmianą na nim powiązać koszt to otrzymane 43 strategie 

można by było posortować po koszcie od najmniej kosztownej do najbardziej. 

Zastosowana strategia daje odpowiedzi na pytania tylko dla konkretnego jednego 

przykładu. Docelowo jej stosowanie powinno dotyczyć pewnej grupy obiektów 

pogrupowanych według określonych zasad (np. ogólną oceną zawartości magazynu 

background image

 

54

równą 4) i odpowiadać na pytanie, co należałoby zrobić, aby wszyscy z tej grupy 

zmienili ogólną ocenę na 5 (jedna z możliwości rozbudowy OLSA System w 

przyszłości). Wówczas przy zastosowaniu wskazanej strategii interwencji magazyn 

zyskałby dodatkową grupę klientów (nie tylko jednego) oceniającą jego zawartość 

najwyżej. 

6.2.3  Etap 3 – analiza metodą testowania strategii interwencji 

W rzeczywistości bardzo często tematy dotyczące kina, muzyki, itp. nie są przez 

czytelników rozróżniane, a traktowane jako szeroko pojęta rozrywka. Magazyn „Anna”, 

przy drugim podejściu analizy danych ankietowych w systemie OLSA, bazuje właśnie 

na takim przypuszczeniu. Istnieje duża szansa, że respondenci bardzo podobnie ocenili 

zawartość czasopisma na trzech kryteriach: 

Sztuka i Kultura,  Kino oraz Muzyka. Do 

sprawdzenia tego wykorzystamy prezentację danych w postaci wielowymiarowej tabeli 

OLAP i DRSA [Analysis->OLAP Settings->Examples]. Określamy więc, co chcemy 

mieć zaprezentowane i w jakiej postaci: trzy wymienione kryteria jako wymiary, 

wartości wymiarów (co najmniej) oraz miarę liczności (Rys. 16): 

 

Rys. 16 Moduł definiowania wymiarów i miary dla OLAP 

 

W rezultacie otrzymujemy wielowymiarową tabelę danych. W pojedynczej komórce 

znajduje się liczba czytelników magazynu, którzy oceniają jego zawartość zgodnie z 

wartościami wymiarów określonymi dla danej komórki (rys. 17). 

background image

 

55

 

Rys. 17 Moduł prezentacji danych wielowymiarowych OLAP 

 

Rozkład wartości pokazuje, że przypuszczenie się potwierdza, ale nie w całości. Oceny 

zawartości tematycznej na tych kryteriach są bardzo zbliżone, ale praktycznie w 

większości przypadków istnieje różnica w wartości oceny na jednym z trzech 

kryterium, a dla dwóch pozostałych jest identyczna. 

Powyższa analiza może być wyjściem do metody testowania strategii [opcja 

Test 

of strategy pod prawym przyciskiem myszki]. Cel jest taki sam – zmiana ogólnej oceny 

zawartości tematycznej magazynu przez czytelników z 4 na 5 przy jak najmniejszej 

ilości działań z tym związanych. Kierując się ponownie jak najwyższą oceną na jak 

największej liczbie kryteriów zastosujemy metodologię dla komórki określonej 

wymiarami: 

Sztuka i Kultura,  Kino oraz Muzyka co najmniej 4 (wartości wymiarów, 

tzn. część warunkową reguły spełnia przykład nr 10). Następnie należy określić cel 

strategii (część decyzyjną) – dla danego wyboru obliczany jest współczynnik 

wiarygodności reguły. Dla decyzji co najmniej 5 otrzymujemy końcową postać reguły: 

(b11>=3)&(b12>=4)&(b13>=4) => (c>=5) i współczynnik równy 0% (Rys. 18). 

Oznacza to, że strategie wywiedzione z takiej reguły będą miały zerową wiarygodność. 

background image

 

56

 

Rys. 18 Wybór celu strategii (części decyzyjnej reguły) 

 

Należy więc poszukać takiej reguły która będzie miała dodatkowo, oprócz przyjętej 

wyżej zasady, jak największy współczynnik wiarygodności (najlepiej 100%). Jako 

kompromis przyjmijmy regułę postaci: (b11>=4)&(b12>=1)&(b13>=4) => (c>=5) ze 

współczynnikiem równym 50%, która pokrywa przykłady: nr 10 oraz nr 11 (ocenia już 

magazyn najwyżej).  

Aby wymieniony przykład nr 10 był pokrywany przez tą regułę, tzn. dany czytelnik 

zmienił swoją ogólną ocenę na najwyższą, należy jeszcze sprawdzić czy w zbiorze 

wszystkich reguł nie ma niezgodności. Okazuje się,  że takie są i żeby się ich pozbyć 

należy dodatkowo wymóc u niego zmianę oceny na wielu innych kryteriach (Rys. 19). 

Zgodnie z tą regułą wywiedziona z niej strategia interwencji o wiarygodności 50% 

mówi,  że czytelnik nr 10 może zmienić ogólną ocenę zawartości czasopisma „Anna” 

pod warunkiem jego zmian oceny na wskazanych dodatkowych kryteriach. 

 

Rys. 19 Moduł testowania strategii interwencji 

 

background image

 

57

Dokonajmy teraz zmiany wartości na jednym z warunków elementarnych reguły 

i sprawdźmy (przetestujmy) czy istnieją inne przykłady, które pokryłaby część 

warunkowa reguły w zmienionej postaci. Okazuje się,  że gdy zmienimy warunek 

(b13>=4) na (b13>=2) to poza respondentami nr 10 i 1 pokrywani są także nr 3 oraz 9. 

Co to dla nas oznacza? Otóż, jeśli magazyn „Anna” chciałby zmienić ogólną ocenę 

czytelnika nr 3 lub 9 na najwyższą musiałby spowodować zmianę jego oceny na 

kryterium 

Muzyka z obecnej równej 2 na 4 zgodnie ze strategią interwencji 

wywiedzioną z tej reguły oraz dodatkowo, aby zlikwidować niezgodności, zmianę na 

wskazanych kryteriach. 

Analizę metodą opisaną w tym podpunkcie można przeprowadzić także dla 

reguły już wygenerowanej po jej wskazaniu w tabeli z wczytanymi regułami. Wówczas 

nie dokonujemy „ręcznego” wyboru celu strategii interwencji (części decyzyjnej), 

ponieważ taka reguła już go posiada i owy cel definiujemy wskazując odpowiednią dla 

nas regułę decyzyjną. 

6.2.4  Etap 4 – badanie oczekiwanej efektywności strategii interwencji 

Wyidukowany zbiór reguł wczytany razem z wynikami ankiety magazynu 

„Anna” informuje o występujących w niej regularnościach i zależnościach. 

Dotychczasowa analiza dotyczyła jednego zbioru czytelników. Załóżmy, że posiadamy 

dwa zbiory danych: podstawowy 

U czyli wyniki ankiety czasopisma oraz dodatkowy 

U’, na których chcemy sprawdzić efektywność strategii wywiedzionej z reguł 

wyidukowanych ze zbioru, a który w tym przypadku jest tym samym zbiorem 

(oczywiście może być inny oparty na tych samych kryteriach). 

Do aplikacji OLSA System należy wczytać podstawowy plik z problemem: przykłady i 

reguły [File->Open file] oraz dodatkowy plik pokrywający się w tym przypadku z 

pierwszym [File->Open examples U’].  

Ponieważ celem strategii włoskiego magazynu jest wzrost liczby czytelników 

oceniających ogólnie jego zawartość najwyżej, należy wybrać taką regułę decyzyjną, 

która pozwoli osiągnąć zamierzony cel, a dokładniej strategie interwencji z niej 

wywiedzione. Przypuśćmy, że właściciele czasopisma chcą tym razem oprzeć działania 

na dwóch kryteriach: 

Moda oraz Zdrowie i ograniczyć ewentualne zmiany ocen 

czytelników tylko na tych dwóch tematach. Kierując się tymi założeniami do dalszej 

analizy wybieramy regułę 

r postaci: (b3>=5)&(b7>=5) => (c>=5), tzn. jeżeli ocena 

background image

 

58

Mody i Zdrowia  będzie co najmniej 5 to czytelnik oceni magazyn na co najmniej 5 

[opcja 

Calculate Coefficients pod prawym przyciskiem myszki]. 

W kolejnym kroku określamy, przez wybór odpowiednich warunków elementarnych, 

postać badanej strategii wywiedzionej z reguły. Przez strategię  będziemy rozumieć w 

tym przypadku manipulację na zbiorze 

U’ mającą na celu transformację przykładów z 

¬

(„Target value”) & („Selected” \ ”Target value”) do pożądanych klas decyzyjnej. 

Jeśli dla przykładu wybralibyśmy tylko pierwszy (b3>=5) to oznaczałoby to, że badamy 

oczekiwaną efektywność strategii interwencji dla przykładów, które nie spełniają tego 

warunku elementarnego (b3<=4), natomiast spełniają drugi nie wybrany (b7>=5) i 

oczywiście oceniają magazyn na mniej niż 5 (c<=4). Nasza analiza zakłada sprawdzenie 

efektywności wszystkich możliwych strategii interwencji wywiedzionej ze wskazanej 

reguły, więc wybieramy wszystkie warunki elementarne i zaznaczamy opcję – 

wszystkie kombinacje (Rys. 20):  

 

Rys. 20 Moduł badania efektywności strategii interwencji wywiedzionej z reguł 

 

Zanim przejdziemy do interpretacji wyników przypomnijmy znaczenie 

poszczególnych współczynników (wszystkie wartości wyrażone są w procentach i im są 

one większe tym lepiej) – dokładny opis omawianej metody można znaleźć w 

punkcie 3.2: 

•  E(PSI) – wskaźnik efektywności stworzonej strategii ze względu na 

konsekwencję (część decyzyjną) danej reguły 

r

background image

 

59

•  E(FI) – wskaźnik efektywności wywiedzionej strategii ze względu na przesłanki 

(część warunkową) danej reguły decyzyjnej 

r

•  DELTA(PSI) – oczekiwany wzrost liczby obiektów po zastosowaniu 

pojedynczej strategii interwencji, 

•  c(FI) – wskaźnik określający udział (wkład) danego warunku użytego w 

strategiach bazujących na regule 

r

•  I(FI) – wskaźnik określający kompletną skuteczność warunku użytego w 

strategiach bazujących na regule 

r

•  TOTAL – całkowity oczekiwany wzrost liczby obiektów po zastosowaniu 

łącznej strategii interwencji wywiedzionej z danej reguły 

r, polegającej na 

jednoczesnej zmianie wielu warunków. 

W rezultacie obliczeń otrzymujemy trzy możliwe strategie interwencji, które 

nakazują odpowiednio (Rys. 21): 

•  Strategia 1 – zmienić ocenę na kryterium Moda na co najmniej 5 wszystkim tym 

czytelnikom, którzy oceniają ją obecnie na co najwyżej 4 i oceniają zawartość 

tematyczną magazynu na kryterium 

Zdrowie na co najmniej 5, a ogólną ocenę 

czasopisma mają równą co najwyżej 4, 

•  Strategia 2 – zmienić ocenę na kryterium Zdrowie na co najmniej 5 wszystkim 

tym czytelnikom, którzy oceniają je obecnie na co najwyżej 4 i oceniają 

zawartość tematyczną magazynu na kryterium 

Moda na co najmniej 5, a ogólną 

ocenę czasopisma mają równą co najwyżej 4, 

•  Strategia 3 – zmienić oceny na kryteriach Moda oraz Zdrowie na co najmniej 5 

wszystkim tym czytelnikom, którzy oceniają je obecnie na co najwyżej 4, a 

ogólną ocenę czasopisma mają równą co najwyżej 4. Należy zauważyć,  że tej 

strategii nie można tak naprawdę zrealizować.  

background image

 

60

 

Rys. 21 Graficzna reprezentacja reguły i wywiedzionych z niej strategii interwencji 

 

Teraz można postawić pytanie o oczekiwany procentowy wzrost czytelników magazynu 

„Anna” oceniających jego zawartość najwyżej po zastosowaniu każdej ze znalezionych 

strategii interwencji i rzeczywistą efektywność każdej z nich. Okazuje się, że działania 

podjęte zgodnie ze strategią nr 1 spowodują znikomy wzrost czytelników (4,35%). 

Najbardziej efektywną dla nas jest natomiast strategia nr 2, której zastosowanie da nam 

wzrost ponad połowy ankietowanych (52,17%) ze zbioru 

U’. Ostatnia proponowana 

strategia interwencji powoduje, że 34,78% respondentów zwiększy swoją ogólną ocenę 

z 4 na 5. 

Jeśli chodzi o wartości wskaźników dla warunków elementarnych to dla pierwszego 

(b3>=5) są one bardzo małe: 21,74% (

c(FI)) oraz 23,81% (I(FI)), a bardzo duże dla 

drugiego (b7>=5): 69,56% (

c(FI)) oraz 76,19% (I(FI)). Wynika to oczywiście z faktu, 

że strategie, w których udział ma warunek pierwszy są mało efektywne (nr 1 i 3), 

natomiast drugi wchodzi w skład bardzo efektywnej strategii nr 2. 

Podsumowując, w wyniku badania efektywności strategii interwencji 

wywiedzionej z wybranej na początku reguły 

r, otrzymano trzy możliwe strategie o 

różnych efektywnościach. Jednoczesne zastosowanie wszystkich pozwoli magazynowi 

„Anna” osiągnąć zamierzony cel w 91,3%, tj. najwyższą ogólną ocenę jego zawartości 

przez ewentualne zmiany tylko na dwóch kryteriach: 

Moda i Zdrowie, dla 91,3% 

respondentów ze zbioru 

U’. Pomijamy w tym przypadku sprawę kosztów takich zmian 

dla poszczególnych strategii i kryteriów. 

background image

 

61

6.3  Końcowe wnioski 

Przeprowadzony eksperyment, na rzeczywistych danych ankietowych włoskiego 

magazynu „Anna”, pozwolił zapoznać się z możliwościami i zastosowaniem aplikacji 

OLSA System. Na początku został określony cel eksperymentu, a następnie przy 

wykorzystaniu trzech podejść analizy danych zawartych w programie, próbowano 

znaleźć sposoby jego osiągnięcia. W rezultacie otrzymano propozycje działań w postaci 

konkretnych strategii interwencji różniących się między sobą w zależności od 

postawionych przez czasopismo dodatkowych wymagań i wybranej metody. Bardzo 

pomocna okazała się różnorodność sposobów prezentacji analizowanych danych, m. in. 

na wykresie (w metodzie szukania strategii) i w tabeli wielowymiarowej (dla metody 

testowania strategii). 

Otrzymane wyniki zawierają już określone działania, jakie musi podjąć 

czasopismo, aby zwiększyła się ogólna ocena jego zawartości przez czytelników (na 

najwyższą równą 5). Przebieg eksperymentu pokazał, że punktem wyjściowym analizy 

może być konkretny czytelnik magazynu (wtedy poszukujemy dla niego najlepszej 

strategii), jak i zamierzona strategia interwencji (wówczas testujemy jej zastosowanie 

oraz oczekiwaną efektywność). Wadą metod szukania oraz testowania strategii 

interwencji jest to, że obliczenia dotyczą jedynie pojedynczego ankietowanego 

natomiast trzecia z metod, w przeciwieństwie do pozostałych dwóch, bada oczekiwaną 

efektywność dla określonej grupy ankietowanych. Należy zaznaczyć,  że bardzo 

przydatne byłoby wprowadzenie kosztów zmian ocen na poszczególnych kryteriach, 

dzięki czemu pojawiłby się element wyboru między efektywnością a kosztem 

zastosowania strategii interwencji. 

 

 

background image

 

62

7  Podsumowanie i wnioski 

W ramach pracy magisterskiej powstał zaawansowany system wspomagania 

decyzji – OLSA System, który reprezentuje nowoczesne podejście do analizy 

satysfakcji klienta. Do tego celu została w nim wykorzystana teoria zbiorów 

przybliżonych, a w szczególności reguły decyzyjne. W systemie zaproponowano 

następujące trzy warianty analizy: badanie oczekiwanej efektywności strategii 

interwencji, poszukiwanie strategii interwencji oraz testowanie strategii interwencji. 

Przeprowadzony eksperyment pozwolił udowodnić zasadność motywacji 

wykorzystania do ASK wiedzy odkrytej właśnie w postaci reguł. Otrzymane wyniki 

udowodniły,  że każdy z trzech zaprezentowanych wariantów analizy danych 

marketingowych (ankiet), pozwolił osiągnąć zamierzony cel i w rezultacie dał 

odpowiedź na postawione pytania – propozycje działań w postaci konkretnych strategii 

interwencji. Ponieważ brakuje tutaj elementów dotyczących kosztów takich strategii, 

dlatego trudno ocenić rzeczywiste ich zastosowanie i wybranie tej najlepszej. Aplikacja 

daje możliwość zarówno poszukiwania strategii dla konkretnego przykładu jak i 

testowania efektywności strategii już zamierzonej, co jest jej dużą zaletą. 

Wykorzystanie technologii OLAP w połączeniu z DRSA umożliwiło stworzenie 

rozbudowanego narzędzia do prezentacji analizowanych danych w postaci tabeli 

wielowymiarowej. W programie wykorzystano również inne formy prezentacji danych, 

m.in. proste tabele dwuwymiarowe i wykresy. To wszystko wpłynęło na przejrzystość, 

czytelność i funkcjonalność interfejsu mimo jego dużej złożoności.  

 

Wszystkie zadania postawione na początku pracy (punkt 2) zostały 

zrealizowane. Udało się osiągnąć następujące cele: 

•  stworzyć „otwarty” i „ergonomiczny” system regułowej analizy danych 

marketingowych dotyczących satysfakcji klienta, 

•  zaimplementować metodologię badania wpływu strategii interwencji 

wywiedzionej z reguł decyzyjnych, 

•  zaprojektować i zaimplementować własne rozszerzenia (w postaci algorytmów) 

metodologii ASK w oparciu o reguły decyzyjne: metodę testowania oraz 

szukania strategii interwencji, 

background image

 

63

•  do wczytywania danych wejściowych oraz generacji reguł decyzyjnych 

wykorzystać istniejący już system eksploracji danych GoalProject, 

•  stworzyć bardzo rozbudowany, ale przejrzysty interfejs użytkownika łączący w 

sobie czytelną i przejrzystą prezentację problemu oraz dużą funkcjonalność, 

•  przeprowadzić eksperyment, przeanalizować otrzymane wyniki i wyciągnąć z 

nich odpowiednie wnioski, 

•  utworzyć dokumentację systemu OLSA. 

 

Stworzony system OLSA ze względu na swoją otwartość ma wiele możliwości 

rozbudowy (część z nich opisano w treści pracy). Jednym z kierunków dalszego 

rozwoju pracy może być skupienie się na metodach analizy danych 

zaimplementowanych w aplikacji i ich rozwijanie. Ponieważ w rzeczywistości 

spowodowanie zmian oceny/ocen satysfakcji klienta kosztuje, należałoby wprowadzić 

funkcję kosztu zmiany zależną od kryterium, na którym ta zmiana jest dokonywana 

(określenie dla każdego kryterium kosztów zmian na jego wartościach). Pozwoliłoby to 

w przyszłości dokonywać wyboru najlepszej znalezionej strategii interwencji pod 

względem kosztu jej przeprowadzenia – jak największy wzrost liczby klientów przy jak 

najmniejszym koszcie koniecznych zmian (elementy optymalizacji), a także tak 

naprawdę ocenić przydatność powstałego systemu. Ponadto dla metody szukania 

strategii interwencji bardzo funkcjonalne wydaje się podejście jej poszukiwania nie 

tylko dla pojedynczego przykładu, ale pewnej wcześniej wybranej grupy. 

Przy ewentualnym rozwijaniu OLSA System należy zwrócić również uwagę na 

interfejs i jego doskonalenie. Mimo dużej funkcjonalności oraz złożoności nie jest on na 

pewno idealny. Jedna z propozycji to bardziej zaawansowana komunikacja z systemem 

GoalProject nie tylko przez bazę danych (pośrednio), ale przez wydawanie poleceń 

(bezpośrednio), np. przy generowaniu reguł. Inne możliwości to m.in. bardziej 

interakcyjne prezentacje w postaci wykresów, dodanie nowych filtrów dla reguł, czy 

wyświetlanie kryteriów w postaci OLAP nie tylko typu wyliczeniowego (więcej w pliku 

TODO.pdf na dołączonej płycie CD). 

Ponieważ wykorzystane narzędzia i systemy są w pełni darmowe można 

zastanowić się również nad ewentualnym udostępnieniem całego projektu w sieci i jego 

rozwojem jako system 

Open Source. Pozwoliłoby to na rozwijanie aplikacji przez wielu 

background image

 

64

programistów, a tym samym na dodawanie kolejnych elementów oraz doskonalenie już 

istniejących.  

background image

 

65

BIBLIOGRAFIA 

[1]  Biedziński J., Biedziński M., Boński P., Lepkowski L., 

Praca inżynierska: 

Otwarta platforma programowa dla systemów eksploracji danych, Politechnika 
Poznańska, Poznań 2003 

[2]  Błaszczyński J., Dembczynski K., 

Otwarta platforma programistyczna dla 

systemów analizy danych, Raport Politechniki Poznańskiej RB-034/03, 2003 

[3]  CodeGuru, http://www.codeguru.com/java/Swing/JTable/index.shtml 
[4]  CRM, 

Customer Relationship Management, http://www.e-crm.int.pl 

[5]  Date C.J., 

An Introduction to Database Systems, Addison Wesley Longman, 

Massachusetts 2000 

[6]  Dejnak A., 

Psychologia kontaktu z klientem - zadowolenie klienta i lojalność

Psychologia i Rzeczywistość nr 4/2002 
http://www.psycholog.alleluja.pl/tekst.php?numer=465 

[7]  Greco S., Matarazzo B., Pappalardo N., Słowiński R., 

Measuring expected effects 

of interventions based on decision rules, Journal of Experimental and Theoretical 
Artificial Intelligence, 2004 (w druku) 

[8]  Greco S., Matarazzo B., Słowiński R., 

Rough Set Analysis of Preference-Ordered 

Data, [In]: J.J. Alpigini, J.F. Peters, A. Skowron, N. Zhong (eds.), Rough Sets and 
Current Trends in Computing
. LNAI 2475, Springer-Verlag, Berlin, 2002, 44-59 

[9]  Greco S., Matarazzo B., Slowinski R., Stefanowski J., 

Variable consistency model 

of dominance based rough set approach, [In]: W.Ziarko, Y.Yao: Rough Sets and 
Current Trends in Computing
, LNAI 2005, Springer-Verlag, Berlin, 2001, pp. 
170-181 

[10]  Grigoroudis E., Siskos Y., 

A survey of customer satisfaction barometers: Some 

result from the transportation-communications sector, European Journal of 
Operational Research 152 (2004), 334-353 

[11]  Java Sun Microsystems, http://java.sun.com 
[12]  JCharts, 

A free Java chart library, http://jcharts.krysalis.org/, 

http://sourceforge.net/projects/jcharts/ 

[13]  JFreeChart, 

A free Java chart library, http://www.jfree.org/jfreechart/ 

[14]  Johnson M.D., Fornell C., 

A framework for comparing customer satisfaction 

across individuals and product categories, Journal of Economic Psychology 12 
(1991), 267-286 

[15]  Kessler S., 

Measuring And Managing Customer Satisfaction, ASQ Quality Press, 

Wisconsin 1996 

[16]  Letrix, http://www-idss.cs.put.poznan.pl/~goalproject/letrixII-webpage/index.html 
[17]  MySQL Connector/J, http://dev.mysql.com/ 
[18]  MySQL, http://www.mysql.com 
[19] 

Otwarta Platforma Programowa Dla Eksploracji Danych
http://www-idss.cs.put.poznan.pl/~goalproject/ 

[20]  Pawlak Z., 

Rough Sets, International Journal of Information and Computer 

Sciences 11 (1982), 341-356 

[21]  Roy B., 

Wielokryterialne wspomaganie decyzji, WNT Warszawa 1990 

[22]  Rumiński J., 

Język Java – podstawy programowania, 1999 

[23]  Słowiński R., Greco S., Matarazzo B., 

Induction of decision rules for explanation 

and support of multicriteria choice and ranking, DSTIS, Warszawa 2001 

[24]  Słowiński R., Greco S., Matarazzo B., Rough set based decision support. Chapter 

16 in: Burke E., Kendall G., eds: 

Introductory Tutorials on Optimization, Search 

and Decision Support Methodologies. Kluwer Academic Publishers, Boston, 2004 

background image

 

66

[25]  Słowiński R., Greco S., Matarazzo B., 

Rough sets theory for multicriteria decision 

analysis, European Journal of Operational Research 129 (2001), 1-47 

[26]  Sydra E., Góreczka M., 

Indeks Satysfakcji Klienta (CSI) jako jeden z elementów 

wpływających na kreowanie strategii przedsiębiorstwa, Strategie.info.pl 
http://ww.strategie.info.pl/artykuly/1023.htm, 2004 

[27]  The Java Developers Almanac 1.4, http://javaalmanac.com/egs/index.html 
[28]  W3 Schools, 

SQL Tutorial, http://www.w3schools.com/sql/default.asp 

[29]  Wrembel R., Królikowski Z., Morzy M., 

Pro Dialog 10: Magazyny danych – stan 

obecny i kierunki rozwoju, Wydawnictwo NAKOM, Poznań 2000, 75-93 

background image

 

67

Dodatek A – Wykaz tabel i rysunków 

 
TABELE 
Tabela 1 Wyniki ankiety PKP ........................................................................................ 28 
Tabela 2 Reguły decyzyjne dla ankiety PKP.................................................................. 29 
Tabela 3 Przykład połączenia OLAP i DRSA - liczność................................................ 35 
Tabela 4 Podejścia dla miary - decyzja .......................................................................... 36 
Tabela 5 Przykład połączenia OLAP i DRSA – decyzja................................................ 36 
Tabela 6 Kryteria oceny magazynu "Anna" ................................................................... 45 

 

 

RYSUNKI 

Rys. 1 Struktura danych wielowymiarowych z wykorzystaniem agregacji ................... 26 
Rys. 2 Przykładowa kostka danych OLAP..................................................................... 26 
Rys. 3 Architektura systemu OLSA i wykorzystane technologie .................................. 38 
Rys. 4 Elementy systemu OLSA i ich powiązania ......................................................... 40 
Rys. 5 Moduł komunikacji z bazą danych...................................................................... 46 
Rys. 6 Moduł do wczytywania danych wejściowych ..................................................... 47 
Rys. 7 Aplikacja OLSA System 1.0 ............................................................................... 47 
Rys. 8 Wybór z klasy c=4............................................................................................... 48 
Rys. 9 Prezentacja przykładów dla klasy c=4................................................................. 48 
Rys. 10 Moduł prezentacji atrybutów............................................................................. 49 
Rys. 11 Moduł prezentacji reguł..................................................................................... 50 
Rys. 12 Moduł do filtrowania reguł................................................................................ 50 
Rys. 13 Moduł wykresu liniowego ................................................................................. 51 
Rys. 14 Wykres liniowy dla przykładów: __ex7, __ex11, __ex22 ................................ 52 
Rys. 15 Moduł szukania strategii interwencji................................................................. 53 
Rys. 16 Moduł definiowania wymiarów i miary dla OLAP........................................... 54 
Rys. 17 Moduł prezentacji danych wielowymiarowych OLAP ..................................... 55 
Rys. 18 Wybór celu strategii (części decyzyjnej reguły)................................................ 56 
Rys. 19 Moduł testowania strategii interwencji.............................................................. 56 
Rys. 20 Moduł badania efektywności strategii interwencji wywiedzionej z reguł ........ 58 
Rys. 21 Graficzna reprezentacja reguły i wywiedzionych z niej strategii interwencji... 60 
 

 

 
 
 
 
 
 
 
 
 
 
 
 

background image

 

68

Dodatek B – Przewodnik instalacyjny użytkownika 

Poniżej została przedstawiona krok po kroku instalacja systemu OLSA oraz 

elementów z nim związanych dla użytkownika końcowego: 

1)  Instalacja bazy danych MySQL 

•  Zainstalować MySQL w wersji 5.0 (wersja instalacyjna znajduje się w 

CD\Install\MySQL\mysql-5.0.0a-alpha-win.zip). 

•  W katalogu gdzie został zainstalowany MySQL należy uruchomić 

..\mysql-5.0.0-alpha\bin\mysql.exe

•  Należy stworzyć nową bazę danych o nazwie „oppfda” (Open Programming 

Platform for Data Analysis) poleceniem 

create database oppfda;

.

 

•  Należy uruchomić skrypt tworzący odpowiednie tabele w bazie danych. Treść 

skryptu znajduje się w plikach: 

isf.sql oraz rls.sql w katalogu 

CD\Install\GoalProject\MySQL-tables\. Komenda uruchamiająca skrypt z 

konsoli MySQL (mysql.exe) :

 \. Ścieżka_dostępu_do_skryptu  (po kropce musi 

być spacja). 

•  Istnieje możliwość wykorzystania przykładowej bazy danych „oppfda” 

znajdującej się na dołączonej do pracy płycie CD. Wystarczy wgrać zawartość 

katalogu 

CD\Install\GoalProject\MySQL-database\ (katalog oppfda) do 

odpowiedniego katalogu w MySQL - 

..\mysql-5.0.0-alpha\data\

2)  Instalacja systemu GoalProject 

•  Zainstalować maszynę wirtualną Microsoft .NET Framework w wersji 1.0.3705 

(nie może być wyższa) – plik 

CD\Install\DotNetFx\dotnetredist.exe.  

•  Kolejne etapy instalacji samego systemu znajdują się w pliku 

CD\Install\GoalProject\Install-GoalProject.pdf. Należy wykonać kroki z 

pominięciem punktu 1.1.1 (wszystkie pliki zaznaczone na niebiesko znajdują się 

w katalogu 

CD\Install\GoalProject\BIN\ natomiast przykładowe skrypty 

ScriptsSamples można znaleźć w 

CD\Install\GoalProject\ScriptsSamples\). 

3)  Instalacja środowiska JAVA 

•  Zainstalować maszynę wirtualną JAVA w wersji 1.4.2_05 – plik 

CD\Install\Java\j2re-1_4_2_05-windows-i586-p.exe

4)  Instalacja aplikacji OLSA System 

background image

 

69

•  Należy przegrać katalog CD\Application\ w dowolnie wybrane miejsce. 

•  Aplikację uruchamia plik OLSA System 1.0.bat

•  Przykład korzystania z systemu został opisany w punkcie 6 (Studium 

przypadków) oraz w podręczniku użytkownika zamieszonym na CD. 

background image

 

70

Dodatek C – Przewodnik instalacyjny programisty 

Poniżej została przedstawiona krok po kroku instalacja wszystkich elementów 

dla programisty systemu OLSA: 

1)  Instalacja bazy danych MySQL oraz systemu GoalProject 

•  Postępowanie identycznie jak w podpunktach 1) i 2) z dodatku B. 

2)  Instalacja maszyny wirtualnej JAVA lub środowiska JAVA SDK 

•  Zainstalować maszynę wirtualną JAVA – plik CD\Install\Java\j2re-1_4_2_05-

windows-i586-p.exe lub maszynę wirtualną JAVA z SDK (ang. Software 

Development Kit) w wersji 1.4.2_05 – plik 

CD\Programs\Java\j2sdk-1_4_2_05-

windows-i586-p.exe

3)  Instalacja środowiska programistycznego Eclipse SDK i projektu OLSA System 

•  Zainstalować 

środowisko do programowania w Javie – plik 

CD\Programs\Eclipse SDK\eclipse-SDK-3.0-win32.zip

•  Po uruchomieniu należy wskazać katalog do przechowywania projektów 

(najlepiej zostawić domyślny). 

•  Należy przegrać katalog projektu OLSA System z kodem źródłowym do 

wybranego wcześniej katalogu projektów – plik 

CD\Sources\OLSASystem.rar

•  Przegrać pliki JAR znajdujące się w katalogu 

..\eclipse\workspace\OLSASystem\OLSASystem\lib\ do odpowiedniego katalogu 

z JAVĄ (np. 

..\j2sdk1.4.2_05\jre\lib\ext\). 

4)  Eclipse SDK 3.0 

•  Stworzyć nowy projekt JAVA w Eclipse [File->New->Projekt->JavaProject] i 

jako nazwę wpisujemy 

OLSASystem, a następnie wybieramy opcje Next i Finish.  

•  Należy ustawić konfigurację kompilacji projektu OLSA System [opcja Run]. W 

oknie konfiguracji należy wybrać opcję 

New dla Java Apllication, określić 

nazwę projektu i główną klasę w projekcie (

OLSASystem.Application). 

•  Po wykonaniu powyższych kroków można dokonywać zmian w kodzie projektu 

OLSA System oraz dokonywać kompilacji.  

•  Generacja pliku JAR odbywa się przez wybór opcji File->Export->JARFile i 

wskazanie co ma dokładnie zawierać. 

background image

 

71

Dodatek D – Spis CD 

Płyta CD-ROM dołączona do pracy magisterskiej zawiera: 

1)  gotową do uruchomienia aplikację OLSA System 1.0 w postaci pliku JAR z 

wymaganymi bibliotekami oraz plikiem uruchamiającym, 

2)  dokumentację aplikacji OLSA System 1.0 w postaci HTML (wygenerowaną 

przy pomocy JavaDoc) oraz inne dokumenty: 

•  możliwości i propozycje rozwoju aplikacji OLSA System 1.0 (TODO), 

•  podręcznik użytkownika, 

•  manuale i tutoriale dla JAVY i MySQL, 

•  dotyczące zagadnień DRSA i Satysfakcji Klienta, 

3)  programy do instalacji w systemie operacyjnym wymagane dla poprawnego 

działania aplikacji OLSA System 1.0: 

•  maszynę wirtualną Microsoft DotNet oraz JAVY, 

•  system GoalProject z przykładowymi problemami, skryptami i bazą danych, 

•  biblioteki i komponenty wykorzystywane w aplikacji OLSA System 1.0, 

•  system zarządzania baza danych MySQL w wersji 5.0.0a, 

4)  dodatkowe programy dla programistów JAVY i MySQL: 

•  darmowe środowisko do programowania w JAVIE – Eclipse 3.0, w której został 

stworzony system OLSA, 

•  środowisko JAVA SDK 1.4.2 dla programistów, 

•  MySQL w wersji 4.0.13 i programy pomocne przy zarządzaniu bazą danych, 

5)  kod źródłowy aplikacji OLSA System 1.0, 

6)  elektroniczną wersję pracy magisterskiej z rysunkami JPG w niej 

wykorzystywanymi.