1. Podaj definicję BI i omów trzy główne technologie wykorzystywane w ramach BI
BI jest definiowane jako zorientowany na użytkownika proces zbierania, eksploracji, interpretacji i analizy danych, który prowadzi do usprawnienia i zracjonalizowania procesu podejmowania decyzji. Systemy te wspierają kadrę menedżerską w podejmowaniu taktycznych decyzji biznesowych, umożliwiają modyfikację i doskonalenie strategii biznesowych oraz procesów tak, aby uzyskać przewagę konkurencyjną, usprawnić proces, zwiększyć zyskowność, czy też generalnie osiągnąć postawione cele zarządcze.
Taka definicja jednoznacznie identyfikuje BI jako system informatyczny zarządzania (Nowicki 1998). Tak rozumiane systemy wspomagania decyzji biznesowych obejmują szerokie spektrum technologii, w tym głównie:
* narzędzia OLAP (ang. on-line analytical processing): oprogramowanie umożliwiające analizę wielowymiarową danych biznesowych poprzez integrację, agregację i odpowiedni sposób prezentacji (wizualizacji) różnego rodzaju danych.
* narzędzia eksploracji danych: algorytmy do automatycznej analizy dużych wolumenów danych, wykorzystujące metody statystyczne, ekonometryczne, czy też metody maszynowego uczenia się, umożliwiające analizę danych nie tylko o charakterze ilościowym, ale również jakościowym.
* narzędzia zarządzania wiedzą: umożliwiające składowanie, indeksowanie i analizę dokumentów tekstowych oraz powiązanie ich z innymi danymi.
Technologiczne systemy tej klasy budowane są z wykorzystaniem wspomnianych hurtowni danych, tj. systemów baz dedykowanych na zbieranie danych z różnych źródeł oraz efektywne ich udostępnianie użytkownikom końcowym.
Działania te prowadzone na przełomie lat 70/80 miały charakter incydentalny, programistyczny i były rozwijane pierwotnie w dwóch branżach, tj. w sieciach handlowych i firmach telekomunikacyjnych.
2. Jakie rodzaje zadań są wykonywane przez kadrę menedżerską wg. H.Simon’a ? i podaj przykłady zastosowania BI dla każdego obszaru zadań
Zadania, z którymi ma do czynienia kadra zarządzająca, dzielą się na trzy obszary (Simon 1977):
* nadzór, czyli standardowe działania związane z kierowaniem podwładnymi;
* rozwiązywanie zadań (problemów) dobrze ustrukturalizowanych (ang. well-structured), czyli decyzje programowalne, które mają charakter rutynowy i powtarzalny oraz dla których opracowano ścisłe procedury służące do ich podejmowania. Zatem nie występuje np. konieczność rozpatrywania od początku każdego przypadku, np. wysokość opłaty za dostawę;
* rozwiązywanie zadań (problemów) źle ustrukturalizowanych (ang. ill-structured), czyli decyzje nieprogramowalne, które dotyczą spraw nowych; nie występuje tu ustalony schemat postępowania oraz nie są znane ich następstwa. Nie ma gotowej metody rozwiązania, np. decyzja o rozpoczęciu działalności w nowym kraju.
3. Definicja hurtowni danych i podaj podstawowe uzasadnienia jej istnienia w architekturze BI
Hurtownia danych to: uporządkowany tematycznie (subject oriented), zintegrowany (intergrated), zawierający wymiar czasowy (time variant), nieulotny (non-volatile)zbiór danych (baza danych) wspomagających podejmowanie decyzji. Istotne jest zrozumienie powodów budowania hurtowni danych. Można wyróżnić co najmniej cztery takie przyczyny. Hurtownia danych umożliwia:
* przeprowadzanie analiz biznesowych bez ingerencji w operacyjną pracę systemów transakcyjnych – OLTP [(On-Line Transaction Processing) przetwarzanie transakcyjne; dostarcza efektywnych rozwiązań dla działań operacyjnych firmy, tj. efektywne i bezpieczne przechowywanie danych, transakcyjne odtwarzanie danych, aktualizacja danych, optymalizacja dostępu do danych]. Analizy biznesowe zazwyczaj wymagają złożonych i czasochłonnych obliczeń. Realizacja tych zadań nie może wpływać na codzienną operacyjną pracę systemów zawierających dane źródłowe. Na przykład analiza sprzedaży oparta o agregacje danych z faktur zarejestrowanych w systemie transakcyjnym nie może spowodować opóźnienia w wystawianiu bieżących faktur;
* całościowy wgląd w dane firmy (możliwość integracji danych z różnych źródeł), umożliwiający pełniejszy obraz zdarzeń gospodarczych zachodzących w przedsiębiorstwie. Na przykład w firmie telekomunikacyjnej może to być ustalenie całkowitej sprzedaży skierowanej do klienta nie tylko na podstawie zarejestrowanych rozmów w systemie billingowym, ale również zakupionych przez klienta akcesoriów (te dane są zarejestrowane w systemie sprzedażowym) w sklepach firmowych;
* dostęp do danych historycznych, czyli efekt rejestracji czasu wystąpienia danego zdarzenia oraz przechowywania danych w długich, nawet kilkunastoletnich, okresach czasu. Dzięki danym historycznym możliwe jest wykonanie większości podstawowych analiz biznesowych;
* ujednolicenie posiadanych informacji - poprawne wdrożenie hurtowni danych wymusza ujednolicenie pojęć i sprawia, że wynikowe wskaźniki mają tą samą interpretację w różnych działach firmy i są w jednolity sposób obliczane. Niweluje to tzw. problem wielu wersji prawdy firmy, w zależności od twórcy danego raportu.
4. Podaj przykład i omów schemat gwiaździsty
Przykładowy model wielowymiarowy - schemat gwiaździsty
Diagram na rysunku 3 nazywany jest modelem wielowymiarowym albo potocznie gwiazdą, z tego powodu, że wokół tablicy faktów powiązane są tablice wymiarów związkiem 1:N, co, przy odrobinie wyobraźni, przypomina wyglądem kształt gwiazdy. Formalnie schemat z rysunku 3 powinien być opisany: * Sprzedaż, * Produkt, * Czas
gdzie: Sprzedaż, Produkt i Czas są nazywane zbiorami encji. Pojedyncza encja w zbiorze reprezentowanym w tablicy jest po prostu wierszem w tej tablicy. Wyrażenia w nawiasach są opisami atrybutów charakteryzujących dany zbiór encji. Atrybuty podkreślone reprezentują klucz-identyfikator encji w zbiorze encji.
Odwołując się do tej konwencji, diagram z rysunku 3 jest nazywany diagramem związków encji (entity relationship diagram) i jest klasycznym sposobem modelowania baz danych. W zasadzie wystarczy już tylko określić formaty danych dla wyspecyfikowanych atrybutów i możliwe jest już wygenerowanie odpowiednich struktur danych w wybranym systemie zarządzania bazą danych.
5. Podaj rodzaje i przykłady źródeł danych dla hurtowni danych
Generalnie można wyróżnić następujące źródła danych:
* Pliki z danymi - mogą to być zarówno zwykłe pliki tekstowe, jaki i np. pliki excel'owe.
* Systemy transakcyjne - systemy realizujące powtarzalne transakcje wspierające bazowe procesy biznesowe firmy. Najbardziej popularny przykłady tej grupy to informatyczne systemy zarządzania:
ERP (enterprise resource planning) wspierające zarządzanie firmą w zakresie finansów, sprzedaży i logistyki, gospodarki magazynowej, produkcji, zakupów, zarządzania kadrami, itp.; systemy bankowe obsługi kont klientów; systemy bilingowe w firmach telekomunikacyjnych i energetycznych.
Technologiczne systemy tej klasy budowane są z wykorzystanie systemów zarządzania bazą danych zapewniających odpowiednie bezpieczeństwo i spójność przetwarzania transakcji - OLTP .
* Zasoby Internetu - mogą to być dane pobierane ze stron WWW jaki i np. połączenie z serwisami internetowymi automatycznie przekazującymi odpowiednie informacje w formie subskrypcji.
* Inne hurtownie danych.
6. Co to jest przetwarzanie analityczne on-line (OLAP) ? i omów podstawowe operacje
OLAP (ang. OnLine Analytical Processing) – oprogramowanie wspierające podejmowanie decyzji, które pozwala użytkownikowi analizować szybko informacje zawarte w wielowymiarowych widokach i hierarchiach. Narzędzia OLAP są często używane do wykonywania analiz trendów sprzedaży, czy też analiz finansowych (hurtownia danych). Są też przydatne do wstępnego przeglądania zbioru danych przez analityka we wstępnej fazie analiz statystycznych.
Do podstawowych operacji analizy danych wielowymiarowych zalicza się: określenie zakresu analizy (jakie fakty będą raportowane i w jakich wymiarach), drążenie – rozwijanie (umożliwiająca uszczegółowienie posiadanych informacji), zwijanie (uogólnienie), wycinanie (prezentacja faktów na wybranych zbiorze wymiarów przy założeniu wybrania określonych wartości, wycinanie np. kolumny OKRES), obracanie (umożliwia dogodną prezentację danych w raporcie), działania na faktach.
7. Jakie są możliwe operacje na faktach w ramach OLAP ?
* działania arytmetyczne, takie jak: sumowanie, największa i najmniejsza wartość, średnia itp., ranking, sortowanie z podziałem na grupy, selekcja, obliczanie wskaźników
8. Podaj formalną definicję informacji oraz podaj przykład
Informacja - I określa znaczenie (treść), jakie przy odpowiedniej interpretacji przypisuje się komunikatom (wiadomościom) - K. Komunikat - K = ( O, X, x, t ); gdzie: * O - opisywany obiekt,* X - cecha(atrybut) obiektu, * x - wartość cechy X,* t - czas, w którym cecha X obiektu O ma wartość x.
Na ogół informacja zarządcza kojarzona jest z informacją, którą dawniej nazywano SIK, tj. informacją dla kierownictwa, a obecnie powszechnie określaną MIS - Management Information Systems. Raporty tego systemu związane są z informowaniem o powstających ryzykach, np. utraty płynności przez bank, a także wykorzystywane są do monitorowania realizacji projektów, wpływających na efektywność banku w przyszłości.
9. Omów podstawowe różnicie pomiędzy informacją zarządczą a informacją strategiczną
* zarządzanie procesami i realizacją strategii - informacja zarządcza, * planowanie strategii i analiza otoczenia firmy - informacja strategiczna. * informacja zarządcza jest dostarczana na poziomie zarządzania taktycznym i operacyjnym, * informacja strategiczna jest dostarczana na strategicznym poziomie zarządzania. Strategiczna: Zakres: bardzo szeroki, przekrojowy, obejmujący cały system zarządzania przedsiębiorstwem. Stopień agregacji: wysoki, informacje przedstawione w skondensowanej formie raportów, Horyzont czasu: dotyczą przede wszystkim przyszłości, dominują długoterminowe prognozy (dotyczące otoczenia i stanu przedsiębiorstwa), analiza danych historycznych obejmuje swym horyzontem długie okresy działalności firmy. Związek z teraźniejszością minimalny, dominują informacje prognostyczne, informacje diagnostyczne występują w mniejszym stopniu. Dokładność: uogólnienia, informacje szacunkowe, przybliżone, zagregowane. Źródła: głównie zewnętrzne, otoczenie bliskie (w tym analiza konkurencji), otoczenie dalsze, informacje wewnętrzne występują w mniejszym stopniu do celów diagnostycznych.
Informacja zarządcza to zestaw informacji o funkcjonowaniu firmy. Jest potrzebna do zarządzania firmą. Jej podstawowym zadaniem jest wspomaganie kadry kierowniczej w podejmowaniu decyzji bieżących i strategicznych oraz wskazywanie zagadnień, na które trzeba zwrócić uwagę w działalności operacyjnej. Najważniejszymi cechami informacji zarządczej są: aktualność, przydatność, elastyczna struktura, duża różnorodność, przeznaczenie dla potrzeb wewnętrznych przedsiębiorstwa i pochodzenie głównie z systemów transakcyjnych tj. takich, które wspierają działalność operacyjną i systemów zarządzania przepływem pracy (worklfow).
10. Podaj przykłady zastosowań BI w zakresie dostarczania informacji zarządczej w odwołaniu do łańcucha wartości Porter’a
Przegląd wybranych zastosowań BI w podziale na trzy grupy procesów:
Procesy podstawowe: Sprzedaż, marketing i serwis , Logistyka (wewnętrzna i zewnętrzna), Operacje/produkcja; Procesy pomocnicze: Zarządzanie zasobami ludzkimi, Zarządzanie dostawcami ; Procesy zarządzania: Finanse .
11. Jakie powinien mieć własności wskaźnik (KPI) w kontekście zarządzania procesem biznesowym?
Wskaźnik powinien być (SMART): dziedzinowo zorientowany (specific), mierzalny (measurable), akceptowalny przez odpowiedzialnego za wskaźnik (agreed to), realistyczny w zakresie wpływu na to, co mierzy i ustalonych wartości planowanych (realistic), mierzony w określonych interwałach czasu (timely).
12. W jakim zakresie BI wspiera zarządzanie strategią firmy z wykorzystaniem paradygmatu zrównoważonej karty wyników ?
Poprawnie zbudowana i wdrożona zrównoważona karta wyników jest niezwykle silnym narzędziem zarządzania i można ją wykorzystać do: 1. przedstawiania, wyjaśniania i uzgadniania strategii wewnątrz organizacji , 2. powiązania celów strategicznych z budżetami rocznymi oraz wskaźników z wartościami planowanymi, 3. powiązania celów poszczególnych komórek organizacyjnych i pracowników z realizacją strategii, 4. powoływanie i nadzór na inicjatywami (projektami) strategicznymi, 5. systematyczną analizę okresową realizacji strategii, 6. pozyskiwanie informacji zwrotnej, aby aktualizować i poprawiać strategię, 7. powiązanie stopnia realizacji celów strategicznych z systemem wynagrodzeń pracowniczych.
13. Podaj cel procesu zarządzania informacją strategiczną i omów fazy składające się na ten proces
Generalnie zarządzanie strategiczne jest definiowane jako podejmowanie decyzji, nastawione na wykorzystanie szans i unikanie zagrożeń pojawiających się w otoczeniu przedsiębiorstwa, oparte na świadomości mocnych i słabych stron przedsiębiorstwa.
Na proces zarządzania informacją strategiczną składają się następujące fazy:
1. Analiza wymagań (determination of information requirements) - określenie obszaru zainteresowań (key intelligence topic) oraz podstawowych pytań, na które będzie poszukiwana odpowiedź (key intelligence question). Analiza wymagań jest prowadzona z zarządem firmy. Określone obszary zainteresowań, jak i konkretne pytania, są ukierunkowane na wsparcie (racjonalizację) decyzji strategicznych.; 2. Zbieranie danych źródłowych (raw data collection) - na podstawie analizy wymagań określane są źródła informacji, a następnie zbierane są "surowe" dane. Jak już wspomniano, są to zwykle zewnętrzne źródła danych mogące stanowić nawet do 95% wszystkich źródeł, z czego zdecydowana większość to źródła opublikowane i publicznie dostępne. 3. Przetwarzanie danych i analiza (editorial processing) - kluczowy etap całego procesu, który polega na przekształceniu zebranych "surowych" danych źródłowych w informację strategiczną. Pojawia się w tym miejscu kluczowe zagadnienie związane z opracowywaniem informacji strategicznej, gdzie, zgodnie z opinią Herberta Simona, problem nie tkwi w braku ilości informacji tylko w odpowiednim ich filtrowaniu i finalnym udostępnianiu decydentom tylko tych najbardziej istotnych. Kluczowe jest tutaj zrozumienie przez zespół brokerów potrzeb zarządu firmy, wyspecyfikowanych w etapie 1., oraz szerszego kontekstu rynkowego. Obecny rozwój technologii informatycznych może tylko w ograniczonym zakresie wspierać przetwarzanie danych i analizę. 4. Prezentacja i rozpowszechnianie informacji (distribution and visualization) - końcowy etap związany z przygotowaniem formy prezentacji informacji zarządczej dla zarządu oraz odpowiednią jej dystrybucją. Kluczowa jest tutaj umiejętność syntezy informacji, tj. wybór informacji istotnych oraz ich uporządkowanie. Rozległa wiedza i poprawnie przeprowadzona synteza, pozwala menedżerowi dostrzec ukryte relacje i anomalie oraz, co najważniejsze, finalnie implikuje umiejętność wyczulenia na to, co strategicznie istotne.
14. W jaki sposób można wykorzystać eksplorację danych tekstowych (text mining) w fazie przetwarzania i analizy danych?
Eksploracja danych tekstowych (text mining)4 (niestrukturalizowanych) polega na wydobywaniu informacji z nieustrukturalizowanych danych tekstowych. W trakcie etapu analizy danych źródłowych metody eksploracji danych tekstowych mogą być wykorzystywane do: 1. Klasyfikacji dokumentów tekstowych (text categorization) - automatycznego przyporządkowania dokumentu do wcześniej ustalonych klas (kategorii). Na przykład klasyfikowanie zebranych w internecie dokumentów dotyczących konkurencji do jednej z trzech klas: 1 - nowe produkty i technologie, 2 - bieżące wydarzenia, 3 - inne.; 2. Grupowania dokumentów tekstowych (text clustering), tj. automatycznej identyfikacji zbiorów (grup) dokumentów podobnych ze względu na pewną wspólną charakterystykę (np. to samo najczęściej występujące słowo kluczowe). Dla każdej zidentyfikowanej grupy określa się statystki, np. najważniejsze cechy wspólne każdej z grup. Możliwa jest w tu identyfikacja duplikatów i niemal identycznych dokumentów; 3. Ekstrakcji informacji - czyli wyodrębniania z dokumentu tekstowego obiektów o określonej interpretacji semantycznej, na przykład: osoby, organizacje, miejsca, rzeczy, zdarzenia, a także powiązania (relacje) pomiędzy zidentyfikowanymi obiektami itp. (rys. 8). W ramach tej operacji możliwa jest również identyfikacja języka tekstu oraz interpretacja używanych skrótów, dat, jednostek miar itp. 4. Obróbki edytorskiej - automatycznego opracowania dokumentu w zakresie m.in. czyszczenia tekstu, tj. usuwania błędów ortograficznych, interpunkcyjnych itp. oraz opracowania streszczeń, tj. identyfikacji najważniejszych zdań i powiązanie ich w jednolity tekst.
15. Podaj definicję eksploracji danych i omów 4 podstawowe zadania realizowane przez algorytmy eksploracji danych
Eksploracja danych często jest określana jako odkrywanie wiedzy w bazach danych (knowledge discovery in databases), co jest związane z rozwojem tej dziedziny w kontekście analizy dużych repozytoriów baz danych. Istotnym elementem jest pojęcie wzorca, który określa odkrycie pewnej regularności czy powtarzalnej sytuacji (np. charakterystyczny wzorzec zachowań - tj. rodzaj i częstotliwość zakupów - w przypadku nielegalnego użycia karty kredytowej) lub wiedzy, która wcześniej nie była wiadoma. Wiedza, zgodnie z definicją encyklopedyczną, to ogół wiarygodnych informacji o rzeczywistości wraz z umiejętnościami ich wykorzystywania. Przykładem wiedzy otrzymanej w wyniku eksploracji danych są m. in. reguły decyzyjne.W kontekście przydatności do zastosowań biznesowych wyróżnia się następujące zadania:* klasyfikacj - przyporządkowanie obiektu do predefiniowanej klasy. Na przykład zaklasyfikowanie wniosku kredytowego jako wniosku niskiego, średniego lub wysokiego ryzyka. * estymacji - zadanie zbliżone do zadania klasyfikacji przy założeniu, że klasa do której przyporządkowujemy obiekt, ma ciągły, a nie dyskretny zbiór wartości. Tak rozumiana estymacja jest zwykle wykorzystywana dla zadania prognozowania. * odkrywanie reguł asocjacyjnych - wyszukiwanie grup obiektów, które występują razem w określonych kontekstach. Klasycznym przykładem tej klasy zadań jest analiza koszyka zakupów (market basket analysis), gdzie szuka się odpowiedzi na pytanie, jakie produkty sprzedają się w ramach jednego koszyka. *grupowanie - znajdowanie w zbiorze obiektów podzbiorów (grup) obiektów o podobnych własnościach. Przykładem zastosowania metod grupowania jest segmentacja rynku w badaniach marketingowych, gdzie można odnaleźć segmenty odpowiadające rzeczywistej sytuacji rynkowej, a nie zakładanej czy przypuszczalnej
16. Omów rozwiązanie zadania klasyfikacji: definicja, algorytmy, przykładowe zastosowania
Jednym z najpopularniejszych podejść do rozwiązania zadania klasyfikacji jest wykorzystanie drzew decyzyjnych (Breiman, Friedman, Olshen & Stone 1984), które są w stanie w sposób jawny reprezentować wiedzę o decyzjach klasyfikacyjnych. Podstawowa idea drzew decyzyjnych, zgodnie z podejściem Quinlana (Quinlan 1986), oraz algorytm działania zostaną omówione na przykładzie prostego systemu wspierania decyzji kredytowych w banku detalicznym. Decyzja o przyznaniu kredytu jest przykładem zadania klasyfikacji, które polega na zaklasyfikowaniu wniosku kredytowego, opisanego zbiorem atrybutów charakteryzujących, do jednej z dwóch klas: przyznać kredyt (TAK) lub odmówić przyznania (NIE). Rozwiązanie zadania klasyfikacji polega na zdefiniowaniu klasyfikatora, który umożliwiałby zakwalifikowane wniosków kredytowych do jednej z dwóch ustalonych klas
17. Omów podstawowe ograniczenia związane z konstruowaniem i eksploatacją klasyfikatorów
Podstawowe problemy to: 1. Problem indukcji - Uczenie się na podstawie przykładów jest wnioskowaniem indukcyjnym. Polega ono na tym, że na podstawie jednostkowych obserwacji (faktów) określa się wiarygodne uogólnienie wyjaśniające te obserwacje. Należy zatem pamiętać o fundamentalnym ograniczeniu związanym z wnioskami indukcyjnymi. W przeciwieństwie do wnioskowania dedukcyjnego niemożliwe jest udowodnienie, że wniosek indukcyjny jest prawdziwy. Natomiast można je jednoznacznie sfalsyfikować (Popper 1997). Wnioskowanie indukcyjne podtrzymuje fałsz, to znaczy, że jeżeli fakty podlegające uogólnieniu są nieprawdziwe, to wnioski indukcyjne również będą nieprawdziwe, natomiast z prawdziwych faktów niekoniecznie musimy uzyskać prawdziwe wnioski. Tak więc niejako z definicji każdy wniosek indukcyjny należy traktować jako niepewny.; 2. Problem historii i aktualizacji - Proces generowania klasyfikatora jest uczeniem się na podstawie obserwacji (faktów), które zaistniały w przeszłości w odniesieniu do momentu, kiedy już gotowy klasyfikator jest używany. Oczywiste jest, że opisany klasyfikatorem fragment rzeczywistości podlega zmianom w czasie. Jest to kluczowe zagadnienie zwłaszcza w zastosowaniach biznesowych, gdzie klasyfikator nawet w relatywnie krótkim czasie po procesie uczenia, może generować wadliwe decyzje w wyniku gwałtownych zmian na rynku. Tak więc ponownie mamy fundamentalny problem kolejnego czynnika wpływającego na niepewność klasyfikacji. Oczywista jest zatem potrzeba aktualizacji klasyfikatora w oparciu o nowe fakty (obserwacje) i "zapominanie" z czasem najbardziej archaicznych przykładów.; 3. Problem "przeuczenia" - Jednym z podstawowych założeń konstrukcji klasyfikatora jest oczywiście jego poprawne klasyfikowanie - nie dla przykładów, na których był uczony, ale dla przykładów pochodzących spoza zbioru uczącego. Klasycznym zjawiskiem, w tym kontekście, jest tzw. przeuczenie klasyfikatora, nazywane często nadmiernym dopasowaniem do zbioru uczącego (overfitting). Nadmiernie dopasowane drzewo doskonale odzwierciedla przykłady uczące, jest zwykle bardzo rozbudowane i posiada bardzo małą zdolność generalizacji.
18. Omów rozwiązanie zadania grupowania: definicja, algorytmy, przykładowe zastosowania
Grupowanie polega na znajdowaniu w zbiorze obiektów podzbiorów (grup) obiektów o podobnych własnościach. Celem algorytmu grupowania jest podział zbioru obiektów na podzbiory (grupy), dla których podobieństwo obiektów wewnątrz grupy (inter class similarity) jest maksymalizowane, a podobieństw od obiektów z innych grup (intra class similarity) jest minimalizowane.
Jednym z najpopularniejszych podejść do zadania grupowania jest algorytm k-średnich1 (k-means). Algorytm ten działa następująco: 1. Losowo wybieramy K obserwacji (liczna K jest ustala priori) jako klasy jednoelementowe, które będą środkami ciężkości (centroidami). 2. Każdą obserwację przyporządkowujemy do najbliższej klasy (do jej środka ciężkości). 3. Obliczamy nowe środki ciężkości dla każdej z K klas. 4. Jeśli środek ciężkości nie zmieniły się znacznie, to koniec, w przeciwnym razie idź do punktu 2. Przykładem zastosowania metod grupowania jest segmentacja rynku w badaniach marketingowych, gdzie można odnaleźć segmenty odpowiadające rzeczywistej sytuacji rynkowej, a nie zakładanej czy przypuszczanej. To zadanie jest realizowane algorytmami grupowania (taksonomii) (cluster analysis). W przeciwieństwie do zadania klasyfikacji, gdzie jest ona podana, w przypadku grupowania zadaniem algorytmu jest określenie klas, w jakie można pogrupować obiekty. W tym właśnie kontekście uczenie się reguł klasyfikacyjnych określa się jako uczenie się pod nadzorem (supervised learning), natomiast identyfikacja grup obiektów nazywana uczeniem się nienadzorowanym bez nauczyciela (unsuperviesd learning).
19. Omów rozwiązanie zadania odkrywania reguł asocjacyjnych: j.w.
Odkrywanie reguł asocjacyjnych polega na wyszukiwaniu grup obiektów, które występują razem w określonym kontekście. Zadanie to jest realizowane poprzez wykorzystanie algorytmów analiz związków (association rules analysis). Klasycznym przykładem tej klasy zadań jest analiza koszyka zakupów (market basket analysis), gdzie szuka się odpowiedzi na pytanie, jakie produkty sprzedają się najczęściej razem (w ramach jednego koszyka).
20. Jakie algorytmy eksploracji danych i do jakich zadań biznesowych wykorzystuje się w analitycznych CRM ?
Zarys procesu eksploracji danych użycia: * Nauka domeny aplikacji - odpowiednie uprzedniej wiedzy i cele wniosku; * Tworzenie zbioru danych docelowych: wybór danych; * czyszczenie danych i przerób (może to zabrać 60% nakładu!); * redukcja i transformacja danych – znajdowanie przydatnych funkcji, wymiarów / zmniejszanie, reprezentacja niezmienne; * Wybór algorytmu miningowego; * Data mining: szukaj wzorów interesów; * ocena wzoru i prezentacja wiedzy - wizualizacja, przetwarzanie, usuwanie zbędnych wzorców, itp.; * Korzystanie z odkrytej wiedzy
Wykorzystuje się do: kontroli jakości, przewidywania popytu, optymalizacji zapasów, retencji klientów, analizy konkurencji, marketingu stargetowanego, cross hellingu, segmentacji rynku, zarządzania relacjami
21. W jaki sposób BI wspiera marketing bezpośredni ?
Nowa rewolucyjna jakość, jaką wnoszą techniki BI w marketingu bezpośrednim, to: * monitoring i pełna rejestracja zachowań klienta; * wykorzystanie zaawansowanych technik analitycznych; * możliwość integracji danych o kliencie z różnych źródeł, np. informacji o dokonanych transakcjach kartą kredytową, w powiązaniu z informacją o jego zainteresowaniach pobranych z portalu społecznościowego.
22. Co to jest Customer Intelligence (CI) ? oraz podaj główne obszary wsparcia marketingowej analizy klienta technikami BI
CI to analityczne przetwarzanie danych o kliencie w celach marketingowych. W ramach tego podejścia realizowany jest proces zbierania, analizy i wykorzystania danych o kliencie. Rejestrowanie historii zachowań klienta analizuje się w celu określenia jego profilu, preferencji i potrzeb. Jest to wykorzystywane do przygotowania dostosowanego do konkretnego klienta komunikatu marketingowego.
Główne obszary wsparcia marketingowej analizy klienta technikami BI w ramach CI: identyfikacja potencjalnych klientów (grupa docelowa); wybór kanału komunikacji; dobór odpowiedniego komunikatu i terminu jego przekazu.
23. Podaj własny oryginalny przykład biznesowego zastosowania CI
1. Propozycja zakupu książki w księgarni internetowej (np. Amazon.com) – identyfikacja klienta (profil klienta określony na podstawie jego danych teleadresowych, historii zakupów oraz historii przeglądanych stron WWW); kanał komunikacji (spersonalizowana strona); termin przekazu (w momencie przeglądania katalogu książek); komunikat (informacja o książce potencjalnie ciekawej dla klienta na podstawie analizy koszyków zakupów podobnych klientów); 2. Sprzedaż kosmetyków w sieci sprzedaży sklepów perfumeryjnych: identyfikacja klienta (identyfikowano, że klient interesuje się pielęgnacją urody i jego profil spełnia wymagania wzorcowe: kobieta pow. 25 roku życia); kanał komunikacji (sms lub mms w zależności od telefonu); termin przekazu (kiedy klient wchodzi na teren centrum handlowego); komunikat (informacja o specjalnej promocji nowej serii kosmetyków w sklepie na terenie shopping mall
24. Omów umiejscowienie aktywów niematerialnych w ramach mapy strategii Kaplan’a & Norton’a oraz problemy związane z kreowaniem wartości firmy z aktywów niematerialnych
W tym duchu powstała koncepcja zrównoważonej karty wyników Kaplana i Nortona (Zrównoważona karta wyników jest często implementowana jako narzędzie zarządzania strategią przedsiębiorstwa z wykorzystaniem narzędzi BI). Systemy wspomagania decyzji biznesowych są częścią kapitału informacyjnego, który należy do tzw. aktywów niematerialnych. Kaplan i Norton wyróżniają trzy kategorie zasobów niematerialnych o kluczowym znaczeniu dla realizacji strategii firmy: * kapitał ludzki - umiejętności, zdolności i wiedza pracowników firmy; * kapitał organizacyjny - kultura organizacyjna, jakość przywództwa, dostosowanie ludzi do zadań strategicznych oraz zdolność pracowników do dzielenia się wiedzą z innymi; kapitał informacyjny.
Na mapie strategii można zaobserwować powiązania między tymi zasobami a samą strategią. Zasoby umiejscowione w perspektywie uczenia się i rozwoju zrównoważonej karty wyników. Realizacja strategii powinna zwiększać wartość firmy. Klasycznym miernikiem w tym kontekście, umiejscowionym w perspektywie finansowej, jest ekonomiczna wartość dodana (economy value addend). PROBLEMY: * Pośrednie kreowanie wartości - aktywa niematerialne rzadko mają bezpośredni wpływ na wyniki finansowe. Zwykle wpływają na finanse firmy poprzez złożony łańcuch związków przyczynowo-skutkowych ; * Problem potencjalnej wartości - wartość aktywów niematerialnych jest potencjalna, tzn. może zostać wykorzystana dla kreowania wartości firmy, natomiast sama inwestycja w te aktywa nie implikuje wcale wzrostu wartości. Inwestycje w aktywa niematerialne, które wspierają procesy wewnętrzne, niekreujące wartości dla klienta, mogą generować tylko koszty obniżające wartość firmy. * Problem powiązania - aktywa o charakterze niematerialnym prawie nigdy nie tworzą wartości samej z siebie, tylko muszą być łączone z innymi z tej samej perspektywy.* Problem wymiaru czasu - potencjalny łańcuch wartości generowany przez aktywa niematerialne jest bardzo uzależniony od upływu czasu. Pierwotna przewaga konkurencyjna, uzyskana na przykład poprzez wdrożenie nowoczesnego systemu informatycznego, może być szybko utracona w wyniku podobnych działań konkurencji. Brak odpowiedniej opieki nad aktywami niematerialnym determinuje ich szybki proces starzenia i w efekcie wpływ negatywny na wartość firmy.
25. Gdzie w aktywach niematerialnych wg. Kaplan’a & Norton’a jest umiejscowione BI ?
Jak wspomniano, BI samo w sobie jako nawet najbardziej wyrafinowana nowinka technologiczna, nie będzie kreowało wartości firmy. Koniecznie jest powiązanie z procesami biznesowymi oraz uwzględnienie kontekstu organizacyjnego i czynnika ludzkiego. Finalnie, aby wykazać związek z ekonomiczną wartością firmy, istotne jest odwołanie do strategii oraz klarowne wytyczne, jak szacować zwrot z inwestycji, poprzez estymację NPV (Net Present Value).
26. Omów podstawowe fazy metodyki wdrożeniowej dla systemu BI ukierunkowanej na kreowanie wartości firmy
Zarys metodyki spełniającej powyższe kryteria przebiega w dwóch etapach: # Etap 1: ANALIZA: 1. Faza 1: odwołanie się do strategii; 2. Faza 2-3: reinżyniera procesów biznesowych; 3. Faza 4: opracowanie rekomendacji. Po realizacji etapu 1 wdrożenie systemu klasy BI będzie rekomendacją operacyjną (inicjatywą strategiczną), w celu modernizacji wybranych procesów. # Etap 2: REALIZACJA: 1. Faza 5-6: implementacja rekomendacji; 2. Faza 7-8: użytkowanie i analiza zwrotu z inwestycji
27. Jakie wyróżnia się poziomy wsparcia procesów biznesowych przez system informatyczny, w tym w szczególności BI ?
Można wyróżnić następujące poziomy wsparcia (powiązania) procesów biznesowych przez system informatyczny (w tym w szczególności BI): * AUTOMATYZACJA - proces istnieje, jest "automatyzowany", poprawiane są parametry procesu, takie jak: koszt i czas oraz opcjonalnie - jakość i elastyczność; * USPRAWNIENIE - proces istnieje i jest usprawniany; * NOWY PROCES - proces wcześniej nie istniał.
28. Omów wsparcie BI na poziomie „Automatyzacja procesu”: definicja, przykład, wpływ na wartość firmy
Wsparcie na poziomie operacyjnym jest automatyzacją procesu biznesowego, znanego w firmie i stanowiącego integralną część perspektywy procesów wewnętrznych. W tym podejściu zwykle skraca się czas realizacji procesu i poprawia jakość generowanych przez niego produktów. Poziom operacyjny ilustrowany jest na przykładzie automatyzacji procesu raportowania.
Zastosowanie techniki informatycznej implikuje automatyzację procesu i związaną z tym skrócenie czasu jego wykonania. Automatyzacja procesu jest najniższym poziomem zmian, możliwym do osiągnięcia w wyniku zastosowania IT. Czas zwrotu z inwestycji może być kontrowersyjnie długi, zwłaszcza przy kosztownych wdrożeniach, przy jednocześnie niskim poczuciu wartości dodanej uzyskanej z systemu. PRZYKŁAD: automatyzacja procesu raportowania w zakresie wyników sprzedaży; Branża - dystrybucja i handel; wdrożenie systemu raportowania klasy OLAP (on-line analitical processing) z wykorzystaniem hurtowni danych, który zastępuje ręcznie opracowywane raporty w środowisku Excel. Tabela 2b pokazuje potencjalne korzyści związane z przejściem pomiędzy stanem AS_IS (Excel) do usprawnienia TO_BE (narzędzie klasy OLAP); Potencjalna korzyść; Koszt - zmniejszenie liczby osób potrzebnych do przygotowania raportu -> redukcja kosztu; Jakość - zmniejszenie liczby błędów, poprawa jakości danych, dokładniejsza i wszechstronna analiza, lepsza wizualizacja; # pogłębienie wiedzy o badanym zjawisku biznesowym -> potencjalny wpływ na wzrost przychodów; # uniknięcie pracochłonnego szukania błędów -> redukcja kosztu; Czas - znaczące zmniejszenie czasu przygotowania raportu; # wiedza o zdarzeniach biznesowych i/lub więcej czasu na analizę -> potencjalny wpływ na wzrost przychodów; # redukcja kosztu
29. Omów wsparcie BI na poziomie „Usprawnienie procesu”: j.w.
Wsparcie na poziomie taktycznym, czyli usprawnienie procesu biznesowego, który jest w firmie znany, stanowi integralną część perspektywy procesów wewnętrznych. W tym podejściu modyfikacji podlega przebieg procesu albo sposób realizowanych przez niego zadań, przez co jego realizacja staje się bardziej efektywna. W przeciwieństwie do automatyzacji procesu, gdzie przepływ procesu i jego produkty pozostają zasadniczo niezmienione, w przypadku usprawnienia efekt końcowy usprawnianego procesu może być znacząco lepszy. PRZYKŁAD: usprawnienie procesu planowania popytu; Branża - produkcja i sprzedaż produktów szybko zbywalnych; wzdrożenie systemu generowania wsparcia procesu planowania sprzedaży poprzez użycie ekonometrycznych technik prognozowania. Potencjalna korzyść; Koszt - brak bezpośredniej redukcji kosztu procesu planowania
Jakość - większa dokładność prognozowania: # dłuższe cykle produkcyjne -> redukcja kosztu produkcji; # zmniejszenie poziomu zapasów -> redukcja kosztu magazynowania "out-of stock" -> wzrost przychodów; # minimalizacja braków na magazynie; Czas - znacząca redukcja czasu generowania prognozy -> potencjalny wzrost przychodów; Elastyczność - uwzględnienie czynników dodatkowych, np. promocji, zmodyfikowanych danych historycznych -> redukcja kosztu i/lub potencjalny wzrost przychodów
30. Omów wsparcie BI na poziomie „Nowy proces”: j.w.
Wprowadzenie nowego rozwiązania informatycznego wymaga powołania nowego procesu biznesowego, który będzie stanowić integralną cześć perspektywy procesów wewnętrznych, a zmiany te będą odczuwalne dla klienta. Brak istnienia wcześniej danego procesu biznesowego wynika zwykle z tego, że nie może on efektywnie egzystować bez technologii informatycznej, jest to charakterystyczne dla tzw. procesów "IT driven", których egzystencja jest uzależniona od technologii informatycznych. Poziom strategiczny ilustrowany jest na przykładzie wdrożenia systemu zarządzania kampaniami marketingowymi. PRZYKŁAD: system zarządzania kampaniami marketingowymi w celu redukcji odejść klientów do konkurencji; telekomunikacja GSM; wdrożenie systemu kampanii marketingowych ukierunkowanych na klientów o wysokim prawdopodobieństwie rezygnacji z usług i przejścia do konkurencji. Identyfikacja i odpowiednia obsługa klientów, którzy rokują odejście wymaga zastosowania złożonych technik analizy i eksploracji danych na dużych wolumenach danych rejestrowanych w systemie bilingowym. Zagadnienie to w praktyce jest nie do zrealizowania bez użycia technik informatycznych. W tym kontekście niemożliwe jest pokazanie bezpośrednio redukcji kosztów i cała analiza inwestycyjna zwykle koncentruje się na estymacji wzrostu przychodów.
31. Jakie są kluczowe problemy związane z użyciem finansowych metod oceny inwestycji w BI ?
Podstawowym problemem związanym w wykorzystaniem finansowych metod oceny inwestycji jest potrzeba prognozowania przepływów pieniężnych implikowanych przez rozważaną inwestycję. Te prognozy z definicji skazane są na spore ryzyko błędu. Dodatnie przepływy pieniężne mogą być generowane poprzez redukcję kosztów (np. system raportowania) i jest to relatywnie łatwe do oszacowania w przypadku inwestycji informatycznych. Niezwykle trudne do oszacowania są przepływy gotówkowe powodowane wzrostem dochodów dla inwestycji w aktywa niematerialne. Wynika to z ich pośredniego wpływu na wynik finansowy, płynący z zależności przyczynowo-skutkowych przebiegających poprzez procesy wewnętrzne.
32. Jaka jest rola zarządzania zmianą w projektach wdrożeniowych BI ?
Generalnie pojawia się tutaj kluczowe zagadnienie poprawnego „zanurzenia” technologii w celu usprawnienia określonego procesu biznesowego oraz naturalne uwzględnienie czynnika ludzkiego, czyli zarządzanie zmianą (change management). Jak już wspomniano, aktywa o charakterze niematerialnym prawie nigdy nie tworzą wartości same, tylko muszą być łączone z innymi, z tej samej perspektywy. Realia wdrożeniowe potwierdzają tę tezę i odpowiednie zarządzanie zmianą wydaje się fundamentalne dla powodzenia zastosowań systemów informatycznych wspierających zarządzanie. Celem funkcji zarządzania zmianami jest zapewnienie systematycznego wsparcia dla aspektów ”miękkich” oraz innych krytycznych dla sukcesu projektu, takich jak: zapewnienie poparcia zarządu, zarządzanie zespołem, ocena uczestników i komunikacja między nimi oraz identyfikacja działań niezbędnych dla obszarów, w które zaangażowani są uczestnicy. Uczestnicy to grupy oraz jednostki, zarówno w organizacji, jak i poza nią, które mają bezpośredni wpływ na przebieg projektu i/lub są pod jego pośrednim lub bezpośrednim wpływem.
33. Omów główne trendy rozwojowe BI
Niezwykle wyraźny jest trend pokazujący odejście od specjalizowanych ("punktowych") rozwiązań na rzecz spojrzenia holistycznego i budowania zintegrowanego systemu informatycznego, obsługujących przedsiębiorstwo kompleksowo. W tym nurcie BI będzie zanikać jako niezależny podmiot i stanie się integralnym elementem funkcjonalności, wspierającej zarządzanie w przedsiębiorstwie XXI wieku.
Ostatni fundamentalny kierunek rozwoju systemów BI to rozwiązywanie zadań (problemów) źle strukturalizowanych, zgodnie z klasyfikacja Herberta Simona. Zagadnienia te to tzw. decyzje nieprogramowalne, które dotyczą spraw nowych, nie występuje w nich ustalony schemat postępowania oraz nie są znane ich następstwa. W module 3 była mowa o wspieraniu rozwiązywanie problemów tej kategorii poprzez ich racjonalizację, tj. poprzez dostarczanie odpowiedniej informacji strategicznej zarządowi przedsiębiorstwa.
1. Konwergencja mediów - Personalizacja dostępu do zunifikowanych mediów w urządzeniach mobilnych, czyli: radio, TV, gazety, mobilny internet w jednym przenośnym urządzeniu; 2. Web mining oraz analiza danych tekstowych - Analiza zachowań użytkowników w portalach internetowych oraz społecznościach sieciowych (internetowych, mobilnych itp.).3. Sieci semantyczne - Próba interpretacji semantycznej zasobów sieci WWW w kontekście rozwoju tzw. "Semantic Web", która umożliwiałaby m.in. formułowanie zapytań w języku naturalnym oraz generowanie dodatkowej wiedzy poprzez wnioskowanie logiczne. 4. Systemy lokalizacji przestrzennej - powiązanie zachowań klientów z lokalizacją jest jednym z wiodących trendów rozwojowych, nie tylko tych wspomnianych w rozdziale 5, ale także innych, np. analiza sprzedaży w powiązaniu z informacją o rozkładzie geograficznym poszczególnych segmentów klientów. 5. Wirtualna rzeczywistość - trend rozwoju mediów i reklamy spersonalizowanej. W wariancie optymistycznym oznaczałby to m.in. rozwiązanie testu Turinga, tj. umiejętność prowadzenia przez komputer dialogu w języku naturalnym w taki sposób, że rozmówca nie jest w stanie rozpoznać, że rozmawia z "maszyną".