Wprowadzenie
Współczesne komputery z łatwością gromadzą, przetwarzają i przesyłają dane. Dane te najczęściej opisują jakieś fragmenty rzeczywistości i mogą służyć jako jej obiektywna dokumentacja (na przykład w projekcie inżynierskim albo w księgowości bankowej). Komputerowe dane łatwo jest zbierać, porządkować i opracowywać - na przykład rachunkowo, analitycznie lub statystycznie - co pozwala zapanować nad tysiącami komputerowo redagowanych, a ostatnio często także elektronicznie zawieranych umów, a także elektronicznie generowanych rejestrów operacji finansowych i zapisów innych transakcji. Komputer potrafi nie tylko gromadzić dane i sprawnie wykonywać na nich różne obliczenia, ale potrafi je także bardzo szybko i dokładnie wyszukiwać, zestawiać a także porównywać, co umożliwia sprawne uzyskiwanie z komputera dowolnej sprawozdawczości rachunkowej - zarówno analitycznej jak i syntetycznej. Z kolei postępy cyfrowej telekomunikacji sprawiły, że obecnie dane przesyłane drogą elektroniczną mogą stanowić w szerokim zakresie zastosowań nowoczesny odpowiednik tradycyjnych papierowych dokumentów. Sieci komputerowe są dziś wszechobecne, gwarantując nieosiągalną uprzednio szybkość komunikacji oraz jej sprawność, zwiększaną dodatkowo czynnikiem bezpośredniego wprowadzania odpowiednio uwiarygodnionych elektronicznych dokumentów bezpośrednio do systemów ewidencyjnych i zarządczych odbiorcy, a także chroniąc środowisko przed koniecznością przetwarzania hektarów lasów na papierowe formularze, niezbędne przy tradycyjnym podejściu do problemu dokumentacji. W sumie można więc powiedzieć, że współczesna informatyka ekonomiczna sprawia, iż coraz sprawniej i coraz skuteczniej operujemy coraz większą liczbą danych, generowanych przez rosnącą intensywność i rosnący zasięg współczesnego biznesu.
Jeśli jednak dane mają być użyteczne dla człowieka w procesie podejmowania decyzji albo w innych procesach myślowych, to nie wystarczy samo tylko ich gromadzenie i arytmetyczne opracowywanie. Jeśli dane mają nam pomóc w rozwiązywaniu problemów, a nie mają służyć wyłącznie potrzebom ewidencji, to wymagają one z reguły odpowiedniej selekcji, prezentacji, przetworzenia czy agregacji. W rutynowych przypadkach mogą to robić odpowiednio zaprojektowane programy analityczne, w bardziej złożonych konieczne jest jednak wykroczenie poza krąg działań rutynowych i typowych analiz, a komputer musi działać tak, jak by działał człowiek wykorzystujący w swej pracy swoją inteligencję - rozwiązując pojawiające się problemy w sposób twórczy i zależny od zmiennej sytuacji.
Same dane jako takie są rzadko przydatne; dla osiągnięcia korzyści z ich posiadania trzeba je odpowiednio mądrze zinterpretować, aby stały się czytelne, zrozumiałe i użyteczne. Szczególnie ważne jest przy tym wykrycie i ujawnienie konsekwencji ukrytych w danych i ich relacjach, a także wykrycie i opisanie odpowiednich powiązań występujących między danymi, ale nie zawsze łatwo zauważalnych. Jak z tego wynika, nie wystarczy samo posiadanie danych, potrzebne jest dodatkowo ich mądre przeanalizowanie, a także zbudowanie sieci asocjacji ujawniających związki pomiędzy nimi. Poszukiwania takich ukrytych znaczeń zawartych w posiadanych danych wymaga z reguły wykonania wielu skomplikowanych operacji na danych. W dodatku wymagamy tu z reguły operacji niemożliwych do przewidzenia i opisania a priori, jako że w każdym zbiorze danych ważne i przydatne mogą się okazać inne jego cechy. Zadanie to jest jeszcze trudniejsze na skutek tego, że przy poszukiwaniu użytecznych właściwości danych oraz ich związków z reguły odwołujemy się do dość niejasnych („rozmytych”) kryteriów, które uniemożliwiają efektywne rozwiązanie formułowanych problemów metodą ścisłą (algorytmiczną), lecz wymagają skomplikowanych poszukiwań heurystycznych, zgrubnie tylko ukierunkowanych na określony cel. Do tego, aby sprostać zarysowanym wyżej zadaniom, służą tworzone od wielu lat algorytmy i programy najbardziej awangardowej części informatyki, tak zwanej sztucznej inteligencji. Nazwa tego działu informatyki u jednych - a są to głównie humaniści - budzi zastrzeżenia ideologiczne (twierdzą oni bowiem, że tylko człowiek może wykazywać inteligencję, gdyż jest ona immanentną cechą jego umysłu), u innych natomiast - a są to głownie twórcy literatury science fiction - wywołuje oczekiwania grubo przerastające rzeczywiste (aktualne i zapewne także przyszłe) możliwości tej dyscypliny. Tymczasem rzeczywiste właściwości i możliwości sztucznej inteligencji nie jest ani tak bardzo demoniczne, jak się tego obawiają filozofowie, ani nie są tak omnipotencjalne, jak to sobie imaginują literaci. Racjonalne podejście ujawnia, że istotą sztucznej inteligencji są metody analizy danych, które pozwalają wykryć ich ukryte właściwości, przy czym ważne jest, że dzięki procesom uczenia i adaptacji metody sztucznej inteligencji mają jedną, bardzo pożyteczną i interesującą cechę: potrafią udzielić sensownej odpowiedzi nawet wtedy, kiedy użytkownik, który z nich korzysta, nie potrafi zadać sensownego pytania. Nie ma w tym jednak żadnej metafizyki - po prostu umiemy dziś budować algorytmy, które potrafią mądrze analizować dane, w tym między innymi takie, jak opisano w prezentowanym tu skrypcie.
Tworzenie i rozwijanie takich algorytmów ma ogromne znaczenie, systematycznie rosnące, w miarę jak w światowych zasobach informacyjnych (w tym zwłaszcza w Internecie) gromadzi się i udostępnia coraz większą liczbę różnych danych. Dostępność tych danych ujawniła z całą ostrością różnicę, którą już wcześniej podkreślali teoretycy epistemologii: różnicę pomiędzy zbiorem danych (czy nawet bazą danych) a użyteczną informacją, a także różnicę między informacją i wynikającą z niej wiedzą. Zależności między tymi pojęciami, a także procesy, transformujące jedne w drugie przedstawiono schematycznie na rysunku 1.
Wbrew pierwotnym oczekiwaniom entuzjastów informatyki otwarcie globalnie dostępnych witryn internetowych, o autentycznie przebogatej zawartości, wcale nie przyczyniło się do wzbogacenia wiedzy ludzi, gdyż dostęp do większej liczby danych bynajmniej nie musi przekładać się na podobny przyrost użytecznej informacji, zaś od uzyskania informacji do zdobycia wiedzy droga też bywa daleka. Dlatego przed przystąpieniem do szczegółowego czytania tego skryptu i przed rozpoczęciem dokładnych studiów nad właściwościami i możliwościami konkretnych metod sztucznej inteligencji (których sporą liczbę poznamy dalej dosyć szczegółowo), należy sobie przyswoić jedno fundamentalne stwierdzenie, koniecznie potrzebne jako drogowskaz przy korzystaniu ze wszystkich możliwości współczesnej informatyki:
Dane to jeszcze nie informacja, a informacja to jeszcze nie wiedza!
Dopiero rezultaty uzyskane w wyniku stosownej selekcji i odpowiedniego (inteligentnego) przetworzenia danych, po ich właściwej analizie i prezentacji (co także jest bardzo ważne!), noszą cechy użytecznej informacji. Z kolei informacja może (ale nie musi!) dać się przekształcić w wiedzę za sprawą jej właściwej interpretacji. Same dane są więc w istocie wyłącznie surowcem informacyjnym, ponieważ informację jako taką trzeba dopiero wypracować wykorzystując te dane. Informację a także pochodną w stosunku do niej wiedzą otrzymuje się więc z danych dodając do nich niezbędny składnik inteligencji (własnej albo sztucznej), powiązanej ze świadomością celów rozważanego procesu informacyjnego.
Rys. 1. Proces rafinacji wiedzy na podstawie danych z wykorzystaniem sztucznej inteligencji (źródło: opracowanie własne)
Niezwykle ważny jest ten właśnie składnik teleologiczny, pozwalający na właściwą selekcję danych, poprawną ich agregację i użyteczną prezentację. Większość znanych obecnie systemów informatycznych stosowanych w praktyce gospodarczej problem ten w istocie ignoruje - z ogromną szkodą dla ich rzeczywistej użyteczności i przydatności.
Niestety, trzeba przyznać, że także sporo opracowań dotyczących sztucznej inteligencji, pisanych najczęściej przez techników i dla techników - nie uwzględnia specyficznych wymagań, wynikających z konieczności korzystania we współczesnym biznesie z pogłębionej analizy danych, angażującej semantyczny aspekt informacji (czyli powiązany z jej przeznaczeniem i konotacjami wynikającymi z wiedzy użytkownika). Również w bogatym piśmiennictwie dotyczącym tak zwanych hurtowni danych (data warehouse) zagadnienie inteligentnej eksploracji danych jest uwzględniane w śladowym zakresie. Uważamy to za spory mankament tych wszystkich prac, które - chociaż często pisane przez ekonomistów i dla ekonomistów - niestety wpisują się w technocentryczny styl myślenia o sztucznej inteligencji (w którym punktem wyjścia i punktem docelowym całej pracy jest maszyna albo jej oprogramowanie), podczas gdy rzeczywiste źródła i przesłanki postępu metod eksploracyjnej analizy danych tkwią obecnie (po pokonaniu rudymentarnych trudności technicznych) w sferze potrzeb biznesu i w uwarunkowaniach psychiki człowieka.
W sztucznej inteligencji w ogóle, a także w tym jej fragmencie, który najczęściej znajduje zastosowania w ekonomii, to znaczy w eksploracyjnej analizie danych, chodzi bowiem głównie o to, by zbiór posiadanych i powiązanych ze sobą informacji - utworzył ostatecznie wiedzę decydenta, potrzebną do osiągnięcia sukcesu w biznesie. Trzeba przy tym uwzględnić fakt, że miejscem, w którym ta wiedza powstaje, jest głównie umysł odbiorcy informacji. Nie da się stworzyć zasobu wiedzy w oderwaniu od psychiki człowieka, chociaż można w urządzeniach technicznych przygotować i zgromadzić dowolnie bogaty zasób informacji. Sens i racja bytu tego zasobu polegać będą jednak wyłącznie na tym, że każda nowa informacja wzbogacać będzie wiedzę odbiorcy, tworząc użyteczną wartość jedynie w nierozerwalnym związku z jego psychiką.
Nie oznacza to jednak wcale, że technika nie ma tu nic do powiedzenia, gdyż stopień tego wzbogacenia wiedzy odbiorcy zależy w stopniu krytycznym od treści i formy podania każdej nowej informacji. Co więcej - ta wydobyta z danych i odpowiednio wyekstrahowana informacja musi dodatkowo być uzależniona od wiedzy posiadanej wcześniej przez odbiorcę. Dlatego na pograniczu kilku obszarów wiedzy: informatyki, sztucznej inteligencji, psychologii, kognitywistyki, teorii i techniki podejmowania decyzji - wyrasta dziś nowa dyscyplina naukowa, nazywana eksploracją informacji albo (z angielska) data mining.
Nowoczesne techniki komputerowe dostarczają w tym obszarze ogromną liczbę bardzo wartościowych narzędzi, dzięki którym można zakupić, albo zbudować i użyć odpowiedni system eksploracji wiedzy niemal do każdego dającego się nazwać zastosowania. Doskonałość metod techniki nie zwalnia jednak twórców lub propagatorów takich systemów od obowiązku myślenia w kategoriach biznesowych. Jeśli bowiem systemy typu data mining będą budowane w oderwaniu od świadomości celu, bez uwzględnienia tego, że każda nowa informacja nie jest wartością samą w sobie, lecz jej znaczenie polega na tym, że w jakimś stopniu wzbogaca odbiorcę - to będą to twory martwe, mało przydatne, w istocie puste.
Sztuczna inteligencja, a zwłaszcza eksploracja danych tylko wtedy ma sens, jeśli wytwarza swoisty rezonans kognitywny między potrzebującym wiedzy człowiekiem i systemem komputerowym. Rezonans taki powoduje (w przypadku odpowiednio inteligentnego człowieka), że zmniejsza się jego niepewność dotycząca otaczającej rzeczywistości. Przyczynia się to do optymalnego (czyli najlepszego z jakiegoś konkretnego punktu widzenia) sposobu funkcjonowania tego człowieka w tej - lepiej poznanej dzięki wspomaganiu przez sztuczną inteligencję - obiektywnie skomplikowanej rzeczywistości. Uświadomienie sobie doniosłości tego faktu i wszystkich jego konsekwencji jest trudne - ale trud ten sowicie się opłaca.
Odwołując się do trochę już „zwietrzałego” (na skutek częstego używania i nadużywania) obrazowego porównania, można stwierdzić, że wiedza składa się z informacji, tak jak dom składa się z cegieł. Ale jak wiadomo, nie każda sterta cegieł jest domem i nie każde nagromadzenie informacji można utożsamiać z zasobem wiedzy. Budowa gmachu wiedzy wymaga więc zdobywania informacji, jednak czynnikiem decydującym o użyteczności nowych informacji jest sposób porządkowania tych wiadomości w umyśle użytkownika, a o tym decyduje schemat wydobycia informacji, sposób ich przedstawienia oraz wiedza już wcześniej posiadana przez odbiorcę. Nowa informacja poprzez synergię z wiedzą wcześniej zgromadzoną przez użytkownika bywa często źródłem zupełnie nowej wiedzy, pozornie nie wynikającej bezpośrednio z samych dostarczonych informacji, gdyż często drobny na pozór kwant informacji może być czynnikiem decydującym o całościowym zrozumieniu jakiegoś zjawiska lub procesu. Jeśli do takiego całościowego zrozumienia dochodzi w jakimś sformalizowanym systemie odniesienia - to możemy mówić o tworzeniu teorii naukowej lub o budowie modelu. Jednak także doświadczenia codzienne każdego człowieka obfitują w przykłady sytuacji, w których przyrost wiedzy (wewnętrznej) bywa całkiem niewspółmierny do ilości i jakości pozyskiwanej informacji.
Często trzeba pracowicie zgromadzić bardzo duży zasób pozornie mało przydatnych wiadomości, uzyskując przez długi czas stosunkowo niewielki przyrost realnej wiedzy, by potem nagle, po pozyskaniu kolejnej, na pozór mało istotnej informacji, doznać wspaniałego uczucia olśnienia, kiedy nagle wszystkie fakty stają się jasne, związki i relacje widoczne, a efekt końcowy, w postaci przyrostu wiedzy, skokowo rośnie w następstwie swoistej krystalizacji informacji dokonywanych w odpowiednio zasilonym wiadomościami mózgu. Nie zmienia to jednak w żaden sposób faktu, że źródłem wiedzy są zawsze pracowicie gromadzone informacje, a źródłem informacji są po prostu dane, tylko odpowiednio przetworzone, tak aby były interpretowalne przez odbiorcę.
Przedstawiając w tym skrypcie wybrane metody i techniki sztucznej inteligencji (a zwłaszcza eksploracyjnej analizy danych ekonomicznych) chcemy życzyć Czytelnikom książki, by zawarte w niej informacje, na zasadzie rezonansu kognitywnego, silnie i skutecznie wzbogaciły Waszą wiedzę. Będzie ona kluczem do Waszego sukcesu w społeczeństwie przyszłości, nazywanym najczęściej (chociaż zwykle bez podawania ścisłych definicji) społeczeństwem informacyjnym, oraz w przyszłej gospodarce, o której także niewiele jeszcze wiemy poza tym, że ma być ona systemem zorientowanym na wiedzę.
Ze względu na fonetyczne podobieństwo należy zwrócić uwagę na to, że nie chodzi tu o składnik teologiczny (który oznaczał by w znaczeniu religioznawczym część doktryny religijnej zajmująca się określeniem natury Boga), ale teleologiczny (czyli prakseologicznie ukierunkowany na cel).
Określenie „optymalny” stało się ostatnio bardzo popularne, gdyż brzmi poważniej i bardziej naukowo, niż trochę naiwne określenie „najlepszy”. Używając tego terminu należy jednak pamiętać, że w matematycznej teorii optymalizacji nie istnieje „optymalność w ogóle”, tylko zawsze definiowane jest precyzyjne kryterium (w postaci funkcji lub funkcjonału jakości) którego maksymalizacja jest tożsama z optymalizacją. Dlatego mówiąc o optymalności musimy (nawet potocznie) wskazywać, z punktu widzenia jakiego kryterium coś jest (lub nie jest) optymalne.
1
8
Dane
Lokalne
i globalne zasoby informacyjne
Selekcja
Dane użyteczne
Pobieranie
Przetwarzanie
Dane przetworzone
Analiza
Informacje
Sztuczna
inteligencja
Interpretacja
Wiedza