Rozdział 1. Wprowadzenie - wybrane zagadnienia wielowymiarowej analizy statystycznej
1.1. Czym jest wielowymiarowa analiza statystyczna i do czego służy?
Najogólniej mówiąc wielowymiarowa analiza statystyczna jest zbiorem metod i technik anali/y danych, które to dane zwierają informacje o wielu obiektach (jednostkach) opisanych jednocześnie za pomocą wielu zmiennych. Problem pomiaru, zrozumienia istoty współzależności pomiędzy dużą liczbą zmiennych opisujących zjawiska i procesy z wielu dziedzin, przy użyciu wielu technik analizy wielowymiarowej wymaga dobrej znajomości metod matematycznych, szczególnie elementarnych podstaw algebry macierzy. Ostatnie lata przyniosły wzrost popularności stosowania tej grupy metod ze względu na:
- wzrost dostępności do wielu baz danych (w tym hurtowni danych w dużych instytucjach, np. bankowych, ubezpieczeniowych, itp.), w tym dostęp poprzez internet;
- powszechną dostępność do korzystania z metod i technik wielowymiarowej analizy statystycznej w wielu pakietach statystycznych, gdzie metody te zostały oprogramowane, stąd praktyczne korzystanie z nich jest dostępne w wielu pakietach statystycznych;
- ciągłe doskonalenie technik i procedur analitycznych z wielowymiarowej analizy statystycznej . co zwiększa atrakcyjność tych metod;
- wreszcie ze względów analitycznych i praktycznych konieczność analizy i wnioskowania na bazie dużej ilości zmiennych przyporządkowanych do poszczególnych obiektów.
Metody wielowymiarowej analizy statystycznej służą określonym celom analizy, i to odróżnia je od innych metod analiz statystycznych. Mówiąc dokładniej metody te służą (por. Johnson. Wicher, 2002, s.2):
• do redukcji dużego zbioru danych i uproszczenia ich struktury co w efekcie prow adzi do przejrzystej interpretacji wyników, innymi słowy ułatwia interpretację;
• do sortowania i grupowania obiektów, jednostek co prowadzi do uzyskania najlepszych wariantów grupowania, skupień jednostek;
• do badania zależności pomiędzy zmiennymi, jej skali i odpowiedź na wiele pytań. np. czy i które zmienne są ze sobą bardziej lub mniej powiązane, współzależne;
• do predykcji na bazie ustalonych zależności;
• do stawiania i testowania hipotez na bazie prowadzonych analiz (hipotezy dotyczą najczęściej parametrów populacji wielowymiarowej).