WYBRANE METODY ANALIZY WIELOZMIENNOWEJ – PODSTAWOWE ZAŁOŻENIA ANALIZY CZYNNIKOWEJ I DATA-MINING
Analiza wielozmiennowa- dotyczy przypadku z wieloma zmiennymi niezależnymi
Y = f(X)
Y = f(X1, X2, X3)
Y = X1 + X2 + X3 + X1X2 + X1X3 + X2X3
efekt addytywny interakcje
Y1
Y2 = f(X1, X2, X3)
Y3
Sposoby redukcji danych:
Skalowanie wielowymiarowe
Analiza regresji
Analiza czynnikowa
Taksonomie
ad. b) ANALIZA REGRESJI
- regresja – pojęcie wprowadzone przez Pearsona, zauważył on regresję wzrostu ojców: wysocy synowie mają niższych od siebie ojców
y = a + bx1 - równanie regresji
y = βx1 - wersja standaryzowana
- założenie homoscedastyczności rozkładów (wariancja składnika losowego jest identyczna dla wszystkich obserwacji) – oba rozkłady mają rozkład normalny
- najlepiej dopasowana prosta – odchylenia po obu stronach się niwelują
- współczynnik korelacji liniowej Pearsona:
kowariancja
- możemy przewidywać wartość jednej zmiennej na podstawie wartości drugiej zmiennej
- jaki procent wariancji zmiennej Y wyznacza procent wariancji zmiennej X? – WIELKOŚĆ EFEKTU/WPŁYWU zmiennej X na Y
- przy r = 0.5 w 25% przypadków nie ma pomyłki – czyli jest 25% wariancji wyjaśnionej
- R = a + b1x1…bnxn – równanie regresji wielokrotnej
R = β1x1 + β2x2 + β3x3 + β1x2
interakcja
- wagi β – wystandaryzowane współczynniki b, mówią o udziale wpływu danej zmiennej – te, które więcej wyjaśniają, mają wyższe wagi = porządek istotnościowy
- równanie regresji – przewidujemy jeden wynik na podstawie innych wyników
- eksperyment na modelu matematycznym – korelacja częściowa i cząstkowa – pozwalają manipulować wartościami zmiennych
- podstawą regresji jest obliczenie korelacji:
X1 X2 X3
X1 • • •
X2 • • • macierz korelacji – na przekątnej: wartość = 1; wartości są symetryczne
X3 • • •
- redukcja macierzy: SKALOWANIE WIELOWYMIAROWE – redukowanie liczby wymiarów:
- wymiary mogą być skorelowane – nachylone względem siebie (Cattell)
ad. c) ANALIZA CZYNNIKOWA – próba zobaczenia w przestrzeni wielowymiarowej czy istnieje prosta = analiza zmiennych składowych; potem prosta podlega rotacji; pierwszy czynnik wyjaśnia najwięcej (Spearman); czynniki są względnie od siebie niezależne (założenie o ortogonalności czynników), prostopadłe;
- Cattell (badał cechy osobowości): analiza czynnikowa – poszukujemy układu prostych, które nie muszą być między sobą prostopadłe;
- należy brać pod uwagę 3 pierwsze czynniki: główne 1 i 2 oraz resztę
- analiza czynnikowa konfirmacyjna – analiza ścieżek; w teorii określone są ścieżki powiązań między zmiennymi
- analiza czynnikowa eksploracyjna
- analiza czynnikowa pozwala odtworzyć strukturę badanego zjawiska
» Technika typu R – redukcja cech, zbiorów wymiarów
» Technika typu Q – TYPOLOGIA OBIEKTÓW – do jednego typu wchodzą obiekty podobne
» Technika typu S – redukcja okazji – poszukiwanie wzorca okazji
» Technika typu O – redukcja cech i okazji (np. periodyzacja rozwoju)
» Technika typu T – redukcja obiektów i okazji
» Technika typu P – redukcja cech i okazji
• Do dokonywania TYPOLOGII służy grupowanie ludzi: metody:
- K-średnia – wrocławska taksonomia; wariancja wewnątrzgrupowa jest mniejsza, niż wariancja międzygrupowa
Nazwy czynników są efektem pracy umysłowej badacza
Grup taksonomicznych nie opisuje się wartościami kryterialnymi – potrzeba 2 zbiorów danych – jeden do tworzenia grup, drugi do wyjaśniania grup.
Data mining – zgłębianie danych; sprawdzamy pierwszą eksplorację; etapy:
1) wstępnej eksploracji
2) budowania modelu
3) stosowania modelu
- techniki zgłębiania danych, eksploracyjne:
a) obliczeniowe – np. obliczanie normalności rozkładu
b) wykorzystanie sieci neuronowych – „uczenie” sieci, co ma być na wyjściu, jeśli dostarczymy coś na wejściu
c) technika graficzna – wizualizacja danych, kolory.