WYBRANE METODY ANALIZY WIELOZMIENNOWEJ - PODSTAWOWE ZAŁOŻENIA ANALIZY CZYNNIKOWEJ I DATA-MINING
Analiza wielozmiennowa- dotyczy przypadku z wieloma zmiennymi niezależnymi
Y = f(X)
Y = f(X1, X2, X3)
Y = X1 + X2 + X3 + X1X2 + X1X3 + X2X3
efekt addytywny interakcje
Y1
Y2 = f(X1, X2, X3)
Y3
Sposoby redukcji danych:
Skalowanie wielowymiarowe
Analiza regresji
Analiza czynnikowa
Taksonomie
ad. b) ANALIZA REGRESJI
- regresja - pojęcie wprowadzone przez Pearsona, zauważył on regresję wzrostu ojców: wysocy synowie mają niższych od siebie ojców
y = a + bx1 - równanie regresji
y = βx1 - wersja standaryzowana
- założenie homoscedastyczności rozkładów (wariancja składnika losowego jest identyczna dla wszystkich obserwacji) - oba rozkłady mają rozkład normalny
- najlepiej dopasowana prosta - odchylenia po obu stronach się niwelują
- współczynnik korelacji liniowej Pearsona:
kowariancja
- możemy przewidywać wartość jednej zmiennej na podstawie wartości drugiej zmiennej
- jaki procent wariancji zmiennej Y wyznacza procent wariancji zmiennej X? - WIELKOŚĆ EFEKTU/WPŁYWU zmiennej X na Y
- przy r = 0.5 w 25% przypadków nie ma pomyłki - czyli jest 25% wariancji wyjaśnionej
- R = a + b1x1…bnxn - równanie regresji wielokrotnej
R = β1x1 + β2x2 + β3x3 + β1x2
interakcja
- wagi β - wystandaryzowane współczynniki b, mówią o udziale wpływu danej zmiennej - te, które więcej wyjaśniają, mają wyższe wagi = porządek istotnościowy
- równanie regresji - przewidujemy jeden wynik na podstawie innych wyników
- eksperyment na modelu matematycznym - korelacja częściowa i cząstkowa - pozwalają manipulować wartościami zmiennych
- podstawą regresji jest obliczenie korelacji:
X1 X2 X3
X1 • • •
X2 • • • macierz korelacji - na przekątnej: wartość = 1; wartości są symetryczne
X3 • • •
- redukcja macierzy: SKALOWANIE WIELOWYMIAROWE - redukowanie liczby wymiarów:
- wymiary mogą być skorelowane - nachylone względem siebie (Cattell)
ad. c) ANALIZA CZYNNIKOWA - próba zobaczenia w przestrzeni wielowymiarowej czy istnieje prosta = analiza zmiennych składowych; potem prosta podlega rotacji; pierwszy czynnik wyjaśnia najwięcej (Spearman); czynniki są względnie od siebie niezależne (założenie o ortogonalności czynników), prostopadłe;
- Cattell (badał cechy osobowości): analiza czynnikowa - poszukujemy układu prostych, które nie muszą być między sobą prostopadłe;
- należy brać pod uwagę 3 pierwsze czynniki: główne 1 i 2 oraz resztę
- analiza czynnikowa konfirmacyjna - analiza ścieżek; w teorii określone są ścieżki powiązań między zmiennymi
- analiza czynnikowa eksploracyjna
- analiza czynnikowa pozwala odtworzyć strukturę badanego zjawiska
» Technika typu R - redukcja cech, zbiorów wymiarów
» Technika typu Q - TYPOLOGIA OBIEKTÓW - do jednego typu wchodzą obiekty podobne
» Technika typu S - redukcja okazji - poszukiwanie wzorca okazji
» Technika typu O - redukcja cech i okazji (np. periodyzacja rozwoju)
» Technika typu T - redukcja obiektów i okazji
» Technika typu P - redukcja cech i okazji
• Do dokonywania TYPOLOGII służy grupowanie ludzi: metody:
- K-średnia - wrocławska taksonomia; wariancja wewnątrzgrupowa jest mniejsza, niż wariancja międzygrupowa
Nazwy czynników są efektem pracy umysłowej badacza
Grup taksonomicznych nie opisuje się wartościami kryterialnymi - potrzeba 2 zbiorów danych - jeden do tworzenia grup, drugi do wyjaśniania grup.
Data mining - zgłębianie danych; sprawdzamy pierwszą eksplorację; etapy:
1) wstępnej eksploracji
2) budowania modelu
3) stosowania modelu
- techniki zgłębiania danych, eksploracyjne:
a) obliczeniowe - np. obliczanie normalności rozkładu
b) wykorzystanie sieci neuronowych - „uczenie” sieci, co ma być na wyjściu, jeśli dostarczymy coś na wejściu
c) technika graficzna - wizualizacja danych, kolory.
pierwotne wymiary (np. 26) - podzielone na 2 prostsze ze względu na swoją strukturę głęboką