ANALIZA PRZEÅ»YCIA - (wikipedia) zbiór metod statystycznych badajÄ…cych procesy, w których interesujÄ…cy jest czas, jaki upÅ‚ynie do (pierwszego) wystÄ…pienia pewnego zdarzenia. GłównÄ… interesujÄ…cÄ… nas zmiennÄ… bÄ™dzie liczba dni, którÄ… przeżyjÄ… pacjenci. - (z ,,wykÅ‚adu ) sÅ‚uży do oceny szansy przeżycia dla pacjentów po trudnych operacjach. W I okresie zaczynamy badać parametry co jakiÅ› czas, przez pewien okres czasu. Może nastÄ…pić wtedy zdarzenie, lub nie. Za zdarzenia uznajemy: ·ð Å›mierć pacjenta (stÄ…d nazwa metody) ·ð awaria urzÄ…dzenia ·ð zaprzestanie pÅ‚acenia rachunków przez klienta ·ð odejÅ›cie pracownika z firmy W zbiorze danych do analizy przeżycia wyróżnia siÄ™ tzw. obserwacje uciÄ™te albo cenzorowane, o których wiadomo, że proces stochastyczny trwaÅ‚ dalej, jednak o jego dalszym czasie nie ma dalszych danych (np. pacjenci wypisani ze szpitala). W naszym przypadku także tacy, którzy przeżyli dany okres, czyli nie wystÄ…piÅ‚o w ich przypadku zdarzenie. Terminu censoring (ucinanie) użyÅ‚ po raz pierwszy Hald, 1949. Czas przeżycia T stan miÄ™dzy stanem wyjÅ›cia a wystÄ…pieniem zdarzenia. Funkcja przeżycia: S(t) = P (T >t) Funkcja hazardu -chwilowy potencjaÅ‚ wystÄ…pienia zdarzenia, o ile pacjent dożyje czasu t: 1 DokÅ‚adność zależy od wybranego modeli (wykÅ‚adniczy < Gompertza < Weilbulla) Do estymacji: RokÅ‚ad wykÅ‚adniczy: f(x) = ex - wpółczynnik, >0, x õ (0, +") Typowe metody analizy przeżycia obejmujÄ…: ·ð tworzenie tablic trwania życia ·ð estymacjÄ™ funkcji przeżycia (np. estymator Kaplana-Meiera, prawo umieralnoÅ›ci Weibulla) ·ð modele regresyjne (np. model proporcjonalnego hazardu Coksa) Tablica trwania życia - Technika oparta na tablicach trwania życia jest jednÄ… z najstarszych metod analizy danych dotyczÄ…cych przeżycia (czasu bezawaryjnoÅ›ci); np. patrz Berkson i Gage, 1950; Cutler i Ederer, 1958; Gehan, 1969. TablicÄ™ takÄ… można traktować jako rozbudowanÄ… tablicÄ™ rozkÅ‚adu licznoÅ›ci. RozkÅ‚ad czasów przeżycia dzieli siÄ™ na pewnÄ… liczbÄ™ przedziałów. Dla każdego przedziaÅ‚u możemy obliczyć liczbÄ™ i proporcjÄ™ przypadków lub obiektów, które weszÅ‚y do danego przedziaÅ‚u "żywe", liczbÄ™ i proporcjÄ™ przypadków, które ulegÅ‚y awarii w danym przedziale (tzn. liczbÄ™ ostatecznych zdarzeÅ„ lub liczbÄ™ przypadków, które "wymarÅ‚y") oraz liczbÄ™ przypadków utraconych lub uciÄ™tych w danym przedziale. Liczba przypadków zagrożonych. Jest to liczba przypadków, które weszÅ‚y do danego przedziaÅ‚u żywe minus poÅ‚owa liczby przypadków utraconych lub uciÄ™tych w danym przedziale. Proporcja przypadków ulegajÄ…cych awarii. ProporcjÄ™ tÄ™ oblicza siÄ™ jako stosunek liczby przypadków wymierajÄ…cych w danym przedziale do liczby przypadków zagrożonych w tym przedziale. Proporcja przypadków przeżywajÄ…cych. ProporcjÄ™ tÄ™ oblicza siÄ™ jako 1 minus proporcja przypadków wymierajÄ…cych. Skumulowana proporcja przeżywajÄ…cych (Funkcja przeżycia). Jest to skumulowana proporcja przypadków przeżywajÄ…cych aż do danego przedziaÅ‚u. Ponieważ zakÅ‚ada siÄ™, że prawdopodobieÅ„stwa przeżycia sÄ… niezależne w kolejnych przedziaÅ‚ach, prawdopodobieÅ„stwo to oblicza siÄ™ przez wymnożenie prawdopodobieÅ„stw przeżycia ze wszystkich poprzednich przedziałów. WynikowÄ… funkcjÄ™ nazywa siÄ™ także przeżyciem lub funkcjÄ… przeżycia. GÄ™stość prawdopodobieÅ„stwa. Jest to oszacowane prawdopodobieÅ„stwo defektu w danym przedziale obliczone w jednostce czasu, to jest: Fi = (Pi-Pi+1) /hi W powyższym wzorze, Fi oznacza odpowiedniÄ… gÄ™stość prawdopodobieÅ„stwa w i-tym przedziale, Pi to oszacowana skumulowana proporcja przeżywajÄ…cych na poczÄ…tku i-tego przedziaÅ‚u (na koÅ„cu 2 przedziaÅ‚u i-1 ), Pi+1 to skumulowana proporcja przeżywajÄ…cych przy koÅ„cu przedziaÅ‚u i, a hi to szerokość danego przedziaÅ‚u. Stopa hazardu. StopÄ™ hazardu (terminu użyÅ‚ po raz pierwszy Barlow, w roku 1963) definiuje siÄ™ jako prawdopodobieÅ„stwo na jednostkÄ™ czasu, że przypadek, który przeżyÅ‚ do poczÄ…tku danego przedziaÅ‚u ulegnie w tym przedziale awarii. W szczególnoÅ›ci oblicza siÄ™ jÄ… jako liczbÄ™ przypadków awarii w jednostkach czasu w danym przedziale, podzielonÄ… przez przeciÄ™tnÄ… liczbÄ™ przypadków przeżywajÄ…cych w Å›rodku przedziaÅ‚u. Mediana czasu przeżycia. Jest to czas przeżycia, w którym skumulowana funkcja przeżycia jest równa 0.5. Odpowiednio można policzyć inne percentyle (percentyl 25 i 75) skumulowanej funkcji przeżycia. Zauważmy, że 50 percentyl (mediana) skumulowanej funkcji przeżycia zazwyczaj nie jest tym samym punktem w czasie, do którego przeżyÅ‚o 50% próby. (ByÅ‚oby tak tylko wtedy, gdyby w czasie poprzedzajÄ…cym nie byÅ‚o żadnych obserwacji uciÄ™tych ). Wymagane wielkoÅ›ci prób. Aby otrzymać rzetelne oszacowania trzech głównych funkcji (przeżycia, gÄ™stoÅ›ci prawdopodobieÅ„stwa i hazardu) oraz ich bÅ‚Ä™dy standardowe, w każdym przedziale czasowym minimalna zalecana wielkość próby powinna wynosić 30. Estymator Kaplana-Meiera używany w statystycznej analizie przeżycia estymator prognozujÄ…cy funkcjÄ™ przeżycia. W badaniach medycznych może być użyty np. do przewidywania frakcji pacjentów, którzy przeżyjÄ… okreÅ›lony czas po operacji. Ekonomista może szacować czas jaki ludzie pozostajÄ… bezrobotni po utracie pracy. Inżynier może mierzyć czas do awarii urzÄ…dzenia. Wykres estymaty Kaplana-Meiera funkcji przeżycia skÅ‚ada siÄ™ z szeregu poziomych odcinków, schodzÄ…cych coraz niżej (funkcja schodkowa). Coraz wiÄ™ksza próba statystyczna powoduje powstanie coraz wiÄ™kszej liczby coraz krótszych odcinków, w granicy dążąc do prawdziwej funkcji przeżycia. WażnÄ… zaletÄ… estymatora Kaplana-Meiera jest branie pod uwagÄ™ obserwacji cenzorowanych braków danych od pewnego momentu czasu, różnego dla każdego obserwowanego obiektu (np. w przypadku odejÅ›cia pacjenta ze szpitala, utraty kontaktu z badanym, itp.). W statystyce medycznej typowe zastosowanie może obejmować podziaÅ‚ pacjentów na grupy różniÄ…ce siÄ™ tylko jednÄ… cechÄ…, np. wystÄ™powaniem okreÅ›lonego genu, albo podawaniem innego leku. Na wykresie pacjenci z grupy B umierajÄ… znacznie szybciej niż z grupy A. Po dwóch latach 80% pacjentów z grupy A ciÄ…gle żyje, a z grupy B mniej niż poÅ‚owa. Wartość charakterystyczna przeżycia w statystycznej analizie przeżycia czas do momentu w którym populacji zginęło (ulegÅ‚o awarii). Wielkość ta jest równa parametrowi skali w dopasowanym do danych rozkÅ‚adzie Weibulla. ANALIZA DYSKRYMINACYJNA - (wikipedia) zespół metod wielowymiarowej analizy danych. Zalicza siÄ™ do grupy prognoz iloÅ›ciowych. Zawiera metody, które czyniÄ… z tej techniki niezwykle efektywne narzÄ™dzie do zagadnieÅ„ klasyfikacyjnych i technik eksploracja danych. Jej zadaniem jest rozstrzyganie, które zmienne w najlepszy sposób dzielÄ… dany zbiór przypadków na wystÄ™pujÄ…ce w naturalny sposób grupy. Pozwala rozstrzygnąć, czy grupy różniÄ… siÄ™ ze wzglÄ™du na Å›redniÄ… pewnej zmiennej, oraz wykorzystanie tej zmiennej do przewidywania przynależnoÅ›ci do danej grupy. - (z ,,wykÅ‚adu ) podziaÅ‚ dużego zbioru danych na grupy wg jakiejÅ› cechy (czynnika dyskryminacyjnego), pozwala wyróżnić tÄ… cechÄ™, jakÄ… powodujÄ…cÄ… różnice miÄ™dzy tymi grupami 3 ZaÅ‚ożenia: 1) Wielowymiarowa normalność (dane wylosowane z populacji musza reprezentować próbÄ™ z wielowymiarowego rozkÅ‚adu normalnego). 2) Macierze wariancji i kowariancji muszÄ… być jednorodne 3) Åšrednie zmiennych w grupach nie mogÄ… (nie powinny) być skorelowane z wariancjami 4) Minimalna liczebność najmniejszej grupy wynosi p-2 (p liczba zmiennych dyskryminacyjnych) 5) WartoÅ›ci odstajÄ…ce należy zidentyfikować i usunąć Funkcja dyskryminacyjna p liczba zmiennych dyskryminacyjnych g liczba grup Djk= ²0 + ²1x1jk+ & + ²pxijk n liczebność grupy ² współczynniki kanonicznej funkcji dyskryminacyjnej Djk wartoÅ›ci kanonicznej funkcji dyskryminacyjnej dla k õ <1,n> k-tego przypadku w j-tej grupie j õ <1,g> xijk i-ta zmienna dyskryminacyjna kanonicznej funkcji i õ <1,p> dyskryminacyjnej dla k-tego przypadku w j-tej grupie Åšrednia dla obiektu z 1 grupy musi być bardziej zbliżona do wartoÅ›ci swojej grupy niż grupy 2. Ceintroidy punkty, wokół których koncentrujÄ… siÄ™ wartoÅ›ci grup. ANALIZA SKUPIEC - (wikipedia) pojÄ™cie z zakresu eksploracji danych oraz uczenia maszynowego, wywodzÄ…ce siÄ™ z szerszego pojÄ™cia, jakim jest klasyfikacja bezwzorcowa. 4 Analiza skupieÅ„ jest metodÄ… tzw. klasyfikacji bez nadzoru. Jest to metoda dokonujÄ…ca grupowania elementów we wzglÄ™dnie jednorodne klasy. PodstawÄ… grupowania w wiÄ™kszoÅ›ci algorytmów jest podobieÅ„stwo pomiÄ™dzy elementami wyrażone przy pomocy funkcji (metryki) podobieÅ„stwa. Poprzez grupowanie można również rozwiÄ…zać problemy z gatunku odkrywania struktury w danych oraz dokonywanie uogólniania. Grupowanie polega na wyodrÄ™bnianiu grup (klas, podzbiorów). Wybrane cele dokonywania grupowania sÄ… nastÄ™pujÄ…ce: ·ð uzyskanie jednorodnych przedmiotów badania, uÅ‚atwiajÄ…cych wyodrÄ™bnienie ich zasadniczych cech, ·ð zredukowanie dużej liczby danych pierwotnych do kilku podstawowych kategorii, które mogÄ… być traktowane jako przedmioty dalszej analizy, ·ð zmniejszenie nakÅ‚adu pracy i czasu analiz, których przedmiotem bÄ™dzie uzyskanie klasyfikacji obiektów typowych, ·ð odkrycie nieznanej struktury analizowanych danych, ·ð porównywanie obiektów wielocechowych. - (z ,,wykÅ‚adu ) podziaÅ‚ na grupy, dokonanie redukcji dużego zbioru danych na skupienia - (podrÄ™cznik statsoftu) PojÄ™cie analizy skupieÅ„ (termin wprowadzony w pracy Tryon, 1939) obejmuje faktycznie kilka różnych algorytmów klasyfikacji. Ogólny problem badaczy wielu dyscyplin polega na organizowaniu obserwowanych danych w sensowne struktury lub grupowaniu danych. Innymi sÅ‚owy, analiza skupieÅ„ jest narzÄ™dziem do eksploaracyjnej analizy danych, której celem jest uÅ‚ożenie obiektów w grupy w taki sposób, aby stopieÅ„ powiÄ…zania obiektów z obiektami należącymi do tej samej grupy byÅ‚ jak najwiÄ™kszy, a z obiektami z pozostaÅ‚ych grup jak najmniejszy. Analiza skupieÅ„ może być wykorzystywana do wykrywania struktur w danych bez wyprowadzania interpretacji/wyjaÅ›nienia. MówiÄ…c krótko: analiza skupieÅ„ jedynie wykrywa struktury w danych bez wyjaÅ›niania dlaczego one wystÄ™pujÄ…. Populacja generalna &!: n obiektów õ (O1, & , On) Podzbiory: k zbiorów õ ( S1, & , Sk) Obiekty podobne majÄ… być w tym samym skupieniu. a) Si Sj = " i, j õ <1,k> b) Si Sj = &! OdlegÅ‚ość d(Oi , Oj) miara niepodobieÅ„stwa obiektów Macierz odlegÅ‚oÅ›ci d: |0 & & dn1 | D=|d21 0 & dn2 | |& & & & | |dn1 dn2 & 0 | 5 Metoda analizy skupieÅ„ hierarchicznych (aglomeracyjne (każdy w osobnych skupieniu) i podziaÅ‚owe(jedno skupienie)) Gdy znamy problem i znamy liczbÄ™ skupieÅ„ metoda k Å›rednich 1975 Analiza głównych skÅ‚adowych pca redukcja wymiarowoÅ›ci (przeksztaÅ‚cenie zmiennych obserwowalnych w nowy zbiór nieskorelowanych zmiennych). 1936 ·ð zakÅ‚adamy, że nie nastÄ…piÅ‚a zmiana informacji ·ð powstajÄ… zmienne nieobserwowalne 6 Uznajemy y za maÅ‚o istotne, przeksztaÅ‚camy ukÅ‚ad współrzÄ™dnych z XY na X Y Y =0 zostajÄ… nam tylko wartoÅ›ci dla x . Dane: p zespół zmiennych poczÄ…tkowych (obserwowalne) Z1 pierwsza skÅ‚adowa główna (nieobserwowalne) Z1 = a11x1 + a12x2 + & + a1pxp a współczynniki szukane, dobrane tak, by wariancja Z1 byÅ‚a jak najwiÄ™ksza. (a11 & a1p) " a1i = 1 (S I) a1 = 0 <- p równaÅ„ w formie macierzy S macierz kowariancji dla zmiennych x1 & xp I macierz jednostkowa a1 wektor zawierajÄ…cy współrzÄ™dne (a11 & a1p) wartoÅ›ci wÅ‚asne macierzy S I a1 = 0 (S I)=0 -> wyliczenie wyznacznika -> wyliczenie MajÄ…c wynik (a11 & a1p) należy ,,zrobić jak najmniej zmiennych . 7 Metoda EM Kryteria analizy wartoÅ›ci: 1) Procent wariancji wyjaÅ›nianej przez danÄ… zmiennÄ… odrzucamy np. te wyjaÅ›niajÄ…ce poniżej 5% lub 2% 2) Kryterium Kaisera zakÅ‚ada, że skoro standaryzowane zmienne majÄ… wariancjÄ™ równÄ… 1, to nowe zmienne też powinny mieć wariancjÄ™ równÄ… 1. 1960 3) Oparty na kryterium Kaisera wykres osypiska (liniowy wykres kolejnych wartoÅ›ci wÅ‚asnych) 8