Analiza przeżycia, dyskryminacyjna i skupień

ANALIZA PRZEŻYCIA
- (wikipedia) zbiór metod statystycznych badających procesy, w których interesujący jest
czas, jaki upłynie do (pierwszego) wystąpienia pewnego zdarzenia. Główną interesującą nas
zmienną będzie liczba dni, którą przeżyją pacjenci.
- (z ,,wykładu ) służy do oceny szansy przeżycia dla pacjentów po trudnych operacjach. W I
okresie zaczynamy badać parametry co jakiś czas, przez pewien okres czasu. Może nastąpić wtedy
zdarzenie, lub nie.
Za zdarzenia uznajemy:
�� śmierć pacjenta (stąd nazwa metody)
�� awaria urządzenia
�� zaprzestanie płacenia rachunków przez klienta
�� odejście pracownika z firmy
W zbiorze danych do analizy przeżycia wyróżnia się tzw. obserwacje ucięte albo cenzorowane, o
których wiadomo, że proces stochastyczny trwał dalej, jednak o jego dalszym czasie nie ma dalszych
danych (np. pacjenci wypisani ze szpitala). W naszym przypadku także tacy, którzy przeżyli dany
okres, czyli nie wystąpiło w ich przypadku zdarzenie. Terminu censoring (ucinanie) użył po raz
pierwszy Hald, 1949.
Czas przeżycia T stan między stanem wyjścia a wystąpieniem zdarzenia.
Funkcja przeżycia:
S(t) = P (T >t)
Funkcja hazardu -chwilowy potencjał wystąpienia zdarzenia, o ile pacjent dożyje czasu t:
1
Dokładność zależy od wybranego modeli (wykładniczy < Gompertza < Weilbulla)
Do estymacji:
Rokład wykładniczy: f(x) = ex - wpółczynnik, >0, x � (0, +")
Typowe metody analizy przeżycia obejmują:
�� tworzenie tablic trwania życia
�� estymację funkcji przeżycia (np. estymator Kaplana-Meiera, prawo umieralności Weibulla)
�� modele regresyjne (np. model proporcjonalnego hazardu Coksa)
Tablica trwania życia - Technika oparta na tablicach trwania życia jest jedną z najstarszych
metod analizy danych dotyczących przeżycia (czasu bezawaryjności); np. patrz Berkson i Gage,
1950; Cutler i Ederer, 1958; Gehan, 1969. Tablicę taką można traktować jako rozbudowaną tablicę
rozkładu liczności. Rozkład czasów przeżycia dzieli się na pewną liczbę przedziałów. Dla każdego
przedziału możemy obliczyć liczbę i proporcję przypadków lub obiektów, które weszły do danego
przedziału "żywe", liczbę i proporcję przypadków, które uległy awarii w danym przedziale (tzn.
liczbę ostatecznych zdarzeń lub liczbę przypadków, które "wymarły") oraz liczbę przypadków
utraconych lub uciętych w danym przedziale.
Liczba przypadków zagrożonych. Jest to liczba przypadków, które weszły do danego przedziału
żywe minus połowa liczby przypadków utraconych lub uciętych w danym przedziale.
Proporcja przypadków ulegających awarii. Proporcję tę oblicza się jako stosunek liczby
przypadków wymierających w danym przedziale do liczby przypadków zagrożonych w tym
przedziale.
Proporcja przypadków przeżywających. Proporcję tę oblicza się jako 1 minus proporcja
przypadków wymierających.
Skumulowana proporcja przeżywających (Funkcja przeżycia). Jest to skumulowana proporcja
przypadków przeżywających aż do danego przedziału. Ponieważ zakłada się, że
prawdopodobieństwa przeżycia są niezależne w kolejnych przedziałach, prawdopodobieństwo to
oblicza się przez wymnożenie prawdopodobieństw przeżycia ze wszystkich poprzednich
przedziałów. Wynikową funkcję nazywa się także przeżyciem lub funkcją przeżycia.
Gęstość prawdopodobieństwa. Jest to oszacowane prawdopodobieństwo defektu w danym
przedziale obliczone w jednostce czasu, to jest:
Fi = (Pi-Pi+1) /hi
W powyższym wzorze, Fi oznacza odpowiednią gęstość prawdopodobieństwa w i-tym przedziale, Pi
to oszacowana skumulowana proporcja przeżywających na początku i-tego przedziału (na końcu
2
przedziału i-1 ), Pi+1 to skumulowana proporcja przeżywających przy końcu przedziału i, a hi to
szerokość danego przedziału.
Stopa hazardu. Stopę hazardu (terminu użył po raz pierwszy Barlow, w roku 1963) definiuje
się jako prawdopodobieństwo na jednostkę czasu, że przypadek, który przeżył do początku danego
przedziału ulegnie w tym przedziale awarii. W szczególności oblicza się ją jako liczbę przypadków
awarii w jednostkach czasu w danym przedziale, podzieloną przez przeciętną liczbę przypadków
przeżywających w środku przedziału.
Mediana czasu przeżycia. Jest to czas przeżycia, w którym skumulowana funkcja przeżycia
jest równa 0.5. Odpowiednio można policzyć inne percentyle (percentyl 25 i 75) skumulowanej
funkcji przeżycia. Zauważmy, że 50 percentyl (mediana) skumulowanej funkcji przeżycia zazwyczaj
nie jest tym samym punktem w czasie, do którego przeżyło 50% próby. (Byłoby tak tylko wtedy,
gdyby w czasie poprzedzającym nie było żadnych obserwacji uciętych ).
Wymagane wielkości prób. Aby otrzymać rzetelne oszacowania trzech głównych funkcji
(przeżycia, gęstości prawdopodobieństwa i hazardu) oraz ich błędy standardowe, w każdym
przedziale czasowym minimalna zalecana wielkość próby powinna wynosić 30.
Estymator Kaplana-Meiera używany w statystycznej analizie przeżycia estymator
prognozujący funkcję przeżycia. W badaniach medycznych może być użyty np. do przewidywania
frakcji pacjentów, którzy przeżyją określony czas po operacji. Ekonomista może szacować czas jaki
ludzie pozostają bezrobotni po utracie pracy. Inżynier może mierzyć czas do awarii urządzenia.
Wykres estymaty Kaplana-Meiera funkcji przeżycia składa się z szeregu poziomych odcinków,
schodzących coraz niżej (funkcja schodkowa). Coraz większa próba statystyczna powoduje
powstanie coraz większej liczby coraz krótszych odcinków, w granicy dążąc do prawdziwej funkcji
przeżycia.
Ważną zaletą estymatora Kaplana-Meiera jest branie pod uwagę obserwacji cenzorowanych
braków danych od pewnego momentu czasu, różnego dla każdego obserwowanego obiektu (np.
w przypadku odejścia pacjenta ze szpitala, utraty kontaktu z badanym, itp.).
W statystyce medycznej typowe zastosowanie może obejmować podział pacjentów na grupy
różniące się tylko jedną cechą, np. występowaniem określonego genu, albo podawaniem innego
leku. Na wykresie pacjenci z grupy B umierają znacznie szybciej niż z grupy A. Po dwóch latach 80%
pacjentów z grupy A ciągle żyje, a z grupy B mniej niż połowa.
Wartość charakterystyczna przeżycia w statystycznej analizie przeżycia czas do momentu
w którym populacji zginęło (uległo awarii). Wielkość ta jest równa parametrowi skali
w dopasowanym do danych rozkładzie Weibulla.
ANALIZA DYSKRYMINACYJNA
- (wikipedia) zespół metod wielowymiarowej analizy danych. Zalicza się do grupy prognoz
ilościowych. Zawiera metody, które czynią z tej techniki niezwykle efektywne narzędzie do
zagadnień klasyfikacyjnych i technik eksploracja danych. Jej zadaniem jest rozstrzyganie, które
zmienne w najlepszy sposób dzielą dany zbiór przypadków na występujące w naturalny sposób
grupy. Pozwala rozstrzygnąć, czy grupy różnią się ze względu na średnią pewnej zmiennej, oraz
wykorzystanie tej zmiennej do przewidywania przynależności do danej grupy.
- (z ,,wykładu ) podział dużego zbioru danych na grupy wg jakiejś cechy (czynnika
dyskryminacyjnego), pozwala wyróżnić tą cechę, jaką powodującą różnice między tymi grupami
3
Założenia:
1) Wielowymiarowa normalność (dane wylosowane z populacji musza reprezentować próbę z
wielowymiarowego rozkładu normalnego).
2) Macierze wariancji i kowariancji muszą być jednorodne
3) Średnie zmiennych w grupach nie mogą (nie powinny) być skorelowane z wariancjami
4) Minimalna liczebność najmniejszej grupy wynosi p-2 (p liczba zmiennych
dyskryminacyjnych)
5) Wartości odstające należy zidentyfikować i usunąć
Funkcja dyskryminacyjna
p liczba zmiennych dyskryminacyjnych
g liczba grup
Djk= �0 + �1x1jk+ & + �pxijk n liczebność grupy
� współczynniki kanonicznej funkcji dyskryminacyjnej
Djk wartości kanonicznej funkcji dyskryminacyjnej dla
k � <1,n>
k-tego przypadku w j-tej grupie
j � <1,g>
xijk i-ta zmienna dyskryminacyjna kanonicznej funkcji
i � <1,p>
dyskryminacyjnej dla k-tego przypadku w j-tej grupie
Średnia dla obiektu z 1 grupy
musi być bardziej zbliżona do
wartości swojej grupy niż grupy 2.
Ceintroidy punkty, wokół
których koncentrują się wartości
grup.
ANALIZA SKUPIEC
- (wikipedia) pojęcie z zakresu eksploracji danych oraz uczenia maszynowego, wywodzące się
z szerszego pojęcia, jakim jest klasyfikacja bezwzorcowa.
4
Analiza skupień jest metodą tzw. klasyfikacji bez nadzoru. Jest to metoda dokonująca
grupowania elementów we względnie jednorodne klasy. Podstawą grupowania w większości
algorytmów jest podobieństwo pomiędzy elementami wyrażone przy pomocy funkcji (metryki)
podobieństwa.
Poprzez grupowanie można również rozwiązać problemy z gatunku odkrywania struktury w
danych oraz dokonywanie uogólniania. Grupowanie polega na wyodrębnianiu grup (klas,
podzbiorów).
Wybrane cele dokonywania grupowania są następujące:
�� uzyskanie jednorodnych przedmiotów badania, ułatwiających wyodrębnienie ich
zasadniczych cech,
�� zredukowanie dużej liczby danych pierwotnych do kilku podstawowych kategorii, które
mogą być traktowane jako przedmioty dalszej analizy,
�� zmniejszenie nakładu pracy i czasu analiz, których przedmiotem będzie uzyskanie klasyfikacji
obiektów typowych,
�� odkrycie nieznanej struktury analizowanych danych,
�� porównywanie obiektów wielocechowych.
- (z ,,wykładu ) podział na grupy, dokonanie redukcji dużego zbioru danych na skupienia
- (podręcznik statsoftu) Pojęcie analizy skupień (termin wprowadzony w pracy Tryon, 1939)
obejmuje faktycznie kilka różnych algorytmów klasyfikacji. Ogólny problem badaczy wielu
dyscyplin polega na organizowaniu obserwowanych danych w sensowne struktury lub
grupowaniu danych. Innymi słowy, analiza skupień jest narzędziem do eksploaracyjnej analizy
danych, której celem jest ułożenie obiektów w grupy w taki sposób, aby stopień powiązania
obiektów z obiektami należącymi do tej samej grupy był jak największy, a z obiektami z
pozostałych grup jak najmniejszy. Analiza skupień może być wykorzystywana do wykrywania
struktur w danych bez wyprowadzania interpretacji/wyjaśnienia. Mówiąc krótko: analiza
skupień jedynie wykrywa struktury w danych bez wyjaśniania dlaczego one występują.
Populacja generalna &!: n obiektów � (O1, & , On)
Podzbiory: k zbiorów � ( S1, & , Sk)
Obiekty podobne mają być w tym samym skupieniu.
a) Si Sj = "
i, j � <1,k>
b) Si Sj = &!
Odległość d(Oi , Oj) miara niepodobieństwa obiektów
Macierz odległości d:
|0 & & dn1 |
D=|d21 0 & dn2 |
|& & & & |
|dn1 dn2 & 0 |
5
Metoda analizy skupień hierarchicznych (aglomeracyjne (każdy w osobnych skupieniu) i
podziałowe(jedno skupienie))
Gdy znamy problem i znamy liczbę skupień metoda k średnich 1975
Analiza głównych składowych pca redukcja wymiarowości (przekształcenie zmiennych
obserwowalnych w nowy zbiór nieskorelowanych zmiennych). 1936
�� zakładamy, że nie nastąpiła zmiana informacji
�� powstają zmienne nieobserwowalne
6
Uznajemy y za mało istotne, przekształcamy układ współrzędnych z XY na X Y
Y =0 zostają nam tylko wartości dla x .
Dane:
p zespół zmiennych początkowych (obserwowalne)
Z1 pierwsza składowa główna (nieobserwowalne)
Z1 = a11x1 + a12x2 + & + a1pxp
a współczynniki szukane, dobrane tak, by wariancja Z1 była jak największa. (a11 & a1p)
" a1i = 1
(S I) a1 = 0 <- p równań w formie macierzy
S macierz kowariancji dla zmiennych x1 & xp
I macierz jednostkowa
a1 wektor zawierający współrzędne (a11 & a1p)
wartości własne macierzy S
I a1 = 0
(S I)=0 -> wyliczenie wyznacznika -> wyliczenie
Mając wynik (a11 & a1p) należy ,,zrobić jak najmniej zmiennych .
7
Metoda EM
Kryteria analizy wartości:
1) Procent wariancji wyjaśnianej przez daną zmienną odrzucamy np. te wyjaśniające poniżej
5% lub 2%
2) Kryterium Kaisera zakłada, że skoro standaryzowane zmienne mają wariancję równą 1, to
nowe zmienne też powinny mieć wariancję równą 1. 1960
3) Oparty na kryterium Kaisera wykres osypiska (liniowy wykres kolejnych wartości własnych)
8

Wyszukiwarka