i
INNOWACYJNA GOSPODARKA
H
Nadzorowana analiza danych genomicznych - stabilna selekcja cech Danuta Gaweł
Politechnika Śląska Kontakt:
Mail: danuta.gawel@polsl.pl
Tematyka badawcza:
Analiza stabilności list cech (np. list genów) czyli list na których pierwszym miejscu znajduje się cecha, która najlepiej różnicuje badane grupy (np. pacjentów).
Metodyka:
Ocena stabilności list cech przy pomocy „klasycznych" wskaźników stabilności porównujących listę stworzoną na podstawie oryginalnego (niezmienionego) zbioru danych z listami cech stworzonymi na podstawie zmienionych zbiorów danych (wskaźniki s, Si, S2, wykres Correspondence At the Top i Bootstrap Based Feature Ranking). Ocena wrażliwości metod rangowania cech z wykorzystaniem wskaźnika wrażliwościowego. A także ocena jakości klasyfikacji na podstawie wyselekcjonowanych cech.
Analizę stabilności wykonano dla list genów tworzonych przy pomocy następujących metod rangowania:
• Krotność zmiany (FC)
• Probability fold change (PFC)
• Intensity-Conditioned Fold Change (CFC)
• Test t-Studenta
• Testt-Welcha
• Test t-Bayesa (BAYT)
• Significance analysis of microarrays (SAM)
• Stosunek sygnału do szumu (SN)
• Test Wilcoxona
• Analiza Głównych Składowych (PCA)
Przykładowy wynik:
Strona 11
Poniżej przedstawiono przykładowy wynik analizy stabilności i oceny jakości klasyfikacji dla danych mikromacierzowych otrzymanych w eksperymencie wykonanym na próbkach nowotworu jelita grubego. Dane zawierają informację odnośnie ekspresji 19058 genów dla 82 próbek (34 próbek nowotworu jelita grubego i 48 próbek tkanki normalnej). Przy pomocy metody Bootstrap wygenerowano 1000 zmienionych zbiorów danych (prób bootstrapowych) oraz przyjęto, że listy cech (genów) będą zawierać 50 pozycji.
Projekt „Śląska BIO-FARMA. Centrum Biotechnologii, Bioinżynierii i Bioinformatyki’'