Koncepcja klasyfikatora opartego na programowaniu

ekspresji genów i logice rozmytej

Jacek Kluska

Politechnika Rzeszowska

2011

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

1 / 52

Problem klasyfikacji danych

Dane: zbiór rekordów danych (przykładów, obserwacji, ...):

{(

, y

)

. . . ,

(

, y

)

} ⊂

× {

. . . , c

}

⊂

Problem: Znaleźć model (klasyfikator) przydzielający c

dla x

∈

// Regresja:

{(

, y

)

. . . ,

(

, y

)

} ⊂

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

2 / 52

Wstęp - metody klasyfikacji danych

pojedyncze, wzmacniane, lasy drzew
(ID3, Quinlan 1979; CART, Breiman 1984; C4.5/C5 Quinlan 1993, ...)

kNN,

SVM,

ANN

MLP,
PNN,
RBF,
LVQ,
GMDH,

Na¨ıve Bayes,

Metoda k-średnich,

Rodziny klasyfikatrów,

GEP.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

3 / 52

Programowanie ekspresji genów (GEP) - fenotyp

Ferreira C., Gene Expression Programming. Mathematical Modeling
by an Artificial Intelligence (2nd Edition), Ser. Studies in
Computational Intelligence 21, Springer Verlag, 2006.
Idea: drzewo wyrażenia

(

) (

−

)

- fenotyp

// fenotyp - zespół dostrzegalnych cech powstałych w wyniku

// oddziaływania warunków środowiska na genotyp organizmu.

√

∗

−

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

4 / 52

GEP - język K, genotyp

012345678901
*-/Qb+b+aaab

- genotyp wyrażony w języku K

// genotyp - zespół genów danego organizmu,

// warunkujący jego właściwości dziedziczne.

∗

−

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

5 / 52

GEP - przykład wyrażenia boole’owskiego

{

A, O, N, I

}

;

A = AND, O = OR, N = NOT,

I = If-then-else: If a

1, then b; else c

0123456789012345
NIAbObbaaaabaabb

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

6 / 52

GEP - chromosomy i geny

Chromosomy GEP składają się z wielu genów, każdy o stałej
długości.

// Chromosomy - składniki jąder komórek, będące siedliskiem genów.

Założenia (GEP):

Gen =

glowa, ogon

i ⊂ {

funkcje,zmienne,stałe

} × {

zmienne,stałe

}

Ogon - zasobnik argumentów dla funkcji.

ogon

| = |

glowa

| (

ArgMax

−

) +

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

7 / 52

GEP - ORF

Otwarta ramka odczytu:

*b+a-a*ab

// ORF - każda sekwencja DNA lub RNA,

// która potencjalnie może ulec translacji na białko.

∗

−

∗

}

babbabbbababbaaa

}

głowa

ogon

∗

−

∗

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

8 / 52

GEP - przykład chromosomu dla wyrażeń arytmetycznych

0123456789012

*Qb+*/bbbabab

-a+QbQbbababa

/ba-/*bbaaaaa

Sub-ET1

Sub-ET2

Sub-ET3

∗

−

Chromosomy można łączyć, np.

++(

Sub-ET1

)(

Sub-ET2

)(

Sub-ET3

)

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

9 / 52

GEP - przykład chromosomu dla wyrażeń booleowskich

Przykład

0123456789012345

OcIbAcaabcbccaaa

IANAIbbaaaabaaab

AcbcIcaaaacaccaa

Można utworzyć

Sub-ET1

)(

Sub-ET2

)(

Sub-ET3

)

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

10 / 52

GEP - operacje genetyczne

Mutacja genetyczna

Inwersja genetyczna

Transpozycja genetyczna

Transpozycja genetyczna typu IS

Transpozycja genetyczna typu RIS

Przeniesienie genu

Rekombinacja genetyczna

Rekombinacja genetyczna jednopunktowa

Rekombinacja genetyczna dwupunktowa

Rekombinacja genetyczna zwykła

Operatory genetyczne dla stałych nymerycznych

Mutacja dc

Inwersja dc

Transpozycja dc IS

Mutacja losowych stałych mumerycznych

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

11 / 52

GEP - mutacja genetyczna - efekt kurczenia się fenotypu

*b+a

a*ab+//+b+

babbabbbababbaaa

*b+a

a*ab+//+b+

babbabbbababbaaa

∗

−

∗

=⇒

∗

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

12 / 52

GEP - mutacja genetyczna - efekt rozrastania się fenotypu

*b+a-a*a*

b+//+b+

babbabbbababbaaa

*b+a-a*a*

b+//+b+

babbabbbababbaaa

∗

−

∗

=⇒

∗

−

∗

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

13 / 52

GEP - inwersja genetyczna

Inwersja w GEP ograniczona jest tylko do głowy genów.

Przykład

Sekwencja “/Qb” w genie 1 (pozycje 1-3) została wybrana do inwersji.
Wynik:

012345678901234012345678901234012345678901234
-

/Qb

aadcdbadbdc-cbd+Qdbaabdacd+QbddQ-ddabdbbb

bQ/

aadcdbadbdc-cbd+Qdbaabdacd+QbddQ-ddabdbbb

Nowe chromosomy (indywidua) powstałe w wyniku inwersji są
syntaktycznie poprawne.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

14 / 52

GEP - transpozycja genetyczna

Fragmenty genomu (transposons) są aktywowane, a następnie są
przeniesione/kopiowane do innego miejsca w chromosomie.
W GEP są 3 rodzaje przestawiania fragmentów genów:

Transpozycja genetyczna typu IS (Insertion Sequence
transposition). Z całego chromosomu wybierana jest losowo
sekwencja IS. Jej kopia dodaje się w losowo wybranym miejscu
głowy genu, z wyjątkiem pierwszej pozycji.

Transpozycja genetyczna typu RIS (Root Insertion Sequence
transposition). Sekwencja wybierana jest z głowy genu, zaczyna się
od funkcji i jest kopiowana do startowej pozycji “root”. Głowa jest
skanowana w poszukiwaniu funkcji, począwszy od losowo wybranego
punktu (gdy nie ma funkcji, operator nic nie robi).

Przeniesienie genu (Gene transposition). Cały gen przenosi się do
początku chromosomu.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

15 / 52

Transpozycja genetyczna typu IS

Z całego chromosomu wybierana jest losowo pewna sekwencja “IS”
(Insertion Sequence). Jej kopia dodaje się w losowo wybranym
miejscu głowy genu, z wyjątkiem pierwszej pozycji.

Przykład

Chromosom składa się z trzech genów, każdy o długości głowy h

Wybrano sekwencję “

Qc+

” w genie 3 (pozycje 3-5) i umieszczono

pomiędzy pozycje 1-2 w genie 2:
012345678901234012345678901234012345678901234
/cQQ*b+bccabdaaQb/Qdd-dcbdbadd-*d

Qc+

bccaabaad

/cQQ*b+bccabdaaQb

Qc+

dd-

dcbdbadd-*dQc+bccaabaad

usuń \dd-"

/cQQ*b+bccabdaaQb

Qc+

/Qdcbdbadd-*dQc+bccaabaad

Sekwencja “

dd-

” została usunięta, ponieważ nie mieści się w głowie genu.

Otrzymane w wyniku operacji “IS” nowe chromosomy (indywidua) są
syntaktycznie poprawne.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

16 / 52

GEP - transpozycja genetyczna typu RIS

Sekwencja “RIS” (Root Insertion Sequence) wybierana jest z głowy
genu, zaczyna się od funkcji i jest kopiowana do startowej pozycji
“root”. Głowa jest skanowana w poszukiwaniu funkcji, począwszy od
losowo wybranego punktu (gdy nie ma funkcji, operator nic nie robi).

Przykład

Chromosom składa się z trzech genów, każdy o długości głowy h

Wybrano losowo pozycje 3-4 w genie 3: “

-Q

”. Operacja RIS kopiuje “

-Q

”

do korzenia genu i wypycha “

”, ponieważ nie mieści się w głowie genu:

012345678901234012345678901234012345678901234
*a/cadQcabcdaca*aQb/ccccbbaaca/*c

-Q

abccdabb

*a/cadQcabcdaca*aQb/ccccbbaaca

-Q

/*c

-Q

abccdabb

usuń \d+"

*a/cadQcabcdaca*aQb/ccccbbaaca

-Q

/*c

-Q

abccdabb

W wyniku operacji “RIS”, ogon genu pozostaje nienaruszony i
wszystkie nowe chromosomy (indywidua) są syntaktycznie
poprawne.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

17 / 52

GEP - przeniesienie genu

(Gene transposition). Cały gen znika ze swojego oryginalnego
miejsca i przenosi się do początku chromosomu.

Przykład

Chromosom składa się z trzech genów, każdy o długości głowy h

Wybrano losowo gen 2: “

-cbd+Qdbaabdacd

”:

012345678901234012345678901234012345678901234
/cQQ*bQbccadbdc

-cbd+Qdbaabdacd

+*dbbcbccaabcad

-cbd+Qdbaabdacd

/cQQ*bQbccadbdc+*dbbcbccaabcad

Operacja ta nie zmienia fenotypu w przypadku podwyrażeń
(Sub-ETs), które są argumentami funkcji matematycznych {+, *} lub
{A, O}. Wszystkie nowe chromosomy (indywidua) otrzymane w
wyniku tej operacji są syntaktycznie poprawne.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

18 / 52

GEP - rekombinacja genetyczna jednopunktowa

Materiał genetyczny rodziców jest wymieniany dokładnie w tym
samym punkcie.

Przykład

W chromosomach złożonych z 3 genów u rodziców, został wylosowany
punkt genu 2 na pozycji 3-4, jako punkt krzyżowania:

012345678901234012345678901234012345678901234

+++*-QQbbdddbbb*-d*cbbbcdaddbd+-baaaaacdccbba

Q+-Q///bbaacccb-cda+-dbcacadad+d/c**abdbcabdb

Wynik:

012345678901234012345678901234012345678901234

+++*-QQbbdddbbb*-d*

+-dbcacadad+d/c**abdbcabdb

Q+-Q///bbaacccb-cda

cbbbcdaddbd+-baaaaacdccbba

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

19 / 52

GEP - rekombinacja genetyczna dwupunktowa

Materiał genetyczny rodziców jest wymieniany w dwóch punktach.

Przykład

W chromosomach złożonych z 3 genów u rodziców, zostały wylosowane 2
punkty: 6-7 w genie 1 oraz 3-4 w genie 3.

012345678901234012345678901234012345678901234

+ca*-+cdacabbca/Qdd-c+cddacdac+/ccbd/bcbadabb

Qcb+b+acddaadad*/*b/adadaddcba/bc-a+Qacdbbbaa

Wynik:

012345678901234012345678901234012345678901234

+ca*-+c

cddaadad*/*b/adadaddcba/bc-

bd/bcbadabb

Qcb+b+a

dacabbca/Qdd-c+cddacdac+/cc

a+Qacdbbbaa

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

20 / 52

GEP - rekombinacja genetyczna zwykła

Wymieniane są całe geny rodziców.

Przykład

Chromosom składa się z 3 genów. Wymieniany jest gen 2:

012345678901234012345678901234012345678901234

+Qaa-dcabdaddac-a*b-/aabdbbdba+caQ*bQcdcbdcac

//Q//bacdacabba/b/d+/acddbbdac*-c*-/acdbacddd

Wynik:

012345678901234012345678901234012345678901234

+Qaa-dcabdaddac

-a*b-/aabdbbdba

+caQ*bQcdcbdcac

//Q//bacdacabba/b/d+/acddbbdac*-c*-/acdbacddd

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

21 / 52

Algorytm GEP

Utworzenie chromosomów populacji początkowej.

Wykonaj program i oblicz przydatność.

Jeżeli spełniony warunek stopu, to KONIEC, w przeciwnym razie
wykonaj krok 4.

Jeżeli uzyskano najlepsze pokolenie, to wykonaj krok 6, w przeciwnym
razie wykonaj krok 5.

Selekcja, replikacja, mutacja, inwersja, transpozycja typu IS, RIS,
transpozycja genów, rekombinacja jednopunktowa, rekombinacja
dwupunktowa, rekombinacja genetyczna.

Nowy chromosom następnego pokolenia, skok do kroku 2.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

22 / 52

GEP - przykład poszukiwania funkcji boole’owskiej -
pokolenie 1

Dane uczące modelują f

{

0, 1

}

→ {

0, 1

}

Chromosom=

gen1,gen2

, h

3, t

4. Operacja łącząca: OR.

Próbka

Pokolenie 1

01234560123456
NaObaacOAbbcca-[0]

AaNcbbaNcOaacc-[1]

OONcbbbNcbcbca-[2]

ANNcaacNcObaab-[3]

AbObcbcOAacaac-[4]

←−

AcNbcbbAONbbcc-[5]

NAcbcacNbOaaba-[6]

NbNbbaaAacbacb-[7]

NAAaccaONacbbb-[8]

AAaccacNcaabab-[9]

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

23 / 52

GEP - przykład poszukiwania funkcji boole’owskiej -
pokolenie 2

Próbka

Pokolenie 2

01234560123456
AbObcbcOAacaac- [0]

NaObabcOAbbcca- [1]

NAAacccONOcbbb- [2]

aaNcbcaNcOaacc- [3]

AcNbcbbOONbbcc- [4]

AcNbcbbAONbbcc- [5]

AbObcbcOAAcaac- [6]

←−

NAAaccaONacbbb- [7]

AaNcbbaNcNaacc- [8]

cNNcaabNcObaab- [9]

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

24 / 52

GEP - przykład poszukiwania funkcji boole’owskiej -
pokolenie 3

Próbka

Pokolenie 3

01234560123456
AbObcbcOAAcaac- [0]

AbcbcbcOAAcaab- [1]

←−

AaNbbbaNcNaacc- [2]

ANNbabbOONbbcc- [3]

AcNbcbbAONbbcc- [4]

AbAccbcOAAcaac- [5]

NaObaccOAbbcca- [6]

AbObcbcOAacaac- [7]

AbabbbcOAacaab- [8]

AbObcbbOAacaac- [9]

Wynik: f

(

a, b, c

) = (

∧

) ∨ (

∧

) ∨ (

∧

)

. Dokładność 100%.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

25 / 52

GEP - funkcja dopasowania - liczba trafień

i - numer rozwiązania zadania, czyli programu, j - numer przypadku,
P

i ,j

- wartość funkcji

wyznaczona przez program

- wartość docelowa

odczytana z danych

p - dokładność zadana przez projektanta,
f

i ,j

- funkcja dopasowania zadana przez projektanta.

Błąd bezwzględny

i ,j

−

Błąd względny

i ,j

−

)

| ·

100

Reguła dopasowania:

If E

i ,j

p, then f

i ,j

1, else f

i ,j

Funkcja dopasowania (fitness function) typu “liczba trafień”:

∑

i ,j

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

26 / 52

GEP - funkcja dopasowania - błąd średniokwadratowy

n - liczba przypadków.
Błąd średniokwadratowy bezwzględny

∑

i ,j

−

Błąd średniokwadratowy względny

∑

i ,j

−

)

Funkcja dopasowania dla i -tego programu:

1000

// Przypadek idealny: f

1000.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

27 / 52

GEP - funkcja dopasowania - Rˆ2

Współczynnik korelacji liniowej Pearsona (“miara liniowości”) r

∈ [−

1, 1

]

// r

(

P, T

) ∈ [−

1, 1

]

, (r

= ±

1 - idealna zależność liniowa, r

0 -

zupełny brak korelacji liniowej).

i ,j

- wartość funkcji wyznaczona przez program,

- wartość docelowa odczytana z danych.

Współczynnik:

∑

n
j

(

i ,j

) −

∑

n
j

∑

n
j

i ,j

∑

n
j

−

∑

n
j

∑

n
j

i ,j

−

∑

n
j

i ,j

Funkcja dopasowania dla i -tego programu:

1000R

1000

// Przypadek idealny: f

1000.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

28 / 52

GEP - funkcja dopasowania dla klasyfikacji i syntezy
logicznej - macierz rozbieżności

Macierz rozbieżności (CM) w przypadku C klas:

Wynik

testu

· · ·

Stan

1,1

1,2

· · ·

1,C

faktyczny

2,1

2,2

· · ·

2,C

. ..

C ,1

C ,2

· · ·

C ,C

Macierz rozbieżności w przypadku C

Wynik

testu

tak

nie

Stan

tak

faktyczny

nie

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

29 / 52

GEP - funkcja dopasowania dla klasyfikacji i syntezy
logicznej - reguła

Funkcja dopasowania dla i -tego programu = liczba trafień = liczba
prawidłowo sklasyfikowanych danych:

h n

Przypadek idealny (np. w problemie poszukiwania funkcji
boole’owskiej): f

Dla C

2, możemy stosować regułę:

(

0 lub TN

)

, then f

0, else f

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

30 / 52

GEP - funkcja dopasowania dla klasyfikacji i syntezy
logicznej - czułość i specyficzność

Wynik

testu

tak

nie

Stan

tak

faktyczny

nie

Wynik

idealny

Czułość (sensitivity):

Specyficzność (specificity):

Funkcja dopasowania dla i -tego programu:

1000

Przypadek idealny: f

1000.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

31 / 52

GEP - funkcja dopasowania dla klasyfikacji i syntezy
logicznej - udział testów

Wynik

testu

tak

nie

Stan

tak

faktyczny

nie

Wynik

idealny

Udział testów dodatnich (positive predictive value):

PPV

Udział testów ujemnych (negative predictive value):

NPV

Funkcja dopasowania dla i -tego programu:

1000

PPV

NPV

1000

Przypadek idealny: f

1000.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

32 / 52

GEP - przykład aproksymacji funkcji - jak odkryć trzecie
prawo Keplera ?

III prawo Keplera: T

const

∗

, T - okres obiegu planety, a -

maksymalna odległość planety od środka masy układu Słońce-planeta,
const

= (

2π

)

(

))

, G - stała grawitacji, M - masa Słońca, m

- masa planety.

Planeta

Wenus

0.72

0.61

Ziemia

1.00

Mars

1.52

1.84

Jowisz

5.20

11.90

Saturn

9.53

29.40

Uran

19.10

83.50

Wynik: dwa chromosomy o długości 15, (h

7), połączone operacją “+”:

+*-Qaa+

aaaaaaaa

a+a+-**

aaaaaaaa

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

33 / 52

GEP - przykład - diagnostyka raka piersi

Baza danych: ftp.ira.uka.de/pub/neuron.

Atrybuty: x

= [

, d

]

, d

∈ [

0, 1

]

Wartości funkcji: y

∈ {

0, 1

}

Zbiór uczący:

{(

x, y

)

. . . ,

(

x, y

)

350

} ∈ [

0, 1

]

× {

0, 1

}

Zbiór testowy:

{(

x, y

)

. . . ,

(

x, y

)

174

} ∈ [

0, 1

]

× {

0, 1

}

Zadajemy parametry GEP: funkcję dopasowania (dokładność
klasyfikacji),

−

∗}

- dopuszczalne działania, h

8, ...

Otrzymana macierz rozbieżności przy uczeniu:

121

221

⇒

Błąd klasyfikacji:

121

221

→

2.29%

Otrzymana macierz rozbieżności przy testowaniu:

108

⇒

Błąd klasyfikacji:

108

→

2.30%

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

34 / 52

GEP - przykład - diagnostyka raka piersi - c.d.

Otrzymany program w języku K:

*.d0.*.d8.+.d1.d4.d2

.d1.d2.d2.d5.d8.d2.d1.d8.d0

*.-.d8.*.*.d6.d1.d1

.d5.d7.d8.d3.d5.d0.d7.d2.d7

*.-.d3.d5.*.d6.*.d5

.d4.d7.d8.d0.d2.d5.d5.d3.d2

Otrzymany klasyfikator:

If f

(

, d

)

θ, then y

1, else y

gdzie
- zadany próg: θ

0.1

- funkcja klasyfikatora wygenerowana przez program:

(

, d

. . . , d

) =

(

) +

(

−

) +

(

−

)

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

35 / 52

GEP - przykład - diagnostyka raka piersi - c.d.

Przykład działania reguły dla danych wziętych z bazy danych raka piersi:

(

, d

. . . , d

) = (

0.2, 0.1, 0.1, 0.1, 0.2, 0.1, 0.2, 0.1, 0.1

)

(

0.2, 0.1, 0.1, 0.1, 0.2, 0.1, 0.2, 0.1, 0.1

) =

0.0166

0.1

⇒

(

, d

. . . , d

) = (

0.5, 0.4, 0.6, 0.8, 0.4, 0.1, 0.8, 1.0, 0.1

)

(

0.5, 0.4, 0.6, 0.8, 0.4, 0.1, 0.8, 1.0, 0.1

) =

0.1224

0.1224 θ

0.1

⇒

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

36 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy

Wojewódzki Szpital Specjalistyczny w Rzeszowie, Kliniczny OGiP,
B. Obrzut, dr n. med.

Dane oryginalne:

93 rekordy

zrozumienie danych !

standaryzacja, ...,

kodowanie

Predyktory: BMI, choroby, operacje, OM, HP, G, FIGO

Wyjście: powikłania pooperacyjne:
{naciek rany, zaleganie moczu, zator tętnicy płucnej, gorączka,
limfotok, perforacja wrzodu dwunastnicy, arytmia serca, ...}

Założenie: Powiklania

∈ {

0, 1

}

Problem: Wytłumaczyć powikłania lub wykryć reguły.

“Ważenie” danych (D. Chassagne i in. (1993), Radiotherapy
and Oncology, 26, 195-202):

112 rekordów danych

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

37 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Predyktory:

BMI

, Choroby, Operacje, G, FIGO, HP typ, OM

Klasyfikacja wg WHO:

BMI

16 - wygłodzenie (underweight: severe thinness)

BMI

∈ [

16, 17

)

- wychudzenie (underweight: moderate thinness)

BMI

∈ [

17, 18.5

)

- niedowaga (underweight: mild thinness)

BMI

∈ [

18.5, 25

)

- wartość prawidłowa (normal range)

BMI

∈ [

25, 30

)

- nadwaga (overweight: severe thinness)

BMI

∈ [

30, 35

)

- otyłość I stopnia (obese class I)

BMI

∈ [

35, 40

)

- otyłość II stopnia (obese class II)

BMI 40 - otyłość III stopnia (obese class III)

BMI (WHO): niedowaga

(

)

, normalna

(

)

, nadwaga

(

)

, otylosc1

(

)

, otylosc2

(

)

, otylosc3

(

)

. . .

. . . , a

∈ {

0, 1

}

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

38 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Predyktory: BMI,

Choroby

Operacje

, G, FIGO, HP typ, OM

Choroby (przebyte i towarzyszące):
brak

(

)

, HA=nadciśnienie

(

)

, MIC=choroba niedokrwienna serca

(

)

HA MIC

(

)

, ASD=wada serca

(

)

, ARYTMIA

(

)

DM=cukrzyca

(

)

, HA DM

(

)

, HA LED=nadciśnienie+toczeń

(

)

ASTMA

(

)

. . .

, b

. . . , b

∈ {

0, 1

}

Operacje (przebyte): nie

(

)

, tak

(

)

, c

∈ {

0, 1

}

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

39 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Predyktory: BMI, Choroby, Operacje,

, FIGO, HP typ, OM

G - dojrzałość histologiczna (grading):

G1 (dobrze zróżnicowany): tak

(

)

G2 (średnio zróżnicowany): tak

(

)

G3 (nisko zróżnicowany): tak

(

)

, d

∈ {

0, 1

}

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

40 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Predyktory: BMI, Choroby, Operacje, G,

FIGO

, HP typ, OM

FIGO - stopień zaawansowania raka (Int. Federation of Gynecology and
Obstetrics, FIGO, 1995):

IB1 (średnica nacieku 4 cm): tak

(

)

IIB (naciek przymacicz niedochodzący do kości): tak

(

)

IA2 (głębokość nacieku

∈ (

3, 5

]

mm, średnica powierzchni nacieku 7

mm): tak

(

)

IB2 (średnica nacieku

4 cm):

(

)

IIA (naciek 2

/3 części górnych pochwy, bez zajęcia przymacicz):

(

)

. . .

, f

. . . , f

∈ {

0, 1

}

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

41 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Predyktory: BMI, Choroby, Operacje, G, FIGO,

HP typ

HP typ

∈ {

akeratodes, adeno, keratodes

}

;

akeratodes:

(

)

, adeno:

(

)

, keratodes:

(

)

, h

∈ {

0, 1

}

OM: tak

(

)

. nie

(

)

If OM 4, then k

1, else k

1, k

, k

∈ {

0, 1

}

Łącznie:

31 atrybutów zmiennych wejściowych (przy takim kodowaniu !)

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

42 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Spostrzeżenia:

Wartości predyktorów

∈ {

0, 1

}

. Są one jednak szacowane, nie zawsze

zmierzone dokładnie.

Jaka będzie predykcja, gdy

Średnica nacieku wynosi 1 cm, gdzie FIGO = IB1 (średnica nacieku 4
cm, f

BMI

24.9

∈ [

18.5, 25

)

- wartość prawidłowa

(

)

DM=cukrzyca

(

)

będzie bardziej lub mniej zaawansowana, ...

Założenie, że klasyfikator powinien być “miękki” wydaje się naturalne.

Cel: Dążymy do uzyskania reguł dla systemu P1-TS.
Podstawa: “Analytical Methods, ...” -

mocne zredukowanie problemu

przekleństwa wymiarowości systemów logiki rozmytej

- uzyskanie reguł dla

31 zmiennych dla P1-TS już nie powinno stanowić problemu.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

43 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Wynik GEP (po żmudnych przekształceniach)

∑

0.5, then y

1, else y

(

−

)

(

−

) (

−

)

= (

−

) (

−

) (

−

)

= (

−

) (

−

) (

−

)

(

−

) (

−

)

= (

)

(

−

) (

−

) (

−

)

= (

−

) (

−

) (

−

)

(

−

)

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

44 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Wyniki GEP - c.d.

(

−

)

(

−

) (

−

)

(

−

)

(

−

)

= (

)

(

−

)

(

−

)

= (

)

(

−

) (

−

) (

−

)

= (

)

(

−

) (

−

)

= (

)

(

−

) (

−

)

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

45 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Reguły P1-TS (“Analytical Methods, ...”):

| {z }

(

−

)

(

−

) (

−

)

MR1: If a

∧

, then y

{otyłość II stopnia}

∧

{nadciśnienie

∧

cukrzyca}, then y

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

46 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Reguły P1-TS (“Analytical Methods, ...”):

(

−

)

}

(

−

) (

−

)

MR2:
If

{BMI w normie}

∧

{Chorób nie było}

∧

{FIGO nie jest typu IIB}

∧

{OM 3},

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

47 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Trafność metareguł z konkluzją y

, PQ

= liczba rekordów danych, które potwierdzają metaregułę:

poprzednik jest zgodny z rekordem danych
i następnik jest zgodny z rekordem danych.

= liczba rekordów danych, które nie potwierdzają

metareguły:
poprzednik jest zgodny z rekordem danych
lecz następnik nie jest zgodny z rekordem danych.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

48 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Metareguły z konkluzją y

, PQ

i ich trafność.

MR1:

1,0

#59

MR2:

(

−

)

3,0

#84,103,104

MR3:

(

−

) (

−

)

2,0

#16,91

MR4:

(

−

) (

−

) (

−

)

= (

)

1,0

MR5:

(

)

(

−

) (

−

)

1,0

#49

MR6:

(

)

(

−

) (

−

) (

−

)

1,0

MR7:

(

)

(

−

)

1,0

#35

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

49 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Metareguły z konkluzją y

, PQ

i ich trafność.

MR8:

(

−

)

(

−

) (

−

)

2,0

#43, 98

MR9:

(

−

)

15,2

#10, 15, 46, 47, 50, 68, 69, 70, 73, 74, 77, 85, 88, 110, 112

MR10:

(

)

(

−

)

(

−

) (

−

)

1,0

#58

MR11:

(

)

(

−

)

(

−

)

7,0

#19, 20, 21, 22, 105, 106, 107

MR12:

(

)

(

−

) (

−

) (

−

)

6,0

#6, 7, 8, 24, 31, 37

MR13:

(

)

(

−

) (

−

)

5,0

#27, 28, 29, 52, 53

MR14:

(

)

13,2

#3, 4, 34, 45, 60, 61, 62, 63, 64, 65, 72, 75, 80

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

50 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

∑ PQ

, PQ

59, 4

, 59

−

55 przypadków trafnie

wytłumaczonych przez reguły. Błąd dla y

(

/59

) ∗

100

6.8%

Uwaga: Nowe (inne) metareguły dla y

0, (...)

CM:

Test y

Stan

faktyczny

Czułość: SE

(

) =

93.2% .

Specyficzność: SP

(

) =

92.4% .

Błąd:

(

)

(

) =

7.14%

Funkcja dopasowania dla i -tego wyniku f

1000

1000 .

Uwaga: Przy walidacji skrośnej (v

10), błąd jest rzędu 35%.

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

51 / 52

Przykład - przewidywanie powikłań pooperacyjnych w
leczeniu raka szyjki macicy - c.d.

Wnioski:

DT, SVM, kNN, PNN - dają ten sam błąd uczenia równy 7.14%.

Tw. (“Analytical Methods, ...”). P1-TS: f

[

0, 1

]

→ [

0, 1

]

(

, a

. . . , k

) =

∑

[

0, 1

]

→ [

0, 1

]

Zaleta:

Dla x

, a

. . . , k

wyznaczamy f x

∈ [

0, 1

]

Propozycja decyzji ostatecznej: f x

⇒

Wady:

Algorytm GEP jest bardzo czasochłonny.
Problem: Jak otrzymać reguły najchętniej akceptowalne przez lekarza ?

Jacek Kluska (Politechnika Rzeszowska)

Koncepcja klasyfikatora opartego na programowaniu ekspresji genów i logice rozmytej

2011

52 / 52

Document Outline