4. METODY KONSTRUKCJI DRZEW FILOGENETYCZNYCH.
Metody budowy drzew filogenetycznych mozna podzielic na cztery grupy (1) metody korzystajace z macierzy odleglosci, (2) metody maksymalnej oszczednosci, (3) metody maksymalnej wiarygodnosci i (4) metody niezmiennikow. W metodach nalezacych do pierwszej grupy liczy sie odleglosci ewolucyjne (zwykle ilosc nukleotydowych lub aminokwasowych podstawien w sekwencjach) dla kazdej pary jednostek taksonomicznych. Drzewo jest konstruowane na podstawie algorytmu, ktory bazuje na pewnych funkcjonalnych zaleznosciach miedzy tymi odleglosciami. W metodach grupy drugiej definiuje sie stan cechy dziedzicznej (na przyklad obecnosc pewnego nukleotydu w sekwencji w genomach przedstawicieli roznych gatunkow). Najkrotsza droga prowadzaca do tego stanu jest uznawana za drzewo filogenetyczne bedace najlepszym przyblizeniem rzeczywistosci. W metodach grupy trzeciej poszukuje sie najwiekszej wartosci ML (maximum likelyhood) ktora oznacza maksymalna wiarygodnosc hipotezy czyli prawdopodobienstwo, ze dane doswiadczalne sa zgodne z modelem wybranym dla ich opisu. Na przyklad gdy rzucamy moneta 100 razy i liczymy orly i reszki (dane doswiadczalne) wynik bedzie okolo 50 zakladajac jednakowe prawdopodobienstwo wyrzucenia orla i reszki (hipoteza). Wynik 100 orlow bedzie mial bardzo male L w tym doswiadczeniu. Jest on zwykle mala liczba i dlatego wyraza sie go w logarytmach naturalnych. Metody niezmiennikow bazuja na pewnych funkcjach stanu roznych drzew filogenetycznych i sa skomplikowane matematycznie.
W metodach grupy pierwszej, bazujacych na przeksztalceniu stanu cechy na odleglosc pewna informacja jest tracona, tak, ze nie mozna sledzic ewolucji tej cechy tak jak w metodzie rekonstrukcji sekwencji przodka (metoda maksymalnej oszczednosci). Metody grupy drugiej, natomiast, nie zawsze prowadza do otrzymania jednoznacznego wyniku. Metody konstrukcji drzew filogenetycznych sa i prawdopodobnie beda zawsze kontrowersyjne, poniewaz problem jest skomplikowany i zadna z nich nie jest dobrze dostosowana do wszystkich przypadkow. Uzycie takiej a nie innej metody jest czesto kwestia osobistego wyboru czy tez informacji jakie posiadamy na temat systemu. Np. UPGMA (unweighted pair-group method with arythmetic mean - metoda parowania przy uzyciu sredniej arytmetycznej) daje dobre wyniki wtedy gdy szybkosc ewolucji jest stala, ktory to warunek rzadko jest spelniony co powoduje bledy w topologii drzew. Metoda transformowanych odleglosci daje dobre wyniki dla krotkich dystansow, ale gdy sa one bardzo male bledy statystyczne moga byc duze. Metoda maksymalnej oszczednosci nie zaklada nic a priori, jednak drzewo, ktore buduje sie minimalizujac liczbe podstawien posiada rowniez zminimalizowana liczbe homoplazji (tzn mutacji zwrotnych, rownoleglych i zbieznych). Gdy odleglosc ewolucyjna jest niewielka homoplazje sa rzadkie co powoduje, ze metoda ta daje dobre wyniki. Przy duzych odleglosciach moze byc zawodna.
Przyklady filogenetyki molekularnej. Pytanie kto jest najblizszym kuzynem czlowieka intrygowalo ludzi od dawna. Darwin sadzil, ze sa nimi szympans i goryl. Ten poglad nie przyjal sie z roznych przyczyn i przez dluzszy czas uczeni zajmujacy sie taksonomia uwazali, ze Homo jest bardzo dalekim kuzynem malp. Dlatego otrzymal on oddzielna nazwe rodziny hominidae a szympans i goryl umieszczone zostaly w rodzinie pongidae. Homo niekiedy umieszczany byl razem z malpami azjatyckimi a w szczegolnosci z orangutanem. Uzywajac metody serologicznej Goodman pokazal, ze szympansy, goryl i czlowiek stanowia naturalny klad - galaz na drzewie filogenetycznym. Sarich i Wilson pokazali, ze czlowiek ulegl oddzieleniu od szympansa i goryla raczej 5 niz 15 milionow lat temu jak oceniali paleontolodzy. Badanie serologiczne, elektroforetyczne i badanie sekwencji aminokwasow nie mogly rozstrzygnac problemu zaleznosci ewolucyjnych pomiedzy czlowiekiem a malpami. Stalo sie to mozliwe dzieki analizie sekwencji DNA mitochondrialnego i analizie miejsc restrykcyjnych. Wyniki tych analiz sugerowaly scisle pokrewienstwo czlowieka i szympansa. Dane na temat hybrydyzacji (Sibley i Alquist, 1984) sugerowaly raczej scislejsze podkrewienstwo goryla i szympansa. Pierwsze masowe sekwencjonowanie genow dalo rezultaty pokazane w tabeli 4 - 1.
Tabela ta pokazuje ilosc roznic (w przeliczeniu na 100 nukleotydow) pomiedzy genami globinowymi czlowieka, szympansa, goryla, orangutana oraz rezusa uzytego jako grupa zewnetrzna. (outgroup). Do danych przedstawionych w tabeli zastosujemy najpierw metode UPGMA.
Metoda UPGMA byla poczatkowo stosowana do konstruowania fenogramow (drzew konstruowanych w oparciu o dane dotyczace fenotypow). Moze ona byc z powodzeniem zastosowana do konstrukcji drzew filogenetycznych odzwierciedlajacych zaleznosci na poziomie molekularnym pod warunkiem, ze istnieje liniowa zaleznosc pomiedzy odlegloscia ewolucyjna i czasem, ktory uplynal od rozejscia sie galezi w drzewie. UPGMA stosuje algorytm polegajacy na kolejnym grupowaniu najblizszych OJT. O topologii drzewa wnioskuje sie na podstawie podobienstwa pomiedzy OJT i buduje sie je krok po kroku. W pierwszej kolejnosci konstruuje sie macierz odleglosci po czym dwie najblizsze sobie OJT uzywa sie do skonstruowania jednej « zlozonej » OJT. Z kolei uklada sie druga macierz odleglosci obliczajac odleglosci OJT od tej zlozonej OJT. W nowej macierzy znow odnajduje sie dwie najbardziej zblizone OJT, z ktorych konstruuje sie kolejna zlozona OJT itd. az do momentu kiedy pozostana tylko dwie jednostki taksonomiczne. Przyklad :
Mamy macierz gdzie dij oznacza odleglosc pomiedzy dwiema OJT.
Zalozymy, ze odleglosc dAB jest najmniejsza w tej tabeli. W tym przypadku grupujemy jednostki taksonomiczne A i B w jedna (AB), ktora traktujemy jako oddzielna zlozona OJT. Zaklada sie, ze odleglosc ewolucyjna jednostek A i B od ich punktu rozejscia wynosi dAB/2.
Nastepnie oblicza sie odleglosc tej nowej jednostki taksonomicznej od pozostalych jednostek i oblicza nowa macierz odleglosci.
d(AB)C = (dAC + dBC)/2
d(AB)D = (dAD + dBD)/2
Przyjmuje sie, ze odleglosc pomiedzy prosta OJT a zlozona OJT jest srednia odleglosci pomiedzy prosta OJT a skladnikami zlozonej. Nowa macierz odleglosci ma postac :
Jesli okaze sie z kolei, ze d(AB)C jest najmniejsza odlegloscia w tej macierzy wtedy konstruuje sie nowa jednostke taksonomiczna (ABC). Odleglosc OJT « C » od wezla w ktorym rozchodzi sie z (AB) wynosi d(AB)C/2
Koncowy etap polega na znalezieniu korzenia drzewa filogenetycznego, ktory znajduje sie w punkcie rozejscia sie OJT (ABC) z OJT « D ». Odleglosc tego korzenia od « D » wynosi d(ABC)D/2 = [dAD + dBD + dCD)/3]/2
W metodzie UPGMA odleglosc pomiedzy dwiema zlozonymi jednostkami jest liczona jako srednia arytmetyczna odleglosci pomiedzy skladowymi tych zlozonych jednostek.
D(i,j)(m,n) = (dim + din + djm + din)/4
Stosujac te metode do odleglosci pomiedzy naczelnymi otrzymamy macierz odleglosci :
Poniewaz odleglosc HC jest najmniejsza, konstruujemy nowa OJT (HC) i liczymy
d(HC)G = [d(HG) + dCG)]/2 = (1,51 + 1,57)/2 = 1,54
d(HC)O = [d(HO) + d(CO)]/2 = (2,98 + 2,94)/2 = 2,96
d(HC)R = [d(HC) + d(CR)/2 = (7,51 + 7,55)/2 = 7,53
odleglosc od wezla w ktorym nastapilo rozejscie sie H i C wynosi
d(HC)/2 = 0,73
Nowa macierz odleglosci bedzie miala postac :
Najmniejsza odleglosc w tej macierzy to odleglosc (HC) od G. Grupujemy wiec te jednostki w nowa (HC)G dla ktorej liczymy odleglosci od O i R
d((HC)G)O = [d(HC)O + d(GO)]/2 = (2,96 + 3,04)/2 = 3
d(HC)G)R = [d(HC)R + d(GR)]/2 = (7,53 + 7,39)/2 = 7,46
Odleglosc od punktu rozejscia sie (HC) i G wynosi
d(HC)G/2 = 1,54/2 = 0,77
i nowa macierz odleglosci bedzie miala postac
Odleglosc (HCG) od O jest najmniejsza w tej macierzy. Liczymy nastepnie odleglosc od wezla w ktorym rozchodza sie (HCG) i O
d(HCG)O/2 = 3/2 = 1,5
Mozemy teraz obliczyc korzen drzewa, ktory sytuuje sie na galezi wiazacej R z pozostalymi OJT.
d(HCGO)R = [(dHR + dCR + dGR + dOR)/4]/2 = 3,69
Oraz odleglosc ktora dzieli korzen do pierwszego rozgalezienia na drzewie od ktorego odchodzi galaz zwienczona O.
3,69 - 1,5 = 2,19
Z tak zrekonstruowanego drzewa wynika, ze G jest bardzo bliski H i C. Odleglosc (HC)G jest mniejsza niz blad standardowy (patrz tabela). Z drzewa tego wynika, ze O jest znacznie oddalony od H, C i G. Drzewo tak skonstruowane jest ultrametryczne.
Metoda najblizszych sasiadow. (NR, neighbor relations) zostala zaproponowana przez Saitoh i Tverskiego. W metodzie tej najblizszymi sasiadami sa te OJT, ktore polaczone sa pojedynczym wezlem w drzewie. Korzystajac z tabeli odleglosci oblicza sie odleglosci miedzy parami we wszystkich mozliwych drzewach filogenetycznych, w pierwszym etapie dla wszystkich kwartetow. Poszczegolnym parom w kwartetach przypisuje sie cyfre 1, gdy odleglosci sa najmniejsze lub 0 w pozostalych przypadkach. Pare, ktora zbierze najwiecej punktow we wszystkich mozliwych konfiguracjach uznaje sie za pierwsza pare sasiadow i traktuje jako nowa zlozona OJT. Z kolei oblicza sie nowa macierz odleglosci tak jak w metodzie UPGMA i szuka nowej pary sasiadow. W tablicy odleglosci (tabela 4-1) mamy 5 OJT. Jest wiec mozliwych
n!/k!(n-k)!; 5!/4!(5-4)! = 5 roznych kwartetow : HCGO, HCGR, HCOR, HGOR i CGOR
Zaczynamy od kwartetu HCGO dla ktorego z tablicy liczymy odleglosci
dHC + dGO = 1,45 + 3,04 = 4,49
dHG + dCO = 1,51 + 2,94 = 4,45
dHO + dGC = 2,98 + 1,57 = 4,55
Druga suma jest najmniejsza wiec HG i CO uwazamy za najblizszych sasiadow. Podobnie traktujemy pozostale kwartety i otrzymujemy tabele 4-2. W tej tabeli najwieksza ilosc punktow ma para OR. Pary HC i HG wystepuja dwukrotnie jako najblizsze pary a CG, GR i CO wystepuja po jednym razie jako najblizsze. Jako pierwsza pare sasiadow wybieramy OR, ktora traktujemy jako nowa OJT. W nastepnym etapie ukladamy nowa macierz odleglosci w ktorej odleglosci pomiedzy prostymi jednostkami taksonomicznymi H, G i C a nowa zlozona OJT liczymy jako srednia arytmetyczna odleglosci od skladnikow jednostki zlozonej (O i R) i jednostek prostych :
dH(OR) = (dHO + dHR)/2 = (2,98 + 7,51)/2 = 5,25 itd.
Pozostaly tylko cztery OJT i trzy mozliwe zestawy par :
HC - G(OR)
HG - C(OR)
H(OR) - CG
Liczymy dla nich odleglosci:
dHC + dG(OR) = 6,67
dHG + dC(OR) = 6,76
dH(OR) + dCG = 6,82
Najblizszymi sasiadami sa wiec HC i G(OR). Zgodnie z tym wynikiem topologia drzewa przedstawia sie nastepujaco:
Drzewo wyznaczone ta metoda nie jest metryczne. Aby obliczyc odleglosci pomiedzy galeziami w tym drzewie nalezy uzyc innej metody.
Metoda Fitcha i Margoliasha obliczania dlugosci galezi. Jako podstawe do obliczen bierzemy drzewo filogenetyczne otrzymane metoda NR. W pierwszym etapie pare, ktora posiadala najwieksza ilosc punktow w metodzie NR uznajemy jako oddzielne jednostki taksonomiczne a wszystkie pozostale jako jedna zlozona OJT.
dRO = x + y = 7,10
dR(GHC) = x + z = (7,51 + 7,55 + 7,39)/3 = 7,48
dO(GHC) = y + z = (2,98 + 2,94 + 3,04)/3 = 2,99
Z tego ukladu rownan wyliczamy :
x = 5,79; y = 1,31; z = 1,68
Z kolei traktujemy G jako OJT a RO i CH grupujemy w jednostki zlozone
obliczamy :
dG(RO) = k + s = 5,22
dG(CH) = s + l = 1,54
d(RO)(CH) = k + l = 5,24
s = 0,76; k = 4,46; l = 0,78
W ostatnim etapie obliczamy parametry drzewa w ktorym H i C sa traktowane jako oddzielne OJT a ROG zostaja zgrupowane.
dHC = u + v = 1,54
dH(ROG) = u + m = 4,0
dC(ROG) = v + m = 4,02
m = 3,24; v = 0,78; u = 0,76
Drzewo ma obecnie postac
Na koncu obliczamy odleglosci pomiedzy wezlami wewnetrznymi:
L1(sr) = (dGC + dHG - 0,76 - 0,76 - 0,78 - 0,76)/2 = 0,02
L2(sr) = (dGR + dOG - 0,76 - 0,76 - 5,79 - 1,31)/2 = 0,905
Ostatecznie drzewo mozna przedstawic w postaci :
Metoda maksymalnej oszczednosci (parsimony) polega na poszukiwaniu najmniejszej ilosci zmian pozwalajacych na wytlumaczenie roznic pomiedzy sekwencjami OJT. Czesto mozna znalezc kilka drzew, ktore wykazuja te sama liczbe zmian. W pierwszym etapie poszukuje sie miejsc informatywnych. Mamy na przyklad sekwencje czterech OJT S1, S2, S3, i S4 o dlugosci 9 nukleotydow. Pozycje w sekwencjach sa ponumerowane od 1 do 9
miejsce w sekwencji
OJT 1 2 3 4 5 6 7 8 9
S1 A A G A G T G C A
S2 A G C C G T G C G
S3 A G A T A T C C A
S4 A G A G A T C C G
Dla czterech sekwencji mozliwe sa trzy niezakorzenione drzewa, ktore mozna nazwac hipotezami I, II i III :
I II III
S1 S3 S1 S2 S1 S2
S2 S4 S3 S4 S4 S3
Za najbardziej prawdopodobne uznamy to drzewo w ktorym ilosc mutacji potrzebna do uzyskania z sekwencji np. S1 wszystkich pozostalych sekwencji jest najmniejsza. Te ilosc mutacji oblicza sie dla kazdej pozycji w sekwencji. W tym celu po pierwsze nalezy zidentyfikowac pozycje informatywne tzn. takie, ktore pozwalaja na odroznienie hipotez I, II i III. Miejsce 1 jest nieinformatywne poniewaz wszystkie drzewa wygladaja tak samo, gdy umiescimy nukleotyd A w czterech wezlach trzech hipotetycznych drzew. To samo dotyczy miejsca drugiego. Miejsce trzecie da po arbitralnym ustaleniu ktory z sasiadujacych nukleotydow znajduje sie w wezle wewnetrznym (co nie wplywa na ostateczny wynik) oraz po zaznaczeniu strzalkami mutacji, ktore musza zajsc aby z jednego nukleotydu otrzymac wszystkie pozostale :
G A G C G C
G A A A A A
C A A A A A
Wszystkie drzewa zawieraja po dwie zmiany w sekwencji.
Miejsce czwarte daje :
A T A C A C
G G A A A A
C G T G G T
Wszystkie drzewa zawieraja po trzy zmiany w sekwencji.
Miejsce piate daje:
G A G G G G
G A A A A A
G A A A A A
Miejsce to jest informatywne i sugeruje hipoteze I. Miejsce szoste jest nieinformatywne poniewaz po podstawieniu daje identyczne drzewa.
Miejsce siodme :
G C G G G G
G C G G G G
G C C C C C
Miejsce to jest informatywne i sugeruje hipoteze I. Miiejsce osme jest nieinformatywne a miejsce dziewiate daje :
A A A G A G
A A A G A A
G G A G G A
Miejsce to jest informatywne i sugeruje hipoteze II.
W sumie miejsca 5 i 7 sugeruja hipoteze I a miejsce 9 hipoteze II.
Suma zmian we wszystkich miejscach informatywnych :
hipoteza I 1 + 1 + 2 = 4
hipoteza II 2 + 2 + 1 = 5
hipoteza III 2 + 2 + 2 = 6
Drzewo I jest najbardziej oszczedne.
Stosujac te metode do filogenezy naczelnych, biorac pod uwage cztery OJT : H, C, G i O
i hipotezy :
H G C H H C
C O G O G O
I II III
otrzymano dla genow -globiny dane takie jak podaje tabela 4 - 3. Hipoteze 1 sugeruje 12 mutacji, hipoteze II 3 mutacje a hipoteze III 4 mutacje. Gdy liczba OJT jest wieksza niz cztery sytuacja staje sie bardziej skomplikowana poniewaz istnieje wiele mozliwych drzew, ktore trzeba rozwazyc. Jednak podstawowa zasada pozostaje ta sama. Zaklada sie ze drzewo ktore ma minimalna ilosc podstawien reprezentuje najlepiej rzeczywiste pokrewienstwo pomiedzy gatunkami.
Rekonstrukcja drzew meteda Fitcha. Fitch zaproponowal nastepujaca technike analizy drzew filogenetycznych :
1 2 3 4 5 6
C T G T A A
7 C,T 8 G,T
9 A,G,T
10 T
11 A,T
Rozpatrujac powyzsze drzewo widzimy, ze nukleotyd w wezle 7 nie moze byc zdeterminowany jednoznacznie. Musi to byc albo C albo T w mysl zasady oszczednosci. Piszemy wiec C,T. Podobnie w wezle 8 mamy G,T a w wezle 9 A,G,T. Jednak w wezle 10 wybierzemy T poniewaz jest on wspolny dla wezlow 7 i 9. W wezle 11 mozliwe nukleotydy to A i T. Zasada rekonstrukcji jest wiec nastepujaca : zbior nukleotydow w wezle zawiera elementy wspolne zawarte w wezlach bezposrednio od niego pochodzacych. Jesli nie ma takich elementow wspolnych wtedy zbior ten jest suma wszystkich elementow wezlow pochodnych. W kazdym przypadku gdy dokonujemy sumowania oznacza to, ze nastapila substytucja nukleotydow w pewnym momencie ewolucji. W przypadku rozwazanego drzewa ilosc takich wezlow wynosi 4 i oznacza ilosc substytucji niezbednych do otrzymania wszystkich nukleotydow obecnych w homologicznej pozycji w sekwencji stanowiacych wezly korony rozwazanego drzewa z nukleotydu obecnego w tej pozycji u wspolnego przodka. W alternatywnych drzewach mamy po trzy wezly w ktorych istneje potrzeba sumowania elementow a wiec po trzy podstawienia nukleotydow. I to jest minimalna ilosc podstawien potrzebna do wytlumaczenia roznic pomiedzy nukleotydami w tej pozycji w sekwencjach, ktorych ewolucyjne powiazanie przedstawiaja drzewa filogenetyczne pokazane na przykladzie. Podczas ewolucji zaszly wiec przynajmniej trzy zmiany mutacyjne. Istnieje wiele innych drzew z ktorych wszystkie wymagaja trzech podstawien. A wiec odwrotnie niz w przypadku czterech OJT informatywne miejsce moze byc zgodne z wieloma alternatywnymi mozliwosciami.
Mimo, ze liczenie minimalnej ilosci nukleotydow jest proste, wyznaczenie sciezki ewolucyjnej jest niekiedy trudne. Procedure wyznaczania najbardziej oszczednego drzewa mozna podsumowac nastepujaco: po pierwsze nalezy zidentyfikowac miejsca informatywne w sekwencji (nukleotydow lub aminokwasow), nastepnie dla wszystkich mozliwych drzew nalezy ustalic minimalna liczbe podstawien w kazdym miejscu informatywnym i zsumowac te liczby ze wszystkich miejsc informatywnych dla kazdego z drzew. Wybiera sie to drzewo lub drzewa, ktore daja najmniejsza liczbe podstawien. Czesto nie udaje sie wybrac jednego takiego drzewa. Nalezy zwrocic uwage, ze miejsca nieinformatywne nie sa brane pod uwage w tej procedurze. Mozna je jednak uwzglednic. Gdy liczba OJT wynosi 7 lub wiecej do analizy nalezy zastosowac odpowiedni program komputerowy.
Analiza spektralna powiazan miedzygatunkowych. Jest to inny sposob analizy sekwencji nukleotydowych. Analize taka dokonuje sie po przedstawieniu sekwencji w postaci binarnej. Mozna na przyklad przeksztalcic sekwencje w ciag puryn i pirymidyn albo tez uwzglednic tylko te miejsca, ktore zawieraja po dwa rozne nukleotydy. Nastepnie uklada sie tabele "rozszczepien" wszystkich mozliwych stanow w analizowanych sekwencjach przedstawionych jako ciag zer i jedynek. Dla "n" sekwencji jest mozliwych 2(n-1) roznych rozszczepien. Dla sekwencji naczelnych H, C, G, O, B (gdzie B oznacza sekwencje gibbona uzyta w charakterze grupy zewnetrznej) mamy 16 mozliwych rozszczepien, ktore oznaczamy cyframi od 0 do 15.
H 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
C 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1
G 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
O 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
B 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
# 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Opierajac sie na tej tabeli mozemy przedstawic stan dowolnej pozycji w sekwencji jako cyfre np. zamast pisac A, A, G, A, A, A piszemy 11010 co odpowiada cyfrze 11.
Przyklad : (w kolumnie pierwszej przyjmujemy, ze G = 1 i A = O, w kolumnie drugiej, ze T = 1 i C = 0 itd.)
Z tabeli wynika, ze najczestszym jest rozszczepienie "7" czyli 11100 co odpowiada (H,C,G)(O,B)
Wynik taki, otrzymany dla wielu miejsc w sekwencji, moze byc przedstawiony w postaci "spektrum" pokazujacego jaka jest wzgledna czestosc wystepowania danego rozszczepienia. (Ryc. 4 - 1)
Spektrum podaje czestosci w jakich dane rozszczepienie wystepowalo w tabeli. Pierwsze dwa rozszczepienia sa trywialne, gdyz oznaczaja, ze gibbon jest inny od wszystkich pozostalych naczelnych i, ze orangutan jest rozny od wszystkich innych naczelnych. Trzecia pozycja przedstawia rozszczepienie (O,B)(G,C,H), trzy nastepne sa trywialne a na siodmej pozycji wystepuje rozszczepienie (H,C)(G,O,B). To rozszczepienie jest niesprzeczne z poprzednim. Na podstawie tych dwoch rozszczepien mozna skonstruowac drzewo o topologii :
Drzewo to jest tylko nieznaczne "lepsze" od drzewa
opartego o topologie (C,G)(H,O,B) prawie rownie czesto wystepujacej w spektrum.
Czestosc wystepowania rozszczepienia w tabeli mozna uzyc do sporzadzenia drzewa metrycznego przypisujac galeziom wielkosci odpowiadajace czestotliwosciom :
Nalezy jednak zwrocic uwage na to, ze rozszczepienia nieznacznie mniej czeste, niz te reprezentowane przez przedstawione drzewo nie sa w nim ujete. Sugeruje to, ze wlasciwszym przedstawieniem powiazan gatunkowych bylaby siec (ryc. 4 - 2).
Zakorzenianie drzew filogenetycznych. Gdy drzewo gatunkow i genow sa niezgodne mimo, ze mozemy byc wzglednie pewni, ze obydwa sa poprawne istnieje prawdopodobienstwo, ze konflikt ten wynika z duplikacji i delecji genow w czasie ewolucji (ryc. 4 - 3). Przykladem moze byc ewolucja genu interleukiny u ssakow. Nosi ona slady duplikacji czego dowodza liczne kopie genu w tym samym gatunku. Zwazywszy, ze u czlowieka sa cztery kopie genu, musialy nastapic przynajmniej trzy duplikacje podczas ewolucji (ryc 4 - 4). Uzgodnienie drzewa genow z drzewem gatunkow pokazuje, ze duplikacji bylo cztery. Czwarta dotyczy duplikacji ludzkiego genu IL 1. Gen ten jest blizszy genowi mysiemu 1L1 niz 1L1 owcy i krowy mimo, ze w mysl drzewa gatunkow homo jest oddalony bardziej od myszy niz od owcy i krowy. Wynika to z tego, ze wlasciwie mysi i ludzki gen 1L1 sa ortologiczne natomiast ludzki i owczy 1L1 sa paralogiczne. Geny 1L1 owcy i krowy ortologiczne do ludzkiego i mysiego 1L1 ulegly ekstynkcji, podobnie jak u czlowieka i u myszy ulegly ekstynkcji geny ortologiczne do owczego 1L1. (ryc. 4 -5).
O ile duplikacja moze komplikowac konstrukcje drzew filogenetycznych organizmow o tyle jest ona przydatna w zakorzenianiu drzew. Wiekszosc metod pozwala konstruowac drzewa niezakorzenione, ktore nastepnie trzeba zakorzeniac poslugujac sie jednostka taksonomiczna zewnetrzna w stosunku do badanej grupy. Na przyklad sekwencje szympansa moga byc uzywane dla zakorzeniania drzew filogenetycznych przedstawiajacych ewolucje populacji ludzkich. W niektorych przypadkach moze brakowac odpowiedniej jednostki taksonomicznej. Duplikacja genow stanowi podstawe alternatywnej metody zakorzeniania drzew. Na przyklad gdy posiadamy sekwencje dla szesciu genow alfa i beta globiny z trzech gatunkow mozna przypuszczac, ze drzewo to jest zakorzenione na ktorejs z galezi zewnetrznych lub wewnetrznych. Zakorzenienie zakladajace jedna duplikacje jest bardziej oszczedne niz np. zakorzenienie na ktorejs z galezi zewnetrznych.
Porownanie metod konstrukcji drzew. W zasadzie wszystkie metody pozwalaja na otrzymanie poprawnych drzew filogenetycznych jesli szybkosc ewolucji jest stala. Jesli natomiast szybkosc w roznych galeziach jest zmienna niektore metody (UPGMA, najblizszych sasiadow oraz maksymalnej oszczednosci, jesli nie uwzglednic poprawki Kimury) daja wyniki bledne. (Patrz ryc. 4 - 6).
W internecie dostepny jest bezplatny pakiet programow PHYLIP (Phylogeny Inference Package)
jak rowniez WebPHYLIP :
Tablica 4 - 1 Srednia (ponizej przekatnej) i sredni blad (ponad przekatna) liczby podstawien nukleotydowych na 100 miejsc w sekwencji.
Tabela 4 - 2 Odleglosci miedzy sasiadami
Tabela 4 - 3 Miejsca informatywne w sekwencjach nukleotydowych naczelnych
Fig. 4 - 1. Spektrum rozszczepien naczelnych.
Ryc 4 - 4. Drzewo gatunkow i drzewo genow interleukiny ssakow.
Ryc. 4 - 3. Konflikt pomiedzy drzewem gatunkow a drzewem genow.
Ryc. 4 - 5. Rekonstrukcja ewolucji genow interleukiny ssakow.
Ryc 4 - 6. Porownanie metod konstrukcji drzew filogenetycznych. MI metoda maksymalnej wiarygodnosci, NJ, metoda najblizszych sasiadow,
55
72
A B C
B dAB
C dAC dBC
D dAD dBD dCD
A
(AB)
B
dAB/2
(AB) C
C d(AB)C
D d(AB)D dCD
(AB)
C
d(AB)C/2
H C G O
C 1,45
G 1,51 1,57
O 2,98 2,94 3,04
R 7,51 7,55 7,39 7,1
(HC) G O
G 1,54
O 2,96 3,04
R 7,53 7,39 7,1
(HC)G O
O 3,0
R 7,46 7,1
H
0,04
C
0,73 0,73
G
2 ,19 0,77
O
1,5
R
3,69
Ryc 4 - 2. Siec powiazan miedzygatunkowych u naczelnych. Siec zostala skonstruowana na podstawie innej analizy niz podana w tekscie, stad inne dlugosci galezi. Przyklad ten uwypukla w sposob przesadny horyzontalny transfer genow. Zwykle dlugosc galezi bocznych jest znacznie dluzsza niz oczek sieci. Transfer horyzontalny jest prawdopodobny w poblizu wezlow gdzie gatunki sie rozchodza a malo prawdopodobny pozniej.
H C G
C 1,45
G 1,51 1,57
OR 5,25 5,25 5,22
C O
H R
G
R
x
z GHC
y
O
G
s
k l
(RO) (CH)
H
u
m
ROG
v
C
R G C
5,79 0,76 0,78
L2 L1
1,31 0,76
O H
R
5,79 C H
0,78 0,76
0,905 0,02
1,31 0,76 G
O
2 4 5 6 3 1 2 4 1 3 5 6
T T A A G C T T C G A A
7 T 8 A 7 T 8 A
9 A,G 9 T,C 10 G,A
10 A,G,T
11 T,A,G,C 11 T,A,G,C
H G T C A T C A T C C .. 1 1 0 1 1 0 1 1 0 1
C A T T A C C A T T C .. 0 1 1 1 0 0 1 1 1 1
G G T T G T T A T T A .. 1 1 1 0 1 1 1 1 1 0
O A C C A C T C C C A .. 0 0 0 1 0 1 0 0 0 0
B A C C G C C C C C A .. 0 0 0 0 0 0 0 0 0 0
nr rozszczepienia . . . . . 5 7 6 11 5 12 7 7 6 3
H O
C
G B
H G O
C B
G H O
C B
B G
0,044 0,017
0,02 H
0,012
0,08
0,047 0,015
O C
1 1 2 2 3, 3
1 1
2 2
3 3