26 Spalik, Piwczynski, Rekonstrukcja filogenezy i wnioskowanie filogenetyczne w badaniach ewolucyjnych (2009)

Tom 58 2009
Numer 3 4 (284 285)
Strony 485 498
Krzysztof spaliK1, Marcin piwczyńsKi2
1
Zakład Systematyki i Geografii Roślin
Instytut Botaniki
Uniwersytet Warszawski
Aleje Ujazdowskie 4, 00-478 Warszawa
2
Zakład Taksonomii i Geografii Roślin
Instytut Ekologii i Ochrony Środowiska
Uniwersytet Mikołaja Kopernika
Gagarina 9, 87-100 Toruń
E-mail: spalik@biol.uw.edu.pl
piwczyn@umk.pl
REKONSTRUKCJA FILOGENEZY I WNIOSKOWANIE FILOGENETYCZNE W BADANIACH
EWOLUCYJNYCH
DARWIN, HAECKEL I FILOGENEZA
W lipcu 1837 r. Darwin naszkicował w genetyczne, to okaże się, że niewiele z nich
swoim notatniku schematyczny graf rela- zostało poprawnie odtworzonych, a obecny
cji pokrewieństwa między gatunkami, ob- obraz drzewa życia jest zasadniczo odmien-
razujący koncepcję drzewa życia. Ta idea, ny. Jednak drzewo filogenetyczne nadal po-
ubrana w daleko doskonalszą formę gra- zostaje jednocześnie podsumowaniem obec-
ficzną, pojawiła się także 22 lata pózniej w nego stanu wiedzy oraz hipotezą badawczą.
jego rewolucyjnym dziele O powstawaniu W filogenetyce, podobnie jak w każdej na-
gatunków , ale wciąż jako koncept, a nie uce przyrodniczej, nie ma prawd absolut-
konkretne drzewo filogenetyczne, przed- nych, a teorie i hipotezy uznajemy za praw-
stawiające zależności ewolucyjne między dziwe, jeśli nikomu, mimo usilnych prób,
gatunkami. Nie ma w tym nic dziwnego nie udało się ich obalić. Warto pamiętać o
Darwin zajmował się wyjaśnianiem mecha- tym zakresie niepewności, jaki towarzyszy
nizmów ewolucji, nie zaś odtwarzaniem jej wszystkim prawdom naukowym, a zwłaszcza
przebiegu. Pierwsze drzewo filogenetyczne dotyczącym odtwarzania przeszłości.
pojawiło się w Generelle Morphologie der W tym artykule chcielibyśmy skupić się
Organismen Ernsta Heackla w 1866 r. i tę na metodyce badań filogenetycznych, a tak-
datę można przyjąć jako oficjalny początek że pokazać, w jaki sposób otrzymane filo-
filogenetyki gałęzi biologii zajmującej się genezy służą wnioskowaniu ewolucyjnemu.
rekonstrukcją filogenezy organizmów. Chcemy pokazać, że analizy filogenetyczne
Drzewo filogenetyczne Haeckla było za- bazujące na danych molekularnych, aczkol-
pisem poglądów tego wybitnego uczonego wiek obarczone, jak w wypadku wszystkich
na pochodzenie organizmów i podsumowa- nauk historycznych, nieuniknioną niepew-
niem ówczesnego stanu wiedzy. Jednocze- nością, wsparte są na solidnych podstawach
śnie było hipotezą naukową, podlegającą naukowych, a wypływające z nich wnioski
weryfikacji w toku dalszych badań. Jeśli po- nie są gorszej jakości od wniosków z badań
patrzymy na zapisane na nim zależności filo- eksperymentalnych.
Krzysztof spaliK, Marcin piwczyńsKi
486
Dwa poDEJŚcia Do KonstrUowania DrzEwa
Istnieje zasadnicza różnica metodologicz- styka, której prekursorem był Willi Hennig.
na między drzewem Haeckla a współczesny- Ostro krytykowała ona podejście fenetyczne
mi przedstawieniami filogenezy. To pierwsze wskazując, że o pochodzeniu od wspólnego
było po prostu wyrazem poglądów badacza, przodka świadczą jedynie wspólne unikato-
wspartych wprawdzie rzetelną wiedzą i wy- we cechy pochodne ewolucyjnie, czyli sy-
nikającą z niej intuicją, ale nie powstało ono napomorfie, nie zaś cechy homoplastyczne:
w wyniku żadnych określonych procedur. pierwotne ewolucyjnie, odziedziczone po od-
Współczesne drzewa są natomiast usyskiwa- ległym przodku (symplezjomorfie) albo po-
ne za pomocą określonych algorytmów ob- wstałe niezależnie (parallelizmy). Rozróżnia
liczeniowych. Wyniki są zobiektywizowane się synapomorfie od homoplazji posługując
i powtarzalne, a tym samym weryfikowalne. się zasadą parsymonii (oszczędności), czyli
Ten przełom w filogenetyce został dokona- wybierając spośród wszystkich możliwych
ny dzięki rozwojowi metod numerycznych drzew takie, które wyjaśnia różnorodność
oraz wynalezieniu komputerów, a przyniósł cech na liściach drzewa za pomocą najmniej-
go nurt taksonomii zwany fenetyką, której szej liczby zmian na gałęziach, minimalizując
ojcami-założycielami byli P. H. A. Sneath i tym samym konflikty cech. Spór między fe-
R. R. Sokal. Jest paradoksem, że fenetyka jed- netyką a kladystyką był niezwykle gwałtow-
nocześnie odrzuciła biologiczny sens odtwa- ny dziś emocje opadły, a w efekcie status
rzania drzewa życia, a skoncentrowała się na obywatelstwa we współczesnej filogenetyce
konstruowaniu zależności wszechstronnego zyskały sobie koncepcje z obu nurtów. Nikt
podobieństwa między organizmami, zakłada- dzisiaj nie kwestionuje, że nadrzędnym pro-
jąc, że drzewo filogenetyczne wyjdzie mimo- blemem badawczym jest rekonstrukcja filoge-
chodem. Nie czyniła ona żadnych założeń o nezy, ale ten cel jest osiągany również za po-
przydatności cech, traktując je równocennie. mocą metod bazujących na podobieństwie.
Odmienne podejście prezentowała klady-
rEwolUcJa MolEKUlarna w filoGEnEtycE
Biologia molekularna, a przede wszyst- ny natomiast dane z sekwencji nie wyma-
kim rozwój metod łańcuchowej reakcji poli- gają kodowania, ponieważ są już zapisane
merazy (PCR) oraz sekwencjonowania DNA,
jako ciąg znaków.
zrewolucjonizowała odtwarzanie drzewa ro- Sekwencje DNA dają nam też niezwykłą
dowego organizmów. Dane z sekwencji oka- możliwość porównywania ze sobą bardzo
zały się daleko lepszymi znacznikami dla re- odległych ewolucyjnie organizmów. Przy-
konstrukcji filogenezy niż tradycyjne cechy
kładowo trudno na podstawie morfologii
morfologiczne, anatomiczne czy biochemicz- czy anatomii szacować odległość ewolucyjną
ne. Składa się na to kilka powodów. Przede
między człowiekiem a bakterią Escherichia
wszystkim, dane z sekwencji są genetyczne
coli, ich budowa jest bowiem zbyt odmienna
przedstawiają nam od razu zapis informa- i trudno wskazać jakiekolwiek porównywal-
cji w DNA (lub RNA), podczas gdy dane z
ne cechy. Mają one jednak wiele podobnych
budowy organizmów mówią nam o tym zapi- genów, np. loci, w których są zapisane se-
sie pośrednio. Co gorsza, fenotyp organizmu
kwencje rybosomalnego DNA. Dzięki takim
jest wypadkową informacji genetycznej oraz
genom możliwe jest stworzenie kompletnego
jego interakcji ze środowiskiem zewnętrz- drzewa życia.
nym, a określona cecha morfologiczna może
Dla odtwarzania filogenezy nie bez zna-
być determinowana przez jeden albo przez
czenia jest sposób, w jaki utrwaliły się anali-
wiele loci. Wnioskowanie o podłożu gene- zowane zmiany cech (mutacje). Procesy pro-
tycznym określonej cechy morfologicznej na
wadzące do rozpowszechnienia się mutacji
podstawie jej zmienności jest zatem obarczo- możemy podzielić na dwa rodzaje: determi-
ne dużym błędem. Co więcej, aby taką cechę
nistyczne oraz stochastyczne (losowe). Proce-
wykorzystać w analizie komputerowej, mu- sem deterministycznym jest dobór naturalny
simy jej zmienność zakodować, czyli przed- mutacje korzystne zwiększają swój udział
stawić w formie liczb lub znaków, a sposób
w puli genowej, natomiast niekorzystne są z
tego kodowania jest z konieczności arbitral- niej eliminowane (patrz rozdział AoMnicKiE-
Rekonstrukcja filogenezy
487
Go Dobór naturalny w tym zeszycie KOSMO- np. w przestrzeniach międzygenowych albo
SU). Dobór naturalny jest architektem ewolu- w intronach. Spostrzeżenia te zaowocowały
cji, odpowiedzialnym za różnorodność orga- sformułowaniem neutralnej teorii ewolucji,
nizmów. Paradoksalnie jednak, cechy utrwa- której autorem był japoński badacz Motoo
lone wskutek działania doboru mogą być Kimura (patrz też artykuł AoMnicKiEGo Dryf
zawodne w odtwarzaniu przebiegu ewolucji, genetyczny w tym zeszycie KOSMOSU). Za-
silny nacisk selekcyjny sprzyja bowiem zmia- kłada ona, że większość substytucji (mutacji
nom homoplastycznym konwergencjom. W punktowych) jest neutralna lub prawie neu-
filogenetyce bardziej przydatne są cechy, któ- tralna dla organizmu oraz że ich utrwalenie
re utrwaliły się przypadkowo, jest bowiem w populacji jest procesem przypadkowym.
mało prawdopodobne, że taka sama przypad- Ponieważ procesy powstawania i utrwalania
kowa zmiana utrwali się ponowne. Gdzie ta- mutacji są stochastyczne, to różnice między
kich cech szukać? Fenotyp organizmu podle- sekwencjami tego samego odcinka DNA u
ga silnej presji środowiska, a zatem zdecydo- różnych organizmów są funkcją czasu, jaki
wana większość cech fenotypowych musiała upłynął od rozejścia się prowadzących do
przejść przez sito doboru. Inaczej jest na po- nich linii filogenetycznych. Umożliwia to nie
ziomie genetycznym. Kiedy poznano sekwen- tylko samo oszacowanie filogenezy, ale także
cje genów, zauważono dużą liczbę mutacji przy spełnieniu dodatkowych warunków
milczących, czyli niezmieniających sekwencji na opisanie tej filogenezy za pomocą skali
kodowanego białka; jeszcze więcej mutacji czasu (patrz artykuł JErzManowsKiEGo w tym
stwierdzono w sekwencjach niekodujących, zeszycie KOSMOSU).
filoGEnEtyKa MolEKUlarna a traDycyJna taKsonoMia
Inwazja metod molekularnych do takso- Do absolutnych wyjątków należy kwestiono-
nomii oraz tradycyjnej filogenetyki bazującej wanie wyników badań molekularnych, jak to
na cechach morfologicznych nie odbyła się ostatnio uczynili GrEhan i schwartz (2009),
bez oporów. Wnioski płynące z badań mole- postulując na podstawie zaledwie kilkudzie-
kularnych były rewolucyjne, obalały bowiem sięciu cech morfologicznych, a wbrew bada-
wiele głęboko zakorzenionych poglądów na niom molekularnym, że najbliższym krewnym
relacje pokrewieństwa między organizmami. człowieka jest orangutan, a nie szympans. Ich
Niekiedy tradycyjnym taksonomom trudno krytyka filogenetyki molekularnej jest naiwna
było się pogodzić z tymi wnioskami, a także z i świadczy o podstawowych brakach w wie-
tym, że badania molekularne w krótkim czasie dzy odrzucają oni bowiem wyniki analiz
dały odpowiedz na pytania, nad którymi oni molekularnych twierdząc, że podobieństwo
biedzili się przez całe życie. Nieufność do wy- molekularne nie świadczy o pokrewieństwie,
ników badań molekularnych pogłębiały błędne ustalenie homologii jest wątpliwe, a morfo-
oznaczenia gatunków w niektórych analizach logia jest bardziej stabilna ewolucyjnie. Ab-
(biolodzy molekularni nie zadali sobie trudu solutne zdumienie budzi fakt, że artykuł ten
zweryfikowania użytego do badań materiału) został opublikowany w bardzo prestiżowym
oraz niestabilność kladów (gałęzi drzewa) spo- czasopiśmie, jakim jest Journal of Biogeogra-
wodowana niedostatecznym próbkowaniem phy. Jednak towarzyszący mu komentarz od
taksonomicznym (liczba taksonów) i genetycz- redakcji świadczy, że głównym powodem pu-
nym (reprezentatywność i długość sekwencji). blikacji była raczej polityczna poprawność
Ponadto, dało się zauważyć pewną nonszalan- oddanie głosu zanikającej mniejszości a
cję taksonomów molekularnych, połączoną z sami redaktorzy mają świadomość, iż dla każ-
naiwną wiarą, że drzewo molekularne jest od- dego biologa molekularnego albo taksonoma
powiedzią na wszystkie pytania. Wkrótce jed- lub antropologa choćby nieco obeznanego z
nak okazało się, że drzewo molekularne jest filogenetyką molekularną wnioski autorów są
nie tyle końcem, co początkiem badań trze- nonsensowne. Filogenetyka molekularna to
ba bowiem je zinterpretować i sprawdzić, czy jednak coś więcej niż prosta analiza podobień-
istotnie odpowiada na jakiekolwiek pytania stwa molekularnego, co oczywiście nie znaczy,
ewolucyjne. Dziś już oba nurty molekular- że wnioskowanie filogenetyczne na podstawie
ny i morfologiczny zgodnie koegzystują w danych molekularnych jest zawsze bezbłęd-
taksonomii i biologii ewolucyjnej, korzystając ne i nieobarczone niepewnością. Warto sobie
wzajemnie z uzupełniających się kompetencji. uświadomić zródła tej niepewności.
Krzysztof spaliK, Marcin piwczyńsKi
488
hoMoloGia sEKwEncJi i syGnaA filoGEnEtyczny
Porównując te same sekwencje DNA wielokrotne podstawienia, czyli kilku-
otrzymane od osobników z różnych popula- krotne zamiany nukleotydów w tym samym
cji lub z różnych gatunków możemy oczeki- miejscu, wskutek czego obserwujemy mniej
wać, że bliżej spokrewnione będą osobniki podstawień, niż ich w rzeczywistości było;
(gatunki), które różnią się mniejszą liczbą podstawienia równoległe, czyli nieza-
mutacji. Czy zatem wnioskowanie o pokre- leżne podstawienia w tej samej pozycji przez
wieństwach między organizmami jest pro- ten sam nukleotyd w obu porównywanych
stym zabiegiem polegającym na porównaniu sekwencjach.
sekwencji i obliczeniu liczby różniących je Wszystkie te procesy zaburzają liniową
podstawień? Sytuacja nie jest tak prosta, a zależność między czasem rozejścia się organi-
droga do odtworzenia filogenezy jest pełna zmów a liczbą obserwowanych mutacji oraz
pułapek. Po pierwsze, sekwencje wybrane do zacierają sygnał filogenetyczny, czyli mutacje
analizy powinny być homologiczne, czyli po- synapomorficzne, dzięki którym można zi-
chodzące od wspólnego przodka. Homologia dentyfikować pokrewieństwo gatunków.
na poziomie sekwencji ma jednak dwojakie Bardzo istotnym problemem jest także
oblicze. Sekwencje ortologiczne zajmują ten zidentyfikowanie homologicznych pozycji w
sam locus i ewoluują niezależnie od czasu sekwencji, czyli dokonanie ich przyrównania.
rozejścia się linii filogenetycznych, czyli od Nie zawsze jest to zadanie łatwe, ponieważ
specjacji. To one niosą sygnał filogenetyczny w trakcie ewolucji zachodzą nie tylko pod-
zapis historii ewolucyjnej danej linii ewo- stawienia nukleotydów, ale także ich insercje
lucyjnej. W trakcie ewolucji regularnie wy- (wstawienia) i delecje (usunięcia). W wy-
stępują jednak także duplikacje loci (patrz padku sekwencji kodujących białka insercje
artykuł JErzManowsKiEGo w tym zeszycie KO- i delecje są zazwyczaj usuwane przez dobór
SMOSU), w wyniku czego powstają sekwen- oczyszczający, albowiem wstawienie bądz
cje paralogiczne. Pomieszanie sekwencji or- usunięcie jednego lub dwóch nukleotydów
tologicznych i paralogicznych uniemożliwia zmienia odczyt, wskutek czego białko prze-
odtworzenie prawidłowej filogenezy, ponie- staje być funkcjonalne. Jedynie wstawienia
waż sekwencje paralogiczne ewoluują nieza- trzech (albo wielokrotności trzech) nukle-
leżnie od momentu duplikacji locus, a nie od otydów mają szansę na przejście przez sito
rozejścia się linii filogenetycznych. doboru. Natomiast w sekwencjach niekodu-
Wybór sekwencji ortologicznych nie gwa- jących, np. w intronach lub przestrzeniach
rantuje jednak, że informacja o ich historii międzygenowych, delecje i insercje zdarzają
ewolucyjnej jest niezaburzona. Procesami, się często. Proces przyrównywania sekwen-
które powodują, że sekwencje są do siebie cji jest kluczowy do właściwego oszacowania
bardziej podobne, niżby to wynikało z czasu, pokrewieństw między organizmami żywymi
który upłynął od ich rozejścia się, są: i obecnie istnieje wiele algorytmów umożli-
mutacje wsteczne (rewersje), czyli po- wiających dokonanie takiego przyrównania.
wrót do nukleotydu występującego w se-
kwencji u wspólnego przodka;
UKorzEnianiE DrzEwa
Przyjrzyjmy się strukturze drzewa filoge- być więcej, czyli występują politomie. Węzły
netycznego jako zapisowi relacji pokrewień- zewnętrzne nazywamy inaczej liśćmi; każdy z
stwa ewolucyjnego między organizmami. nich odpowiada badanemu organizmowi. Na-
Drzewo to zbudowane jest z węzłów ze- tomiast węzły wewnętrzne można przypisać
wnętrznych i wewnętrznych i łączących je hipotetycznym wspólnym przodkom okre-
gałęzi (Ryc. 1). W drzewie w pełni rozwiąza- ślonych konarów (kladów) drzewa. Drzewo
nym każdy węzeł wewnętrzny połączony jest zrekonstruowane metodami filogenetyczny-
z innymi węzłami za pomocą trzech gałęzi, mi jest zazwyczaj drzewem niezakorzenio-
zaś do węzłów zewnętrznych prowadzi tylko nym, a więc takim, w którym nieznany jest
jedna. W drzewie nie w pełni rozwiązanym kierunek ewolucji. Innymi słowy, nie wiemy,
gałęzi wychodzących z jednego węzła może która z tych trzech gałęzi wchodzi do dane-
Rekonstrukcja filogenezy
489
Rycina 1. Struktura drzewa niezakorzenionego
(1) i zakorzenionego (2).
Oba drzewa mają tę samą topologię. A, B, C, D ozna-
czają liście, czyli węzły zewnętrzne drzewa, zaś E, F
i G węzły wewnętrzne, przy czym drzewo (2) jest
ukorzenione w węzle G. Strzałki przy drzewie za-
korzenionym wskazują kierunek ewolucji, w przeci-
wieństwie do drzewa niezakorzenionego, w którym
kierunek ten jest nieznany.
go węzła, a które z niego wychodzą (Ryc. 1).
filogenezę okrytozalążkowych, wybieramy
Ukorzenienie polega na dodaniu dodatko-
więc sekwencje jednego lub kilku nagoza-
wego węzła na jednej z gałęzi, tożsamego ze
lążkowych, np. sosny, sagowca, miłorzębu
wspólnym przodkiem wszystkich badanych
lub welwiczji, jako przedstawicieli grupy ze-
organizmów. Innymi słowy, łamiemy tę ga-
wnętrznej. Następnie na drzewie odszuku-
łąz na dwie oraz do miejsca złamania (węzła)
jemy gałąz łączącą okryto- i nagozalążkowe
dołączamy korzeń drzewa. Po ukorzenieniu
i przełamujemy ją, dodając korzeń. Dzięki
drzewa możemy zauważyć, że zmienia się
takiemu zabiegowi jesteśmy w stanie stwier-
status gałęzi w węzłach. W drzewie niezako-
dzić, w jakiej kolejności oddzielały się po-
rzenionym wszystkie trzy gałęzie zbiegające
szczególne linie rodowe okrytozalążkowych
się w węzle wewnętrznym są równocenne,
i która grupa współczesnych gatunków jest
natomiast w drzewie zakorzenionym jedna z
filogenetycznie najstarsza. Ukorzenianie drze-
nich jest gałęzią wchodzącą, a dwie wycho-
wa za pomocą grupy zewnętrznej jest stan-
dzącymi. Grupy wywodzące się z jednego
dardową procedurą w badaniach filogene-
węzła nazywamy siostrzanymi. Warto zauwa-
tycznych. Warto jednak zauważyć, że błędne
żyć, że bez ukorzenienia drzewa nie możemy
wybranie grupy zewnętrznej, a tym samym
wyciągać żadnych sensownych wniosków o
błędne zakorzenienie, sprawia, że błędnie
ewolucji badanej grupy, np. o monofilety-
odczytujemy na nim kierunek ewolucji.
zmie określonych taksonów albo o kierunku
Wszystkie metody szacowania filogene-
zmian morfologicznych.
zy dają możliwość obliczenia długości gałęzi
Najlepszym sposobem ukorzenienia drze-
łączących poszczególne węzły. Jeśli długość
wa jest uwzględnienie w analizie filogene-
gałęzi jest proporcjonalna do liczby mutacji
tycznej nie tylko badanej grupy, ale także jej
(obserwowanej lub oszacowanej), które za-
najbliższych krewnych, czyli tzw. grupy ze-
szły między węzłami, to takie drzewo nazy-
wnętrznej. Odszukujemy na uzyskanym drze-
wamy filogramem. Natomiast jeśli długość
wie wspólny wewnętrzny węzeł dla badanej
gałęzi odpowiada czasowi względnemu lub
grupy i wspólny wewnętrzny węzeł dla gru-
absolutnemu, wtedy mówimy o chronogra-
py zewnętrznej, a następnie przełamujemy łą-
mie. Czasami interesuje nas tylko topologia
czącą je gałąz. Przykładowo, wiemy z innych
drzewa (wzór rozgałęzień), a długość gałęzi
badań, że grupą siostrzaną roślin okrytoza-
jest nieistotna takie drzewo nazywamy kla-
lążkowych są nagozalążkowe. Rekonstruując
dogramem.
DrzEwo GatUnKÓw i DrzEwo GEnÓw
Warto zwrócić uwagę, że drzewo filoge- powstały rekombinowany allel zawiera sygnał
netyczne odzwierciedla relację między przy- filogenetyczny z dwóch lub więcej loci;
równanymi sekwencjami, dlatego też jest ono horyzontalny przepływ genów, czyli
zawsze drzewem genów. Nie zawsze historia przeskoczenie materiału genetycznego z
ewolucyjna genów odpowiada historii gatun- jednej linii filogenetycznej do drugiej; zjawi-
ków. Mechanizmów prowadzących do takich sko to jest powszechne u bakterii, ale sto-
niezgodności jest kilka. Najważniejsze to: sunkowo rzadkie wśród eukariotów, choć u
rekombinacja genów paralogicznych roślin kwiatowych, szczególnie w genomie
lub rekrutacja pseudogenów, wskutek czego mitochondrialnym, znaleziono geny pocho-
Krzysztof spaliK, Marcin piwczyńsKi
490
Rycina 2. Konstrukcja genealo-
gii genu dla dwóch gatunków.
W pierwszym przypadku (1) drze-
wo gatunków jest identyczne z
drzewem genów, zaś w drugim
(2) część alleli nie jest całkowicie
posortowana. W tym przypadku
drzewo genów nie jest zgodne z
drzewem gatunków. Sytuacja ta
występuje szczególnie u gatun-
ków, u których specjacja zaszła
stosunkowo niedawno, a liczba
alleli danego genu przed rozej-
ściem się była wysoka.
dzące od bakterii, mszaków lub innych roślin wiednimi allelami występującymi u szympan-
kwiatowych, zwłaszcza pasożytniczych; sów niż z innymi allelami u człowieka; za-
niepełne sortowanie linii genealogicz- uważmy, że efekt takiego doboru jest podob-
nych po rozejściu się puli genowych; ponie- ny, jak w wypadku niepełnego sortowania
waż proces rozdziału alleli w trakcie specjacji linii genealogicznych, inne są jednak przyczy-
jest losowy, może się zdarzyć, że do jednej ny obu zjawisk stochastyczne w wypadku
puli trafią dwa odległe genealogicznie allele, sortowania linii genealogicznych i determi-
bliższe allelom z drugiej puli, a nie sobie na- nistyczne w wypadku selekcji faworyzującej
wzajem (Ryc. 2); polimorfizm;
silny dobór premiujący polimorfizm al- hybrydyzacja i introgresja1, wskutek
leli w loci, którego najlepszym przykładem czego zależności międzygatunkowe opisywa-
są allele genów głównego układu zgodności ne są raczej za pomocą topologii sieci2, a nie
tkankowej; przykładowo, wszystkie naczel- drzewa; zjawisko hybrydyzacji wydaje się sto-
ne odziedziczyły podobny polimorfizm alleli sunkowo częste u roślin, zwłaszcza okrytoza-
tego układu po wspólnym przodku, a tym sa- lążkowych, wśród których spotykamy wiele
mym w puli genowej człowieka znajdują się allopoliploidów3, powstałych właśnie wsku-
allele, które są bliżej spokrewnione z odpo- tek hybrydyzacji.
ODTWARZANIE DRZEWA
Rekonstrukcja drzewa filogenetycznego porównać wyniki i szukać przyczyn ewentu-
jest złożonym zagadnieniem statystycznym i alnych rozbieżności między nimi.
algorytmicznym. Istnieje wiele metod rekon- Wyróżniamy cztery podstawowe metody
strukcji filogenezy, odwołujących się do róż- rekonstrukcji filogenezy:
nych założeń statystycznych i biologicznych. największej parsymonii (ang. Maximum
Warto więc wykonywać analizę filogenetycz- Parsimony, MP),
ną za pomocą różnych narzędzi, a następnie
1
Introgresja to krzyżowanie się mieszańca międzygatunkowego z jednym z gatunków rodzicielskich, wskutek
czego dochodzi do przepływu genów z jednej puli genowej do drugiej.
2
Sieć, w przeciwieństwie do drzewa, charakteryzuje się występowaniem tzw. cykli, czyli zamkniętych ścieżek
łączących poszczególne węzły.
3
Wiele gatunków roślin powstało poprzez hybrydyzację, a następnie poliploidyzację, która przywróciła homolo-
gie między chromosomami (patrz artykuł szyMUry w tym zeszycie KOSMOSU).
Rekonstrukcja filogenezy
491
odległościowe (np. ang. Neighbour-Jo- bayesowskie (ang. Bayesian Phylogene-
ining, NJ), tics, BP).
największej wiarygodności (ang. Maxi- Trzy ostatnie grupy metod bazują na mo-
mum Likelihood, ML) delach substytucji nukleotydów.
MEtoDa naJwiKszEJ parsyMonii
Metoda największej parsymonii jest jed- Mimo swojej prostoty, metoda najwięk-
ną z najwcześniej zaproponowanych proce- szej parsymonii w pewnych sytuacjach za-
dur rekonstrukcji filogenezy (caMin i soKal wodzi. Wykazano, że w wypadkach silnie
1965). Polega ona na poszukiwaniu w prze- zróżnicowanego tempa ewolucji w poszcze-
strzeni wszystkich możliwych drzew takiego, gólnych gałęziach i intensywnej radiacji
które najoszczędniej tłumaczy obserwowaną (krótkich odcinków czasu między rozgałę-
zmienność cech na liściach drzewa. W tym zieniami drzewa), metoda MP jest wrażliwa
celu odtwarza się stany poszczególnych cech na homoplazje interpretuje je jako syna-
w węzłach wewnętrznych drzewa, przypo- pomorfie. Takich fałszywych synapomorfii
rządkowując jednocześnie zmiany stanów jest więcej na długich gałęziach (wykazują-
gałęziom, czyli mapując je na gałęziach. Przy- cych szybsze tempo podstawiania nukleoty-
kładowo, jeśli w dwóch sekwencjach sio- dów), a zatem takie gałęzie są mylnie łączo-
strzanych występuje nukleotyd A, to według ne. Zjawisko to nazwano efektem przycią-
kryterium parsymonii ich wspólny przodek gania się długich gałęzi . Pomimo tej kryty-
ma także adeninę w tej pozycji, ponieważ ki metoda MP pozostaje silnym narzędziem
taki układ nie wymaga żadnej zmiany na ga- do wnioskowania filogenetycznego, szcze-
łęziach. Gdyby była tam cytozyna (albo jaki- gólnie na niskim poziomie zmienności se-
kolwiek inny nukleotyd), to musielibyśmy kwencji, głównie ze względu na niewielkie
założyć, że na obu gałęziach nastąpiło podsta- wymagania obliczeniowe oraz dość dobrze
wienie cytozyny przez adeninę. Suma wszyst- zbadane właściwości, w przeciwieństwie to
kich zmian dla każdego miejsca w przyrów- tak modnej obecnie analizy bayesowskiej
nanych sekwencjach buduje długość drzewa. (patrz niżej).
Zgodnie z kryterium parsymonii, drzewo naj-
krótsze uważane jest za najlepsze.
MODELE SUBSTYTUCJI NUKLEOTYDÓW
Sposobem na uniknięcie efektu przycią- rzenia kilkudziesięciu modeli ewolucji DNA.
gania się długich gałęzi jest uwzględnienie Najbardziej złożony model GTR+I+ł [ang.
w szacowaniu filogenezy całkowitej liczby General Time Reversible + Invariant (posi-
zmian, które na danej gałęzi zaszły, uwzględ- tions) + Gamma (distribution)] posiada 12
niając podstawienia wielokrotne i rewersje. wolnych parametrów. Dziesięć z nich pozwa-
Wymaga to zastosowania określonego mo- la na przyporządkowanie różnego prawdopo-
delu ewolucji DNA, czyli modelu substytucji dobieństwa podstawienia jednego nukleoty-
nukleotydów. Z modeli takich korzystają me- du drugim (przy czym prawdopodobieństwa
tody odległościowe, największej wiarygodno- substytucji np. A T i T A są identycz-
ści oraz bayesowska. ne, a więc macierz podstawień nukleotydów
Ewolucję sekwencji nukleotydowych jest symetryczna) oraz określenie frekwencji
można przedstawić w postaci modeli mate- poszczególnych nukleotydów. Pozostałe dwa
matycznych, które mają uzasadnienie bio- parametry pozwalają na wprowadzenie do
logiczne oraz są możliwe do implementacji modelu procentu miejsc niezmiennych (I)
algorytmicznej. Od czasu publikacji pierwsze- oraz zróżnicowanego tempa substytucji w
go modelu JUKEsa i cantora (1969), zakła- różnych częściach danej sekwencji, opisane-
dającego jednakowe prawdopodobieństwo go za pomocą rozkładu gamma (ł). Wiele
substytucji między wszystkimi czterema nu- modeli można wyprowadzić z GTR poprzez
kleotydami, opisano wiele modeli, które od- uproszczenie jego założeń. Duża liczba mo-
chodzą od tych mało realistycznych założeń. deli o różnej liczbie parametrów umożliwia
Doprowadziło to w konsekwencji do stwo- matematyczny opis sekwencji pełniących róż-
Krzysztof spaliK, Marcin piwczyńsKi
492
norodne role w genomie. Warto wspomnieć, hood-Ratio Test), AIC (ang. Akaike Informa-
że istnieją także inne modele ewolucji, które tion Criterion), BIC (ang. Bayesian Informa-
wykorzystywane są do rekonstrukcji filoge- tion Criterion). Wszystkie one pozwalają na
nezy na podstawie sekwencji specyficznych wybranie najprostszego modelu dobrze opi-
cząsteczek, takich jak RNA czy białka. sującego analizowane dane. Procedura ta jest
W celu zobiektywizowania procesu wy- standardowo wykonywana przed użyciem
boru odpowiedniego modelu substytucji, wy- metody filogenetycznej, która wymaga mode-
korzystuje się kilka metod: LRT (ang. Likeli- lu ewolucji.
MEtoDy oDlEGAoŚciowE
Szacowanie filogenezy metodami odległo- istnieć wiele innych, równie dobrych drzew
ściowymi wymaga dwóch kroków: oblicze- (o równie prawdopodobnej topologii). Dla-
nia odległości genetycznej pomiędzy parami
tego też wykorzystanie tej metody jest ogra-
sekwencji, a następnie rekonstrukcji drzewa
niczone głównie do szybkiego oszacowania
na podstawie macierzy odległości za pomocą
suboptymalnej zazwyczaj filogenezy. Służy
określonego algorytmu. Najczęściej stosowa- ona do zgrubnej analizy danych, znajduje też
ną metodą odległościową jest metoda łącze- zastosowanie do obliczenia wartości funkcji
nia sąsiadów (ang. Neighbour-Joining, NJ).
wiarygodności w procedurze wyboru mode-
Jedną z podstawowych zalet tej techniki jest
lu substytucji (np. w programie ModelTest)
jej szybkość obliczeniowa, nawet dla setek
albo dostarcza drzewa stanowiącego punkt
przyrównanych sekwencji. Uzyskujemy jed- startowy do dalszych przeszukiwań (np. w
nak tylko jedno drzewo, podczas gdy może
metodzie maksymalnej wiarygodności).
MEtoDa naJwiKszEJ wiaryGoDnoŚci
Stosowana powszechnie w statystyce me- tycznego oraz parametry wybranego modelu
toda największej wiarygodności pomaga osza- ewolucji DNA, niezbędne dla oszacowania
cować prawdopodobieństwo obserwowa- długości gałęzi. Drzewo o najwyższej war-
nych danych (w naszym przypadku przyrów- tości funkcji wiarygodności uważane jest za
nanych sekwencji), kiedy parametry modelu najlepsze. Jednym z podstawowych argumen-
są znane. Zmieniając wartości parametrów tów za użyciem tej metody jest możliwość
możemy znalezć taki ich zbiór, który daje elastycznego wprowadzania różnych założeń
nam najwyższą wiarygodność opisu naszych w postaci parametrów oraz znane własności
danych innymi słowy, poszukujemy para- statystyczne. Problemem jest jednak oblicze-
metrów, dla których funkcja wiarygodności niowa czasochłonność. Spowodowane jest
osiąga maksimum. W przypadku rekonstruk- to dużą liczbą parametrów do optymalizacji
cji drzew filogenetycznych poszukiwanymi oraz ogromną liczbą możliwych drzew do
wartościami są topologia drzewa filogene- sprawdzenia.
MEtoDa BayEsowsKa
Metoda bayesowska stała się obecnie
pierwszej urny równa się 2/3, zaś urny dru-
najczęściej stosowaną techniką rekonstruk- giej 1/3. Jakie jest prawdopodobieństwo wy-
cji drzew filogenetycznych. Aby zrozumieć
losowania kuli białej? Jak widać, mamy tutaj
zasady leżące u podstaw tej metody, należy
dwie tury losowań, pierwsza dotyczy wyloso-
poznać dwa wzory z rachunku prawdopodo- wania urny, a druga losowania kuli. Oznacz-
bieństwa: wzór na prawdopodobieństwo cał- my zdarzenie wylosowania kuli białej literą
kowite i wzór Bayesa. Warto tutaj posłużyć
A, natomiast wybór urny literą H. Zdarze-
się przykładem niezwiązanym z filogenetyką.
nie H jest rozbite na dwa wykluczające się
Wyobrazmy sobie dwie urny, jedna zawiera 4
zdarzenia wybór urny pierwszej (H1) lub
białe kule i jedną czarną, zaś druga 2 białe i 3
wybór urny drugiej (H2). Na wartość prawdo-
czarne. Wiemy także, że szansa wylosowania
podobieństwa wyboru kuli białej składać się
Rekonstrukcja filogenezy
493
będzie prawdopodobieństwo wylosowania bieństwo poszczególnych drzew filogenetycz-
kuli białej z pierwszej urny P(A|H1) ważone nych przy danym zestawie przyrównanych
przez prawdopodobieństwo wylosowania tej sekwencji. Mimo prostoty wzoru Bayesa,
urny P(H1) oraz prawdopodobieństwo wylo- jego zastosowanie w filogenetyce napotyka
sowania kuli z drugiej urny P(A|H2) ważone na poważne problemy, a mianowicie na kwe-
przez prawdopodobieństwo wyboru tej urny stię wyboru wartości prawdopodobieństwa
P(H2). Uogólniając na dowolną liczbę wyklu- a priori dla stawianej hipotezy, czyli drzew
czających się zdarzeń Hi, uzyskujemy wzór filogenetycznych, oraz na pytanie, jak spraw-
na prawdopodobieństwo całkowite: dzić wszystkie możliwe drzewa. W drzewie
filogenetycznym można wyróżnić: topologię
P(A) = " P(A|Hi)P(Hi).
(kolejność rozgałęzień) oraz długości gałęzi,
Prawdopodobieństwo całkowite oblicza- które określone są przez parametry modelu
my wtedy, kiedy znamy procedurę doświad- substytucji nukleotydów. Musimy więc nadać
czenia i pytamy o jego najbardziej prawdo- prawdopodobieństwo a priori wszystkim
podobny wynik. Możemy jednak problem składnikom budującym filogenezę. Ponieważ
odwrócić znamy wynik doświadczenia, zazwyczaj nie mamy żadnej wiedzy na ten
a chcemy zapytać o jego przebieg. Przykła- temat, przyjmujemy często tzw. wartości nie-
dowo, wiemy, że została wylosowana kula informacyjne a priori, które nie wpływają na
biała. Jakie jest prawdopodobieństwo, że prawdopodobieństwo a posteriori a przy-
wylosowano ją z pierwszej urny, czyli jakie najmniej nie powinny wpływać, co niestety
jest prawdopodobieństwo zdarzenia H1, je- nie jest do końca prawdą. Oprócz wybrania
śli wiemy że zaszło A? Prawdopodobieństwo odpowiedniego rozkładu a priori, pojawia
P(H1|A) jest iloczynem prawdopodobieństwa się także problem przeszukiwania kombi-
wyboru pierwszej urny P(H1) i wylosowania nacji wszystkich parametrów. Przy bardziej
kuli białej z tej urny P(A|H1), podzielonym skomplikowanych modelach, do których na-
przez prawdopodobieństwo całkowite wylo- leży rekonstrukcja filogenezy, statystyka bay-
sowania kuli białej. Uogólniając dla dowolnej esowska posiłkuje się algorytmem Monte
liczby zdarzeń, prawdopodobieństwo to moż- Carlo z wykorzystaniem łańcuchów Markowa
na zapisać jako (ang. Markov Chain Monte Carlo, MCMC). Al-
gorytm ten działa w ten sposób, że przeszu-
P(Hj|A) = P(A|Hj)P(Hj) / P(A).
kuje przestrzeń wszystkich możliwych filoge-
Jest to właśnie wzór Bayesa. Jeśli zdarze- nez, pobierając z niej próby. Zatrzymuje się
nie H jest naszą hipotezą badawczą, to wzór jednak najdłużej w tym miejscu przestrzeni,
Bayesa pozwala nam obliczyć jej prawdopo- w którym drzewa filogenetyczne mają naj-
dobieństwo a posteriori, czyli po zajściu zda- wyższe prawdopodobieństwo a posteriori.
rzenia A, pod warunkiem że znamy P(Hi), Drzewa o najwyższym prawdopodobieństwie
czyli prawdopodobieństwo tej hipotezy a zostaną próbkowane wielokrotnie i wła-
priori (przed doświadczeniem w naszym śnie stosunek liczby próbkowań, w których
przypadku jest to wiedza o prawdopodobień- uzyskano dane drzewo, do ich ogólnej liczby,
stwie wylosowania poszczególnych urn). to właśnie prawdopodobieństwo a posterio-
Aby przełożyć ten przykład na język filo- ri danego drzewa. Jeśli nasze dane niosą ze
genetyki, wystarczy za zdarzenie A podstawić sobą dużo informacji, w wyniku działania al-
nasze dane wyjściowe, czyli przyrównane gorytmu otrzymamy niewielką liczbę drzew
sekwencje, zaś za hipotezę H drzewo filo- o wysokim prawdopodobieństwie i niewiele
genetyczne wraz z długościami gałęzi. Wtedy różniących się od siebie.
można zadać pytanie: jakie jest prawdopodo-
oszacowaniE wEwntrznEGo wsparcia wzAÓw
Metody rekonstrukcji drzew filogenetycz- drzewo, które jest najlepsze przy danym kry-
nych, takie jak metoda największej parsymo- terium rekonstrukcji. Nasuwa się zatem pyta-
nii, największej wiarygodności oraz odległo- nie, jak ocenić niepewność w oszacowaniu
poszczególnych kladów na tym drzewie. Do
ściowe traktowane są jako tzw. oszacowania
punktowe. Oznacza to, że przy odpowied- tego celu najczęściej wykorzystuje się meto-
dę bootstrap. Metoda ta polega na losowaniu
nio dużej liczbie danych (i silnym sygnale
ze zwracaniem poszczególnych miejsc w ma-
filogenetycznym) otrzymujemy tylko jedno
Krzysztof spaliK, Marcin piwczyńsKi
494
Rycina 3. Konstrukcja próbki boot-
strap polegająca na losowaniu ze
zwracaniem z oryginalnej macierzy
przyrównanych sekwencji. Powstałą
macierz wykorzystuje się do rekon-
strukcji filogenezy. Cała procedurę
powtarza się setki lub tysiące razy.
cierzy przyrównanych sekwencji do momen- sekwencjach są próbkami niezależnymi. Jed-
tu utworzenia nowej macierzy o tej samej nak bardzo często poszczególne miejsca są ze
liczbie miejsc (kolumn w macierzy), jak w sobą skorelowane. Przykładowo, w sekwen-
oryginalnej. Na podstawie tej nowej macie- cjach kodujących skorelowane są miejsca na-
rzy rekonstruowana jest filogeneza według leżące do tego samego kodonu, natomiast w
takiego samego kryterium, jak w wypadku sekwencjach, które nie kodują białka, ale po
danych oryginalnych. Cały ten cykl próbko- transkrypcji przybierają określoną i funkcjo-
wania powtarza się setki lub tysiące razy, a nalnie ważną strukturę przestrzenną (rRNA,
następnie dla każdego kladu występującego introny, transkrybowane przestrzenie mię-
w drzewie pierwotnym zlicza się procent dzygenowe itd.), skorelowane są fragmenty
drzew, w których dany klad wystąpił jest tworzące struktury dwuniciowe (np. w tzw.
to właśnie wartość wsparcia bootstrap dla spinkach do włosów ). W takim wypadku
danego węzła (Ryc. 3). metoda bootstrap może prowadzić do błęd-
Warto zauważyć, że jednym z założeń tej nego oszacowania wsparcia węzłów.
metody jest to, że miejsca w przyrównanych
filoGEnEza i czas EwolUcyJny
Zaproponowana przez zUcKErKanDla i lub zwalniać. Założenie ścisłego zegara mo-
paUlinGa (1965) hipoteza zegara molekular- lekularnego jest w rzeczywistości wyjątko-
nego zakłada, że tempo ewolucji jest stałe wo rzadko spełnione, zazwyczaj tylko dla
w czasie oraz pomiędzy gałęziami drzewa niewielkich grup blisko spokrewnionych ga-
filogenetycznego. Do takich założeń dopro- tunków. Badania nad tempem ewolucji mo-
wadziły autorów wcześniejsze obserwacje lekularnej pokazały, że jest ono skorelowane
dotyczące badań nad cytochromem c (Mar- z czasem generacji im krótszy czas genera-
Goliash 1963) oraz fibrynopeptydami (Do- cji, tym szybsze tempo substytucji. U roślin
olittlE i BloMBacK 1964), które sugerowały, czas generacji związany jest z formą życiową
że różnice między peptydami są mniej wię- (drzewa i krzewy żyją dłużej niż rośliny ziel-
cej proporcjonalne do czasu dywergencji ne), co przekłada się na związek między for-
między gatunkami. Hipoteza zegara moleku- mą życiową a tempem ewolucji molekularnej
larnego otrzymała także wsparcie w postaci (sMith i DonoGhUE 2008). Aby uwzględnić
neutralnej teorii ewolucji molekularnej Ki- te zjawiska przy szacowaniu czasu rozejścia
MUry (1983). Od początku jednak zdawano się organizmów, osłabiono założenia zegara,
sobie sprawę, że każdy taki zegar odmierza tworząc grupę metod określanych wspólną
czas w różnym tempie w różnych liniach fi- nazwą rozluznionego zegara molekularnego
logenetycznych, a także może przyspieszać (ang. relaxed molecular clock). Opracowano
Rekonstrukcja filogenezy
495
różne podejścia do tego zagadnienia, np. za- Różnice między datowaniem za pomo-
kładając autokorelację tempa substytucji w cą ścisłego i rozluznionego zegara mole-
liniach filogenetycznych (co ma uzasadnie- kularnego dobrze ilustruje przykład roślin
nie, jeśli tempo substytucji jest skorelowane kwiatowych. Wykorzystując różne sekwen-
z czasem generacji) albo przyjmując, że tem- cje i ścisły zegar molekularny oszacowano
po to jest niezależne i próbkowane z rozkła- ich wiek na 420 350 mln lat, 354 300 lub
du log-normalnego. Wszystkie te metody po- 200 mln lat, a zatem te datowania były
zwalają na uzyskanie chronogramu, a zatem nie tylko niezgodne ze sobą, ale i z dany-
drzewa, w którym długości gałęzi są propor- mi kopalnymi, albowiem sugerowały, że
cjonalne do czasu. rośliny okrytozalążkowe powstały nie tyl-
Aby przełożyć długości gałęzi drzewa fi- ko znacznie wcześniej niż na to wskazują
logenetycznego na czas absolutny potrzebu- ich najstarsze skamieniałości, ale nawet
jemy tzw. punktów kalibracyjnych. Musimy wcześniej niż dotychczasowe oszacowania
bowiem pamiętać, że na długość gałęzi wpły- wieku roślin nasiennych, wynoszące około
wają dwa czynniki tempo substytucji nu- 390 350 mln lat. Większość datowań ko-
kleotydów oraz czas. Załóżmy na przykład, że rzystających z rozluznionego zegara mole-
dwie sekwencje DNA różnią się między sobą kularnego waha się natomiast w granicach
podstawieniami w 10% miejsc. Jeśli tempo 180 140 mln lat. Na podstawie danych ko-
substytucji wynosiło 1% miejsc (pozycji w se- palnych powstanie roślin kwiatowych sza-
kwencji) na milion lat, to ich wspólny przo- cowano na około 131 125 mln lat temu,
dek żył pięć milionów lat temu, ale równie kiedy to pojawiają się charakterystyczny
dobrze obie sekwencje mogły ewoluować dla nich pyłek oraz Archaefructus naj-
pięć razy szybciej przez milion lat. Sytuację tę starsze pozostałości rośliny zielnej.
można porównać do próby oszacowania cza- Trzeba jednak nadmienić, że szacowanie
su jazdy, bazując tylko i wyłącznie na wska- czasu dywergencji za pomocą zegara mole-
zaniu licznika przejechanych kilometrów. kularnego ma także swoich zdecydowanych
Aby wykalibrować zegar molekularny, po- przeciwników. Wskazują oni na arbitralność
trzebujemy datowania jakiegoś zdarzenia w wielu decyzji, które trzeba podjąć przy ta-
przeszłości. Najlepiej, jeśli jest to skamienia- kim wnioskowaniu, jak np. przypisanie ska-
łość, którą można przypisać konkretnej gałę- mieniałości do określonego węzła oraz wy-
zi wewnętrznej na drzewie filogenetycznym. bór rozkładu a priori w analizie bayesow-
Umiejscawiamy ją w węzle, z którego dana skiej, które znacząco wpływają na końcowy
gałąz wychodzi albo do którego wchodzi (to wynik. Przykładowo, w naszych badaniach
temat do osobnej dyskusji), dzięki czemu mo- nad roślinami z plemienia Oenantheae z
żemy datować pozostałe węzły. W ostatnich rodziny baldaszkowatych, zmieniając przy-
latach nastąpił duży postęp w rozwoju me- pisany punktom kalibracyjnym typ rozkła-
tod szacowania czasów dywergencji, w tym du prawdopodobieństwa a priori z równo-
bazujących na wnioskowaniu bayesowskim. miernego na log-normalny uzyskaliśmy dra-
Umożliwiają one wprowadzenie niepewności matycznie różne oszacowania 21 lub 45
datowania punktów kalibracyjnych w postaci mln lat dla tego samego zbioru danych.
odpowiedniego rozkładu prawdopodobień- Pokazuje to, że do wyników szacowania
twa a priori, a w wyniku uzyskuje się nie bezwzględnego czasu ewolucyjnego należy
tylko punktowe oszacowanie wieku poszcze- podchodzić z dużą ostrożnością, zwłaszcza
gólnych węzłów, ale i rozkład gęstości praw- jeśli służą one dalszemu wnioskowaniu, np.
dopodobieńtwa tego oszacowania. biogeograficznemu.
FILOGENEZA JAKO PODSTAWA BIOLOGII PORÓWNAWCZEJ I EWOLUCYJNEJ
jedynym sposobem wnioskowania o historii
Drzewa filogenetyczne są wykorzystywa-
ewolucyjnej organizmów jest właśnie drzewo
ne nie tylko do weryfikacji systemu klasyfi-
filogenetyczne i współczesna różnorodność
kacji organizmów, ale także do rekonstrukcji
organizmów, czyli dane neontologiczne, na-
ich ewolucji i właśnie takie zastosowanie
zywane tak dla odróżnienia od danych pale-
jest najbardziej ekscytujące. Ze względu na
ontologicznych. Analizując rozkład cech na
niekompletność zapisu kopalnego, zwłaszcza
liściach drzewa, możemy zrekonstruować sta-
w wypadku organizmów lądowych, często
Krzysztof spaliK, Marcin piwczyńsKi
496
ny tych cech w jego wewnętrznych węzłach. rego kierunek zmienia się w sposób nieprze-
Podobnie jak w wypadku nukleotydów, re- widywalny (nie ma doboru kierunkowego).
konstrukcji tych można dokonać za pomocą Ponieważ procesy ewolucyjne nie są czysto
różnych metod, w tym największej parsymo- losowe, poszukiwano także metod, które po-
nii, największej wiarygodności lub analizy zwoliłyby na modelowanie siły doboru i roz-
bayesowskiej. luznienie założenia o czystej losowości. Taki
Do czego może się przydać taka analiza? jest np. model bazujący na procesie stocha-
Czasem chcemy po prostu dobrze wyjaśnić stycznym nazwanym od dwóch holender-
ewolucję danej grupy organizmów, pokazać skich fizyków procesem Ornsteina-Uhlenbec-
kolejne etapy jej różnicowania się lub uzy- ka. Model ten jest bardziej realistyczny od
skiwania określonych adaptacji. Czasem in- modelu ruchów Browna, ponieważ ma pa-
teresuje nas koewolucja określonych cech rametr pozwalający na ograniczenia w zmia-
chcielibyśmy się na przykład dowiedzieć, nach cechy, co pozwala symulować ewolucję
czy istnieją pewne syndromy adaptacyjne do pod wpływem doboru naturalnego. Bardzo
określonych warunków, czyli grupy współ- ciekawy empiryczny test metod rekonstrukcji
ewoluujących cech. Innym razem chcemy cech przodków przeprowadzili wEBstEr i pU-
sprawdzić, czy uzyskanie określonej nowości rvis (2002). Ze względu na bardzo obszerny,
ewolucyjnej zbiega się na drzewie filogene- niemalże kompletny zapis kopalny ewolucji
tycznym z radiacją danej grupy organizmów. otwornic (Foraminifera), znali oni wartości
Możliwości wykorzystania wiedzy o ewolucji cech przodków dla węzłów zrekonstruowa-
cech jest wiele. nego drzewa filogenetycznego współcześnie
Badania porównawcze prowadzono już żyjących gatunków. Mogli więc porównać
od dawna, ale przed rozwojem filogenetyki oszacowania tych węzłów za pomocą róż-
molekularnej miały one wątpliwą wartość. nych metod ze stanem faktycznym. Okazało
Biologia porównawcza kręciła się w błędnym się, że najlepiej sprawdziła się metoda bazu-
kole, albowiem dysponując jedynie danymi jąca na modelu Ornsteina-Uhlenbecka.
fenotypowymi wykorzystywała je zarówno Warto wspomnieć, że rekonstrukcja cech
do szacowania filogenezy, jak i rekonstruk- przodków nie musi się ograniczać tylko do
cji ewolucji cech. Takie podejście obarczone cech fenotypowych organizmu, ale może
jest poważnym błędem. Jeśli bowiem podo- dotyczyć jego środowiska życia albo zasięgu
bieństwo fenetyczne jest wynikiem ewolucji geograficznego. Takie pytania rodzą się w ba-
zbieżnej, to uzyskamy błędną filogenezę i daniach biogeografii historycznej, paleoeko-
zjawiska konwergencji nie wyłapiemy. Jeśli logii lub uwarunkowań kladogenezy. Badając
badamy korelację ewolucyjną cech, to nie np. zmiany tempa dywersyfikacji czyli wy-
możemy jej badać na filogenezie uzyskanej padkowej specjacji i wymierania pytamy,
z tych cech (albowiem metody filogenetycz- który z czynników odpowiada za to zjawisko.
ne zakładają brak tej korelacji). Dopiero fi- Najczęściej wymienia się dwa typy uwarun-
logenetyka molekularna dostarczyła silnie kowań, które mogą mieć wpływ na zmiany
wspartych drzew uzyskanych na podstawie tempa dywersyfikacji:
niezależnych danych i w mniejszym stopniu a) uwarunkowania wewnętrzne, jaki-
podatnych na konwegencję. mi są inherentne właściwości organizmów
Przez wiele lat jedyną metodą wykorzy- sprzyjające ewolucyjnemu różnicowaniu się;
stywaną do rekonstrukcji ewolucji cech była zwraca się szczególną uwagę na kluczowe in-
metoda największej parsymonii. Jest to sto- nowacje adaptacyjne u roślin są to cechy
sunkowo prosta i dobra metoda, ale podob- związane z morfologią kwiatów, formą ży-
nie jak w wypadku rekonstrukcji stanów ciową oraz typem owocu i związanym z nim
cech nukleotydów (patrz powyżej) czasem mechanizmem rozsiewania się;
zawodzi, zwłaszcza w dużej skali czasowej. b) uwarunkowania zewnętrzne, jakimi są
Dlatego też coraz częściej wykorzystywane są np. czynniki geograficzne i klimatyczne; po-
inne metody, np. maksymalnej wiarygodności wstawanie barier sprzyja specjacji, natomiast
lub bayesowskie. Podobnie jak w wypadku zanikanie barier ułatwia migracje; takie barie-
analiz sekwencji, metody te wymagają założe- ry mogą powstawać wskutek zjawisk geolo-
nia określonego modelu. Jednym z podstawo- gicznych (wędrówki kontynentów, zanikanie
wych jest model bazujący na ruchach Brow- i pojawianie się pomostów lądowych, zmiany
na (proces Wienera). Zakłada on, że cecha poziomu mórz, orogeneza itd.) albo klima-
ewoluuje pod wpływem dryfu genetycznego tycznych (bariery termiczne, zlodowacenia i
lub pod wpływem doboru naturalnego, któ- ustępowanie gatunków do ostoi itd.); zmiany
Rekonstrukcja filogenezy
497
klimatyczne powodują wymieranie starych kład, harDy i linDEr (2005) wykorzystując
gatunków, a także powstawanie nowych. kilka metod, zrekonstruowali najbardziej
W obydwu przypadkach często nie mamy prawdopodobne warunki ekologiczne, w ja-
wiedzy paleontologicznej na temat warun- kich żył przodek rodzaju Thamnochortus z
ków, w jakich występował, lub cech, jakie Afryki Południowej. Okazało się, że żył on w
posiadał przodek badanych gatunków. Jeśli typie siedliska, jakie występuje dzisiaj w po-
umiemy odpowiednio zakodować cechy, w łudniowo-zachodniej, górzystej części flory-
tym ekologiczne, oraz wybrać odpowiedni stycznego regionu przylądkowego w Afryce
model zmian wzdłuż gałęzi drzewa filogene- Południowej, a jego potomkowie skolonizo-
tycznego, to można taką rekonstrukcję prze- wali siedliska o niższej amplitudzie opadów
prowadzić. Pozwoli ona na ustalenie, ile razy atmosferycznych i położone niżej, przysto-
i w którym momencie nastąpiło przejście do sowali się także do większego spektrum wa-
innych warunków ekologicznych. Na przy- runków glebowych.
w poszUKiwaniU DrzEwa Życia
Rozwój metod molekularnych, w tym wy-
odcinków, ale także informacja o zmianach
soko wydajnego sekwencjonowania, stwarza-
strukturalnych o duplikacjach i utracie ge-
ją filogenetyce molekularnej nowe, niezwykłe
nów, zmianach ich położenia, fuzjach, trans-
możliwości. Narodziła się filogenomika ana-
ferze poziomym itd.
lizująca nie poszczególne sekwencje, ale całe
Niekwestionowane sukcesy filogenety-
genomy, np. mitochondrialne albo chloropla-
ki molekularnej skłaniają do zadania pyta-
stowe. Dużym osiągnięciem było zsekwen-
nia, czy poznamy kiedyś kompletne drzewo
cjonowanie kompletnego genomu mitochon-
życia. Pomijając fakt, że nie znamy jeszcze
drialnego neandertalczyka oraz porównanie
wszystkich gatunków żyjących na Ziemi, a
go z genomami współczesnych ludzi (GrEEn
wiele z nich wyginie, zanim je opiszemy, to
i współaut. 2008). Pozwoliło to na oszacowa-
jest to przedsięwzięcie możliwe do wykona-
nie czasu rozejścia się Homo sapiens i Homo
nia. Pamiętajmy jednak, że będzie to drzewo
neanderthalensis na 660 ą 140 tys. lat temu
przybliżone, albowiem jak to już zaznaczy-
znacznie dokładniejsze i z mniejszym błę-
liśmy nie zawsze w materiale genetycznym
dem niż poprzednie oszacowania, bazujące
organizmów zachował się czytelny sygnał fi-
na pojedynczych sekwencjach. Warto zauwa-
logenetyczny, a metody rekonstrukcji filoge-
żyć, że sygnał filogenetyczny zawarty w geno-
nezy niekiedy zawodzą. Tym niemniej, warto
mach to nie tylko sekwencje poszczególnych
próbować.
PHYLOGENY ESTIMATION AND PHYLOGENETIC INFERENCE IN EVOLUTIONARY STUDIES
S u m m a r y
sumptions and caveats. The chosen sequences must
Modern phylogenetics, although rooted in Dar-
be orthologous (resulting from a speciation event),
win s and Haeckel s ideas on evolutionary relation-
as opposed to paralogous (resulting from a duplica-
ships among organisms, dates back to the second
tion event); choosing orthologous sequences does
half of the 20th century and the advance of nu-
not guarantee that the phylogenetic signal is undis-
merical methods in taxonomy. Its beginnings were
turbed. Reversals, multiple hits and parallel substitu-
marked by a fierce debate between phenetics and
tions may result in a higher similarity of sequences
cladistics but at present it incorporates a diverse ar-
than expected from their evolutionary history and
ray of methods including those based on distance
therefore affect the phylogenetic reconstructions.
and clustering algorithms, parsimony, maximum
Moreover, trees inferred from molecular data are
likelihood and Bayesian statistics. The phylogeny of
usually gene trees rather than species trees. There
extant organisms is usually inferred using molecular
are several processes that may result in discordance
markers, because they are genetic, less arbitrary (do
between a gene tree and an organism tree including
not require arbitrary coding), more additive, less
interspecific hybridisation, horizontal gene transfer,
prone to convergence and more universal than tradi-
incomplete lineage sorting and selection for allele
tional morphological markers. Phylogenies inferred
polymorphism. The most commonly used phyloge-
using molecular data are usually more stable and
netic methods include those based on parsimony,
have better internal support than those obtained
distance and clustering, maximum likelihood and
from morphology. However, the informed user of
Bayesian statistics. The last three employ nucleotide
phylogenetics methods must be aware of their as-
Krzysztof spaliK, Marcin piwczyńsKi
498
substitution models. Each method is based on cer- using relaxed molecular clock. In evolutionary biol-
tain evolutionary assumptions that may not necessar- ogy, molecular phylogenies are widely used in com-
ily apply to a given data set. Noteworthy are recent parative studies, historical biogeography and for ana-
advances in methods of inferring divergence times lysing character state evolution.
litEratUra
struction: A test case from the Cape Flora. Sys-
caMin J. H., soKal R. R., 1965. A method for deduc-
tematic Biol. 54, 299 316.
ing branching sequences in phylogeny. Evolu-
JUKEs T. H., cantor C. R., 1969. Evolution of protein
tion 19, 311 326.
molecules. [W:] Mammalian protein metabo-
DoolittE R. F., BloMBacK B., 1964. Amino-acid se-
lism. MUnro H. N. (red.). Academic Press, New
quence investigations of fibrinopeptides from
York, 21 123.
various mammals: evolutionary implications.
KiMUra M., 1983. The Neutral Theory of Molecular
Nature 202, 147 152.
Evolution. Cambridge University Press, Cam-
GrEEn R. E., Malaspinas A.-S., KraUsE J., BriGGs A.
bridge.
W., Johnson P. L., UhlEr C., MEyEr M., GooD J.
MarGoliash E., 1963. Primary structure and evolu-
M., Maricic T., stEnzEl U., pr�fEr K., siEBaUEr
tion of cytochrome C. Proc. Natl. Acad. Sci. USA
M., BUrBano H. A., ronan M., rothBErG J. M.,
50, 672 679.
EGholM M., rUDan P., BraJKović D., KUćan Z.,
sMith S. A., DonoGhUE M. J, 2008. Rates of molecu-
GUsić I., wiKstr�M M., laaKKonEn L., KElso J.,
lar evolution are linked to life history in flower-
slatKin M., p��Bo S., 2008. A complete Neander-
ing plants. Science 322, 86 89.
tal mitochondrial genome sequence determined
wEBstEr A. J., pUrvis A., 2002. Testing the accuracy
by high-throughput sequencing. Cell 134, 416
of methods for reconstructing ancestral states of
26.
continuous characters. Proc. R. Soc. Lond. Series
GrEhan J. R., schwartz J. H., 2009. Evolution of the
B 269, 143 149.
second orangutan: phylogeny and biogeography
zUcKErKanDl E., paUlinG L., 1965. Evolutionary di-
of hominid origins. J. Biogeograph. doi:10.1111/
vergence and convergence in proteins. [W:]
j.1365 2699.2009.02141.x.
Evolving genes and proteins. Bryson V., voGEl
harDy C. R., linDEr H. P., 2005. Intraspecific vari-
H. J. (red.). Academic Press, New York, 97 166.
ability and timing in ancestral ecology recon-

Wyszukiwarka

Podobne podstrony:
Badanie spożycia żywności Podsumowanie i wnioski
Rozwój filogenetyczny i ontogenetyczny
Tworzenie drzew filogenetycznych
pytania z analizy filogenetycznej (1)egzamin
filogenetyka
Pośmiertne badania obrazowe TK z rekonstrukcją 3D u ofiar postrzałów
ANALIZA FILOGENETYCZNAaa
Budowanie drzewa filogenetycznego
AiSD Filogen
Systematyka i filogeneza roślin dla studentow
ZARZĄDZANIE WARTOŚCIĄ PRZEDSIĘBIORSTWA Z DNIA 26 MARZEC 2011 WYKŁAD NR 3

więcej podobnych podstron