Filogenetyka Dr inż. Magdalena ÅšwiÄ™cicka, dr hab. Marcin Filipecki Katedra Genetyki, Hodowli i Biotechnologii RoÅ›lin, SGGW Filogenetyka Cel rekonstrukcja historii ewolucji wszystkich organizmów Klasyczne podejÅ›cie: historia ewolucji jest odtwarzana na podstawie porównaÅ„ cech morfologicznych i fizjologicznych badanych organizmów. Filogenetyka Molekularne podejÅ›cie: zadaniem filogenetyki molekularnej jest zrekonstruowanie zwiÄ…zków filogenetycznych miÄ™dzy badanymi sekwencjami Podstawowe zaÅ‚ożenie w filogenetyce molekularnej: ¨ðsekwencje przodka mutujÄ… w sekwencje potomków ¨ðpodobne gatunki sÄ… genetycznie blisko spokrewnione Mechanizmy ewolucji Mutacje w genach Mutacje sÄ… rozprzestrzeniane w populacji poprzez dryf genetyczny i/lub selekcjÄ™ naturalnÄ… Duplikacja i rekombinacja genów tempo mutacji zależy od regionu w genomie, genie, rodzaju genu; częściej obserwuje siÄ™ podstawienia w III pozycji kodonów; CCG (prolina) zmiana G na jakikolwiek nt nie powoduje zmiany aminokwasu CTG (leucyna) zmiana C-T nie powoduje zmian ¨ð zmiana SYNONIMICZNA ¨ð zmiana NIESYNONIMICZNA częściej obserwuje siÄ™ podstawienia typu tranzycji (puryna- puryna, pirymidyna-pirymidyna) niż transwersji; częściej obserwowane sÄ… podstawienia miÄ™dzy aminokwasami podobnymi do siebie, ze wzglÄ™du na swoje wÅ‚aÅ›ciwoÅ›ci biochemiczne, biofizyczne, np.: izoleucyna lecyna walina izoleucyna Kwas asparaginowy kwas glutaminowy OBOWIZUJCE SYMBOLE AMINOKWASÓW Symbol 3-literowy znaczenie kodony A Ala Alanina GCT, GCC, GCA, GCG B Asp, Asn Asparagina, Asparaginian GAT, GAC, AAT, AAC C Cys Cysteina TGT, TGC D Asp Asparaginian GAT, GAC E Glu Glutaminian GAA, GAG F Phe Fenyloalanina TTT, TTC G Gly Glicyna GGT, GGC, GGA, GGG H His Histydyna CAT, CAC I Ile Izoleucyna ATT, ATC, ATA K Lys Lizyna AAA, AAG L Leu Leucyna TTG, TTA, CTT, CTC, CTA, CTG M Met Metionina ATG N Asn Asparagina AAT, AAC P Pro Prolina CCT, CCC, CCA, CCG Q Gln Glutamina CAA, CAG R Arg Arginina CGT, CGC, CGA, CGG, AGA, AGG S Ser Seryna TCT, TCC, TCA, TCG, AGT, AGC T Thr Treonina ACT, ACC, ACA, ACG V Val Walina GTT, GTC, GTA, GTG W Trp Tryptofan TGG X Xxx Nieznany Y Tyr Tyrozyna TAT, TAC Z Glu, Gln Glutaminian, Glutamina GAA, GAG, CAA, CAG * End Terminator TAA, TAG, TGA rzadko obserwuje siÄ™ podstawienia miÄ™dzy aminokwasami bardzo różniÄ…cymi siÄ™ swoimi wÅ‚aÅ›ciwoÅ›ciami: tryptofan izoleucyna rzadko obserwuje siÄ™ podstawienia miÄ™dzy aminokwasami peÅ‚niÄ…cymi ważne role w biaÅ‚kach: tryptofan (TGG) na kodon stop (TAG) mutacje missens jeden aminokwas zastÄ™powany innym mutacje nonsens terminacja translacji zmiana ramki odczytu Wyrazem analiz filogenetycznych sÄ… drzewa filogenetyczne miÄ™dzy czÄ…steczkami drzewo genów lub organizmami drzewo gatunków KorzeÅ„ wspólny przodek dla wszystkich taksonów GaÅ‚Ä…z obrazuje zwiÄ…zki ewolucyjne miÄ™dzy porównywanymi jednostkami taksonomicznymi DÅ‚ugość gaÅ‚Ä™zi zazwyczaj reprezentuje liczbÄ™ zmian, które siÄ™ zdarzyÅ‚y w danej linii ewolucyjnej WÄ™zeÅ‚ reprezentuje miejsce rozgaÅ‚Ä™zieÅ„ jednostek taksonimicznych (populacji, organizmu, genu). Liść reprezentuje aktualnie analizowanÄ… jednostkÄ™ taksonomicznÄ… Drzewa ukorzenione i nieukorzenione znany wspólny przodek lub istnieje hipoteza na temat wspólnego przodka / nieznany wspólny przodek Topologia drzewa DÅ‚ugość gaÅ‚Ä™zi (czas ewolucji, ilość zmian) PrzykÅ‚adowe drzewa filogenetyczne Po co konstruuje siÄ™ drzewa filogenetyczne? " Poznanie i zrozumienie historii ewolucyjnej " Mapowanie różnicowania szczepów patogennych do opracowania szczepionek " Wsparcie dla epidemiologów Choroby infekcyjne Defekty genetyczne " NarzÄ™dzie do przewidywania funkcji nowo odkrytych genów " Badania różnicowania ukÅ‚adów biologicznych " Poznanie ekologii mikroorganizmów Filogenetyka zwana jest czasem kladystykÄ… Klad zbiór potomków pochodzÄ…cych od pojedynczego przodka Podstawowe zaÅ‚ożenia kladystyki: 1. każda grupa organizmów jest spokrewniona przez pochodzenie od wspólnego przodka 2. kladogeneza ma charakter bifurkacyjny (rozwidlajÄ…cy siÄ™) 3. zmiany w cechach pojawiajÄ… siÄ™ w liniach filogenetycznych z upÅ‚ywem czasu Drzewo genów: bifurkacja mutacja Drzewo gatunków: bifurkacja specjacja Mutacja warunek niezbÄ™dny, ale nie zawsze wystarczajÄ…cy do specjacji CzÄ™sto zapominamy o: I Domniemany znak równoÅ›ci miÄ™dzy podobieÅ„stwem zestawu cech (np. nukleotydów), a pochodzeniem II Mutacje somatyczne `" mutacje genetyczne Mutacja DNA lub biaÅ‚ka wydziela siÄ™ z tkanek somatycznych, dla filogenezy istotne sÄ… tylko mutacje w gametach III Cechy używane do budowy drzewa gatunków majÄ… siÄ™ nijak do cech używanych do budowy drzewa genów Cechy, które mogÄ… być użyte do budowy drzewa rzÄ™dów owadów: Poruszanie siÄ™ Okrycie stwardniaÅ‚ym oskórkiem lub kokonem, Widoczność niezupeÅ‚nie rozwiniÄ™tych narzÄ…dów Widoczność niecaÅ‚kowicie wyksztaÅ‚conych i nie funkcjonujÄ…cych odnóży, Widoczność zawiÄ…zków skrzydeÅ‚ Widoczność aparatu gÄ™bowego Zdolność do aktywnego poruszania siÄ™ PeÅ‚ne wyksztaÅ‚cenie narzÄ…dów lokomotorycznych PeÅ‚ne wyksztaÅ‚cenie zmysłów Obecność czÅ‚onowanych odnóży krocznych Liczba czÅ‚onowanych odnóży krocznych Obecność pseudopodiów Liczba pseudopodiów Geny, które bierze siÄ™ najczęściej do budowy drzew genów: Cytochrom B NADH dehydrogenase subunit I (ND1) 18S RNA 28S RNA Horyzontalny transfer genów Niektóre domyÅ›lne zaÅ‚ożenia kladystyki: " sekwencje sÄ… poprawne " sekwencje sÄ… homologiczne PodobieÅ„stwo to wielkość obserwowalna, którÄ… można okreÅ›lić np. jako % identycznych aminokwasów. Homologia okreÅ›la wspólne pochodzenie porównywanych genów (to może być wniosek wyciÄ…gniÄ™ty z analizy podobieÅ„stwa) Termin homologiczne oznacza odziedziczone po wspólnym przodku Niektóre domyÅ›lne zaÅ‚ożenia kladystyki (cd): " każda pozycja w sekwencjach dopasowanych (alignment) jest homologiczna z każdÄ… odpowiedniÄ… pozycjÄ… w tym dopasowaniu " różnorodność sekwencji w danym zbiorze jest na tyle duża, że zawiera filogenetyczne sygnaÅ‚y, odpowiednie do rozwiÄ…zania postawionego problemu Jakich sekwencji użyć ? " DNA (mt, rDNA, powoli czy szybko ewoluujÄ…ce) Bardzo szczegółowe, niejednolite tempo mutacji " cDNA/RNA Użyteczne dla bardziej odlegÅ‚ych sekwencji homologicznych " Sekwencje biaÅ‚kowe Użyteczne do badania wiÄ™kszoÅ›ci odlegÅ‚ych sekwencji homologicznych, możliwość konstrukcji bardzo rozlegÅ‚ych ewolucyjnie drzew, bardziej jednolite tempo zmiennoÅ›ci mutacyjnej, wiÄ™cej elementów zmiennoÅ›ci Sekwencje rybosomowego 16S RNA " WystÄ™pujÄ… we wszystkich organizmach " SÄ… wysoce konserwatywne " NadajÄ… siÄ™ do konstruowania bardzo rozlegÅ‚ych ewolucyjnie drzew " Znane dla kilkudziesiÄ™ciu tysiÄ™cy organizmów, głównie prokariotycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Co jest obliczane? Topologia drzewa porzÄ…dek (kolejność) odgaÅ‚Ä™zieÅ„ i korzeÅ„ DÅ‚ugość odgaÅ‚Ä™zieÅ„ (czas ewolucji) Sekwencje przodków WartoÅ›ci pokrewieÅ„stwa (np. prawdopodobieÅ„stwo poszczególnych przemian) Wiarygodność drzewa Dopasowywanie sekwencji (Multiple Sequence Alignment) " Dopasowanie spokrewnionych sekwencji w taki sposób, żeby odpowiadajÄ…ce sobie pozycje znajdowaÅ‚y siÄ™ w tej samej kolumnie " WypeÅ‚nienie brakujÄ…cych miejsca kreskami (delecje, insercje) " Każda kolumna znaków staje siÄ™ pojedynczym elementem do dalszych obliczeÅ„ filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Dopasowanie i porównanie wielu sekwencji Celem porównania wielu sekwencji jest uÅ‚ożenie w kolumnach aminokwasów (nukleotydów) pochodzÄ…cych od jednego aminokwasu (nukleotydu) w biaÅ‚ku (genie) wspólnego przodka we wszystkich sekwencjach od niego pochodzÄ…cych. Wstawienie przerwy Porównanie parami Porównanie parami wszystkich sekwencji - seq_1 & seq_ 2 Þð 0.91 ¨ð seq_ 1 & seq_ 3 Þð 0.23 ¨ð & ¨ð seq_ 8 & seq_ 9 Þð 0.87 Porównanie wielu sekwencji W oparciu o dendrogram przewodni zaczyna siÄ™ porównywanie grup sekwencji. Drzewo przewodnie wskazuje, które sekwencje sÄ… najbliższe a wiÄ™c najpierw porównuje siÄ™ te Å‚atwe , a trudniejsze zostawia siÄ™ na potem. Sekwencje nieuÅ‚ożone a mthislgslyshktaktingsdeaskmewhf b mthvslgsmyshktgrtingsdqaskkmewhy c mshisitmyshktartidgseqaskmewhy d mthipigsmyshktaravngseqasklqwhy e mthipigsmystartincseqasklewhy Porównanie wielu sekwencji C mthipigsmyshktaravngseqasklqwhy D mthipigsmys--tartincseqasklewhy E A B Porównanie wielu sekwencji C mthipigsmyshktaravngseqasklqwhy D mthipigsmys--tartincseqasklewhy E mthislgslyshktaktingsdeas-kmewhf A mthvslgsmyshktgrtingsdqaskkmewhy B Porównanie wielu sekwencji mshisi-tmyshktartidgseqaskmewhy C mthipigsmyshktaravngseqasklqwhy D mthipigsmys--tartincseqasklewhy E mthislgslyshktaktingsdeas-kmewhf A mthvslgsmyshktgrtingsdqaskkmewhy B Porównanie wielu sekwencji mshisi-tmyshktartidgseqas-kmewhy C mthipigsmyshktaravngseqas-klqwhy D mthipigsmys--tartincseqas-klewhy E mthislgslyshktaktingsdeas-kmewhf A mthvslgsmyshktgrtingsdqaskkmewhy B Sekwencje uÅ‚ożone a mthislgslyshktaktingsdeas-kmewhf b mthvslgsmyshktgrtingsdqaskkmewhy c mshisi-tmyshktartidgseqas-kmewhy d mthipigsmyshktaravngseqas-klqwhy e mthipigsmys--tartincseqas-klewhy Metody obliczeniowe konstruowania drzew filogenetycznych " Metody analizy odlegÅ‚oÅ›ciowe (distance methods) met. Å›rednich poÅ‚Ä…czeÅ„ (UPGMA; unweighted pair group method with arithmetic mean, - met. przyÅ‚Ä…czania sÄ…siadów (NJ; neighbor joining) - met. Fitch-Margoliash (FM) - met. minimalnych odlegÅ‚oÅ›ci (ME) " Metody oparte na cechach (character based methods) - met. najwiÄ™kszej oszczÄ™dnoÅ›ci (MP; Maximum Parsimony) - met. najwiÄ™kszej wiarygodnoÅ›ci (ML; Maximum Likelihood) " AÄ…czenie drzew - drzewa konsensusowe, superdrzewa Budowa dendrogramu przewodniego Skonstruowanie dendrogramu przewodniego w oparciu o porównania parami ¨ðMetoda Å›rednich poÅ‚Ä…czeÅ„ - UPGMA unweighted pair group method with arithmetic mean (PileUp & Clustal V) ¨ðMetoda przyÅ‚Ä…czania sÄ…siada - Neighbor-Joining (NJ) (Clustal W, Clustal X) Metody odlegÅ‚oÅ›ciowe OdlegÅ‚ość wyrażana jest w uÅ‚amkach miejsc, którymi różniÄ… siÄ™ miÄ™dzy sobÄ… 2 sekwencje w wielokrotnym przyrównaniu Para sekwencji różniÄ…ca siÄ™ w 10% miejsc jest bliżej spokrewniona niż para różniÄ…ca siÄ™ w 30%. Metody odlegÅ‚oÅ›ciowe przodek linia potomna liczba zmian A C A 0 A C G 1 A C 0 C Metoda nieważona grupowania parami ze Å›redniÄ… arytmetycznÄ… UPGMA program znajduje najpierw parÄ™ taksonów, którÄ… dzieli najmniejsza różnica i ustala punkt rozejÅ›cia miÄ™dzy nimi, czyli wÄ™zeÅ‚, w poÅ‚owie odlegÅ‚oÅ›ci. Å‚Ä…czy je w klaster i wpisuje do nowej macierzy odlegÅ‚oÅ›ci dzielÄ…ce ten klaster od pozostaÅ‚ych powtarzanie tych etapów, aż macierz zostanie zredukowana do 1 obiektu A B C D E A B C DE 1. 2. A 0 6 9 11 9 A 0 6 9 10 D D E B 6 0 7 8 B 6 0 7 9 7 E C 9 7 0 7 A C 9 7 0 8 6 B DE 10 8 7 0 D 11 9 8 0 4 E 9 7 6 4 0 3. 4. C C AB C DE AB CDE D D AB 0 8 9 AB 0 8.5 E E C 8 0 7 CDE 8.5 0 A A DE 9 7 0 B B UPGMA Hipoteza zegara molekularnego ewolucja różnych gatunków zachodzi w takim samym tempie (FAASZ) Rzadko używana metoda przez filogenetyków, nadal popularna w epidemiologii drobnoustrojów Metody odlegÅ‚oÅ›ciowe przyÅ‚Ä…czanie sÄ…siadów (NJ) umożliwia konstruowanie nieukorzenionych drzew drzewa addytywne odlegÅ‚ość pomiÄ™dzy gatunkami reprezentowanymi przez liÅ›cie drzewa sÄ… równe sumie dÅ‚ugoÅ›ci Å‚Ä…czÄ…cych je gaÅ‚Ä™zi (odlegÅ‚oÅ›ci od obu taksonów do wÄ™zÅ‚a nie muszÄ… być identyczne) i n j Metody oparte na cechach metoda najwiÄ™kszej oszczÄ™dnoÅ›ci (MP) metoda najwiÄ™kszej wiarygodnoÅ›ci (ML) Metoda najwiÄ™kszej oszczÄ™dnoÅ›ci (MP) Metoda parsymonii (oszczÄ™dnoÅ›ci) najodpowiedniejsze jest takie drzewo, w którym potrzebujemy najmniejszej liczby zmian do wyjaÅ›nienia danych wystÄ™pujÄ…cych jako przyrównanie sekwencji. Kryterium parsymonii Które drzewo jest najprostszym wytÅ‚umaczeniem obserwowanego zróżnicowania cechy miÄ™dzy gatunkami? + wyksztaÅ‚cenie siÄ™ cechy * utracenie cechy + + + + * A B C D A D C B A C D B Metoda najwiÄ™kszej wiarygodnoÅ›ci Poszukiwanie drzewa, które zgodnie z okreÅ›lonym modelem ewolucji maksymalnie uwiarygodnia dane. Wiarygodność obliczamy dla: topologii drzewa dÅ‚ugoÅ›ci gaÅ‚Ä™zi wartoÅ›ci wskazników tempa podstawieÅ„ (czÄ™stość wystÄ™powania zasady, liczba tranzycji / liczby transwersji) Wyznaczenie wartoÅ›ci ML może posÅ‚użyć do utworzenia rankingu alternatywnych drzew. Metoda bootstrap Pozwala oszacować wiarygodność rozgaÅ‚Ä™zieÅ„ w drzewach Porównuje topologiÄ™ drzewa dla losowo wygenerowanych dopasowaÅ„ sekwencji (100 1000 dopasowaÅ„) Drzewo z wartoÅ›ciami bootstrap (odsetek wygenerowanych drzew, w których obserwowano dokÅ‚adnie takie samo rozgaÅ‚Ä™zienie linii ewolucyjnych) Dobór wÅ‚aÅ›ciwego algorytmu " Niedyskretny charakter zmiennych jednostek, duża ilość danych, niewielkie zasoby obliczeniowe ==> Metoda najbliższego sÄ…siedztwa (Neighbor joining) " Dyskretny charakter zmiennych, niewielka liczba mutacji/homoplazja ==> Maximum Parsimony " Dyskretny charakter zmiennych, ograniczona dÅ‚ugość sekwencji, wystÄ™powanie zjawiska homoplazji ==>Maximum Likelihood " Dyskretny charakter zmiennych, wiele gatunków ==>Superdrzewo " Kompletne genomy ==>Filogeneza caÅ‚ych genomów