filogenetyka


Filogenetyka
Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki
Katedra Genetyki, Hodowli i Biotechnologii
Roślin, SGGW
Filogenetyka
Cel  rekonstrukcja historii ewolucji
wszystkich organizmów
Klasyczne podejście:
historia ewolucji jest odtwarzana na
podstawie porównań cech
morfologicznych i fizjologicznych
badanych organizmów.
Filogenetyka
Molekularne podejście:
zadaniem filogenetyki molekularnej jest
zrekonstruowanie związków filogenetycznych między
badanymi sekwencjami
Podstawowe założenie w filogenetyce molekularnej:
¨ðsekwencje przodka mutujÄ… w sekwencje potomków
¨ðpodobne gatunki sÄ… genetycznie blisko spokrewnione
Mechanizmy ewolucji
Mutacje w genach
Mutacje sÄ… rozprzestrzeniane w
populacji poprzez dryf genetyczny i/lub
selekcjÄ™ naturalnÄ…
Duplikacja i rekombinacja genów
tempo mutacji zależy od regionu w genomie, genie, rodzaju genu;
częściej obserwuje się podstawienia w III pozycji kodonów;
CCG (prolina) zmiana G na jakikolwiek nt nie powoduje zmiany
aminokwasu
CTG (leucyna) zmiana C-T nie powoduje zmian
¨ð zmiana SYNONIMICZNA
¨ð zmiana NIESYNONIMICZNA
częściej obserwuje się podstawienia typu tranzycji (puryna-
puryna, pirymidyna-pirymidyna) niż transwersji;
częściej obserwowane są podstawienia między aminokwasami
podobnymi do siebie, ze względu na swoje właściwości
biochemiczne, biofizyczne, np.:
izoleucyna  lecyna
walina  izoleucyna
Kwas asparaginowy  kwas glutaminowy
OBOWIZUJCE SYMBOLE AMINOKWASÓW
Symbol 3-literowy znaczenie kodony
A Ala Alanina GCT, GCC, GCA, GCG
B Asp, Asn Asparagina, Asparaginian GAT, GAC, AAT, AAC
C Cys Cysteina TGT, TGC
D Asp Asparaginian GAT, GAC
E Glu Glutaminian GAA, GAG
F Phe Fenyloalanina TTT, TTC
G Gly Glicyna GGT, GGC, GGA, GGG
H His Histydyna CAT, CAC
I Ile Izoleucyna ATT, ATC, ATA
K Lys Lizyna AAA, AAG
L Leu Leucyna TTG, TTA, CTT, CTC, CTA, CTG
M Met Metionina ATG
N Asn Asparagina AAT, AAC
P Pro Prolina CCT, CCC, CCA, CCG
Q Gln Glutamina CAA, CAG
R Arg Arginina CGT, CGC, CGA, CGG, AGA, AGG
S Ser Seryna TCT, TCC, TCA, TCG, AGT, AGC
T Thr Treonina ACT, ACC, ACA, ACG
V Val Walina GTT, GTC, GTA, GTG
W Trp Tryptofan TGG
X Xxx Nieznany
Y Tyr Tyrozyna TAT, TAC
Z Glu, Gln Glutaminian, Glutamina GAA, GAG, CAA, CAG
* End Terminator TAA, TAG, TGA
rzadko obserwuje się podstawienia między
aminokwasami bardzo różniącymi się swoimi
właściwościami:
tryptofan  izoleucyna
rzadko obserwuje się podstawienia między
aminokwasami pełniącymi ważne role w białkach:
tryptofan (TGG) na kodon stop (TAG)
mutacje missens  jeden aminokwas zastępowany
innym
mutacje nonsens  terminacja translacji
zmiana ramki odczytu
Wyrazem analiz filogenetycznych sÄ… drzewa
filogenetyczne
między cząsteczkami  drzewo genów
lub organizmami  drzewo gatunków
Korzeń  wspólny przodek dla wszystkich taksonów
Gałąz  obrazuje związki ewolucyjne między
porównywanymi jednostkami taksonomicznymi
Długość gałęzi  zazwyczaj reprezentuje liczbę zmian,
które się zdarzyły w danej linii ewolucyjnej
Węzeł  reprezentuje miejsce rozgałęzień jednostek
taksonimicznych (populacji, organizmu, genu).
Liść  reprezentuje aktualnie analizowaną jednostkę
taksonomicznÄ…
Drzewa ukorzenione i nieukorzenione
znany wspólny przodek lub istnieje hipoteza na temat
wspólnego przodka / nieznany wspólny przodek
Topologia drzewa
Długość gałęzi (czas ewolucji, ilość zmian)
Przykładowe drzewa filogenetyczne
Po co konstruuje siÄ™ drzewa filogenetyczne?
" Poznanie i zrozumienie historii ewolucyjnej
" Mapowanie różnicowania szczepów patogennych do
opracowania szczepionek
" Wsparcie dla epidemiologów
 Choroby infekcyjne
 Defekty genetyczne
" Narzędzie do przewidywania funkcji nowo odkrytych
genów
" Badania różnicowania układów biologicznych
" Poznanie ekologii mikroorganizmów
Filogenetyka zwana jest czasem kladystykÄ…
Klad  zbiór potomków pochodzących od pojedynczego przodka
Podstawowe założenia kladystyki:
1. każda grupa organizmów jest spokrewniona przez
pochodzenie od wspólnego przodka
2. kladogeneza ma charakter bifurkacyjny (rozwidlajÄ…cy siÄ™)
3. zmiany w cechach pojawiajÄ… siÄ™ w liniach
filogenetycznych z upływem czasu
Drzewo genów: bifurkacja  mutacja
Drzewo gatunków: bifurkacja  specjacja
Mutacja 
warunek niezbędny, ale nie zawsze wystarczający do
specjacji
Często zapominamy o:
I Domniemany znak równości między podobieństwem
zestawu cech (np. nukleotydów), a pochodzeniem
II Mutacje somatyczne `" mutacje genetyczne
Mutacja  DNA lub białka wydziela się z tkanek
somatycznych, dla filogenezy istotne sÄ… tylko mutacje
w gametach
III Cechy używane do budowy drzewa gatunków mają
się nijak do cech używanych do budowy drzewa
genów
Cechy, które mogą być użyte do budowy drzewa rzędów owadów:
Poruszanie siÄ™
Okrycie stwardniałym oskórkiem lub kokonem,
Widoczność niezupełnie rozwiniętych narządów
Widoczność niecałkowicie wykształconych i nie funkcjonujących
odnóży,
Widoczność zawiązków skrzydeł
Widoczność aparatu gębowego
Zdolność do aktywnego poruszania się
Pełne wykształcenie narządów lokomotorycznych
Pełne wykształcenie zmysłów
Obecność członowanych odnóży krocznych
Liczba członowanych odnóży krocznych
Obecność pseudopodiów
Liczba pseudopodiów
Geny, które bierze się najczęściej do budowy drzew genów:
Cytochrom B
NADH dehydrogenase subunit I (ND1)
18S RNA
28S RNA
Horyzontalny transfer genów
Niektóre domyślne założenia kladystyki:
" sekwencje sÄ… poprawne
" sekwencje sÄ… homologiczne
Podobieństwo  to wielkość obserwowalna, którą można
określić np. jako % identycznych aminokwasów.
Homologia  określa wspólne pochodzenie porównywanych
genów (to może być wniosek wyciągnięty z analizy
podobieństwa)
Termin homologiczne oznacza odziedziczone po
wspólnym przodku
Niektóre domyślne założenia kladystyki (cd):
" każda pozycja w sekwencjach dopasowanych (alignment)
jest homologiczna z każdą odpowiednią pozycją w tym
dopasowaniu
" różnorodność sekwencji w danym zbiorze jest na tyle
duża, że zawiera filogenetyczne sygnały, odpowiednie do
rozwiÄ…zania postawionego problemu
Jakich sekwencji użyć ?
" DNA (mt, rDNA, powoli czy szybko ewoluujÄ…ce)
 Bardzo szczegółowe, niejednolite tempo mutacji
" cDNA/RNA
 Użyteczne dla bardziej odległych sekwencji homologicznych
" Sekwencje białkowe
 Użyteczne do badania większości odległych sekwencji
homologicznych, możliwość konstrukcji bardzo rozległych
ewolucyjnie drzew, bardziej jednolite tempo zmienności
mutacyjnej, więcej elementów zmienności
Sekwencje rybosomowego 16S RNA
" Występują we wszystkich organizmach
" SÄ… wysoce konserwatywne
" Nadają się do konstruowania bardzo rozległych
ewolucyjnie drzew
" Znane dla kilkudziesięciu tysięcy organizmów, głównie
prokariotycznych
Jacek Leluk
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski
Co jest obliczane?
Topologia drzewa
 porządek (kolejność) odgałęzień i korzeń
Długość odgałęzień (czas ewolucji)
Sekwencje przodków
Wartości pokrewieństwa (np.
prawdopodobieństwo poszczególnych przemian)
Wiarygodność drzewa
Dopasowywanie sekwencji
(Multiple Sequence Alignment)
" Dopasowanie spokrewnionych sekwencji w taki
sposób, żeby odpowiadające sobie pozycje
znajdowały się w tej samej kolumnie
" Wypełnienie brakujących miejsca kreskami
(delecje, insercje)
" Każda kolumna znaków staje się pojedynczym
elementem do dalszych obliczeń filogenetycznych
Jacek Leluk
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski
Dopasowanie i porównanie wielu sekwencji
Celem porównania wielu sekwencji jest ułożenie w
kolumnach aminokwasów (nukleotydów) pochodzących
od jednego aminokwasu (nukleotydu) w białku (genie)
wspólnego przodka we wszystkich sekwencjach od
niego pochodzÄ…cych.
Wstawienie przerwy
Porównanie parami
Porównanie parami wszystkich sekwencji
- seq_1 & seq_ 2 Þð 0.91
¨ð seq_ 1 & seq_ 3 Þð 0.23
¨ð &
¨ð seq_ 8 & seq_ 9 Þð 0.87
Porównanie wielu sekwencji
W oparciu o dendrogram przewodni zaczyna
się porównywanie grup sekwencji.
Drzewo przewodnie wskazuje, które
sekwencje są najbliższe  a więc najpierw
porównuje się te  łatwe , a trudniejsze
zostawia siÄ™ na potem.
Sekwencje nieułożone
a mthislgslyshktaktingsdeaskmewhf
b mthvslgsmyshktgrtingsdqaskkmewhy
c mshisitmyshktartidgseqaskmewhy
d mthipigsmyshktaravngseqasklqwhy
e mthipigsmystartincseqasklewhy
Porównanie wielu sekwencji
C
mthipigsmyshktaravngseqasklqwhy
D
mthipigsmys--tartincseqasklewhy
E
A
B
Porównanie wielu sekwencji
C
mthipigsmyshktaravngseqasklqwhy
D
mthipigsmys--tartincseqasklewhy
E
mthislgslyshktaktingsdeas-kmewhf
A
mthvslgsmyshktgrtingsdqaskkmewhy
B
Porównanie wielu sekwencji
mshisi-tmyshktartidgseqaskmewhy
C
mthipigsmyshktaravngseqasklqwhy
D
mthipigsmys--tartincseqasklewhy
E
mthislgslyshktaktingsdeas-kmewhf
A
mthvslgsmyshktgrtingsdqaskkmewhy
B
Porównanie wielu sekwencji
mshisi-tmyshktartidgseqas-kmewhy
C
mthipigsmyshktaravngseqas-klqwhy
D
mthipigsmys--tartincseqas-klewhy
E
mthislgslyshktaktingsdeas-kmewhf
A
mthvslgsmyshktgrtingsdqaskkmewhy
B
Sekwencje ułożone
a mthislgslyshktaktingsdeas-kmewhf
b mthvslgsmyshktgrtingsdqaskkmewhy
c mshisi-tmyshktartidgseqas-kmewhy
d mthipigsmyshktaravngseqas-klqwhy
e mthipigsmys--tartincseqas-klewhy
Metody obliczeniowe konstruowania drzew
filogenetycznych
" Metody analizy odległościowe (distance methods)
 met. średnich połączeń  (UPGMA; unweighted pair group method
with arithmetic mean,
- met. przyłączania sąsiadów (NJ; neighbor joining)
- met. Fitch-Margoliash (FM)
- met. minimalnych odległości (ME)
" Metody oparte na cechach (character based methods)
- met. największej oszczędności (MP; Maximum Parsimony)
- met. największej wiarygodności (ML; Maximum Likelihood)
" AÄ…czenie drzew - drzewa konsensusowe, superdrzewa
Budowa dendrogramu przewodniego
Skonstruowanie dendrogramu przewodniego w
oparciu o porównania parami
¨ðMetoda Å›rednich poÅ‚Ä…czeÅ„ - UPGMA  unweighted pair
group method with arithmetic mean (PileUp & Clustal
V)
¨ðMetoda przyÅ‚Ä…czania sÄ…siada - Neighbor-Joining (NJ)
(Clustal W, Clustal X)
Metody odległościowe
Odległość wyrażana jest w ułamkach
miejsc, którymi różnią się między sobą 2
sekwencje w wielokrotnym przyrównaniu
Para sekwencji różniąca się w 10% miejsc
jest bliżej spokrewniona niż para różniąca
siÄ™ w 30%.
Metody odległościowe
przodek linia potomna liczba zmian
A C  A 0
A C  G 1
A C 0
C
Metoda nieważona grupowania parami ze średnią
arytmetycznÄ… UPGMA
program znajduje najpierw parę taksonów, którą
dzieli najmniejsza różnica i ustala punkt
rozejścia między nimi, czyli węzeł, w połowie
odległości.
Å‚Ä…czy je w klaster i wpisuje do nowej macierzy
odległości dzielące ten klaster od pozostałych
powtarzanie tych etapów, aż macierz zostanie
zredukowana do 1 obiektu
A B C D E A B C DE
1. 2.
A 0 6 9 11 9 A 0 6 9 10
D
D
E
B 6 0 7 8
B 6 0 7 9 7
E
C 9 7 0 7 A
C 9 7 0 8 6
B
DE 10 8 7 0
D 11 9 8 0 4
E 9 7 6 4 0
3.
4.
C
C
AB C DE AB CDE
D
D
AB 0 8 9 AB 0 8.5
E
E
C 8 0 7 CDE 8.5 0
A
A
DE 9 7 0
B
B
UPGMA
Hipoteza zegara molekularnego  ewolucja
różnych gatunków zachodzi w takim samym
tempie (FAASZ)
Rzadko używana metoda przez filogenetyków,
nadal popularna w epidemiologii
drobnoustrojów
Metody odległościowe  przyłączanie
sąsiadów (NJ)
umożliwia konstruowanie nieukorzenionych drzew
drzewa addytywne  odległość pomiędzy
gatunkami reprezentowanymi przez liście drzewa
są równe sumie długości łączących je gałęzi
(odległości od obu taksonów do węzła nie muszą
być identyczne)
i
n
j
Metody oparte na cechach
metoda największej oszczędności (MP)
metoda największej wiarygodności (ML)
Metoda największej oszczędności (MP)
Metoda parsymonii (oszczędności) 
najodpowiedniejsze jest takie drzewo, w
którym potrzebujemy najmniejszej liczby
zmian do wyjaśnienia danych występujących
jako przyrównanie sekwencji.
Kryterium parsymonii
Które drzewo jest najprostszym wytłumaczeniem
obserwowanego zróżnicowania cechy między gatunkami?
+ wykształcenie się cechy
* utracenie cechy
+
+
+ +
*
A B C D
A D C B
A C D B
Metoda największej wiarygodności
Poszukiwanie drzewa, które zgodnie z określonym
modelem ewolucji maksymalnie uwiarygodnia dane.
Wiarygodność obliczamy dla:
topologii drzewa
długości gałęzi
wartości wskazników tempa podstawień (częstość występowania
zasady, liczba tranzycji / liczby transwersji)
Wyznaczenie wartości ML może posłużyć do utworzenia
rankingu alternatywnych drzew.
Metoda bootstrap
Pozwala oszacować wiarygodność rozgałęzień w
drzewach
Porównuje topologię drzewa dla losowo
wygenerowanych dopasowań sekwencji (100 
1000 dopasowań)
Drzewo z wartościami bootstrap (odsetek
wygenerowanych drzew, w których obserwowano
dokładnie takie samo rozgałęzienie linii
ewolucyjnych)
Dobór właściwego algorytmu
" Niedyskretny charakter zmiennych jednostek, duża ilość
danych, niewielkie zasoby obliczeniowe ==> Metoda
najbliższego sąsiedztwa (Neighbor joining)
" Dyskretny charakter zmiennych, niewielka liczba
mutacji/homoplazja ==> Maximum Parsimony
" Dyskretny charakter zmiennych, ograniczona długość
sekwencji, występowanie zjawiska homoplazji
==>Maximum Likelihood
" Dyskretny charakter zmiennych, wiele gatunków
==>Superdrzewo
" Kompletne genomy ==>Filogeneza całych genomów


Wyszukiwarka