2013-04-14
1
Ewolucja molekularna
Proces ewolucji na poziomie DNA, RNA i białek.
•
ewolucja neutralna – mutacje głównym czynnikiem zmienności ewolucyjnej
•
dobór naturalny – główną siłą napędową, także ewolucji molekularnej, jest
selekcja pozytywna
preferencja kodonów – słaba selekcja na poziomie synonimicznych kodonów
dryft genetyczny – przypadkowe fluktuacje w liczebności alleli odpowiedzialne
za utrwalanie mutacji
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
2
Ewolucja molekularna
Allele – warianty sekwencji (genu) zajmujące to samo locus
Pozycja inwariantna – nie podlega zmianom ewolucyjnym
Mutacje:
•
substytucje: tranzycje, transwersje
•
delecje/insercje (indele)
•
inwersje
•
translokacje
•
mutacje synonimiczne
•
mutacje niesynonimiczne: mutacje missens (zmiany sensu); mutacje nonsensowne
•
mutacje przystosowawczo neutralne
•
mutacje przystosowawczo szkodliwe
•
mutacje przystosowawczo korzystne
Elementy bioinformatyki
Analiza filogenetyczna
Ewolucja molekularna
Porównywanie sekwencji biologicznych metodą badania odległości ewolucyjnych na
poziomie molekularnym.
•
zazwyczaj brak jest sekwencji przodka (analiza sekwencji potomków)
•
zróżnicowana częstość mutacji (np. tranzycje vs transwersje)
•
odległość ewolucyjna ≥ obserwowana ilość mutacji
•
indele – zazwyczaj trudno określić czy zaszła delecja czy insercja
Analiza filogenetyczna wymaga porównania wielu sekwencji (MSA)
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
3
Obserwowana ilość mutacji
Elementy bioinformatyki
Analiza filogenetyczna
Sek.1
Sek.2
G
G
A
Sek.1
Sek.2
G
A
A
Sek.1
Sek.2
G
C
A
CGTACCG
CATACAG
* ***
1x tranzycja
2x tranzycja vs identyczność
Tranzycja i transwersja
vs transwersja
Sekwencja przodka
(założenie)
Sekwencja 1
Sekwencja 2
Obserwowana ilość mutacji
Elementy bioinformatyki
Analiza filogenetyczna
CGTACCG
CATACAG
* ***
Sek.1
Sekwencja przodka
Sekwencja 1
Sekwencja 2
G
A
G
C
A
Sek.2
2x tranzycja+2xtranswersja
vs 1x tranzycja
2013-04-14
4
Analiza filogenetyczna
Filogenetyka (kladystyka) – dział biologii badający różnicowanie genów jak i całych
gatunków w procesie ewolucji, w oparciu o analizę
• molekularną (na poziomie sekwencji)
• morfologiczną (na poziomie cech morfologicznych)
Klad – grupa organizmów mających wspólnego przodka
Takson – grupa organizmów, zazwyczaj spokrewnionych, sklasyfikowanych na
podstawie wspólnych cech (apo- i plezjomorficznych; klad ≠ takon)
Cechy apomorficzne – cechy nowe, wspólne dla grupy spokrewnionych organizmów
Cechy plezjomorficzne – cechy charakterystyczne dla danej linii ewolucyjnej,
odziedziczone po przodkach.
Elementy bioinformatyki
Analiza filogenetyczna
Analiza filogenetyczna
Drzewo filogenetyczne – schematyczna reprezentacja różnicowania gatunków lub
genów w procesie ewolucji
Kladogram – uwzględnia jedynie podział na klady (pokrewieństwo)
Filogram – prezentuje pokrewieństwo jak również odległość ewolucyjną, która jest
proporcjonalna do długości gałęzi na drzewie
Drzewa bifurkacyjne – posiadają węzły stanowiące punkt rozejścia się dwóch linii
ewolucyjnych
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
5
Analiza filogenetyczna
Kladogram
Filogram
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
A
B
C
D
Analiza filogenetyczna
Drzewo ukorzenione
Drzewo nieukorzenione
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
A
B
C
D
Liść
Gałąź
Węzeł
Korzeń
Cz
as
Klad
2013-04-14
6
Analiza filogenetyczna
Większość metod służących do analizy filogenetycznej tworzy drzewo nieukorzenione.
Ukorzenianie drzewa można przeprowadzić ręcznie np. w oparciu o dane morfologiczne, lub metodami
zaimplementowanymi w programach do analizy filogenetycznej np. przez ustalenie „grupy zewnętrznej”
lub w oparciu o metodę punktu środkowego.
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
A
B
C
D
Analiza filogenetyczna
Topologia drzewa – oznacza sposób rozgałęzienia drzewa
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
A
B
C
D
A
B
C
D
Identyczna topologia
2013-04-14
7
Modele ewolucji sekwencji
Celem stosowania modeli ewolucji sekwencji jest obliczenie odległości ewolucyjnej d wynikająca w
najprostszym przypadku z liczby podstawień w przeliczeniu na pozycję w sekwencji.
Model Jukesa-Cantora (JC, 1069r.) – pierwszy i najprostszy model ewolucji (substytucji) sekwencji DNA.
Opiera się na założeniach, że częstość występowania nukleotydów w DNA jest równa i tempo mutacji
jest stałe dla każdego z czterech nukleotydów.
Model Kimury (K2P, 1983r.) – uwzględnia różnicę w częstości tranzycji i transwersji.
Model Hasegawa, Kishino i Yano (HKY, 1985r.) – uwzględnia różnicę w częstości tranzycji i transwersji
oraz różnicę w częstości występowania poszczególnych nukleotydów.
Model GTR (ang. General time reversible) - uwzględnia różnicę w częstości mutacji dla wszystkich par
nukleotydów oraz różnicę w częstości występowania poszczególnych nukleotydów.
Elementy bioinformatyki
Analiza filogenetyczna
Modele ewolucji sekwencji DNA
Macierz wskaźników tempa podstawień dla modelu Kimury
Elementy bioinformatyki
Analiza filogenetyczna
http://www.cs.us.es/~fran/students/julian/phylogenetics/phylogenetics.html
2013-04-14
8
Modele ewolucji sekwencji
Model gamma – uwzględnia różne prawdopodobieństwo mutacji dla kolejnych pozycji
w sekwencji (zgodnie z rozkładem gamma)
Modele inwariantne - oparte na macierzach podstawień np. PAM, BLOSUM. Nie
uwzględniają różnego tempa mutacji
Modele nieparametryczne – uwzględniają różne prawdopodobieństwo mutacji dla
poszczególnych pozycji w sekwencji (np. macierze PSSM)
Elementy bioinformatyki
Analiza filogenetyczna
Metody tworzenia drzew filogenetycznych
Metody odległościowe
•
oparte na klasteryzacji
metoda średnich połączeń (UPGMA)
metoda przyłączania sąsiadów (ang. neighbour-joining, NJ)
•
oparte na kryterium optymalności
metoda Fitch-Margoliash (FM)
metoda minimalnej ewolucji (ME)
Metody oparte na znakach (cechach)
metoda maksymalnej parsymonii (ang. maximum parsimony, MP, największej
oszczędności)
metoda największej wiarygodności (ang. maximum likelihood, ML)
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
9
Metoda średnich połączeń (UPGMA)
1.
Połączone zostają dwie najbliżej spokrewnione sekwencje (C i D)
2.
Obliczana jest średnia odległość ewolucyjna pomiędzy
wcześniej połączonymi sekwencjami a resztą sekwencji.
3. Sekwencja która ma najmniejszą średnią odległość
ewolucyjną (B) do połączonej pary (C i D) zostaje
przyłączona do drzewa.
4. Etapy 2 i 3 zostają powtórzone, aż do przyłączenia
wszystkich sekwencji
Metoda UPGMA zakłada, że ewolucja różnych gatunków zachodzi
w takim samym tempie (hipoteza zegara molekularnego)
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
Metoda przyłączania sąsiadów
1. Połączone zostają dwie najbliżej spokrewnione sekwencje (C i D)
2. Dla pozostałych sekwencji obliczana jest najmniejsza
odległość ewolucyjna dla kolejnej sekwencji liczona od węzła
jako średnia z sekwencji do niego połączonych.
3. Sekwencja która ma najmniejszą średnią odległość
ewolucyjną (B) do połączonej pary (C i D) zostaje
przyłączona do drzewa.
4. Etapy 2 i 3 zostają powtórzone, aż do przyłączenia
wszystkich sekwencji.
Metoda NJ zakłada addytywność macierzy odległości ewolucyjnych – łączna długość gałęzi dla
dowolnych dwóch gatunków równa jest sumie odległości ewolucyjnych dla nich.
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
2013-04-14
10
Metoda maksymalnej parsymonii
Polega na wyborze drzewa o najmniejszej liczbie zmian ewolucyjnych.
Elementy bioinformatyki
Analiza filogenetyczna
CGTACCG
CATACAG
* ***
Sek.1
Sekwencja przodka
(optymalna)
Sekwencja 1
Sekwencja 2
G
A
G
C
A
Sek.2
Sek.1
Sek.2
G
G
A
×
Metoda maksymalnej parsymonii
Metoda opiera się o wyszukiwanie wszystkich topologii drzew i wyszukiwaniu sekwencji przodków,
które gwarantują najmniejszą liczę zmian ewolucyjnych podczas przejście od przodków do obecnych
sekwencji. Wynikiem jest często wiele drzew z których tworzone jest drzewo konsensusowe.
1.
Algorytm identyfikuje pozycje informatywne (takie w których jest min. 2 różne reszty, każda min. 2
razy) w MSA.
2.
Dla każdej topologii drzewa obliczona zostaje minimalna liczba substytucji w każdej informatywnej
pozycji.
3.
Dla każdej topologii drzewa obliczona zostaje suma zmian we wszystkich pozycjach
informatywnych.
4.
Drzewo w którym liczba zmian jest najmniejsza zostaje uznane za najlepsze.
W celu obliczenia minimalnej liczby substytucji dla każdego węzła każdej z topologii drzewa musi zostać
określona sekwencja wspólnego przodka (dla pozycji informatywnych).
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
11
Metoda największej wiarygodności
Wyczerpująca metoda probablistyczna która pozwala na odnalezienie drzewa, które
będzie odzwierciedlało proces ewolucji w najbardziej prawdopodobny sposób.
Jest metodą opartą na znakach uwzględniającą każdą pozycję w przyrównaniu i
porównującą każdą możliwą topologię drzewa.
Zakłada możliwość wielokrotnych mutacji w jednej pozycji.
Metoda oblicza prawdopodobieństwo ewolucji
sekwencji od korzenia do węzłów i następnie do
sekwencji porównywanych. Drzewo o najwyższej
wartości prawdopodobieństwa wybierane jest jako najlepsze.
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
X
Y
Z
Porównanie metod
• Metody odległościowe są szybkie ale opierają się jedynie na wartości odległości ewolucyjnej a nie
cechach sekwencji, jednak mogą wykorzystywać modele substytucji uwzględniające różne
prawdopodobieństwo mutacji dla różnych pozycji w sekwencji.
• Metody oparte na cechach są wolniejsza ale generują szereg drzew z których wybierane są najlepsze.
• Metoda MP dobrze sprawdza się dla blisko spokrewnionych sekwencji, dla sekwencji o większej
dywergencji drzewo może być błędnie obliczone lub może dojść do błędnego oszacowania długości
wiązań.
• W metodzie MP występuje efekt „przyciągania się długich gałęzi” polegający na grupowaniu
najdłuższych gałęzi blisko siebie. Wynika on z założenia, iż wszystkie linie ewoluują w jednakowym
tempie oraz wpływ tranzycji i transwersji na długość gałęzi jest jednakowy.
• Metoda ML jest najlepszą lecz najbardziej wymagającą obliczeniowo.
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
12
Ocena wiarygodności drzewa
Test bootstrap – technika statystyczna pozwalająca na ocenę drzewa filogenetycznego (odporności na
zaburzenia).
Polega na losowym zastępowaniu kolumn MSA przez inne z tego samego
nałożenia (bootstrap nieperametryczny) z zachowaniem oryginalnej długości
MSA. Bootstrap parametryczny opiera się na nowych zestawach losowych
sekwencji generowanych z uwzględnieniem rozkładu znaków w sekwencji
wyjściowej (zgodnie z użytym modelem ewolucji sekwencji). Tak
przygotowane zestawy służą do wygenerowania drzew filogenetycznych
które użyte zostają do oceny otrzymanego drzewa.
Test jackknife – polega na losowym usunięciu połowy pozycji w MSA. Tak otrzymane zestawy służą do
otrzymania drzew filogenetycznych.
Elementy bioinformatyki
Analiza filogenetyczna
A
B
C
D
92
58
Wybór sekwencji
Sekwencje DNA czy białka
Analiza konkretnego genu czy gatunków
Szybkość ewolucji badanego genu
Dobór sekwencji do analizy (ilość, zróżnicowanie gatunkowe)
Mierzalna odległość ewolucyjna (ok 15% identyczności)
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
13
„Jak wykonać drzewo?”
1.
Wybór sekwencji do analizy.
2. MSA – dopasowanie wielu sekwencji
3. Ocena dopasowania
4. Poprawa dopasowania (jeśli wymagana)
5. Wybór modelu ewolucji sekwencji
6. Wybór metody tworzenia drzewa
7. Obliczanie drzewa
8. Ocena drzewa
Elementy bioinformatyki
Analiza filogenetyczna
Uwagi praktyczne
• Jakość MSA wpływa na jakość drzewa filogenetycznego.
• Poprawa nałożenia przez ręczną edycję sekwencji jest akceptowalnym i często wymaganym etapem
przygotowywania MSA do tworzenia drzewa.
• Aby sprawdzić jakość nałożenia warto wykonać je kilkukrotnie dla różnych zestawów sekwencji
• Bardzo długie gałęzie drzewa lub rozgałęzienia zaraz przy korzeniu wskazują na mało wiarygodny
wynik analizy.
Elementy bioinformatyki
Analiza filogenetyczna
2013-04-14
14
Elementy bioinformatyki
Analiza filogenetyczna
Literatura:
1. P. G. Higgs, T. K. Attwood, Bioinformatyka i ewolucja molekularna, Wydawnictwo
Naukowe PWN, Warszawa, 2011
2. J. Xiong, Podstawy bioinformatyki, Wydawnictwa Uniwersytetu Warszawskiego,
Warszawa, 2009
• Literatura uzupełniająca:
J. M. Berg, L. Stryer, J. L. Tymoczko, Biochemia, Wydawnictwo Naukowe, PWN wyd. 4 i późn.