elementy bioinformatyki wyklad4


2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Ewolucja molekularna
Proces ewolucji na poziomie DNA, RNA i białek.
" ewolucja neutralna  mutacje głównym czynnikiem zmienności ewolucyjnej
" dobór naturalny  główną siłą napędową, także ewolucji molekularnej, jest
selekcja pozytywna
ż preferencja kodonów  słaba selekcja na poziomie synonimicznych kodonów
ż dryft genetyczny  przypadkowe fluktuacje w liczebności alleli odpowiedzialne
za utrwalanie mutacji
1
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Ewolucja molekularna
Allele  warianty sekwencji (genu) zajmujące to samo locus
Pozycja inwariantna  nie podlega zmianom ewolucyjnym
Mutacje:
" substytucje: tranzycje, transwersje
" delecje/insercje (indele)
" inwersje
" translokacje
" mutacje synonimiczne
" mutacje niesynonimiczne: mutacje missens (zmiany sensu); mutacje nonsensowne
" mutacje przystosowawczo neutralne
" mutacje przystosowawczo szkodliwe
" mutacje przystosowawczo korzystne
Elementy bioinformatyki
Analiza filogenetyczna
Ewolucja molekularna
Porównywanie sekwencji biologicznych metodą badania odległości ewolucyjnych na
poziomie molekularnym.
" zazwyczaj brak jest sekwencji przodka (analiza sekwencji potomków)
" zróżnicowana częstość mutacji (np. tranzycje vs transwersje)
" odległość ewolucyjna e" obserwowana ilość mutacji
" indele  zazwyczaj trudno określić czy zaszła delecja czy insercja
Analiza filogenetyczna wymaga porównania wielu sekwencji (MSA)
2
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Obserwowana ilość mutacji
Sekwencja 1
CGTACCG
CATACAG Sekwencja 2
* ***
Sekwencja przodka
G G G
(założenie)
G A A A C A
Sek.2
Sek.1 Sek.2 Sek.1 Sek.2 Sek.1
1x tranzycja Tranzycja i transwersja
2x tranzycja vs identyczność
vs transwersja
Elementy bioinformatyki
Analiza filogenetyczna
Obserwowana ilość mutacji
Sekwencja 1
CGTACCG
Sekwencja przodka
CATACAG Sekwencja 2
G
* ***
C
A
G A
2x tranzycja+2xtranswersja
Sek.1 Sek.2
vs 1x tranzycja
3
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Analiza filogenetyczna
Filogenetyka (kladystyka)  dział biologii badający różnicowanie genów jak i całych
gatunków w procesie ewolucji, w oparciu o analizę
" molekularną (na poziomie sekwencji)
" morfologiczną (na poziomie cech morfologicznych)
Klad  grupa organizmów mających wspólnego przodka
Takson  grupa organizmów, zazwyczaj spokrewnionych, sklasyfikowanych na
podstawie wspólnych cech (apo- i plezjomorficznych; klad `" takon)
Cechy apomorficzne  cechy nowe, wspólne dla grupy spokrewnionych organizmów
Cechy plezjomorficzne  cechy charakterystyczne dla danej linii ewolucyjnej,
odziedziczone po przodkach.
Elementy bioinformatyki
Analiza filogenetyczna
Analiza filogenetyczna
Drzewo filogenetyczne  schematyczna reprezentacja różnicowania gatunków lub
genów w procesie ewolucji
Kladogram  uwzględnia jedynie podział na klady (pokrewieństwo)
Filogram  prezentuje pokrewieństwo jak również odległość ewolucyjną, która jest
proporcjonalna do długości gałęzi na drzewie
Drzewa bifurkacyjne  posiadają węzły stanowiące punkt rozejścia się dwóch linii
ewolucyjnych
4
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Analiza filogenetyczna
Kladogram Filogram
A B C D A B C D
Elementy bioinformatyki
Analiza filogenetyczna
Analiza filogenetyczna
Drzewo ukorzenione Drzewo nieukorzenione
Korzeń
Węzeł
Gałąz
A B C D Liść A B C D
Klad
5
Czas
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Analiza filogenetyczna
Większość metod służących do analizy filogenetycznej tworzy drzewo nieukorzenione.
Ukorzenianie drzewa można przeprowadzić ręcznie np. w oparciu o dane morfologiczne, lub metodami
zaimplementowanymi w programach do analizy filogenetycznej np. przez ustalenie  grupy zewnętrznej
lub w oparciu o metodę punktu środkowego.
A
D
C
A B C D
B
Elementy bioinformatyki
Analiza filogenetyczna
Analiza filogenetyczna
Topologia drzewa  oznacza sposób rozgałęzienia drzewa
A B C D B C D A B A C D
Identyczna topologia
6
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Modele ewolucji sekwencji
Celem stosowania modeli ewolucji sekwencji jest obliczenie odległości ewolucyjnej d wynikająca w
najprostszym przypadku z liczby podstawień w przeliczeniu na pozycję w sekwencji.
Model Jukesa-Cantora (JC, 1069r.)  pierwszy i najprostszy model ewolucji (substytucji) sekwencji DNA.
Opiera się na założeniach, że częstość występowania nukleotydów w DNA jest równa i tempo mutacji
jest stałe dla każdego z czterech nukleotydów.
Model Kimury (K2P, 1983r.)  uwzględnia różnicę w częstości tranzycji i transwersji.
Model Hasegawa, Kishino i Yano (HKY, 1985r.)  uwzględnia różnicę w częstości tranzycji i transwersji
oraz różnicę w częstości występowania poszczególnych nukleotydów.
Model GTR (ang. General time reversible) - uwzględnia różnicę w częstości mutacji dla wszystkich par
nukleotydów oraz różnicę w częstości występowania poszczególnych nukleotydów.
Elementy bioinformatyki
Analiza filogenetyczna
Modele ewolucji sekwencji DNA
Macierz wskazników tempa podstawień dla modelu Kimury
http://www.cs.us.es/~fran/students/julian/phylogenetics/phylogenetics.html
7
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Modele ewolucji sekwencji
Model gamma  uwzględnia różne prawdopodobieństwo mutacji dla kolejnych pozycji
w sekwencji (zgodnie z rozkładem gamma)
Modele inwariantne - oparte na macierzach podstawień np. PAM, BLOSUM. Nie
uwzględniają różnego tempa mutacji
Modele nieparametryczne  uwzględniają różne prawdopodobieństwo mutacji dla
poszczególnych pozycji w sekwencji (np. macierze PSSM)
Elementy bioinformatyki
Analiza filogenetyczna
Metody tworzenia drzew filogenetycznych
Metody odległościowe
" oparte na klasteryzacji
metoda średnich połączeń (UPGMA)
metoda przyłączania sąsiadów (ang. neighbour-joining, NJ)
" oparte na kryterium optymalności
metoda Fitch-Margoliash (FM)
metoda minimalnej ewolucji (ME)
Metody oparte na znakach (cechach)
ż metoda maksymalnej parsymonii (ang. maximum parsimony, MP, największej
oszczędności)
ż metoda największej wiarygodności (ang. maximum likelihood, ML)
8
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Metoda średnich połączeń (UPGMA)
1. Połączone zostają dwie najbliżej spokrewnione sekwencje (C i D)
2. Obliczana jest średnia odległość ewolucyjna pomiędzy
wcześniej połączonymi sekwencjami a resztą sekwencji.
3. Sekwencja która ma najmniejszą średnią odległość
ewolucyjną (B) do połączonej pary (C i D) zostaje
przyłączona do drzewa.
4. Etapy 2 i 3 zostają powtórzone, aż do przyłączenia
wszystkich sekwencji
Metoda UPGMA zakłada, że ewolucja różnych gatunków zachodzi
A B C D
w takim samym tempie (hipoteza zegara molekularnego)
Elementy bioinformatyki
Analiza filogenetyczna
Metoda przyłączania sąsiadów
1. Połączone zostają dwie najbliżej spokrewnione sekwencje (C i D)
2. Dla pozostałych sekwencji obliczana jest najmniejsza
odległość ewolucyjna dla kolejnej sekwencji liczona od węzła
jako średnia z sekwencji do niego połączonych.
3. Sekwencja która ma najmniejszą średnią odległość
ewolucyjną (B) do połączonej pary (C i D) zostaje
przyłączona do drzewa.
4. Etapy 2 i 3 zostają powtórzone, aż do przyłączenia
wszystkich sekwencji.
A B C D
Metoda NJ zakłada addytywność macierzy odległości ewolucyjnych  łączna długość gałęzi dla
dowolnych dwóch gatunków równa jest sumie odległości ewolucyjnych dla nich.
9
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Metoda maksymalnej parsymonii
Polega na wyborze drzewa o najmniejszej liczbie zmian ewolucyjnych.
Sekwencja 1
CGTACCG
CATACAG Sekwencja 2
* ***
Sekwencja przodka
G
G
(optymalna)
A C
G A
Sek.1 Sek.2
G A
Sek.1 Sek.2

Elementy bioinformatyki
Analiza filogenetyczna
Metoda maksymalnej parsymonii
Metoda opiera się o wyszukiwanie wszystkich topologii drzew i wyszukiwaniu sekwencji przodków,
które gwarantują najmniejszą liczę zmian ewolucyjnych podczas przejście od przodków do obecnych
sekwencji. Wynikiem jest często wiele drzew z których tworzone jest drzewo konsensusowe.
1. Algorytm identyfikuje pozycje informatywne (takie w których jest min. 2 różne reszty, każda min. 2
razy) w MSA.
2. Dla każdej topologii drzewa obliczona zostaje minimalna liczba substytucji w każdej informatywnej
pozycji.
3. Dla każdej topologii drzewa obliczona zostaje suma zmian we wszystkich pozycjach
informatywnych.
4. Drzewo w którym liczba zmian jest najmniejsza zostaje uznane za najlepsze.
W celu obliczenia minimalnej liczby substytucji dla każdego węzła każdej z topologii drzewa musi zostać
określona sekwencja wspólnego przodka (dla pozycji informatywnych).
10
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Metoda największej wiarygodności
Wyczerpująca metoda probablistyczna która pozwala na odnalezienie drzewa, które
będzie odzwierciedlało proces ewolucji w najbardziej prawdopodobny sposób.
Jest metodą opartą na znakach uwzględniającą każdą pozycję w przyrównaniu i
porównującą każdą możliwą topologię drzewa.
Zakłada możliwość wielokrotnych mutacji w jednej pozycji.
X
Metoda oblicza prawdopodobieństwo ewolucji
sekwencji od korzenia do węzłów i następnie do
Y
sekwencji porównywanych. Drzewo o najwyższej
Z
wartości prawdopodobieństwa wybierane jest jako najlepsze.
A B C D
Elementy bioinformatyki
Analiza filogenetyczna
Porównanie metod
" Metody odległościowe są szybkie ale opierają się jedynie na wartości odległości ewolucyjnej a nie
cechach sekwencji, jednak mogą wykorzystywać modele substytucji uwzględniające różne
prawdopodobieństwo mutacji dla różnych pozycji w sekwencji.
" Metody oparte na cechach są wolniejsza ale generują szereg drzew z których wybierane są najlepsze.
" Metoda MP dobrze sprawdza się dla blisko spokrewnionych sekwencji, dla sekwencji o większej
dywergencji drzewo może być błędnie obliczone lub może dojść do błędnego oszacowania długości
wiązań.
" W metodzie MP występuje efekt  przyciągania się długich gałęzi polegający na grupowaniu
najdłuższych gałęzi blisko siebie. Wynika on z założenia, iż wszystkie linie ewoluują w jednakowym
tempie oraz wpływ tranzycji i transwersji na długość gałęzi jest jednakowy.
" Metoda ML jest najlepszą lecz najbardziej wymagającą obliczeniowo.
11
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Ocena wiarygodności drzewa
Test bootstrap  technika statystyczna pozwalająca na ocenę drzewa filogenetycznego (odporności na
zaburzenia).
Polega na losowym zastępowaniu kolumn MSA przez inne z tego samego
nałożenia (bootstrap nieperametryczny) z zachowaniem oryginalnej długości
MSA. Bootstrap parametryczny opiera się na nowych zestawach losowych
92
sekwencji generowanych z uwzględnieniem rozkładu znaków w sekwencji
58
wyjściowej (zgodnie z użytym modelem ewolucji sekwencji). Tak
przygotowane zestawy służą do wygenerowania drzew filogenetycznych
które użyte zostają do oceny otrzymanego drzewa.
A B C D
Test jackknife  polega na losowym usunięciu połowy pozycji w MSA. Tak otrzymane zestawy służą do
otrzymania drzew filogenetycznych.
Elementy bioinformatyki
Analiza filogenetyczna
Wybór sekwencji
Sekwencje DNA czy białka
Analiza konkretnego genu czy gatunków
Szybkość ewolucji badanego genu
Dobór sekwencji do analizy (ilość, zróżnicowanie gatunkowe)
Mierzalna odległość ewolucyjna (ok 15% identyczności)
12
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
 Jak wykonać drzewo?
1. Wybór sekwencji do analizy.
2. MSA  dopasowanie wielu sekwencji
3. Ocena dopasowania
4. Poprawa dopasowania (jeśli wymagana)
5. Wybór modelu ewolucji sekwencji
6. Wybór metody tworzenia drzewa
7. Obliczanie drzewa
8. Ocena drzewa
Elementy bioinformatyki
Analiza filogenetyczna
Uwagi praktyczne
" Jakość MSA wpływa na jakość drzewa filogenetycznego.
" Poprawa nałożenia przez ręczną edycję sekwencji jest akceptowalnym i często wymaganym etapem
przygotowywania MSA do tworzenia drzewa.
" Aby sprawdzić jakość nałożenia warto wykonać je kilkukrotnie dla różnych zestawów sekwencji
" Bardzo długie gałęzie drzewa lub rozgałęzienia zaraz przy korzeniu wskazują na mało wiarygodny
wynik analizy.
13
2013-04-14
Elementy bioinformatyki
Analiza filogenetyczna
Literatura:
1. P. G. Higgs, T. K. Attwood, Bioinformatyka i ewolucja molekularna, Wydawnictwo
Naukowe PWN, Warszawa, 2011
2. J. Xiong, Podstawy bioinformatyki, Wydawnictwa Uniwersytetu Warszawskiego,
Warszawa, 2009
" Literatura uzupełniająca:
J. M. Berg, L. Stryer, J. L. Tymoczko, Biochemia, Wydawnictwo Naukowe, PWN wyd. 4 i pózn.
14


Wyszukiwarka

Podobne podstrony:
bioinfoI wyklad03
Elementy logiki wyklad 1
Bioinformatyka wykłady
bioinfoI wyklad04
bioinfoI wyklad02
bioinfoI wyklad01
bioinfoI wyklad05
bioinformatyka wyklad #1
Wyklad ElementyProg 12 08
Wykład 8 Elementy diagnostyki technicznej
Wykład 2 Wybrane zagadnienia dotyczące powierzchnii elementów maszyn
WM wyklad Elementy plastycznosc
Nauka administracji z elementami teorii zarządzania 28 11 2013 Wykład
WYKŁAD 6 ELEMENTY TEKTONIKI

więcej podobnych podstron