elementy bioinformatyki wyklad4

background image

2013-04-14

1

Ewolucja molekularna

Proces ewolucji na poziomie DNA, RNA i białek.

ewolucja neutralna – mutacje głównym czynnikiem zmienności ewolucyjnej

dobór naturalny – główną siłą napędową, także ewolucji molekularnej, jest
selekcja pozytywna

preferencja kodonów – słaba selekcja na poziomie synonimicznych kodonów

dryft genetyczny – przypadkowe fluktuacje w liczebności alleli odpowiedzialne
za utrwalanie mutacji

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

2

Ewolucja molekularna

Allele – warianty sekwencji (genu) zajmujące to samo locus

Pozycja inwariantna – nie podlega zmianom ewolucyjnym

Mutacje:

substytucje: tranzycje, transwersje

delecje/insercje (indele)

inwersje

translokacje

mutacje synonimiczne

mutacje niesynonimiczne: mutacje missens (zmiany sensu); mutacje nonsensowne

mutacje przystosowawczo neutralne

mutacje przystosowawczo szkodliwe

mutacje przystosowawczo korzystne

Elementy bioinformatyki

Analiza filogenetyczna

Ewolucja molekularna

Porównywanie sekwencji biologicznych metodą badania odległości ewolucyjnych na
poziomie molekularnym.

zazwyczaj brak jest sekwencji przodka (analiza sekwencji potomków)

zróżnicowana częstość mutacji (np. tranzycje vs transwersje)

odległość ewolucyjna ≥ obserwowana ilość mutacji

indele – zazwyczaj trudno określić czy zaszła delecja czy insercja

Analiza filogenetyczna wymaga porównania wielu sekwencji (MSA)

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

3

Obserwowana ilość mutacji

Elementy bioinformatyki

Analiza filogenetyczna

Sek.1

Sek.2

G

G

A

Sek.1

Sek.2

G

A

A

Sek.1

Sek.2

G

C

A

CGTACCG
CATACAG
* ***

1x tranzycja

2x tranzycja vs identyczność

Tranzycja i transwersja
vs transwersja

Sekwencja przodka

(założenie)

Sekwencja 1

Sekwencja 2

Obserwowana ilość mutacji

Elementy bioinformatyki

Analiza filogenetyczna

CGTACCG
CATACAG
* ***

Sek.1

Sekwencja przodka

Sekwencja 1

Sekwencja 2

G

A

G

C

A

Sek.2

2x tranzycja+2xtranswersja
vs 1x tranzycja

background image

2013-04-14

4

Analiza filogenetyczna

Filogenetyka (kladystyka) – dział biologii badający różnicowanie genów jak i całych
gatunków w procesie ewolucji, w oparciu o analizę
molekularną (na poziomie sekwencji)
morfologiczną (na poziomie cech morfologicznych)

Klad – grupa organizmów mających wspólnego przodka
Takson – grupa organizmów, zazwyczaj spokrewnionych, sklasyfikowanych na
podstawie wspólnych cech (apo- i plezjomorficznych; klad ≠ takon)

Cechy apomorficzne – cechy nowe, wspólne dla grupy spokrewnionych organizmów
Cechy plezjomorficzne – cechy charakterystyczne dla danej linii ewolucyjnej,
odziedziczone po przodkach.

Elementy bioinformatyki

Analiza filogenetyczna

Analiza filogenetyczna

Drzewo filogenetyczne – schematyczna reprezentacja różnicowania gatunków lub
genów w procesie ewolucji

Kladogram – uwzględnia jedynie podział na klady (pokrewieństwo)

Filogram – prezentuje pokrewieństwo jak również odległość ewolucyjną, która jest
proporcjonalna do długości gałęzi na drzewie

Drzewa bifurkacyjne – posiadają węzły stanowiące punkt rozejścia się dwóch linii
ewolucyjnych

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

5

Analiza filogenetyczna

Kladogram

Filogram

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

A

B

C

D

Analiza filogenetyczna

Drzewo ukorzenione

Drzewo nieukorzenione

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

A

B

C

D

Liść

Gałąź

Węzeł

Korzeń

Cz

as

Klad

background image

2013-04-14

6

Analiza filogenetyczna

Większość metod służących do analizy filogenetycznej tworzy drzewo nieukorzenione.

Ukorzenianie drzewa można przeprowadzić ręcznie np. w oparciu o dane morfologiczne, lub metodami
zaimplementowanymi w programach do analizy filogenetycznej np. przez ustalenie „grupy zewnętrznej”
lub w oparciu o metodę punktu środkowego.

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

A

B

C

D

Analiza filogenetyczna

Topologia drzewa – oznacza sposób rozgałęzienia drzewa

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

A

B

C

D

A

B

C

D

Identyczna topologia

background image

2013-04-14

7

Modele ewolucji sekwencji

Celem stosowania modeli ewolucji sekwencji jest obliczenie odległości ewolucyjnej d wynikająca w
najprostszym przypadku z liczby podstawień w przeliczeniu na pozycję w sekwencji.

Model Jukesa-Cantora (JC, 1069r.) – pierwszy i najprostszy model ewolucji (substytucji) sekwencji DNA.
Opiera się na założeniach, że częstość występowania nukleotydów w DNA jest równa i tempo mutacji
jest stałe dla każdego z czterech nukleotydów.

Model Kimury (K2P, 1983r.) – uwzględnia różnicę w częstości tranzycji i transwersji.

Model Hasegawa, Kishino i Yano (HKY, 1985r.) – uwzględnia różnicę w częstości tranzycji i transwersji
oraz różnicę w częstości występowania poszczególnych nukleotydów.

Model GTR (ang. General time reversible) - uwzględnia różnicę w częstości mutacji dla wszystkich par
nukleotydów oraz różnicę w częstości występowania poszczególnych nukleotydów.

Elementy bioinformatyki

Analiza filogenetyczna

Modele ewolucji sekwencji DNA

Macierz wskaźników tempa podstawień dla modelu Kimury

Elementy bioinformatyki

Analiza filogenetyczna

http://www.cs.us.es/~fran/students/julian/phylogenetics/phylogenetics.html

background image

2013-04-14

8

Modele ewolucji sekwencji

Model gamma – uwzględnia różne prawdopodobieństwo mutacji dla kolejnych pozycji
w sekwencji (zgodnie z rozkładem gamma)

Modele inwariantne - oparte na macierzach podstawień np. PAM, BLOSUM. Nie
uwzględniają różnego tempa mutacji

Modele nieparametryczne – uwzględniają różne prawdopodobieństwo mutacji dla
poszczególnych pozycji w sekwencji (np. macierze PSSM)

Elementy bioinformatyki

Analiza filogenetyczna

Metody tworzenia drzew filogenetycznych

Metody odległościowe

oparte na klasteryzacji

metoda średnich połączeń (UPGMA)
metoda przyłączania sąsiadów (ang. neighbour-joining, NJ)

oparte na kryterium optymalności

metoda Fitch-Margoliash (FM)
metoda minimalnej ewolucji (ME)

Metody oparte na znakach (cechach)

metoda maksymalnej parsymonii (ang. maximum parsimony, MP, największej
oszczędności)

metoda największej wiarygodności (ang. maximum likelihood, ML)

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

9

Metoda średnich połączeń (UPGMA)

1.

Połączone zostają dwie najbliżej spokrewnione sekwencje (C i D)

2.

Obliczana jest średnia odległość ewolucyjna pomiędzy

wcześniej połączonymi sekwencjami a resztą sekwencji.
3. Sekwencja która ma najmniejszą średnią odległość
ewolucyjną (B) do połączonej pary (C i D) zostaje
przyłączona do drzewa.
4. Etapy 2 i 3 zostają powtórzone, aż do przyłączenia
wszystkich sekwencji

Metoda UPGMA zakłada, że ewolucja różnych gatunków zachodzi
w takim samym tempie (hipoteza zegara molekularnego)

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

Metoda przyłączania sąsiadów

1. Połączone zostają dwie najbliżej spokrewnione sekwencje (C i D)
2. Dla pozostałych sekwencji obliczana jest najmniejsza
odległość ewolucyjna dla kolejnej sekwencji liczona od węzła
jako średnia z sekwencji do niego połączonych.
3. Sekwencja która ma najmniejszą średnią odległość
ewolucyjną (B) do połączonej pary (C i D) zostaje
przyłączona do drzewa.
4. Etapy 2 i 3 zostają powtórzone, aż do przyłączenia
wszystkich sekwencji.

Metoda NJ zakłada addytywność macierzy odległości ewolucyjnych – łączna długość gałęzi dla
dowolnych dwóch gatunków równa jest sumie odległości ewolucyjnych dla nich.

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

background image

2013-04-14

10

Metoda maksymalnej parsymonii

Polega na wyborze drzewa o najmniejszej liczbie zmian ewolucyjnych.

Elementy bioinformatyki

Analiza filogenetyczna

CGTACCG
CATACAG
* ***

Sek.1

Sekwencja przodka

(optymalna)

Sekwencja 1

Sekwencja 2

G

A

G

C

A

Sek.2

Sek.1

Sek.2

G

G

A

×

Metoda maksymalnej parsymonii

Metoda opiera się o wyszukiwanie wszystkich topologii drzew i wyszukiwaniu sekwencji przodków,
które gwarantują najmniejszą liczę zmian ewolucyjnych podczas przejście od przodków do obecnych
sekwencji. Wynikiem jest często wiele drzew z których tworzone jest drzewo konsensusowe.

1.

Algorytm identyfikuje pozycje informatywne (takie w których jest min. 2 różne reszty, każda min. 2
razy) w MSA.

2.

Dla każdej topologii drzewa obliczona zostaje minimalna liczba substytucji w każdej informatywnej
pozycji.

3.

Dla każdej topologii drzewa obliczona zostaje suma zmian we wszystkich pozycjach
informatywnych.

4.

Drzewo w którym liczba zmian jest najmniejsza zostaje uznane za najlepsze.

W celu obliczenia minimalnej liczby substytucji dla każdego węzła każdej z topologii drzewa musi zostać
określona sekwencja wspólnego przodka (dla pozycji informatywnych).

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

11

Metoda największej wiarygodności

Wyczerpująca metoda probablistyczna która pozwala na odnalezienie drzewa, które
będzie odzwierciedlało proces ewolucji w najbardziej prawdopodobny sposób.
Jest metodą opartą na znakach uwzględniającą każdą pozycję w przyrównaniu i
porównującą każdą możliwą topologię drzewa.
Zakłada możliwość wielokrotnych mutacji w jednej pozycji.

Metoda oblicza prawdopodobieństwo ewolucji
sekwencji od korzenia do węzłów i następnie do
sekwencji porównywanych. Drzewo o najwyższej
wartości prawdopodobieństwa wybierane jest jako najlepsze.

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

X

Y

Z

Porównanie metod

Metody odległościowe są szybkie ale opierają się jedynie na wartości odległości ewolucyjnej a nie

cechach sekwencji, jednak mogą wykorzystywać modele substytucji uwzględniające różne
prawdopodobieństwo mutacji dla różnych pozycji w sekwencji.

Metody oparte na cechach są wolniejsza ale generują szereg drzew z których wybierane są najlepsze.

Metoda MP dobrze sprawdza się dla blisko spokrewnionych sekwencji, dla sekwencji o większej

dywergencji drzewo może być błędnie obliczone lub może dojść do błędnego oszacowania długości
wiązań.

W metodzie MP występuje efekt „przyciągania się długich gałęzi” polegający na grupowaniu

najdłuższych gałęzi blisko siebie. Wynika on z założenia, iż wszystkie linie ewoluują w jednakowym
tempie oraz wpływ tranzycji i transwersji na długość gałęzi jest jednakowy.

Metoda ML jest najlepszą lecz najbardziej wymagającą obliczeniowo.

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

12

Ocena wiarygodności drzewa

Test bootstrap – technika statystyczna pozwalająca na ocenę drzewa filogenetycznego (odporności na
zaburzenia).
Polega na losowym zastępowaniu kolumn MSA przez inne z tego samego
nałożenia (bootstrap nieperametryczny) z zachowaniem oryginalnej długości
MSA. Bootstrap parametryczny opiera się na nowych zestawach losowych
sekwencji generowanych z uwzględnieniem rozkładu znaków w sekwencji
wyjściowej (zgodnie z użytym modelem ewolucji sekwencji). Tak
przygotowane zestawy służą do wygenerowania drzew filogenetycznych
które użyte zostają do oceny otrzymanego drzewa.

Test jackknife – polega na losowym usunięciu połowy pozycji w MSA. Tak otrzymane zestawy służą do
otrzymania drzew filogenetycznych.

Elementy bioinformatyki

Analiza filogenetyczna

A

B

C

D

92

58

Wybór sekwencji

Sekwencje DNA czy białka

Analiza konkretnego genu czy gatunków

Szybkość ewolucji badanego genu

Dobór sekwencji do analizy (ilość, zróżnicowanie gatunkowe)

Mierzalna odległość ewolucyjna (ok 15% identyczności)

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

13

„Jak wykonać drzewo?”

1.

Wybór sekwencji do analizy.

2. MSA – dopasowanie wielu sekwencji

3. Ocena dopasowania

4. Poprawa dopasowania (jeśli wymagana)

5. Wybór modelu ewolucji sekwencji

6. Wybór metody tworzenia drzewa

7. Obliczanie drzewa

8. Ocena drzewa

Elementy bioinformatyki

Analiza filogenetyczna

Uwagi praktyczne

Jakość MSA wpływa na jakość drzewa filogenetycznego.
Poprawa nałożenia przez ręczną edycję sekwencji jest akceptowalnym i często wymaganym etapem

przygotowywania MSA do tworzenia drzewa.

Aby sprawdzić jakość nałożenia warto wykonać je kilkukrotnie dla różnych zestawów sekwencji
Bardzo długie gałęzie drzewa lub rozgałęzienia zaraz przy korzeniu wskazują na mało wiarygodny

wynik analizy.

Elementy bioinformatyki

Analiza filogenetyczna

background image

2013-04-14

14

Elementy bioinformatyki

Analiza filogenetyczna

Literatura:

1. P. G. Higgs, T. K. Attwood, Bioinformatyka i ewolucja molekularna, Wydawnictwo

Naukowe PWN, Warszawa, 2011

2. J. Xiong, Podstawy bioinformatyki, Wydawnictwa Uniwersytetu Warszawskiego,

Warszawa, 2009

Literatura uzupełniająca:

J. M. Berg, L. Stryer, J. L. Tymoczko, Biochemia, Wydawnictwo Naukowe, PWN wyd. 4 i późn.


Wyszukiwarka

Podobne podstrony:
elementy bioinformatyki wyklad2
elementy bioinformatyki wyklad3
elementy bioinformatyki wyklad1
elementy bioinformatyki wyklad2
ELEMENTY SEKSUOLOGII wykłady
Elementy Filozofii Wykład 1  10 2013
bhp z elementami ergonomii wyklad 9 10 2010
Elementy Ekonomi Wykład 1  10 2013
Bioinformatyka wykład 1
Elementy Ekonomi Wykład 2  10 2013, Wykład 3 10 2013, Wykład 4  11 2013
Bioinformatyka wykład 3
Elementy psychiatrii, wykład
bioinformatyka wyklad #6
bioinformatyka wyklad #3
Bioinformatyka wykłady
bioinfoI wyklad01
elementy ekonomii - wykład 4 (24.11.2007 r.), WSB, elementy ekonomi
elementy ekonomii - wykład 1 (27.10.2007 r.), WSB, elementy ekonomi

więcej podobnych podstron