02 Metody dystansowe


TTTTTTTTAAAAATTTTTTTCTTTTAAA
A
#2 Metody
O
N
M
dystansowe
B
L
K
C
J
D
I
E
H
F
G
Przykładowe rodzaje cech stosowanych w rekonstrukcji filogenii
Typy matryc danych
matryca
dystansów
matryca
cech
Czy cechy morfologiczne sÄ… nadal istotne?
Wady Zalety
Lð ukierunkowane Jð tanie
konwergencje
Jð możliwość korzystania ze
Lð ograniczona liczba cech zródeÅ‚ muzealnych
Lð trudnoÅ›ci w znalezieniu cech Jð taksony wymarÅ‚e mogÄ… być
homologicznych między analizowane głównie na
odległymi taksonami podstawie danych
morfologicznych
Jð dane morfologiczne mogÄ…
być testowalne na wszystkich
etapach analizy filogenetycznej
Metody konstruowania drzew filogenetycznych
Metoda obliczeniowa
optymalizacja analiza klastrów
" Parsymonia
Cechy
" Maximum Likelihood
" wnioskowanie
Bayesowskie
" Minimum Evolution " UPGMA
Dystanse
" Neighbor-Joining
Zasada działania
1. Metody dystansowe zakładają stochastyczny
model ewolucji (np. sekwencji)
2. Stosują ten model do określenia prawdziwej liczby
różnic (np. substytucji) z obserwowanych różnic
3. Budują drzewo, które jest dopasowane najlepiej
do oszacowanych dystansów ewolucyjnych
Zasada działania
" Liczona jest całkowita liczba substytucji, które występują
w parze porównywanych sekwencji (=taksonów) od
momentu dywergencji od wspólnego przodka.
" Liczba ta jest dzielona przez długość sekwencji.
" Dystans ten wyrażany jest w liczbie substytucji/miejsce
(dystans p)
przodek
substytucja
substytucja
substytucja
substytucja
substytucja
sekwencja 2
sekwencja 1
UPGMA
" UPGMA (unweighted pair group method with arithmetic mean)
to najprostsza metoda grupująca taksony według ogólnego
podobieństwa lub odległości.
" Pracuje wyłącznie na matrycach dystansowych np.
hybrydyzacja DNA-DNA lub konstruowanych z danych
sekwencyjnych na podstawie ilości substytucji.
" UPGMA umożliwia określenie długości gałęzi (odlegości
ewolucyjnej) jak i uporządkowania gałęzi.
" Zakłada stały zegar molekularny  możliwe jest teoretycznie
oszacowanie czasu dywergencji na podstawie różnic w
sekwencjach.
Jak działa UPGMA
A C B D
OTU A-C B D
OTU A B C D
A - 8 7
A-C - 8,5 7 1112
,5
B - 9 14
B - 14
C - 11
D - -
D
Matryca dystansowa
Matryca zredukowana
 substytucje/100 nukleotydów
1. Znajdz najbliższą parę gatunków.
2. Połącz oba te gatunki w klaster.
3. Policz na nowo pozostałe dystanse jako średnią od A-C.
4. Idz do kroku 1 i powtórz procedurę, jeśli w tabeli pozostała tylko jedna
wartość to zakończ analizę.
Warunek  trzech punktów
Aby analiza UPGMA mogła być przeprowadzona z sukcesem dane
muszą być zultrametryzowane. Oznacza to, że dla dowolnych trzech
taksonów (x, y, z) dystanse (d) pomiędzy nimi muszą spełniać
następujące wyrażenie:
d(x,z) d" max (d(x,y), d(y,z))
Powyższą formułę nazywa się także warunkiem  trzech punktów .
Kiedy UPGMA zawodzi
Prawdziwe drzewo Matryca dystansów Drzewo UPGMA
Neighbor-Joining (NJ)
" Metoda koncepcyjnie zbliżona do analizy klastrów,
jednak dopuszcza niejednakowe tempo zmian
molekularnych wśród gałęzi.
" Zasada analizy NJ:
Wyszukiwanie par taksonów (sąsiadów=neighbors),
które minimalizują totalną długość gałęzi na każdym
etapie grupowania taksonów początkowo zgrupowanych
w całkowicie politomicznym drzewie ( gwiazda ).
Jak działa NJ
1. Inicjalne drzewo ma postać
2. Losowo wybierana jest para sekwencji i
w pełni politomicznej
łączona gałęzią z centrum gwiazdy.
gwiazdy.
Liczona jest całkowita długość gałęzi
drzewa (=suma dystansów). Para jest
H
C
C
C
C
C
C
C
zwracana do gwiazdy.
A
(D,(C,E))
(D,(C,E))
B
B
B
B
D
D
D
D
D
D
D
D
3. Powtarzane jest to ze wszystkimi moż-
B
liwymi kombinacjami par, aż do znale-
G
zienia drzewa o najmniejszej całkowitej
E
E
E
E
E
E
E
(((A,B),H),(G,F))
((((A,B),H),(G,F)),(D,(C,E)))
((A,B),H)
((A,B),H)
((A,B),H)
((A,B),H)
(A,B)A
A
(C,E)
F
długości gałęzi. Para sekwencji z tego
drzewa sÄ…siaduje ze sobÄ… w finalnym
D
A F
A F
F
F
F
F
H
H
H
H
H
drzewie.
C
G
G
G
G
G
G
(G,F)
(G,F)
(G,F)
4. Para ta jest tymczasowo kombinowana
E
w jednostkę, włączana do gwiazdy
krótszej o jedną gałąz i matryca
dystansów liczona jest na nowo.
5. Procedura jest powtarzana tak długo, aż wszyscy  sąsiedzi zostaną
znalezieni i otrzymamy gotowe drzewo.
Minimum Evolution (ME)
" Metoda ściśle  spokrewniona z NJ.
" ME stosuje kryterium minimalnej ewolucji, czyli
wyszukiwania drzewa o totalnej najmniejszej długości gałęzi
(=sumie dystansów).
" Testowane są wszystkie możliwe topologie i wybierana ta o
najmniejszej wartości  bardzo ekstensywna metoda.
" Inicjalne drzewo produkowane jest przez NJ, mierzona
totalna długość gałęzi dla tego drzewa oraz drzew
pochodnych podobnych topologicznie, różniących się od
inicjalnego drzewa o dt=2 i 4. Jest to powtarzane wielokrotnie -
Close-Neighbor-Interchange (CNI)
Modele ewolucji
najprostszy
Frekwencje nukleotydów i są równe i wszystkie
rodzaje substytucji sÄ… jednakowo prawdopodobne
(Jukes-Cantor)
Frekwencje nukleotydów i są równe, ale tranzycje i
transwersje występują w różnych proporcjach
(Kimura 2 parametrowy)
Frekwencje nukleotydów i są różne oraz tranzycje i
transwersje występują w różnych proporcjach
(HKY)
Frekwencje nukleotydów są różne oraz wszystkie
typy substytucji występują w różnych proporcjach
(GTR)
najbardziej
złożony
Wady i zalety metod dystansowych
Metoda Zalety Wady
UPGMA " bardzo prosta i bardzo szybka " bardzo czuła na różne tempo
ewolucji
" grupowanie możliwe jest
jedynie, jeśli dane są
ultrametryczne tzn. spełniają
warunek  trzech punktów
" informacja z sekwencji jest
" bardzo szybka (długie
NJ
zredukowana (dystanse)
sekwencje, bootstrap)
" daje tylko jedno możliwe
" akceptuje linie wykazujÄ…ce
drzewo
różne tempo ewolucji
" silnie zależy od rodzaju
zastosowanego modelu ewolucji
ME
" bardzo wolna i wymaga dużej
" stosuje kryterium optymalizacji
mocy komputera i/lub procedur
" jak NJ
heurystycznych (CNI)
" jak NJ
Wady i zalety metod dystansowych
Generalnie wszystkie metody dystansowe sÄ…
fenetyczne - konstruujÄ… drzewa poprzez
grupowanie OTU na podstawie ogólnego
podobieństwa (morfologicznego, sekwencji itp.).
A ogólne podobieństwo nie koniecznie musi
odzwierciedlać prawdziwe pokrewieństwo
filogenetyczne.
Metody próbkowania (resampling)
" Są to metody statystyczne służące do określenia stabilności
kladów.
" Pobierane są wielokrotnie losowe próbki (pseudoreplikacje) z
danych.
" Konstruowane sÄ… drzewka z wszystkich pseudoreplikacji i
procedura powtarzana jest wielokrotnie ( np. 1000 razy)
Następnie liczony jest 50% majority rule consensus.
" Częstotliwość pojawiania się poszczególnych kladów w
drzewie konsensusowym stanowi miarę stabilności testowanej
topologii drzewa filogenetycznego.
" Stosowane do wszelkich danych dyskretnych, także
dystansowych.
Jackknife
" Losowo pobierane do próbki cechy (dystanse) bez
zwracania danych do oryginalnej matrycy.
" Symulacje wykazały, że najodpowiedniejszą wielkością
próbki jest 1/e (ok. 36,8%) danych.
oryginalna matryca N=42
próbka N=15
Procedura ta jest
Av.calidridis1 tatgaatgaattttctgagaactgttttttctg--ttttt-c
powtarzana
Av.calidridis2 tatgaatgaattttctgagaactgttttttctg--ttttt-c
wielokrotnie (np.
Av.calidridis3 tatgaatgaattttctgagaactgttttttctg--ttttt-c
1000 razy) i za
Av.calidridisalp tatgaatgaattttctaagggttggtttttttg--ttttt-c
każdym razem z
Av.phalaropi tatgaatgaatttactatgaattttttct---gaattttttc
próbki budowane
Av.philomachi tatgaatgaattttctgaaaattttttttt--a--tttattc jest drzewo (-a)
filogenetyczne.
Av.totanigla1 tatgaatgaatgttctaaaaattttttttt--g--ttttttc
Av.totanigla2 tatgaatgaatgttctaaaaattttttttt--g--ttttttc
Następnie
Av.totanitot1 tatgaatgaattttctaaaaattttttttt--g--ttttttc
konstruowany
Av.totanitot2 tatgaatgaattttctaaaaattttttttt--g--ttttttc
jest konsensus.
Av.tretekiae tatgaatgaattttctaataattttttttt--g--ttttttc
Av.tringae tatgaatgaattttctaataatttttattattg--ttttt--
Bootstrap
" Losowo pobierane są pseudoreplikacje i, w odróżnieniu do
jackknife, dane zwracane sÄ… do oryginalnej matrycy.
" Wielkość próbki jest taka sama jak matrycy oryginalnej.
Oznacza to, że pewne pseudoreplikacje są pobierane
więcej niż jeden raz.
oryginalna matryca N=42 próbka N=42
Av.calidridis1 tatgaatgaattttctgagaactgttttttctg--ttttt-c
Av.calidridis2 tatgaatgaattttctgagaactgttttttctg--ttttt-c
Av.calidridis3 tatgaatgaattttctgagaactgttttttctg--ttttt-c
Av.calidridisalp tatgaatgaattttctaagggttggtttttttg--ttttt-c
Av.phalaropi tatgaatgaatttactatgaattttttct---gaattttttc
Av.philomachi tatgaatgaattttctgaaaattttttttt--a--tttattc
Av.totanigla1 tatgaatgaatgttctaaaaattttttttt--g--ttttttc
Av.totanigla2 tatgaatgaatgttctaaaaattttttttt--g--ttttttc
Av.totanitot1 tatgaatgaattttctaaaaattttttttt--g--ttttttc
Av.totanitot2 tatgaatgaattttctaaaaattttttttt--g--ttttttc
Av.tretekiae tatgaatgaattttctaataattttttttt--g--ttttttc
Av.tringae tatgaatgaattttctaataatttttattattg--ttttt--
Bootstrap  wartości krytyczne


Wyszukiwarka

Podobne podstrony:
17 02 Metodyka oceny ryzyka
02 Specjalne metody elektrostatyki
Bezpieczeństwo Ataki typu DoS Anatomia zagrożenia i metody obrony 02 2005
Pszczoły innowacyjne metody Lipsko 27 02 2011
07 02 2016 Metody obliczeniowe
02 klasy metody
2008 Metody obliczeniowe 02 D 2008 10 1 21 28 5
TYLE ZDARZEŃ Dystans txt
Margit Sandemo Cykl Saga o czarnoksiężniku (02) Blask twoich oczu
t informatyk12[01] 02 101
introligators4[02] z2 01 n
02 martenzytyczne1
OBRECZE MS OK 02

więcej podobnych podstron