Analiza sekwencji biologicznych 2
dr inż. Marcin Pacholczyk
W trakcie dwiczenia poznamy podstawowe metody obliczeniowe służące poszukiwaniu
podobieostw sekwencji biologicznych, wynikających z ich ewolucyjnego pokrewieostwa. W
szczególności poznamy algorytmy służące uliniowieniu (ang. alignment) sekwencji – globalny
algorytm Needleman’a-Wunsch’a (N-W) i lokalny Smith’a-Waterman’a (S-W).
Podobieństwo sekwencji
1. Najprostszym sposobem wizualizacji podobieostw w sekwencjach jest wykorzystanie tzw.
wykresu kropkowego (polecenie Matlaba seqdotplot). Korzystając z wiadomości zdobytych
podczas poprzedniego dwiczenia (Analiza sekwencji biologicznych 1) znajdź w bazie danych
sekwencje genu kodującego ludzki (homo sapiens) i mysi (mus musculus) enzym
hexosaminidase A (Hex A) – nieobecnośd tego enzymu powoduje chorobę Tay-Sachs. Znajdź
odpowiednią otwartą ramkę odczytu i dokonaj jej translacji do sekwencji aminokwasów.
Podpowiedź: Użyj sekwencji NM_000520 (człowiek) i AK080777 (mysz). Wykreśl dla podanych
sekwencji wykres kropkowy. Czy zauważasz podobieostwo? Następnie dokonaj uliniowienia
tych sekwencji za pomocą algorytmów N-W i S-W (polecenia nwalign i swalign). Wynik
skomentuj. Uwaga może zachodzid koniecznośd skrócenia sekwencji powstałej w wyniku
translacji. Proszę pamiętad, że pierwszym aminokwasem powinien byd M, zaś gwiazdka (*)
oznacza kodon STOP.
2. Na stronie internetowej baba.sourceforge.net zapoznaj się z apletami, służącymi ilustracji
zasady działania algorytmów N-W i S-W. Czym różnią się te algorytmy?
3. Dokonaj uliniowienia dwóch sekwencji aminokwasów HGSAQVKGHG i KTEAEMKASEDLKKHGT,
wykorzystaj macierz BLOSUM40. Macierz BLOSUM40 można otrzymad wykorzystując polecenie
blosum. Sprawdź czy aplety punktu 1 dają takie samo rozwiązanie jak polecenia nwalign i
swalign, zapoznaj się z opcjami wizualizacji uliniowienia, które oferują te polecenia. Wynik
uliniowienia możesz wyświetlid za pomocą polecenia showalignment.
4. Kluczowym elementem dla oceny poprawności uliniowienia są tzw. macierze substytucji. Do
najpopularniejszych możemy zaliczyd macierze PAM i BLOSUM. W ramach wymienionych grup
funkcjonuje zazwyczaj kilka macierzy substytucji, służących wykrywaniu podobieostw w
sekwencjach, w różny sposób oddalonych od siebie ewolucyjnie. Zwykło się uważad, że macierz
BLOSUM62, jest najlepsza w przypadku wykrywania słabych podobieostw w sekwencjach
bardzo oddalonych ewolucyjnie. Z kolei dla szczególnie długich uliniowieo sekwencji o słabym
podobieostwie, lepsza może okazad się np. BLOSUM45. Na stronie NCBI, posłuż się narzędziem
BLAST dla odnalezienia sekwencji podobnej do ludzkiej hemoglobiny (NP_000509.1).
Wykorzystaj macierze BLOSUM45, BLOSUM62 i BLOSUM80. Jaki wpływ ma wybór macierzy na
wynik działania algorytmu?
Sprawozdanie oprócz rozwiązao i odpowiedzi na postawione w instrukcji pytania, powinno zawierad
skrypty Matlaba umożliwiające realizację określonych zadao.