Ćwiczenie 1
wstęp do bioinformatyki
METODY, APLIKACJE, BAZY DANYCH
Oprogramowanie bioinformatyczne:
1.Programy do pobrania na dysk lokalny
Darmowe
Płatne (shareware)
2.Aplikacje on-line:
Darmowy dostęp
Płatna rejestracja
OPROGRAMOWANIE BIOINFORMATYCZNE
-przyjazne,
-efektowne
-wysokiej jakości
Od czego najlepiej zacząć?
ExPASy
http://www.expasy.org/
Swiss-Prot
baza sekwencji białkowych
http://www.expasy.org/sprot/
NCBI
Centrum serwisowe bioinformatyki.
http://www.ncbi.nlm.nih.gov/
EBI
Europejskie centrum bioinformatyczne.
http://www.ebi.ac.uk/
GenomeNet
Japoński serwis bioinformatyczny i genomowy.
http://www.genome.ad.jp/
EMBNet
Serwis szwajcarski.
http://www.ch.embnet.org/
Protein Data Bank (PDB)
Główna baza struktur białkowych.
http://www.rcsb.org/pdb/index.html
DBTSS: Genomowa baza miejsc startowych transkrypcji.
http://dbtss.hgc.jp/index.html
CENTRA BADAŃ GENOMU CZŁOWIEKA
Fizames
Lawrence Berkeley Laboratory Human Genome Center (LBL)
http://www.hgc.lbl.gov/GenomeHome.html
Michael
Palazzolo
Nomi
Harris
Lawrence Livermore National Laboratory Biology and Biotechnology Research Program (LLNL)
http://www.bio.llnl.gov/bbrp/genome/genome.html
Tony
Carrano
Tom
Slezak
Los Alamos National Laboratory Center for Human Genome Studies (LANL)
http://www.ls.lanl.gov/index.html
Larry L.
Deaven
Robert
Sutherland
BIOINFORMATYCZNE SERWISY/BAZY DANYCH
BLAST - pakiet programów do wyszukiwania i analizy porównawczej sekwencji.
http://www.ncbi.nlm.nih.gov/BLAST/
SWISS-MODEL
Narzędzie teoretycznego modelowania struktur białkowych.
http://www.expasy.org/swissmod/SWISS-MODEL.html
PŁATNE OPROGRAMOWANIE BIOINFORMATYCZNE
http://www.accelrys.com/
http://www.tripos.com
PEDRO'S BIOMOLECULAR RESEARCH TOOLS
Pedro's BioMolecular Research Tools.
Zbiór narzędzi z zakresu bioinformatyki, genomiki i proteomiki.
http://www.biophys.uni-duesseldorf.de/BioNet/Pedro/research_tools.html
Dopasowywanie homologicznych sekwencji - ClustalX
Konstrukcja molekularnych drzew filogenetycznych
Program TreeView
ANALIZA ZMIENNOŚCI I RÓŻNICOWANIA
Zdecydowana większość dostępnych narzędzi służących do teoretycznej analizy porównawczej sekwencji białkowych wykorzystuje stochastyczne macierze substytucji aminokwasowych w odpowiadających sobie pozycji w homologicznych białkach.
Macierze opisują obserwowane częstości wzajemnej substytucji aminokwasów, co prezentowane jest przez wartości liczbowe zawarte w macierzach.
Wartości te odpowiadają współczynnikom prawdopodobieństwa wzajemnej wymiany aminokwasów i podane są w taki sposób, by umożliwić łatwą identyfikację przemian zachodzących częściej lub rzadziej niż wynikałoby to z losowego prawdopodobieństwa ich zajścia.
Wyróżnia się dwie zasadnicze grupy macierzy substytucji aminokwasów: PAM i BLOSUM. Różnią się one metodą obliczeniową użytą do ich skonstruowania.
Macierze PAM wyliczone są dla obserwowanych przemian mutacyjnych w ujęciu globalnym, tzn. dotyczą wszystkich przemian dla porównywanych sekwencji w całości.
Macierze BLOSUM konstruowane są na podstawie analizy przemian pewnych tylko fragmentów porównywanych sekwencji. Wybierane są fragmenty, dla których wzajemny stopień zróżnicowania przekracza zadeklarowaną wartość progową.
Np. do konstrukcji macierzy BLOSUM62 brane pod uwagę są tylko te fragmenty, które wykazują wzajemny stopień identyczności nie większy niż 62%.
Macierz mutacyjnych substytucji aminokwasów 1/2
PAM250
BLOSUM62
ALGORYTM SEMIHOMOLOGII GENETYCZNEJ
Algorytm semihomologii genetycznej w swej konstrukcji wyraźnie odbiega od większości metod porównywania sekwencji białkowych i analizy ich zmienności.
Przede wszystkim nie opiera się na stochastycznych macierzach substytucji aminokwasowych.
Zamiast nich, fundamentalnym elementem metody jest trójwymiarowy diagram relacji genetycznych między aminokwasami.
Algorytm semihomologii genetycznej uwzględnia zarówno czynnik zmienności mutacyjnej na poziomie genetycznym, jak i presji selekcyjnej na poziomie białkowym.
Dzięki temu bierze pod uwagę wszystkie mechanizmy składające się na proces ewolucji molekularnej.
Umożliwia prześledzenie oraz wyjaśnienie mechanizmów i szlaków ewolucyjnych różnicowania się w obrębie danej grupy spokrewnionych ze sobą białek.
DIAGRAM RELACJI GENETYCZNYCH
-między kodonami
-między aminokwasami
ANALIZA PORÓWNAWCZA SEKWENCJI
http://bioinfo.icm.edu.pl/geisha/
analiza podobieństwa i homologii sekwencji białkowych,
dopasowywanie sekwencji aminokwasowych w oparciu o relacje genetyczne,
analiza zmienności mutacyjnej w obrębie homologicznych rodzin białkowych,
badania wspomagające przy konstruowaniu molekularnych drzew filogenetycznych.
PROGRAM GEISHA
Porównywanie dwóch sekwencji białkowych
http://bioinfo.icm.edu.pl/geisha/
Porównywanie wielu sekwencji białkowych i konstrukcja drzewa filogenetycznego.
http://bioinfo.icm.edu.pl/geisha/
PROGRAM SSSS
Oszacowanie istotności podobieństwa sekwencji.
Weryfikacja istotności podobieństwa wynikającego z najlepszego dopasowania sekwencji.
PROGRAM CONSENSUS CONSTRUCTOR
Wizualizacja optymalnego dopasowania wielu sekwencji i konstrukcja sekwencji konsensusowych.
Konstrukcja szeregu sekwencji konsensusowych dla jednego zestawu dopasowanych sekwencji, przy zmiennych parametrach progowych.
Eksportowanie wyników w formacie rtf (MS Word).
MUTACJE SPRZĘŻONE
Zjawisko występowania mutacji wzajemnie zależnych. Jest to pozytywna selekcja jednej mutacji uwarunkowana pojawieniem się innej mutacji w innym miejscu.
Zgodnie z aktualną hipotezą pozytywnej selekcji darwinowskiej na poziomie molekularnym, mutacje sprzężone odnoszą się do obszarów będących w bezpośrednim kontakcie, związane są z interakcją białko-białko oraz mają na celu zachowanie ogólnych własności strukturalnych i funkcjonalnych cząsteczki (dotyczą elementów biologicznie aktywnego centrum w białku).
Przykład wzajemnego rozmieszczenia pozycji wykazujących sprzężenie mutacyjne (rodzina inhibitorów proteinaz typu Bowmana-Birk). Wąski klaster pozycji sprzężonych ( efekt domina ).
PROGRAM CORM
Program Corm
Lokalizacja i charakterystyka mutacji sprzężonych występujących w obrębie homologicznej rodziny białek.
http://tarawa.icm.edu.pl/agorecki/corm
PROGRAM HCA Plot
Analiza i przewidywanie struktury drugorzędowej białek.
PROGRAM PREDICT7
Kompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej.
PROGRAM PROTEIN SEQUENCE ANALYSIS
Kompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej.
PROGRAM ANTHEPROT (ANTHEWIN)
Przewidywanie struktury drugorzędowej.
Kompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej.
Kompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej. Koło helikalne.
PROGRAM RASMOL
Białkowe przeglądarki 3D.
PROGRAM SWISS PDB VIEWER
Białkowe przeglądarki 3D.
PROGRAM WEBLAB VIEWER ( ACCELRYS )
Białkowe przeglądarki 3D.
ANIMACJA W PRZEGLĄDARKACH MOLEKULARNYCH
USŁUGI ZDALNEGO NAUCZANIA I ZDALNYCH KURSÓW
http://tarawa.icm.edu.pl/lulu/Bioserver.htm
ĆWICZENIE
w celu wykonania ćwiczenia, wykonaj następujące polecenia:
Wyszukaj i pobierz sekwencje aminokwasowe dla ludzkich glukokinaz z bazy sekwencji białkowych Swiss-Prot.
Jeśli znane są ich struktury przestrzenne, to pobierz je z bazy PDB.
Wykonanie ćwiczenia:
Otwórz stronę serwisu bioinformatycznego ExPASy,
Kliknij na łącze do sekwencyjnej bazy danych Swiss-Prot i otwórz stronę tej bazy,
W okno tekstowe wyszukiwarki wpisz słowa kluczowe "human glucokinase" i kliknij na przycisk "Go".
Strona główna bazy sekwencji białkowych Swiss-Prot (i TrEMBL) z oknem tekstowym wyszukiwarki w górnej części ekranu.
W bazie Swiss-Prot znalezione zostaną trzy rekordy, z których dwa dotyczą ludzkich glukokinaz, a jeden jest rekordem białka regulatorowego ludzkiej glukokinazy. Oprócz nich znalezione zostaną dodatkowe dwa rekordy z bazy TrEMBL.
Warunki zadania spełniają dwa rekordy o kodach: ADPGK_HUMAN (Q9BRR6) oraz HXK4_HUMAN (P35557). Oba posiadają przekierowanie do danych na temat struktury trzeciorzędowej, przy czym rekord ADPGK_HUMAN (Q9BRR6) zawiera link jedynie do bazy ModBase (a nie do bazy PDB).
Wynik wyszukiwania ludzkiej glukokinazy w bazie sekwencji białkowych Swiss-Prot.
Fragment rekordu ADPGK_HUMAN (Q9BRR6) zawierający łącznik do strukturalnej bazy ModBase.
Wygląd rekordu struktury ludzkiej glukokinazy o kodzie Swiss-Prot Q9BRR6, pobrany z bazy strukturalnej ModBase.
Dopiero w strukturalnym rekordzie ModBase znajduje się informacja (i łącznik) o rekordzie pdb z danymi strukturalnymi dla tego białka. Podany jest także kod pdb tego białka (1ua4A).
Rekord bazy Swiss-Prot glukokinazy P35557 zawiera bogatszą informację strukturalną o tym białku. Znajdują się w nim łączniki zarówno do bazy ModBase, jak i bazy PDB.
ęWygląd rekordu (fragment) struktury ludzkiej glukokinazy o kodzie Swiss-Prot Q9BRR6 i kodzie PDB 1UA4, pobrany z bazy
struktur białkowych PDB.
ęFragment rekordu HXK4_HUMAN (P35557) zawierający łączniki do strukturalnej bazy ModBase oraz PDB.
Sekwencje pobrać można z rekordów bazy Swiss-Prot. Dla wygody użytkownika można od razu pobrać sekwencję zapisaną w formacie FASTA. Łącznik do tych danych znajduje się w końcowej części rekordu po prawej stronie.
Plik pdb ze strukturą przestrzenną białka pobrać można z rekordu bazy PDB, korzystając z łącznika "Download Files". Z tego samego miejsca można także pobrać sekwencję aminokwasową białka.
ęWygląd rekordu (fragment) struktury ludzkiej glukokinazy o kodzie Swiss-Prot P35557 i kodzie PDB 1GLK, pobrany z bazy
struktur białkowych PDB.
ęDolna część rekordu bazy danych Swiss-Prot z łącznikiem do sekwencji białka zapisanej w formacie FASTA.
ĆWICZENIE 1.2
ęW celu wykonania ćwiczenia, wyszukaj i pobierz graficzną reprezentację struktury przestrzennej dla białka o kodzie Swiss-Prot P02144.
ĆWICZENIE 2
ANALIZA TEORETYCZNA BIAŁEK W OPARCIU O ICH STRUKTURĘ PIERWSZORZĘDOWĄ
ANALIZA BIAŁEK NA POZIOMIE STRUKTURY PIERWSZORZĘDOWEJ
PODOBIEŃSTWO FUNKCJONALNE I SEMIGOMOLOGIA GENETYCZNA
ANALIZA SEKWENCJI BIAŁEK
Poznanie struktury pierwszorzędowej białka umożliwia jego głębszą analizę w aspekcie konformacyjnym i funkcjonalnym poprzez porównanie z bardziej poznanymi białkami wykazującymi homologię w sekwencji aminokwasowej.
Informacje uzyskiwane dzięki takiej analizie są znacznie bogatsze niż proste wykazanie stopnia identyczności.
W ciągu minionych dwudziestu lat opracowano znaczną ilość algorytmów do analizy sekwencji białek (jak również kwasów nukleinowych) i skonstruowano setki programów opartych na nich.
INTERPRETACJA GRAFICZNA
Uzyskiwane z porównania wyniki przedstawia się powszechnie za pomocą interpretacji graficznej, która jednoznacznie wykrywa i lokalizuje fragmenty homologiczne, miejsca insercji i delecji, oraz wielodomenową budowę białka (homologia wewnętrzna wynikająca z duplikacji, bądź multiplikacji genu kodującego dane białko). Przykłady takich wyników przedstawione są na następujących rysunkach.
Interpretację graficzną stanowi dwuwymiarowy diagram, w którym oś odciętych reprezentuje sekwencję jednego, a oś rzędnych drugiego z porównywanych białek. Na diagramie zaznaczane są punkty, których współrzędne odpowiadają numerom pozycji okupowanych przez identyczne reszty aminokwasowe w porównywanych sekwencjach.
SEMIHOMOLOGIA
Poza pozycjami obsadzonymi przez te same reszty poszukiwane są również pozycje zawierające reszty podobne według jakiegoś kryterium
- mówimy wówczas o semihomologii. Kryterium tym może być podobieństwo w charakterze łańcucha bocznego reszty pod względem rozmiarów i polarności.
Za podobne uważa się wówczas np. pary Arg i Lys, Leu i Ile, Ser i Thr itd. Ten rodzaj podobieństwa określa się mianem podobieństwa funkcjonalnego bądź konformacyjnego. Substytucje takie z reguły nie wpływają na zmianę struktury drugorzędowej ani innych parametrów konformacyjnych.
PROGRAMY STOSUJĄCE SEMIHOMOLOGIĘ
Przykładem programu stosującego ten rodzaj semihomologii jest program HCA-Plot służący do lokalizacji obszarów (klastrów) hydrofobowych. Programy z grupy FASTA służące do analizy sekwencji białek wyróżniają z kolei substytucje które są wśród białek homologicznych częste ze statystycznego punktu widzenia.
Program HOMOLOGYi jego późniejsze wersje Semihomology i GEISHA natomiast uwzględniają semihomologię genetyczną, tzn. zaznaczają pozycje obsadzone przez różne reszty aminokwasowe, których kodony mogą się różnić tylko jedną zasadą.
Przejście jednego aminokwasu w drugi jest zatem możliwe na drodze pojedynczej mutacji punktowej (tanzycji lub transwersji) - najbardziej prawdopodobnego i podstawowego mechanizmu zmienności genetycznej białek.
RÓŻNE TYPY SEMIHOMOLOGII
Wyróżnia się przy tym semihomologię typu I, w którym mutacja oparta jest o pojedynczą tranzycję (substytucja typu puryna-puryna lub pirymidyna-pirymidyna), semihomologię typu II obejmującą pojedyncze transwersje, czyli mutacje typu puryna-pirymidyna oraz semihomologię typu III dotyczącą mutacji trzeciej, najbardziej tolerancyjnej, pozycji w kodonie.
Analiza semihomologii genetycznej dostarcza wielu dodatkowych informacji niedostępnych przy stosowaniu innych algorytmów, np. pozwala dokładnie zlokalizować pozycje delecji bądź insercji w odcinkach wykazujących bardzo niski stopień podobieństwa, czy ustalić dokładny kod genetyczny dla danego białka, co z kolei ma bardzo istotne znaczenie przy prawidłowej syntezie sondy genetycznej dla genu kodującego to białko.
ĆWICZENIE 2.1
Stosując algorytm semihomologii genetycznej porównaj poniższe pary sekwencji aminokwasowych. Zakładając niezmienność pozycji obsadzonych przez reszty cysteiny wykaż, które reszty aminokwasowe uległy delecji?
Rozwiąż zadanie a następnie kliknij przycisk "Sprawdź poprawną odpowiedź".
Subject
a) RVCPRILMECKK
b) MVCPKTTCQK
Odpowiedź:
RVCPRILMECKK
MVCPT-T-CQK
Delecji uległy pozycje obsadzone przez L oraz E w sekwencji pierwszej.
Dopasowanie sekwencji przy zachowaniu konserwatywnych pozycji cysteinowych wygląda następująco:
RVCPRILMECKK
MVCP<KTT>CQK
Do trójpeptydu KKT drugiej sekwencji powinny zostać dodane dwie przerwy, by liczba pozycji odpowiadała liczbie pozycji analogicznego fragmentu sekwencji pierwszej (RILME).
W celu prawidłowego umiejscowienia przerw należy sprawdzić, które z aminokwasów fragmentu RILME mogą mieć kodony różniące się tylko jedną pozycją (są semihomologiczne) w porównaniu z możliwymi kodonami aminokwasów fragmentu KKT. Takie relacje genetyczne mogą wystąpić dla par: R-K, I-K, M-K, R-T, I-T, M-T. Zatem najlepsze dopasowanie z uwzględnieniem relacji genetycznych wyglądać będzie następująco:
RILME
KT-T-
a dla całych sekwencji:
RVCPRILMECKK
MVCPKT-T-CQK
Delecji uległy pozycje obsadzone przez L oraz E w sekwencji pierwszej.
ĆWICZENIE 2.2
Stosując algorytm semihomologii genetycznej porównaj poniższe pary sekwencji aminokwasowych. Zakładając niezmienność pozycji obsadzonych przez reszty cysteiny wykaż, które reszty aminokwasowe uległy delecji?
Rozwiąż zadanie a następnie kliknij przycisk "Sprawdź poprawną odpowiedź".
Subject
a) CKKDSDCLAEC
b) CKREDCIVYKC
W rezultacie analizy dopasowanie całych sekwencji przedstawia się następująco:
CKKDSDCLA-EC
CKRE-DCIVYKC
Dopasowanie sekwencji przy zachowaniu konserwatywnych pozycji cysteinowych wygląda następująco:
CK KDS DC <LAE> C
CK <RE> DC IVYK C
Do dwupeptydu RE drugiej sekwencji powinna zostać dodana jedna przerwa, by liczba pozycji odpowiadała liczbie pozycji analogicznego fragmentu sekwencji pierwszej (KDS).
Z tego samego powodu do fragmentu LAE pierwszej sekwencji także powinna zostać dodana jedna przerwa.
W celu prawidłowego umiejscowienia przerw należy sprawdzić, które z możliwie odpowiadających sobie aminokwasów mogą mieć kodony różniące się tylko jedną pozycją (są semihomologiczne).
Dla pierwszego fragmentu takie relacje występują dla par K-R, K-E, D-E oraz S-R.
Zatem najlepsze dopasowanie z uwzględnieniem relacji genetycznych dla tego fragmentu będzie wyglądać:
KDS
RE-
Analogicznie dla drugiego fragmentu semihomologiczne pary będą następujące: L-I, L-V, A-V, E-V, E-K. Najlepsze dopasowanie pozostawia "niesparowaną" tyrozynę:
LA-E
IVYK
W rezultacie analizy dopasowanie całych sekwencji przedstawia się następująco:
CKKDSDCLA-EC
CKRE-DCIVYKC
ĆWICZENIE 3
PROGRAM PROTEIN SEQUENCE ANALYSIS
OPIS PROGRAMU I KORZYSTANIE
PROGRAM PROTEIN SEQUENCE ANALYSIS
Program "Protein Sequence Analysis". Opis programu i korzystanie.
Program "Protein Sequence Analysis" (wersja shareware) służy do teoretycznej charakterystyki właściwości fizykochemicznych i strukturalnych białek o charakterze globularnym, zbudowanych z jednego łańcucha polipeptydowego na podstawie znanej sekwencji aminokwasowej. Akceptowanych jest kilka formatów zapisu sekwencji aminokwasowej, wśród których jest format "raw" (surowa sekwencja) i format FASTA.
Sekwencje zapisane są w oddzielnym pliku tekstowym, który wczytywany jest przez program w pierwszym etapie procedury jego użytkowania.
FUNKCJONALNOŚĆ PROGRAMU
Darmowa wersja shareware programu umożliwia uzyskanie następujących informacji o białku:
skład aminokwasowy białka (wartości bezwzględne i udział procentowy),
masa cząsteczkowa dla różnych wersji izotopowych,
krzywa miareczkowania i punkt izoelektryczny,
widmo UV,
profil hydrofobowości łańcucha polipeptydowego,
przewidywanie struktury drugorzędowej metodą Garniera, Osguthorpe i Robsona (GOR I),
widmo CD (dichroizmu kołowego).
Ponadto program zawiera edytor sekwencji DNA z prostą, lecz przydatną opcją tłumaczenia sekwencji nukleotydowej łańcucha DNA na sekwencję aminokwasową dla każdej ramki odczytu.
PRZEWIDYWANIE STRUKTURY DRUGORZĘDOWEJ
Wartość programu jest przede wszystkim związana z możliwością przewidywania struktury drugorzędowej oraz generowaniem widma CD dla dowolnie deklarowanego udziału procentowego poszczególnych rodzajów struktury na tym poziomie. Pozwala to m.in. na:
przewidywanie widma CD dla białka natywnego,
weryfikację zgodności wyników teoretycznego przewidywania struktury II-rzędowej przy znanym kształcie widma CD uzyskanego droga eksperymentalną,
badanie procesu zmiany konformacji na poziomie II-rzędowym podczas deformacji cząsteczki, która towarzyszy np. procesowi denaturacji.
ĆWICZENIE 3.1
Analiza fizykochemiczna i strukturalna rybonukleazy o sekwencji:
W pierwszym etapie należy utworzyć plik tekstowy zawierający sekwencję aminokwasową białka, będącego przedmiotem badań. Zawartość pliku może składać się wyłącznie z samej sekwencji rybonukleazy (format raw), lub może być rekordem sekwencji w formacie FASTA:
KETAAAKFERQHMDSSTSAASSSNYCNQMMKSRNLTKDRCKPVNTFVHES LADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPNCAYKTT QANKHIIVACEGNPYVPVHFDASV
>rybonuklaza
KETAAAKFERQHMDSSTSAASSSNYCNQMMKSRNLTKDRCKPVNTFVHES LADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPNCAYKTT QANKHIIVACEGNPYVPVHFDASV
Następnie należy uruchomić program "Protein Sequence Analysis" i wczytać plik zawierający sekwencję rybonukleazy (menu File-Open).
Sekwencja pojawi się w oknie roboczym programu. Istnieje możliwość analizy całej sekwencji, lub jej fragmentu.
W celu przygotowania odcinka sekwencji zaznaczamy (zaświetlamy) przy pomocy myszki ten odcinek. Jeśli analizowana ma być cała sekwencja, zaznaczamy myszką całą sekwencję.
Możemy teraz przejść do części obliczeń teoretycznych programu.
Wyniki poszczególnych obliczeń dla rybonukleazy można zobaczyć na kolejnych stronach.
Obliczenia te nie są skomplikowane, więc czas na ich wykonanie jest bardzo krótki nawet dla komputerów o bardzo niskiej mocy obliczeniowej.
Natychmiast po ich zakończeniu na ekranie pojawiają się wyniki końcowe.
ęSkład aminokwasowy rybonukleazy.
ęMasa cząsteczkowa rybonukleazy dla różnych izotopów.
ęWykres miareczkowania rybonukleazy i punkt izoelektryczny.
ęWidmo UV rybonukleazy.
ęProfil hydrofobowości dla łańcucha rybonukleazy.
ęPrzewidywanie struktury II-rzędowej rybonukleazy
ęWidmo CD rybonukleazy (dla procentowego udziału rodzajów struktury II-rzędowej wyliczonego podczas jej przewidywania metodą GOR I).
ĆWICZENIE 3.2.
Wypreparowano i oczyszczono białko A o następującej sekwencji aminokwasowej:
Zmierzono widmo CD roztworu tego białka, które miało kształt przedstawiony tutaj.
IVGGFQIDIAEVPHQVSLQRSGRHFCGGSIISPRWVLTRAHCTTNTDPAA YTIRAGSTDRTNGGIIVKVKSVIPHPQYNGDTYNYDFSLLELDESIGFSR SIEAIALPDASETVADGAMCTVSGWGDTKNVFEMNTLLRAVNVPSYNQAE CAAALVNVVPVTEQMICAGYAAGGKDSCQGDSGGPLVSGDKLVGVVSWGK GCALPNLPGVYARVSTVRQWIREVSEV
Na podstawie tych danych określ czy wypreparowane białko zachowało konformację natywną, czy też jego struktura mogła ulec istotnym zmianom w wyniku procedury oczyszczania.
Utwórz plik tekstowy zawierający sekwencję badanego białka A (np. w formacie FASTA). Niech ten plik zostanie nazwany np. bialkoA.txt.
Uruchom program Protein Sequence Analysis i wczytaj sekwencję z pliku bialkoA.txt.
Zaznacz myszką całą sekwencję jaka pojawiła się na ekranie i uruchom opcję Secondary Structure - GOR I Structure Model z menu "Analysis". Wyniki przewidywania struktury drugorzędowej można zobaczyć na następnej stronie.
ęWyniki przewidywania struktury II-rzędowej dla białka A.
Zapamiętaj (zapisz) wyliczony udział procentowy każdego z rodzajów struktury II-rzędowej. Struktura ta przyjęta zostanie jako struktura dla białka natywnego.
Przejdź do opcji Secondary Structure - CD Spectrum Estimate w menu Analysis.
Wpisz wartości procentowego udziału każdego z rodzajów struktury II-rzędowej w odpowiednie okna po lewej stronie, a następnie kliknij w opcję "Calculate" na pasku menu. Wpisywane wartości można zaokrąglać do liczb całkowitych pilnując, aby suma wszystkich wartości była równa 100. Wyświetlone zostanie widmo CD wygenerowane dla białka A o strukturze przyjętej jako natywna. Przedstawia to rysunek na następnej stronie
ęWygenerowane teoretycznie widmo CD dla białka A o strukturze drugorzędowej przyjętej za natywną.
Już na pierwszy rzut oka widać, że kształt wygenerowanego widma całkowicie różni się od widma zmierzonego eksperymentalnie dla wypreparowanego białka A. A zatem w wyniku oczyszczania białko A straciło swoją strukturę natywną.
Można się przy okazji pokusić o zbadanie struktury drugorzędowej tego białka, które otrzymano w części eksperymentalnej. W tym celu manipulując wartościami procentowego udziału każdego z rodzajów struktury II-rzędowej należy doprowadzić kształt generowanego widma CD do postaci widma CD otrzymanego eksperymentalnie. Kształt ten odpowiada białku, które nie zawiera odcinków α-helikalnych, w 40% jest łańcuchem β, w 40% zawiera konformacje zgięcia, a 20% jest strukturą nieuporządkowaną.
ĆWICZENIE 3.3
Dla białka o sekwencji:
RELLEDLKASDYPSKRLIIVGSITGNTNTLAGNV
PPKANLGDLRGLAAGNGVGSAAMIDGAEFDGA
KAYKDSKVCNMLTMQEFHRRYHEETGVTFASL
YPGCIATTGLFREHIPLFRLLFPPFQKYITKGYV
SEEEAGKRLAQVVSEPSLTKSGVYWSWNKNS
ASFENQLSEEASDTEKARKVWELSEKLVGLA
Wygeneruj widmo CD dla konformacji:
natywnej (wynikającej z przewidywania struktury II-rzędowej metodą GOR I),
zawierającej 20% α-helis, 25% łańcuchów β, 12% zgięć i 43% struktury nieuporządkowanej,
posiadającej wyłącznie strukturę nieuporządkowaną.
ęWidmo CD dla konformacji pierwszej.
ęWidmo CD dla konformacji drugiej.
ęWidmo CD dla konformacji trzeciej.
Zmierzono widmo CD dla białka o sekwencji aminokwasowej:
GSITGNTNTLAGNVPPKANLGDLRGLAAGNGVG
SAAMIDGAEFDGAKAYKDSKVCNMLTMQEFHR
RYHEETGVTFASLYPGCIATTGLFREHIPLFRLL
FPPFQKYITKGYVSEEEAGKRLAQVVSEPSLTK
SGVYWSWNKNSASFENQLSEEA
Jaki jest procentowy udział α-helis, łańcuchów β, zgięć i struktury nieuporządkowanej tego białka?
ęWidmo CD roztworu białka.
Zmieniając wartości udziału procentowego każdego z czterech rodzajów struktury drugorzędowej należy wygenerować widmo CD o poszukiwanym kształcie. Odpowiadające jemu wartości dla każdej ze struktur stanowią rozwiązanie zadania. Udziały te wynoszą odpowiednio:
α-helisa - 10%,
łańcuch β - 20%,
zgięcie - 10%,
struktura nieuporządkowana - 60%.
ĆWICZENIE 4
DOPASOWYWANIE SEKWENCJI HOMOLOGICZNYCH I KONSTRUOWANIE MOLEKULARNYCH DRZEW FILOGENETYCZNYCH.
PROGRAMY CLUSTAL I TREEVIEW
CLUSTALX
PROTSA.ZIP
DOPASOWANIE HOMOLOGICZNYCH SEKWENCJI HOMOLOGICZNYCH
Prawidłowe dopasowanie homologicznych sekwencji biologicznych leży u podstaw praktycznie każdej teoretycznej analizy porównawczej na poziomie molekularnym.
Opracowana została bardzo rozbudowana algorytmika tego procesu, istnieje też szereg ogólnodostępnych programów umożliwiających dopasowanie wielu porównywanych sekwencji (białkowych i kwasów nukleinowych).
Proces ten realizują w sposób w pełni zautomatyzowany, pozostawiając jednak użytkownikowi możliwość zadeklarowania indywidualnych parametrów, według których procedura dopasowania ma się odbywać.
Większość tych aplikacji oparta jest na zastosowaniu stochastycznych macierzy częstości wymiany aminokwasów (lub nukleotydów) w pozycjach homologicznych, jakimi są macierze PAM i BLOSUM.
CLUSTALW I CLUSTALX
Jednym z pierwszych i najbardziej popularnych programów służących do tego celu jest program ClustalW oraz jego wersja dla różnych systemów Windows - ClustalX.
Obsługa programu ClustalX jest bardzo prosta i przyjazna. Do przeprowadzenia obliczeń program potrzebuje zestawu sekwencji, które zamierzamy dopasować wzajemnie.
Sekwencje wczytywane są w formacie FASTA z pliku tekstowego, zawierającego wszystkie sekwencje, które mają zostać dopasowane.
CLUSTALX
ęPrzykład prezentacji graficznej wyniku dopasowania homologicznych sekwencji aminokwasowych, otrzymanego za pomocą programu ClustalX.
FORMAT FASTA
Przykładowa zawartość pliku tekstowego z sekwencjami aminokwasowymi zapisanymi w formacie FASTA, który wczytywany jest do programu ClustalX.
135/190
Format FASTA
>I
VNCSLYASGIGKDGTSWVACPRNLKPVCGTDGSTYSNECGICLYNREHGANVEKEYDGECRPKHVM
>II
IDCSPYLQVVRDGNTMVACPRILKPVCGSDSFTYDNECGICAYNAEHHTNISKLHDGECKLEIGS
>III
VDCSKYPSTVSKDGRTLVACPRILSPVCGTDGFTYDNECGICAHNAEQRTHVSKKHDGKCRQEIPE
>IV
IDCDQYPTRKTTGGKLLVRCPRILLPVCGTDGFTYDNECGICAHNAQHGTEVKKSHDGRCKERSTP
>V
LDCTQYLSNTQNGEAITACPFILQEVCGTDGVTYSNDCSLCAHNIELGTSVAKKHDGRCREEVPE
>VI
LDCSKYKTSTLKDGRQVVACTMIYDPVCATNGVTYASECTLCAHNLEQRTNLGKRKNGRCEEDITK
>VII
EHCREFQKVSPICTMEYVPHCGSDGVTYSNRCFFCNAYVQSNRTLNLVSMAAC
WYNIK DZIAŁANIA PROGRAMU
W wyniku dokonanych obliczeń program podaje końcowe zestawienie dopasowanych sekwencji. Ponadto program generuje dwa pliki o rozszerzeniach .aln oraz .dnd. Plik .aln zawiera wynik końcowy dopasowania badanych sekwencji.
Plik .dnd zawiera wyliczone wartości dystansów ewolucyjnych między sekwencjami oraz informacje o topologii filogenetycznego drzewa (filogramu), którego są elementami. Ten plik wykorzystywany jest przez program TreeView do generowania graficznej interpretacji filogramu.
Program TreeView służy do generowania i zapisywania obrazów drzew filogenetycznych. Jest to bardzo prosta i użyteczna aplikacja. Pozwala na wizualizację drzew w różnych postaciach - ukorzenionej i nieukorzenionej.
ĆWICZENIE 4.1
Dokonaj dopasowania poniższego zestawu sekwencji aminokwasowych za pomocą programu ClustalX i sporządź graficzny obraz drzewa filogenetycznego (filogramu) dla tych sekwencji.
Utwórz plik tekstowy zawierający badane sekwencje w formacie FASTA. Nadaj temu przykładowo nazwę sekwencje.txt.
Uruchom program ClustalX.
Z menu "File" wybierz "Load Sequences" i wczytaj plik sekwencje.txt. Okno robocze programu zapełnione zostanie zapisem tych sekwencji (jeszcze niedopasowanych).
Z menu "Alignment" wybierz "Do Complete Alignment". Pojawi się okno zapisywania plików .aln i .dnd generowanych automatycznie przez program. Wybierz odpowiedni katalog, w którym pliki te mają być zapisane i kliknij na przycisk "Align".
ęWygląd roboczego okna programu ClustalX po wczytaniu sekwencji z pliku sekwencje.txt
ęOkno generowania plików .aln i .dnd w programie ClustalX.
Program wygeneruje pliki o rozszerzeniach .aln i .dnd oraz jednocześnie dopasuje porównywane sekwencje, co potwierdzone będzie komentarzem w dolnej części okna roboczego: "Clustal-Alignment file created".
Aminokwasom przypisane są różne kolory, grupujące razem aminokwasy posiadające pewne wspólne cechy (np. aminokwasy hydrofobowe, aminokwasy hydroksylowe itd.). Kolory te ułatwiają użytkownikowi szybkie oszacowanie prawidłowości wykonania dopasowania.
W dolnej części okna roboczego znajduje się wykres obrazujący stopień konserwatywności poszczególnych pozycji/fragmentów porównywanych sekwencji.
ęWygląd roboczego okna programu ClustalX z dopasowanymi sekwencjami pobranymi z pliku sekwencje.txt
Wyniki dopasowania sekwencji można zapisać w osobnym pliku w różnych formatach w zależności od ich późniejszego wykorzystania w innych programach (menu File - Save Seuences As...).
Jeśli użytkownik uzna, że dopasowanie nie jest prawidłowe, może zmienić parametry procedury dopasowywania (menu Alignment - Alignment Parameters) i powtórzyć całą procedurę od początku.
Uruchom program TreeView.
Za pomocą menu File-Open wczytaj plik sekwencje.dnd wygenerowany uprzednio przez program ClustalX.
W oknie roboczym programu TreeView pojawi się filogram dla badanych sekwencji.
Wynik ten można zapisać w różnych formatach (tekstowych i graficznych).
Program TreeView pozwala wygenerować obraz drzewa nieukorzenionego, lub pozornie ukorzenionego, uwzględniając lub pomijając rzeczywiste długości gałęzi wynikające z wyliczonych dystansów ewolucyjnych. Program wykorzystuje dane zapisane w pliku .dnd, którego zawartość można zmieniać ręcznie jeśli zachodzi taka potrzeba.
ęZawartość pliku .dnd na podstawie którego program TreeView generuje drzewa filogenetyczne.
ęRóżne sposoby wizualizacji filogramu wygenerowanego przez program TreeView dla sekwencji dopasowanych w programie ClustalX (sekwencje.txt) wykonane na podstawie danych z pliku sekwencje.dnd.
ĆWICZENIE 4.2
Korzystając z zasobów bazy sekwencji białkowych Swiss-Prot dopasuj przy użyciu programu ClustalX sekwencje o kodach akcesyjnych:
P00974
P00994
P00985
P81547
P00986
P29216
P82966
P00991
P25660
P16044
P20229
P00984
Następnie wygeneruj drzewo filogenetyczne dla tego zestawu sekwencji (program TreeView).
Sekwencje o podanych kodach akcesyjnych są następujące:
P00974
MKMSRLCLSVALLVLLGTLAASTPGCDTSNQAKAQRPDFCLEPPYTGPCKARIIRYFYNA KAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGAIGPWENL
P00994
QGRPSFCNLPAETGPCKASFRQYYYNSKSGGCQQFIYGGCRGNQNRFDTTQQCQGVCV
P00985
RPDFCELPAETGLCKAYIRSFHYNLAAQQCLQFIYGGCGGNANRFKTIDECRRTCVG
P81547
APVNEDCLLPKKVGPCRAAVPRFYYNSDSGKCEGFTYGGCHANANNFKTKDECKNACH
P00986
RPRFCELPAETGLCKARIRSFHYNRAAQQCLEFIYGGCGGNANRFKTIDECHRTCVG
P29216
EVCSEQAETGPCRAMISRWYFDVTEGKCAPFFYGGCGGNRNNFDTEEYCMAVCGSVMSQS LRKTTREPLTRDPVKL
ęSekwencje o podanych kodach akcesyjnych są następujące:
...
ęGraficzna prezentacja filogramu dla tego zestawu sekwencji wyglądać będzie następująco:
ĆWICZENIE 4.3
ęKorzystając z pliku sekwencje.dnd z ćwiczenia 1 zmień wygląd graficzny filogramu dla sekwencji pobranych z pliku sekwencje.txt tak, żeby gałąź dla sekwencji VII była dwa razy krótsza, a gałąź dla sekwencji III - dwa razy dłuższa.
ęNależy przeprowadzić operacje na wartościach dystansów ewolucyjnych zawartych w pliku sekwencje.dnd. Zawartość tego pliku po dokonaniu zmian wyglądać powinna następująco:
ęobraz filogramu wygenerowanego na podstawie tego pliku bezie wyglądać następująco:
ĆWICZENIE 5
ANALIZA PORÓWNAWCZA SEKWENCJI BIAŁKOWYCH W OPARCIU O ALGORYTM SEMIHOMOLOGII GENETYCZNEJ.
KORZYSTANIE Z PROGRAMU GEISHA.
W tej części kursu zapoznasz się z działaniem i funkcjonalnością programu "GEISHA".
W celu poprawnego wykonania ćwiczeń zawartych w tej części kursu, niezbędny będzie program "GEISHA". Program ten jest napisany w języku JAVA. W związku z tym do poprawnego działania będzie potrzebne środowisko Java.
http://java.sun.com/javase/downloads/index.jsp
http://java.sun.com/javase/downloads/index.jsp
Jeżeli na komputerze nie jest zainstalowana żadna z wersji środowiska Java (np. JRE lub JDK) należy pobrać najnowszy plik instalacyjny ze strony:
Następnie należy zainstalować aplikację (najlepiej jest to zrobić w domyślnym katalogu).
Na następnej stronie znajdziesz opis w jaki sposób należy uruchomić program GEISHA.
Poniżej znajdują się 2 linki do plików potrzebnych do uruchomienia programu GEISHA. Oba należy ściągnąć i umieścić w jednym katalogu.
geisha2.jar
geisha2.jar
geisha2_run.cmd
geisha2_run.cmd
Następnie należy poddać edycji plik "geisha2_run.cmd" (można to zrobić za pomocą Notatnika Windows). Poniżej znajduje się domyślna zawartość pliku. Część zaznaczoną na czerwono należy zastąpić ścieżką dostępu wybraną podczas instalacji środowiska JAVA.
"C:\Program Files\Java\jre1.5.0_08\bin\java" -jar ./geisha2.jar
pause
"C:\Program Files\Java\jre1.5.0_08\
Po dokonaniu zmian w pliku należy go zapisać i uruchomić.
PROGRAM GEISHA
GEISHA jest programem, który pozwala porównywać i dopasowywać sekwencje białkowe w alternatywny sposób od metody reprezentowanej przez program ClustalX. Program GEISHA nie odwołuje się do stochastycznych macierzy substytucji aminokwasowych.
Bazuje on na diagramie wszystkich możliwych teoretycznie relacjach genetycznych między biogennymi aminokwasami. Diagram ten stanowi zasadniczą część algorytmu semihomologii genetycznej.
Wykorzystana zostaje też potwierdzona obserwacja, że najczęściej spotykanym w naturze mechanizmem zmienności ewolucyjnej jest pojedyncza mutacja punktowa (wymiana jednego nukleotydu) typu tranzycji lub transwersji.
WŁAŚCIWOŚCI PROGRAMU GEISHA
Program GEISHA jest aplikacją napisaną w języku Java, dzięki czemu można go używać na dowolnej platformie dowolnej wersji systemu komputerowego. Nie ma też wysokich wymagań odnośnie mocy obliczeniowej komputera.
Program ten pozwala na przeprowadzenie analizy dwojakiego rodzaju:
analiza porównawcza dwóch sekwencji białkowych z wykorzystaniem interfejsu graficznego dot matrix,
analiza porównawcza wielu sekwencji wraz ich dopasowaniem w oparciu o algorytm semihomologii genetycznej.
OBSŁUGA PROGRAMU GEISHA
Białkowe sekwencje przeznaczone do analizy porównawczej można wpisywać bezpośrednio w programie, bądź wczytywać z pliku tekstowego zapisanego w formacie FASTA (podobnie jak w przypadku wczytywania danych do programu ClustalX.
Dokonuje się tego poprzez menu: Action-Import sequences. Wczytane sekwencje z pliku pojawiają się w oknie roboczym programu.
WIDOK OKNA ROBOCZEGO
ęrogram GEISHA. Widok okna roboczego po wczytaniu sekwencji przeznaczonych do analizy porównawczej.
APLIKACJA DOT MATRIX
Po wczytaniu sekwencji zaznacza się okienka przy tych sekwencjach, które mają zostać poddane analizie.
Jeśli zaznaczone zostaną dwie sekwencje, można przeprowadzić analizę "Pairwise homology", ze szczegółowym badaniem podobieństwa występującego między nimi.
Wykorzystana jest tu graficzna aplikacja dot matrix, dająca przejrzysty i łatwy do zinterpretowania obraz wyników porównania. Przykładowy obraz graficznej interpretacji wyniku dot matrix można zobaczyć na następnej stronie (program GEISHA).
GRAFICZNEJ INTERPRETACJI WYNIKU - DOT MATRIX
ęPorównywanie dwóch sekwencji przy użyciu programu GEISHA. Obraz graficznej interpretacji wyniku dot matrix.
FUNKCJE DOT MATRIX
W tej części analizy użytkownik ma możliwość wstępnego zadeklarowania parametrów wizualizacji takich wyników, które uzna za istotne. Wyniki niespełniające warunków progowych zadeklarowanych parametrów zostaną odfiltrowane i nie będą widoczne.
Można je jednakże uwidocznić włączając opcję "Unfiltered". Po prawej stronie okna dot matrix znajduje się tabelka tych wzajemnych ustawień sekwencji, które są uwidocznione na obrazie z lewej strony.
Na obrazie dot matrix widoczna jest ramka przeszukiwania, ułatwiająca precyzyjne ustawianie kursora myszki na punktach, których współrzędne odpowiadają konkretnym pozycjom obu sekwencji. Dodatkowo w prawym dolnym oknie widoczne są fragmenty obu sekwencji, które aktualnie znajdują się w ramce przeszukiwania.
Pozycje znajdujące się dokładnie w środku ramki zaznaczone są w tym oknie na czerwono. Obraz graficzny dot matrix można powiększać lub zmniejszać w pewnym zakresie.
Punkty uwidocznione na obrazie dot matrix przedstawiają pozycje porównywanych sekwencji, które wykazują identyczność (kolor żółty) lub podobieństwo genetyczne (kolor zielony i niebieski).
Podobieństwo genetyczne polega na tym, że porównywane aminokwasy są różne, ale ich kodony mogą różnić się tylko w jednej pozycji, przez co istnieje możliwość mutacyjnej przemiany jednego aminokwasu w drugi poprzez pojedynczą tranzycję (kolor zielony) lub transwersję (kolor niebieski).
Jeśli w podstawowym oknie danych wejściowych (wczytane sekwencje) zaznaczonych zostanie więcej niż dwie sekwencje, wówczas możliwa jest analiza porównawcza zmierzająca do wzajemnego dopasowania wszystkich zaznaczonych sekwencji (Przycisk "Multiple alignment").
PORÓWNYWANIE WIELU SEKWENCJI
ęPorównywanie wielu sekwencji przy użyciu programu GEISHA. Wynik dopasowania wielu sekwencji i prosty diagram dystansów filogenetycznych.
*Program GEISHA w tej części analizy dostarcza danych, które mogą zostać wykorzystane do konstruowania/weryfikacji molekularnych drzew filogenetycznych.
ĆWICZENIE 5.1
ęAnaliza porównawcza dwóch sekwencji białkowych. Dokonaj szczegółowego porównania poniższych sekwencji aminokwasowych stosując program GEISHA.
ę>A
RPDFCELPAETGLCKAYIRSFHYNLAAQQ
CLQFIYGGCGGNANRFKTIDECRRTCVG
>B
QDHPKFCYLPADPGRCKAHIPRFYYDSAS
NKCNKFIYGGCPGNANNFKTWDECRQTCGASA
Utwórz plik tekstowy (np. o nazwie 2sekwencje.txt) z obiema sekwencjami zapisanymi w formacie FASTA.
Uruchom program GEISHA.
Z menu "Action" wybierz "Import sequences..." i wczytaj plik 2sekwencje.txt.
Użyj przycisku File w dolnej części okna imprtowania sekwencji.
W oknie roboczym programu pojawią się obie sekwencje (o nazwie A i B). Zaznacz okienka przy obu sekwencjach, a następnie kliknij myszką na przycisk "Pairwise homology...".
Pojawi się okno ustawienia parametrów analizy porównawczej z wpisanymi wartościami domyślnymi. Pozostaw te wartości niezmienione i kliknij na przycisk "OK". Wynik porównania sekwencji można zobaczyć na następnej stronie.
ęWynik porównania sekwencji A i B przy domyślnych parametrach analizy porównawczej
Z obrazu dot matrix wynika, że domyślne parametry obliczeń nie eliminują wszystkich nieistotnych wzajemnych ustawień porównywanych sekwencji.
W dolnej części obrazu widoczne są wyniki ustawień, które można uznać za przypadkowe rezultaty.
Rezultatem istotnym są punkty układające się tuż przy głównej przekątnej okna prezentacji graficznej dot matrix.
Nieistotne rezultaty można wyeliminować z obrazu dot matrix zmieniając parametry progowe analizy porównawczej.
Zamknij okno wizualizacji wyników i ponownie kliknij na przycisk "Pairwise homology..." w oknie importowania sekwencji. Znowu pojawi się okno ustawień parametrów progowych.
Tym razem zmień (za pomocą suwaka) wartość progową "Score treshold" z 0.33 na 0.5. Kliknij na przycisk "OK" w celu wywołania okna wizualizacji wyników analizy.
Tym razem otrzymany zostaje czysty obraz dot matrix, zawierający jedynie istotne ustawienie ukazujące rzeczywiste podobieństwo porównywanych sekwencji (jest to zilustrowane na następnej stronie).
ęWynik porównania sekwencji A i B przy zmienionej wartości parametru progowego "Score treshold" na 0.5.
ĆWICZENIE 5.2
Analiza porównawcza wielu sekwencji białkowych. Dopasowywanie sekwencji.
W oparciu o algorytm semihomologii genetycznej, posługując się programem GEISHA dokonaj dopasowania następującego zbioru sekwencji aminokwasowych:
ę>I
VNCSLYASGIGKDGTSWVACPRNLKPVCGTDGSTYSNECGICLYNREHGANVEKEYDGECRPKHVM
>II
IDCSPYLQVVRDGNTMVACPRILKPVCGSDSFTYDNECGICAYNAEHHTNISKLHDGECKLEIGS
>III
VDCSKYPSTVSKDGRTLVACPRILSPVCGTDGFTYDNECGICAHNAEQRTHVSKKHDGKCRQEIPE
>IV
IDCDQYPTRKTTGGKLLVRCPRILLPVCGTDGFTYDNECGICAHNAQHGTEVKKSHDGRCKERSTP
>V
LDCTQYLSNTQNGEAITACPFILQEVCGTDGVTYSNDCSLCAHNIELGTSVAKKHDGRCREEVPE
>VI
LDCSKYKTSTLKDGRQVVACTMIYDPVCATNGVTYASECTLCAHNLEQRTNLGKRKNGRCEEDITK
>VII
EHCREFQKVSPICTMEYVPHCGSDGVTYSNRCFFCNAYVQSNRTLNLVSMAAC
Zapisz badane sekwencje w pliku o nazwie sekwencje.txt, w formacie FASTA.
Uruchom program GEISHA.
Wczytaj zawartość pliku sekwencje.txt do programu (menu "Action", "Import sequences...").
W oknie importowania sekwencji zaznacz wszystkie sekwencje z listy.
Kliknij na przycisk "Multiple alignment..." znajdujący się w dolnej części okna.
Wartości progowe parametrów analizy w oknie ustawień parametrów pozostaw niezmienione (domyślne) i kliknij "OK".
Pojawią się dwa okna wynikowe. W jednym widoczne będą dopasowane sekwencje, w drugim schematyczne przedstawienie dystansu filogenetycznego między analizowanymi sekwencjami.
ęWyniki analizy porównawczej siedmiu sekwencji z pliku sekwencje.txt uzyskane za pomocą programu GEISHA.
ĆWICZENIE 5.3
Korzystając z programu GEISHA dokonaj analizy porównawczej sekwencji z poniższego zbioru:
ę>P00994
QGRPSFCNLPAETGPCKASFRQYYYNSKSGGCQQFIYGGCRGNQNRFDTTQQCQGVCV
>P00985
RPDFCELPAETGLCKAYIRSFHYNLAAQQCLQFIYGGCGGNANRFKTIDECRRTCVG
>P81547
APVNEDCLLPKKVGPCRAAVPRFYYNSDSGKCEGFTYGGCHANANNFKTKDECKNACH
>P00986
RPRFCELPAETGLCKARIRSFHYNRAAQQCLEFIYGGCGGNANRFKTIDECHRTCVG
>P82966
GRPKFCELPPEPGLCNARKTFFYYSLHSHACQKFIYGGCGGNANKFKTIDECHRTCVG
>P00991
QDHPKFCYLPADPGRCKAHIPRFYYDSASNKCNKFIYGGCPGNANNFKTWDECRQTCGASA
>P25660
KNRPTFCNLLPETGRCNALIPAFYYNSHLHKCQKFNYGGCGGNANNFKTIDECQRTCAAKYGRSS
>P16044
TERGFLDCTSPPVTGPCRAGFKRYNYNTRTKQCEPFKYGGCKGNGNRYKSEQDCLDACSGF
>P20229
RPGFCELPAAKGLCKAHKPAFYYNKDSHRCQKFIYGGCGGNANRFRTIDECNRTCVG
>P00984
LQHRTFCKLPAEPGPCKASIPAFYYNWAAKKCQLFHYGGCKGNANRFSTIEKCRHACVG
Porównaj parami sekwencje P00994 z P00986 oraz P82966 z P25660. Dobierz takie parametry progowe, przy których wyeliminowane zostaną przypadkowe wyniki dopasowań z interpretacji graficznej dot matrix.
Dopasuj do siebie wszystkie sekwencje z tego zbioru.
Optymalne wartości parametrów progowych przy których wyeliminowane zostaną mało istotne "szumy" z obrazu interpretacji graficznej, są następujące:
Window size=21
Score treshold=0.5
Na kolejnych stronach można zobaczyć obraz wyników przy tych parametrach dla par:
P00994 i P00986,
P82966 i P25660.
ęObraz wyników dla pary P00994 i P00986.
ęObraz wyników dla pary P82966 i P25660.
ęWynik dopasowania wszystkich sekwencji (dla domyślnych wartości parametrów progowych).
ĆWICZENIE 5.4
ęKorzystając z programu GEISHA określ czy białko o sekwencji:
ęVDCSRFPNATDKEGKDVLVCNKDLRPICGTDGV
TYTNDCLLCAYSIEFGTNISKEHDGECKETVPM
NCSSYANTTSEDGKVMVLCNRAFNPVCGTDGV
TYDNECLLCAHKVEQGASVDKRHDGGCRKELA
AVSVDCSEYPKPDCTAEDRPLCGSDNKTYGNK
CNFCNAVVESNGTLTLSHFGKC
ęzbudowane jest z powtarzających się segmentów na poziomie struktury pierwszorzędowej. Innymi słowy - sprawdź czy to białko kodowane jest przez gen zduplikowany, lub zmultiplikowany.
W celu stwierdzenia, bądź wykluczenia budowy segmentowej białka (powtarzające się odcinki sekwencji) należy dokonać analizy porównawczej danej sekwencji z nią samą:
utwórz plik tekstowy (np. o nazwie sekwencja.txt) zawierający powyższą sekwencję zapisaną w formacie FASTA,
uruchom program GEISHA,
z menu "Action" wybierz "Import sequences..." i wczytaj plik sekwencja.txt (użyj przycisku File w dolnej części okna importowania sekwencji). W oknie roboczym programu pojawi się sekwencja (o nazwie "sekwencja"),
powtórz jeszcze raz czynność wczytywania sekwencji i wgraj ponownie tę samą sekwencję do programu. W oknie roboczym będą teraz dwie sekwencje, które są dwukrotnym powtórzeniem tej samej sekwencji.
Zaznacz okienka przy obu sekwencjach, a następnie kliknij myszką na przycisk "Pairwise homology...". Pojawi się okno ustawienia parametrów analizy porównawczej z wpisanymi wartościami domyślnymi.
Poprzez manipulację tymi wartościami pozbądź się nieistotnych "szumów" z graficznej interpretacji wyników. Parametry te należy dobierać ostrożnie, żeby nie wyeliminować wyników znaczących, które mogą świadczyć o segmentowej strukturze pierwszorzędowej białka. Dla sekwencji podanej w tym ćwiczeniu zaleca się ustawić następujące wartości parametrów:
Window size=21,
Score threshold=0.5.
ęWynik porównania wewnętrznego sekwencji z pliku sekwencja.txt (z nią samą) przy ustawieniu parametrów: Window size=21; Score threshold=0.5
Wynik dot matrix pokazuje, że oprócz oczywistej 100% identyczności sekwencji porównywanej z nią samą (żółty, ciągły odcinek na głównej przekątnej układu dot matrix) istnieją dodatkowe wyraźne odcinki odpowiadające innym ustawieniom wzajemnym porównywanych sekwencji niż ustawienie 1-1 (pierwsza pozycja naprzeciwko pozycji pierwszej, druga naprzeciwko drugiej, itd.).
Te dodatkowe odcinki świadczą o tym, że pewne fragmenty sekwencji są w istotnej mierze takie same (bardzo podobne), co fragmenty położone w innych miejscach całej sekwencji. A zatem mogą być ( i zazwyczaj są) efektem duplikacji genu kodującego to białko. Jeśli duplikacja miała miejsce stosunkowo dawno w czasie ewolucyjnym, to te dodatkowe odcinki będą krótsze i zawierać będą sporo przerw (pozycji nieidentycznych).
Im dłuższe i bardziej nieprzerwane są te dodatkowe odcinki, tym mniej zmian mutacyjnych zaszło po takiej duplikacji, czyli sama duplikacja miała miejsce stosunkowo niedawno.
Jeśli wynik dot matrix pokazuje tylko jeden taki dodatkowy odcinek po jednej stronie przekątnej (druga strona jest po prostu jej zwierciadlanym odbiciem) to znaczy, że w przeszłości gen uległ tylko jednej duplikacji. Jeśli takich dodatkowych odcinków jest więcej i są one tak samo oddalone od siebie, to taki gen jest przykładem produktu multiplikacji. Liczba odcinków po jednej stronie głównej przekątnej jest zawsze o 1 mniejsza od liczby powtarzających się segmentów w sekwencji.
Zatem w przypadku sekwencji analizowanej w tym ćwiczeniu mamy do czynienia z produktem dwóch duplikacji wyjściowej sekwencji, czyli z trzema powtarzającymi się segmentami.
Na podstawie analizy otrzymanych wyników można określić długość powtarzających się segmentów, oraz dokładnie określić ich początek i koniec. Długość segmentu wynika z różnicy numerów pozycji ustawionych naprzeciw siebie przy wynikach znaczących.
W analizowanym przypadku najmniejsze różnice wynoszą zawsze ok. 65, a większe wartości są wielokrotnością tej liczby. Stąd wniosek, że długość jednego segmentu wynosi ok. 65 pozycji. Przy jednym z dodatkowych ustawień uwidocznionych na obrazie dot matrix widać wyraźnie, że zawiera on dwa odcinki, które niezupełnie są kolinearne.
Krótszy odcinek jest nieco przesunięty w stosunku do dłuższego, przy czym jest to przesunięcie nieznaczne, bardzo odbiegające od wartości 65. Taki obraz świadczy o istnieniu delecji/insercji między odpowiednimi dwoma segmentami (w tym przypadku - między segmentem drugim i trzecim). Długość odcinka, który uległ delecji/insercji można określić w taki sam sposób jak określa się długość powtarzających się segmentów.