bioinformatyka ćwiczenia zdalne

Ćwiczenie 1

wstęp do bioinformatyki

METODY, APLIKACJE, BAZY DANYCH

Oprogramowanie bioinformatyczne:

1.Programy do pobrania na dysk lokalny

Darmowe

Płatne (shareware)

2.Aplikacje on-line:

Darmowy dostęp

Płatna rejestracja

OPROGRAMOWANIE BIOINFORMATYCZNE

-przyjazne,

-efektowne

-wysokiej jakości

Od czego najlepiej zacząć?

ExPASy

http://www.expasy.org/

Swiss-Prot

baza sekwencji białkowych

http://www.expasy.org/sprot/

NCBI

Centrum serwisowe bioinformatyki.

http://www.ncbi.nlm.nih.gov/

EBI

Europejskie centrum bioinformatyczne.

http://www.ebi.ac.uk/

GenomeNet

Japoński serwis bioinformatyczny i genomowy.

http://www.genome.ad.jp/

EMBNet

Serwis szwajcarski.

http://www.ch.embnet.org/

Protein Data Bank (PDB)

Główna baza struktur białkowych.

http://www.rcsb.org/pdb/index.html

DBTSS: Genomowa baza miejsc startowych transkrypcji.

http://dbtss.hgc.jp/index.html

CENTRA BADAŃ GENOMU CZŁOWIEKA

Fizames

Lawrence Berkeley Laboratory Human Genome Center (LBL)

http://www.hgc.lbl.gov/GenomeHome.html

Michael

Palazzolo

Nomi

Harris

Lawrence Livermore National Laboratory Biology and Biotechnology Research Program (LLNL)

http://www.bio.llnl.gov/bbrp/genome/genome.html

Tony

Carrano

Tom

Slezak

Los Alamos National Laboratory Center for Human Genome Studies (LANL)

http://www.ls.lanl.gov/index.html

Larry L.

Deaven

Robert

Sutherland

BIOINFORMATYCZNE SERWISY/BAZY DANYCH

BLAST - pakiet programów do wyszukiwania i analizy porównawczej sekwencji.

http://www.ncbi.nlm.nih.gov/BLAST/

SWISS-MODEL

Narzędzie teoretycznego modelowania struktur białkowych.

http://www.expasy.org/swissmod/SWISS-MODEL.html

PŁATNE OPROGRAMOWANIE BIOINFORMATYCZNE

ęłęóhttp://www.accelrys.com/

http://www.tripos.com

PEDRO'S BIOMOLECULAR RESEARCH TOOLS

Pedro's BioMolecular Research Tools.

Zbiór narzędzi z zakresu bioinformatyki, genomiki i proteomiki.

http://www.biophys.uni-duesseldorf.de/BioNet/Pedro/research_tools.html

ęłęóDopasowywanie homologicznych sekwencji - ClustalX

ęłęóKonstrukcja molekularnych drzew filogenetycznych

ęłęóProgram TreeView

ANALIZA ZMIENNOŚCI I RÓŻNICOWANIA

Zdecydowana większość dostępnych narzędzi służących do teoretycznej analizy porównawczej sekwencji białkowych wykorzystuje stochastyczne macierze substytucji aminokwasowych w odpowiadających sobie pozycji w homologicznych białkach.

Macierze opisują obserwowane częstości wzajemnej substytucji aminokwasów, co prezentowane jest przez wartości liczbowe zawarte w macierzach.

Wartości te odpowiadają współczynnikom prawdopodobieństwa wzajemnej wymiany aminokwasów i podane są w taki sposób, by umożliwić łatwą identyfikację przemian zachodzących częściej lub rzadziej niż wynikałoby to z losowego prawdopodobieństwa ich zajścia.

Wyróżnia się dwie zasadnicze grupy macierzy substytucji aminokwasów: PAM i BLOSUM. Różnią się one metodą obliczeniową użytą do ich skonstruowania.

Macierze PAM wyliczone są dla obserwowanych przemian mutacyjnych w ujęciu globalnym, tzn. dotyczą wszystkich przemian dla porównywanych sekwencji w całości.

Macierze BLOSUM konstruowane są na podstawie analizy przemian pewnych tylko fragmentów porównywanych sekwencji. Wybierane są fragmenty, dla których wzajemny stopień zróżnicowania przekracza zadeklarowaną wartość progową.

Np. do konstrukcji macierzy BLOSUM62 brane pod uwagę są tylko te fragmenty, które wykazują wzajemny stopień identyczności nie większy niż 62%.

ęłęóMacierz mutacyjnych substytucji aminokwasów 1/2

PAM250

BLOSUM62

ALGORYTM SEMIHOMOLOGII GENETYCZNEJ

Algorytm semihomologii genetycznej w swej konstrukcji wyraźnie odbiega od większości metod porównywania sekwencji białkowych i analizy ich zmienności.

Przede wszystkim nie opiera się na stochastycznych macierzach substytucji aminokwasowych.

Zamiast nich, fundamentalnym elementem metody jest trójwymiarowy diagram relacji genetycznych między aminokwasami.

Algorytm semihomologii genetycznej uwzględnia zarówno czynnik zmienności mutacyjnej na poziomie genetycznym, jak i presji selekcyjnej na poziomie białkowym.

Dzięki temu bierze pod uwagę wszystkie mechanizmy składające się na proces ewolucji molekularnej.

Umożliwia prześledzenie oraz wyjaśnienie mechanizmów i szlaków ewolucyjnych różnicowania się w obrębie danej grupy spokrewnionych ze sobą białek.

DIAGRAM RELACJI GENETYCZNYCH

-między kodonami

-między aminokwasami

ANALIZA PORÓWNAWCZA SEKWENCJI

http://bioinfo.icm.edu.pl/geisha/

analiza podobieństwa i homologii sekwencji białkowych,

dopasowywanie sekwencji aminokwasowych w oparciu o relacje genetyczne,

analiza zmienności mutacyjnej w obrębie homologicznych rodzin białkowych,

badania wspomagające przy konstruowaniu molekularnych drzew filogenetycznych.

PROGRAM GEISHA

Porównywanie dwóch sekwencji białkowych

http://bioinfo.icm.edu.pl/geisha/

Porównywanie wielu sekwencji białkowych i konstrukcja drzewa filogenetycznego.

http://bioinfo.icm.edu.pl/geisha/

PROGRAM SSSS

ęłęóOszacowanie istotności podobieństwa sekwencji.

ęłęóWeryfikacja istotności podobieństwa wynikającego z najlepszego dopasowania sekwencji.

PROGRAM CONSENSUS CONSTRUCTOR

Wizualizacja optymalnego dopasowania wielu sekwencji i konstrukcja sekwencji konsensusowych.

Konstrukcja szeregu sekwencji konsensusowych dla jednego zestawu dopasowanych sekwencji, przy zmiennych parametrach progowych.

Eksportowanie wyników w formacie rtf (MS Word).

MUTACJE SPRZĘŻONE

Zjawisko występowania mutacji wzajemnie zależnych. Jest to pozytywna selekcja jednej mutacji uwarunkowana pojawieniem się innej mutacji w innym miejscu.

Zgodnie z aktualną hipotezą pozytywnej selekcji darwinowskiej na poziomie molekularnym, mutacje sprzężone odnoszą się do obszarów będących w bezpośrednim kontakcie, związane są z interakcją białko-białko oraz mają na celu zachowanie ogólnych własności strukturalnych i funkcjonalnych cząsteczki (dotyczą elementów biologicznie aktywnego centrum w białku).

Przykład wzajemnego rozmieszczenia pozycji wykazujących sprzężenie mutacyjne (rodzina inhibitorów proteinaz typu Bowmana-Birk). Wąski klaster pozycji sprzężonych ( efekt domina ).

PROGRAM CORM

Program Corm

Lokalizacja i charakterystyka mutacji sprzężonych występujących w obrębie homologicznej rodziny białek.

http://tarawa.icm.edu.pl/agorecki/corm

PROGRAM HCA Plot

ęłęóAnaliza i przewidywanie struktury drugorzędowej białek.

PROGRAM PREDICT7

ęłęóKompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej.

PROGRAM PROTEIN SEQUENCE ANALYSIS

ęłęóKompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej.

PROGRAM ANTHEPROT (ANTHEWIN)

Przewidywanie struktury drugorzędowej.

Kompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej.

ęłęóKompleksowa analiza i przewidywanie teoretyczne właściwości białek na podstawie ich sekwencji aminokwasowej. Koło helikalne.

PROGRAM RASMOL

ęłęóBiałkowe przeglądarki 3D.

PROGRAM SWISS PDB VIEWER

ęłęóBiałkowe przeglądarki 3D.

PROGRAM WEBLAB VIEWER ( ACCELRYS )

ęłęóBiałkowe przeglądarki 3D.

ANIMACJA W PRZEGLĄDARKACH MOLEKULARNYCH

USŁUGI ZDALNEGO NAUCZANIA I ZDALNYCH KURSÓW

ęłęóhttp://tarawa.icm.edu.pl/lulu/Bioserver.htm

ĆWICZENIE

w celu wykonania ćwiczenia, wykonaj następujące polecenia:

Wyszukaj i pobierz sekwencje aminokwasowe dla ludzkich glukokinaz z bazy sekwencji białkowych Swiss-Prot.

Jeśli znane są ich struktury przestrzenne, to pobierz je z bazy PDB.

Wykonanie ćwiczenia:

Otwórz stronę serwisu bioinformatycznego ExPASy,

Kliknij na łącze do sekwencyjnej bazy danych Swiss-Prot i otwórz stronę tej bazy,

W okno tekstowe wyszukiwarki wpisz słowa kluczowe "human glucokinase" i kliknij na przycisk "Go".

ęłęóStrona główna bazy sekwencji białkowych Swiss-Prot (i TrEMBL) z oknem tekstowym wyszukiwarki w górnej części ekranu.

W bazie Swiss-Prot znalezione zostaną trzy rekordy, z których dwa dotyczą ludzkich glukokinaz, a jeden jest rekordem białka regulatorowego ludzkiej glukokinazy. Oprócz nich znalezione zostaną dodatkowe dwa rekordy z bazy TrEMBL.

Warunki zadania spełniają dwa rekordy o kodach: ADPGK_HUMAN (Q9BRR6) oraz HXK4_HUMAN (P35557). Oba posiadają przekierowanie do danych na temat struktury trzeciorzędowej, przy czym rekord ADPGK_HUMAN (Q9BRR6) zawiera link jedynie do bazy ModBase (a nie do bazy PDB).

ęłęóWynik wyszukiwania ludzkiej glukokinazy w bazie sekwencji białkowych Swiss-Prot.

ęłęóFragment rekordu ADPGK_HUMAN (Q9BRR6) zawierający łącznik do strukturalnej bazy ModBase.

ęłęóWygląd rekordu struktury ludzkiej glukokinazy o kodzie Swiss-Prot Q9BRR6, pobrany z bazy strukturalnej ModBase.

Dopiero w strukturalnym rekordzie ModBase znajduje się informacja (i łącznik) o rekordzie pdb z danymi strukturalnymi dla tego białka. Podany jest także kod pdb tego białka (1ua4A).

Rekord bazy Swiss-Prot glukokinazy P35557 zawiera bogatszą informację strukturalną o tym białku. Znajdują się w nim łączniki zarówno do bazy ModBase, jak i bazy PDB.

ęęłęóWygląd rekordu (fragment) struktury ludzkiej glukokinazy o kodzie Swiss-Prot Q9BRR6 i kodzie PDB 1UA4, pobrany z bazy

struktur białkowych PDB.

ęęłęóFragment rekordu HXK4_HUMAN (P35557) zawierający łączniki do strukturalnej bazy ModBase oraz PDB.

Sekwencje pobrać można z rekordów bazy Swiss-Prot. Dla wygody użytkownika można od razu pobrać sekwencję zapisaną w formacie FASTA. Łącznik do tych danych znajduje się w końcowej części rekordu po prawej stronie.

Plik pdb ze strukturą przestrzenną białka pobrać można z rekordu bazy PDB, korzystając z łącznika "Download Files". Z tego samego miejsca można także pobrać sekwencję aminokwasową białka.

ęęłęóWygląd rekordu (fragment) struktury ludzkiej glukokinazy o kodzie Swiss-Prot P35557 i kodzie PDB 1GLK, pobrany z bazy

struktur białkowych PDB.

ęęłęóDolna część rekordu bazy danych Swiss-Prot z łącznikiem do sekwencji białka zapisanej w formacie FASTA.

ĆWICZENIE 1.2

ęęłęóW celu wykonania ćwiczenia, wyszukaj i pobierz graficzną reprezentację struktury przestrzennej dla białka o kodzie Swiss-Prot P02144.

ĆWICZENIE 2

ANALIZA TEORETYCZNA BIAŁEK W OPARCIU O ICH STRUKTURĘ PIERWSZORZĘDOWĄ

ANALIZA BIAŁEK NA POZIOMIE STRUKTURY PIERWSZORZĘDOWEJ

PODOBIEŃSTWO FUNKCJONALNE I SEMIGOMOLOGIA GENETYCZNA

ANALIZA SEKWENCJI BIAŁEK

Poznanie struktury pierwszorzędowej białka umożliwia jego głębszą analizę w aspekcie konformacyjnym i funkcjonalnym poprzez porównanie z bardziej poznanymi białkami wykazującymi homologię w sekwencji aminokwasowej.

Informacje uzyskiwane dzięki takiej analizie są znacznie bogatsze niż proste wykazanie stopnia identyczności.

W ciągu minionych dwudziestu lat opracowano znaczną ilość algorytmów do analizy sekwencji białek (jak również kwasów nukleinowych) i skonstruowano setki programów opartych na nich.

INTERPRETACJA GRAFICZNA

Uzyskiwane z porównania wyniki przedstawia się powszechnie za pomocą interpretacji graficznej, która jednoznacznie wykrywa i lokalizuje fragmenty homologiczne, miejsca insercji i delecji, oraz wielodomenową budowę białka (homologia wewnętrzna wynikająca z duplikacji, bądź multiplikacji genu kodującego dane białko). Przykłady takich wyników przedstawione są na następujących rysunkach.

Interpretację graficzną stanowi dwuwymiarowy diagram, w którym oś odciętych reprezentuje sekwencję jednego, a oś rzędnych drugiego z porównywanych białek. Na diagramie zaznaczane są punkty, których współrzędne odpowiadają numerom pozycji okupowanych przez identyczne reszty aminokwasowe w porównywanych sekwencjach.

SEMIHOMOLOGIA

Poza pozycjami obsadzonymi przez te same reszty poszukiwane są również pozycje zawierające reszty podobne według jakiegoś kryterium

- mówimy wówczas o semihomologii. Kryterium tym może być podobieństwo w charakterze łańcucha bocznego reszty pod względem rozmiarów i polarności.

Za podobne uważa się wówczas np. pary Arg i Lys, Leu i Ile, Ser i Thr itd. Ten rodzaj podobieństwa określa się mianem podobieństwa funkcjonalnego bądź konformacyjnego. Substytucje takie z reguły nie wpływają na zmianę struktury drugorzędowej ani innych parametrów konformacyjnych.

PROGRAMY STOSUJĄCE SEMIHOMOLOGIĘ

Przykładem programu stosującego ten rodzaj semihomologii jest program HCA-Plot służący do lokalizacji obszarów (klastrów) hydrofobowych. Programy z grupy FASTA służące do analizy sekwencji białek wyróżniają z kolei substytucje które są wśród białek homologicznych częste ze statystycznego punktu widzenia.

Program HOMOLOGYi jego późniejsze wersje Semihomology i GEISHA natomiast uwzględniają semihomologię genetyczną, tzn. zaznaczają pozycje obsadzone przez różne reszty aminokwasowe, których kodony mogą się różnić tylko jedną zasadą.

Przejście jednego aminokwasu w drugi jest zatem możliwe na drodze pojedynczej mutacji punktowej (tanzycji lub transwersji) - najbardziej prawdopodobnego i podstawowego mechanizmu zmienności genetycznej białek.

RÓŻNE TYPY SEMIHOMOLOGII

Wyróżnia się przy tym semihomologię typu I, w którym mutacja oparta jest o pojedynczą tranzycję (substytucja typu puryna-puryna lub pirymidyna-pirymidyna), semihomologię typu II obejmującą pojedyncze transwersje, czyli mutacje typu puryna-pirymidyna oraz semihomologię typu III dotyczącą mutacji trzeciej, najbardziej tolerancyjnej, pozycji w kodonie.

Analiza semihomologii genetycznej dostarcza wielu dodatkowych informacji niedostępnych przy stosowaniu innych algorytmów, np. pozwala dokładnie zlokalizować pozycje delecji bądź insercji w odcinkach wykazujących bardzo niski stopień podobieństwa, czy ustalić dokładny kod genetyczny dla danego białka, co z kolei ma bardzo istotne znaczenie przy prawidłowej syntezie sondy genetycznej dla genu kodującego to białko.

ĆWICZENIE 2.1

Stosując algorytm semihomologii genetycznej porównaj poniższe pary sekwencji aminokwasowych. Zakładając niezmienność pozycji obsadzonych przez reszty cysteiny wykaż, które reszty aminokwasowe uległy delecji?

Rozwiąż zadanie a następnie kliknij przycisk "Sprawdź poprawną odpowiedź".

Subject

a) RVCPRILMECKK

b) MVCPKTTCQK

Odpowiedź:

RVCPRILMECKK

MVCPT-T-CQK

Delecji uległy pozycje obsadzone przez L oraz E w sekwencji pierwszej.

Dopasowanie sekwencji przy zachowaniu konserwatywnych pozycji cysteinowych wygląda następująco:

RVCPRILMECKK

MVCP<KTT>CQK

Do trójpeptydu KKT drugiej sekwencji powinny zostać dodane dwie przerwy, by liczba pozycji odpowiadała liczbie pozycji analogicznego fragmentu sekwencji pierwszej (RILME).

W celu prawidłowego umiejscowienia przerw należy sprawdzić, które z aminokwasów fragmentu RILME mogą mieć kodony różniące się tylko jedną pozycją (są semihomologiczne) w porównaniu z możliwymi kodonami aminokwasów fragmentu KKT. Takie relacje genetyczne mogą wystąpić dla par: R-K, I-K, M-K, R-T, I-T, M-T. Zatem najlepsze dopasowanie z uwzględnieniem relacji genetycznych wyglądać będzie następująco:

RILME

KT-T-

a dla całych sekwencji:

RVCPRILMECKK

MVCPKT-T-CQK

Delecji uległy pozycje obsadzone przez L oraz E w sekwencji pierwszej.

ĆWICZENIE 2.2

Rozwiąż zadanie a następnie kliknij przycisk "Sprawdź poprawną odpowiedź".

Subject

a) CKKDSDCLAEC

b) CKREDCIVYKC

W rezultacie analizy dopasowanie całych sekwencji przedstawia się następująco:

CKKDSDCLA-EC

CKRE-DCIVYKC

Dopasowanie sekwencji przy zachowaniu konserwatywnych pozycji cysteinowych wygląda następująco:

CK KDS DC <LAE> C

CK <RE> DC IVYK C

Do dwupeptydu RE drugiej sekwencji powinna zostać dodana jedna przerwa, by liczba pozycji odpowiadała liczbie pozycji analogicznego fragmentu sekwencji pierwszej (KDS).

Z tego samego powodu do fragmentu LAE pierwszej sekwencji także powinna zostać dodana jedna przerwa.

W celu prawidłowego umiejscowienia przerw należy sprawdzić, które z możliwie odpowiadających sobie aminokwasów mogą mieć kodony różniące się tylko jedną pozycją (są semihomologiczne).

Dla pierwszego fragmentu takie relacje występują dla par K-R, K-E, D-E oraz S-R.

Zatem najlepsze dopasowanie z uwzględnieniem relacji genetycznych dla tego fragmentu będzie wyglądać:

KDS

RE-

Analogicznie dla drugiego fragmentu semihomologiczne pary będą następujące: L-I, L-V, A-V, E-V, E-K. Najlepsze dopasowanie pozostawia "niesparowaną" tyrozynę:

LA-E

IVYK

W rezultacie analizy dopasowanie całych sekwencji przedstawia się następująco:

CKKDSDCLA-EC

CKRE-DCIVYKC

ĆWICZENIE 3

PROGRAM PROTEIN SEQUENCE ANALYSIS

OPIS PROGRAMU I KORZYSTANIE

PROGRAM PROTEIN SEQUENCE ANALYSIS

Program "Protein Sequence Analysis". Opis programu i korzystanie.

Program "Protein Sequence Analysis" (wersja shareware) służy do teoretycznej charakterystyki właściwości fizykochemicznych i strukturalnych białek o charakterze globularnym, zbudowanych z jednego łańcucha polipeptydowego na podstawie znanej sekwencji aminokwasowej. Akceptowanych jest kilka formatów zapisu sekwencji aminokwasowej, wśród których jest format "raw" (surowa sekwencja) i format FASTA.

Sekwencje zapisane są w oddzielnym pliku tekstowym, który wczytywany jest przez program w pierwszym etapie procedury jego użytkowania.

FUNKCJONALNOŚĆ PROGRAMU

Darmowa wersja shareware programu umożliwia uzyskanie następujących informacji o białku:

skład aminokwasowy białka (wartości bezwzględne i udział procentowy),

masa cząsteczkowa dla różnych wersji izotopowych,

krzywa miareczkowania i punkt izoelektryczny,

widmo UV,

profil hydrofobowości łańcucha polipeptydowego,

przewidywanie struktury drugorzędowej metodą Garniera, Osguthorpe i Robsona (GOR I),

widmo CD (dichroizmu kołowego).

Ponadto program zawiera edytor sekwencji DNA z prostą, lecz przydatną opcją tłumaczenia sekwencji nukleotydowej łańcucha DNA na sekwencję aminokwasową dla każdej ramki odczytu.

PRZEWIDYWANIE STRUKTURY DRUGORZĘDOWEJ

Wartość programu jest przede wszystkim związana z możliwością przewidywania struktury drugorzędowej oraz generowaniem widma CD dla dowolnie deklarowanego udziału procentowego poszczególnych rodzajów struktury na tym poziomie. Pozwala to m.in. na:

przewidywanie widma CD dla białka natywnego,

weryfikację zgodności wyników teoretycznego przewidywania struktury II-rzędowej przy znanym kształcie widma CD uzyskanego droga eksperymentalną,

badanie procesu zmiany konformacji na poziomie II-rzędowym podczas deformacji cząsteczki, która towarzyszy np. procesowi denaturacji.

ĆWICZENIE 3.1

Analiza fizykochemiczna i strukturalna rybonukleazy o sekwencji:

W pierwszym etapie należy utworzyć plik tekstowy zawierający sekwencję aminokwasową białka, będącego przedmiotem badań. Zawartość pliku może składać się wyłącznie z samej sekwencji rybonukleazy (format raw), lub może być rekordem sekwencji w formacie FASTA:

KETAAAKFERQHMDSSTSAASSSNYCNQMMKSRNLTKDRCKPVNTFVHES LADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPNCAYKTT QANKHIIVACEGNPYVPVHFDASV

>rybonuklaza

KETAAAKFERQHMDSSTSAASSSNYCNQMMKSRNLTKDRCKPVNTFVHES LADVQAVCSQKNVACKNGQTNCYQSYSTMSITDCRETGSSKYPNCAYKTT QANKHIIVACEGNPYVPVHFDASV

Następnie należy uruchomić program "Protein Sequence Analysis" i wczytać plik zawierający sekwencję rybonukleazy (menu File-Open).

Sekwencja pojawi się w oknie roboczym programu. Istnieje możliwość analizy całej sekwencji, lub jej fragmentu.

W celu przygotowania odcinka sekwencji zaznaczamy (zaświetlamy) przy pomocy myszki ten odcinek. Jeśli analizowana ma być cała sekwencja, zaznaczamy myszką całą sekwencję.

Możemy teraz przejść do części obliczeń teoretycznych programu.

Wyniki poszczególnych obliczeń dla rybonukleazy można zobaczyć na kolejnych stronach.

Obliczenia te nie są skomplikowane, więc czas na ich wykonanie jest bardzo krótki nawet dla komputerów o bardzo niskiej mocy obliczeniowej.

Natychmiast po ich zakończeniu na ekranie pojawiają się wyniki końcowe.

ęęłęóSkład aminokwasowy rybonukleazy.

ęęłęóMasa cząsteczkowa rybonukleazy dla różnych izotopów.

ęęłęóWykres miareczkowania rybonukleazy i punkt izoelektryczny.

ęęłęóWidmo UV rybonukleazy.

ęęłęóProfil hydrofobowości dla łańcucha rybonukleazy.

ęęłęóPrzewidywanie struktury II-rzędowej rybonukleazy

ęęłęóWidmo CD rybonukleazy (dla procentowego udziału rodzajów struktury II-rzędowej wyliczonego podczas jej przewidywania metodą GOR I).

ĆWICZENIE 3.2.

Wypreparowano i oczyszczono białko A o następującej sekwencji aminokwasowej:

Zmierzono widmo CD roztworu tego białka, które miało kształt przedstawiony tutaj.

IVGGFQIDIAEVPHQVSLQRSGRHFCGGSIISPRWVLTRAHCTTNTDPAA YTIRAGSTDRTNGGIIVKVKSVIPHPQYNGDTYNYDFSLLELDESIGFSR SIEAIALPDASETVADGAMCTVSGWGDTKNVFEMNTLLRAVNVPSYNQAE CAAALVNVVPVTEQMICAGYAAGGKDSCQGDSGGPLVSGDKLVGVVSWGK GCALPNLPGVYARVSTVRQWIREVSEV

Na podstawie tych danych określ czy wypreparowane białko zachowało konformację natywną, czy też jego struktura mogła ulec istotnym zmianom w wyniku procedury oczyszczania.

Utwórz plik tekstowy zawierający sekwencję badanego białka A (np. w formacie FASTA). Niech ten plik zostanie nazwany np. bialkoA.txt.

Uruchom program Protein Sequence Analysis i wczytaj sekwencję z pliku bialkoA.txt.

Zaznacz myszką całą sekwencję jaka pojawiła się na ekranie i uruchom opcję Secondary Structure - GOR I Structure Model z menu "Analysis". Wyniki przewidywania struktury drugorzędowej można zobaczyć na następnej stronie.

ęęłęóWyniki przewidywania struktury II-rzędowej dla białka A.

Zapamiętaj (zapisz) wyliczony udział procentowy każdego z rodzajów struktury II-rzędowej. Struktura ta przyjęta zostanie jako struktura dla białka natywnego.

Przejdź do opcji Secondary Structure - CD Spectrum Estimate w menu Analysis.

Wpisz wartości procentowego udziału każdego z rodzajów struktury II-rzędowej w odpowiednie okna po lewej stronie, a następnie kliknij w opcję "Calculate" na pasku menu. Wpisywane wartości można zaokrąglać do liczb całkowitych pilnując, aby suma wszystkich wartości była równa 100. Wyświetlone zostanie widmo CD wygenerowane dla białka A o strukturze przyjętej jako natywna. Przedstawia to rysunek na następnej stronie

ęęłęóWygenerowane teoretycznie widmo CD dla białka A o strukturze drugorzędowej przyjętej za natywną.

Już na pierwszy rzut oka widać, że kształt wygenerowanego widma całkowicie różni się od widma zmierzonego eksperymentalnie dla wypreparowanego białka A. A zatem w wyniku oczyszczania białko A straciło swoją strukturę natywną.

Można się przy okazji pokusić o zbadanie struktury drugorzędowej tego białka, które otrzymano w części eksperymentalnej. W tym celu manipulując wartościami procentowego udziału każdego z rodzajów struktury II-rzędowej należy doprowadzić kształt generowanego widma CD do postaci widma CD otrzymanego eksperymentalnie. Kształt ten odpowiada białku, które nie zawiera odcinków α-helikalnych, w 40% jest łańcuchem β, w 40% zawiera konformacje zgięcia, a 20% jest strukturą nieuporządkowaną.

ĆWICZENIE 3.3

Dla białka o sekwencji:

RELLEDLKASDYPSKRLIIVGSITGNTNTLAGNV

PPKANLGDLRGLAAGNGVGSAAMIDGAEFDGA

KAYKDSKVCNMLTMQEFHRRYHEETGVTFASL

YPGCIATTGLFREHIPLFRLLFPPFQKYITKGYV

SEEEAGKRLAQVVSEPSLTKSGVYWSWNKNS

ASFENQLSEEASDTEKARKVWELSEKLVGLA

Wygeneruj widmo CD dla konformacji:

natywnej (wynikającej z przewidywania struktury II-rzędowej metodą GOR I),

zawierającej 20% α-helis, 25% łańcuchów β, 12% zgięć i 43% struktury nieuporządkowanej,

posiadającej wyłącznie strukturę nieuporządkowaną.

ęęłęóWidmo CD dla konformacji pierwszej.

ęęłęóWidmo CD dla konformacji drugiej.

ęęłęóWidmo CD dla konformacji trzeciej.

Zmierzono widmo CD dla białka o sekwencji aminokwasowej:

GSITGNTNTLAGNVPPKANLGDLRGLAAGNGVG

SAAMIDGAEFDGAKAYKDSKVCNMLTMQEFHR

RYHEETGVTFASLYPGCIATTGLFREHIPLFRLL

FPPFQKYITKGYVSEEEAGKRLAQVVSEPSLTK

SGVYWSWNKNSASFENQLSEEA

Jaki jest procentowy udział α-helis, łańcuchów β, zgięć i struktury nieuporządkowanej tego białka?

ęęłęóWidmo CD roztworu białka.

Zmieniając wartości udziału procentowego każdego z czterech rodzajów struktury drugorzędowej należy wygenerować widmo CD o poszukiwanym kształcie. Odpowiadające jemu wartości dla każdej ze struktur stanowią rozwiązanie zadania. Udziały te wynoszą odpowiednio:

α-helisa - 10%,

łańcuch β - 20%,

zgięcie - 10%,

struktura nieuporządkowana - 60%.

ĆWICZENIE 4

DOPASOWYWANIE SEKWENCJI HOMOLOGICZNYCH I KONSTRUOWANIE MOLEKULARNYCH DRZEW FILOGENETYCZNYCH.

PROGRAMY CLUSTAL I TREEVIEW

CLUSTALX

PROTSA.ZIP

DOPASOWANIE HOMOLOGICZNYCH SEKWENCJI HOMOLOGICZNYCH

Prawidłowe dopasowanie homologicznych sekwencji biologicznych leży u podstaw praktycznie każdej teoretycznej analizy porównawczej na poziomie molekularnym.

Opracowana została bardzo rozbudowana algorytmika tego procesu, istnieje też szereg ogólnodostępnych programów umożliwiających dopasowanie wielu porównywanych sekwencji (białkowych i kwasów nukleinowych).

Proces ten realizują w sposób w pełni zautomatyzowany, pozostawiając jednak użytkownikowi możliwość zadeklarowania indywidualnych parametrów, według których procedura dopasowania ma się odbywać.

Większość tych aplikacji oparta jest na zastosowaniu stochastycznych macierzy częstości wymiany aminokwasów (lub nukleotydów) w pozycjach homologicznych, jakimi są macierze PAM i BLOSUM.

CLUSTALW I CLUSTALX

Jednym z pierwszych i najbardziej popularnych programów służących do tego celu jest program ClustalW oraz jego wersja dla różnych systemów Windows - ClustalX.

Obsługa programu ClustalX jest bardzo prosta i przyjazna. Do przeprowadzenia obliczeń program potrzebuje zestawu sekwencji, które zamierzamy dopasować wzajemnie.

Sekwencje wczytywane są w formacie FASTA z pliku tekstowego, zawierającego wszystkie sekwencje, które mają zostać dopasowane.

CLUSTALX

ęęłęóPrzykład prezentacji graficznej wyniku dopasowania homologicznych sekwencji aminokwasowych, otrzymanego za pomocą programu ClustalX.

FORMAT FASTA

Przykładowa zawartość pliku tekstowego z sekwencjami aminokwasowymi zapisanymi w formacie FASTA, który wczytywany jest do programu ClustalX.

135/190

Format FASTA

VNCSLYASGIGKDGTSWVACPRNLKPVCGTDGSTYSNECGICLYNREHGANVEKEYDGECRPKHVM

>II

IDCSPYLQVVRDGNTMVACPRILKPVCGSDSFTYDNECGICAYNAEHHTNISKLHDGECKLEIGS

>III

VDCSKYPSTVSKDGRTLVACPRILSPVCGTDGFTYDNECGICAHNAEQRTHVSKKHDGKCRQEIPE

>IV

IDCDQYPTRKTTGGKLLVRCPRILLPVCGTDGFTYDNECGICAHNAQHGTEVKKSHDGRCKERSTP

LDCTQYLSNTQNGEAITACPFILQEVCGTDGVTYSNDCSLCAHNIELGTSVAKKHDGRCREEVPE

>VI

LDCSKYKTSTLKDGRQVVACTMIYDPVCATNGVTYASECTLCAHNLEQRTNLGKRKNGRCEEDITK

>VII

EHCREFQKVSPICTMEYVPHCGSDGVTYSNRCFFCNAYVQSNRTLNLVSMAAC

WYNIK DZIAŁANIA PROGRAMU

W wyniku dokonanych obliczeń program podaje końcowe zestawienie dopasowanych sekwencji. Ponadto program generuje dwa pliki o rozszerzeniach .aln oraz .dnd. Plik .aln zawiera wynik końcowy dopasowania badanych sekwencji.

Plik .dnd zawiera wyliczone wartości dystansów ewolucyjnych między sekwencjami oraz informacje o topologii filogenetycznego drzewa (filogramu), którego są elementami. Ten plik wykorzystywany jest przez program TreeView do generowania graficznej interpretacji filogramu.

Program TreeView służy do generowania i zapisywania obrazów drzew filogenetycznych. Jest to bardzo prosta i użyteczna aplikacja. Pozwala na wizualizację drzew w różnych postaciach - ukorzenionej i nieukorzenionej.

ĆWICZENIE 4.1

Dokonaj dopasowania poniższego zestawu sekwencji aminokwasowych za pomocą programu ClustalX i sporządź graficzny obraz drzewa filogenetycznego (filogramu) dla tych sekwencji.

Utwórz plik tekstowy zawierający badane sekwencje w formacie FASTA. Nadaj temu przykładowo nazwę sekwencje.txt.

Uruchom program ClustalX.

Z menu "File" wybierz "Load Sequences" i wczytaj plik sekwencje.txt. Okno robocze programu zapełnione zostanie zapisem tych sekwencji (jeszcze niedopasowanych).

Z menu "Alignment" wybierz "Do Complete Alignment". Pojawi się okno zapisywania plików .aln i .dnd generowanych automatycznie przez program. Wybierz odpowiedni katalog, w którym pliki te mają być zapisane i kliknij na przycisk "Align".

ęęłęóWygląd roboczego okna programu ClustalX po wczytaniu sekwencji z pliku sekwencje.txt

ęęłęóOkno generowania plików .aln i .dnd w programie ClustalX.

Program wygeneruje pliki o rozszerzeniach .aln i .dnd oraz jednocześnie dopasuje porównywane sekwencje, co potwierdzone będzie komentarzem w dolnej części okna roboczego: "Clustal-Alignment file created".

Aminokwasom przypisane są różne kolory, grupujące razem aminokwasy posiadające pewne wspólne cechy (np. aminokwasy hydrofobowe, aminokwasy hydroksylowe itd.). Kolory te ułatwiają użytkownikowi szybkie oszacowanie prawidłowości wykonania dopasowania.

W dolnej części okna roboczego znajduje się wykres obrazujący stopień konserwatywności poszczególnych pozycji/fragmentów porównywanych sekwencji.

ęęłęóWygląd roboczego okna programu ClustalX z dopasowanymi sekwencjami pobranymi z pliku sekwencje.txt

Wyniki dopasowania sekwencji można zapisać w osobnym pliku w różnych formatach w zależności od ich późniejszego wykorzystania w innych programach (menu File - Save Seuences As...).

Jeśli użytkownik uzna, że dopasowanie nie jest prawidłowe, może zmienić parametry procedury dopasowywania (menu Alignment - Alignment Parameters) i powtórzyć całą procedurę od początku.

Uruchom program TreeView.

Za pomocą menu File-Open wczytaj plik sekwencje.dnd wygenerowany uprzednio przez program ClustalX.

W oknie roboczym programu TreeView pojawi się filogram dla badanych sekwencji.

Wynik ten można zapisać w różnych formatach (tekstowych i graficznych).

Program TreeView pozwala wygenerować obraz drzewa nieukorzenionego, lub pozornie ukorzenionego, uwzględniając lub pomijając rzeczywiste długości gałęzi wynikające z wyliczonych dystansów ewolucyjnych. Program wykorzystuje dane zapisane w pliku .dnd, którego zawartość można zmieniać ręcznie jeśli zachodzi taka potrzeba.

ęęłęóZawartość pliku .dnd na podstawie którego program TreeView generuje drzewa filogenetyczne.

ęęłęóRóżne sposoby wizualizacji filogramu wygenerowanego przez program TreeView dla sekwencji dopasowanych w programie ClustalX (sekwencje.txt) wykonane na podstawie danych z pliku sekwencje.dnd.

ĆWICZENIE 4.2

Korzystając z zasobów bazy sekwencji białkowych Swiss-Prot dopasuj przy użyciu programu ClustalX sekwencje o kodach akcesyjnych:

P00974

P00994

P00985

P81547

P00986

P29216

P82966

P00991

P25660

P16044

P20229

P00984

Następnie wygeneruj drzewo filogenetyczne dla tego zestawu sekwencji (program TreeView).

Sekwencje o podanych kodach akcesyjnych są następujące:

P00974

MKMSRLCLSVALLVLLGTLAASTPGCDTSNQAKAQRPDFCLEPPYTGPCKARIIRYFYNA KAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGAIGPWENL

P00994

QGRPSFCNLPAETGPCKASFRQYYYNSKSGGCQQFIYGGCRGNQNRFDTTQQCQGVCV

P00985

RPDFCELPAETGLCKAYIRSFHYNLAAQQCLQFIYGGCGGNANRFKTIDECRRTCVG

P81547

APVNEDCLLPKKVGPCRAAVPRFYYNSDSGKCEGFTYGGCHANANNFKTKDECKNACH

P00986

RPRFCELPAETGLCKARIRSFHYNRAAQQCLEFIYGGCGGNANRFKTIDECHRTCVG

P29216

EVCSEQAETGPCRAMISRWYFDVTEGKCAPFFYGGCGGNRNNFDTEEYCMAVCGSVMSQS LRKTTREPLTRDPVKL

ęęłęóSekwencje o podanych kodach akcesyjnych są następujące:

...

ęęłęóGraficzna prezentacja filogramu dla tego zestawu sekwencji wyglądać będzie następująco:

ĆWICZENIE 4.3

ęęłęóKorzystając z pliku sekwencje.dnd z ćwiczenia 1 zmień wygląd graficzny filogramu dla sekwencji pobranych z pliku sekwencje.txt tak, żeby gałąź dla sekwencji VII była dwa razy krótsza, a gałąź dla sekwencji III - dwa razy dłuższa.

ęęłęóNależy przeprowadzić operacje na wartościach dystansów ewolucyjnych zawartych w pliku sekwencje.dnd. Zawartość tego pliku po dokonaniu zmian wyglądać powinna następująco:

ęęłęóobraz filogramu wygenerowanego na podstawie tego pliku bezie wyglądać następująco:

ĆWICZENIE 5

ANALIZA PORÓWNAWCZA SEKWENCJI BIAŁKOWYCH W OPARCIU O ALGORYTM SEMIHOMOLOGII GENETYCZNEJ.

KORZYSTANIE Z PROGRAMU GEISHA.

W tej części kursu zapoznasz się z działaniem i funkcjonalnością programu "GEISHA".

W celu poprawnego wykonania ćwiczeń zawartych w tej części kursu, niezbędny będzie program "GEISHA". Program ten jest napisany w języku JAVA. W związku z tym do poprawnego działania będzie potrzebne środowisko Java.

http://java.sun.com/javase/downloads/index.jsp

Jeżeli na komputerze nie jest zainstalowana żadna z wersji środowiska Java (np. JRE lub JDK) należy pobrać najnowszy plik instalacyjny ze strony:

Następnie należy zainstalować aplikację (najlepiej jest to zrobić w domyślnym katalogu).

Na następnej stronie znajdziesz opis w jaki sposób należy uruchomić program GEISHA.

Poniżej znajdują się 2 linki do plików potrzebnych do uruchomienia programu GEISHA. Oba należy ściągnąć i umieścić w jednym katalogu.

geisha2.jar

geisha2_run.cmd

Następnie należy poddać edycji plik "geisha2_run.cmd" (można to zrobić za pomocą Notatnika Windows). Poniżej znajduje się domyślna zawartość pliku. Część zaznaczoną na czerwono należy zastąpić ścieżką dostępu wybraną podczas instalacji środowiska JAVA.

"C:\Program Files\Java\jre1.5.0_08\bin\java" -jar ./geisha2.jar

pause

"C:\Program Files\Java\jre1.5.0_08\

Po dokonaniu zmian w pliku należy go zapisać i uruchomić.

PROGRAM GEISHA

GEISHA jest programem, który pozwala porównywać i dopasowywać sekwencje białkowe w alternatywny sposób od metody reprezentowanej przez program ClustalX. Program GEISHA nie odwołuje się do stochastycznych macierzy substytucji aminokwasowych.

Bazuje on na diagramie wszystkich możliwych teoretycznie relacjach genetycznych między biogennymi aminokwasami. Diagram ten stanowi zasadniczą część algorytmu semihomologii genetycznej.

Wykorzystana zostaje też potwierdzona obserwacja, że najczęściej spotykanym w naturze mechanizmem zmienności ewolucyjnej jest pojedyncza mutacja punktowa (wymiana jednego nukleotydu) typu tranzycji lub transwersji.

WŁAŚCIWOŚCI PROGRAMU GEISHA

Program GEISHA jest aplikacją napisaną w języku Java, dzięki czemu można go używać na dowolnej platformie dowolnej wersji systemu komputerowego. Nie ma też wysokich wymagań odnośnie mocy obliczeniowej komputera.

Program ten pozwala na przeprowadzenie analizy dwojakiego rodzaju:

analiza porównawcza dwóch sekwencji białkowych z wykorzystaniem interfejsu graficznego dot matrix,

analiza porównawcza wielu sekwencji wraz ich dopasowaniem w oparciu o algorytm semihomologii genetycznej.

OBSŁUGA PROGRAMU GEISHA

Białkowe sekwencje przeznaczone do analizy porównawczej można wpisywać bezpośrednio w programie, bądź wczytywać z pliku tekstowego zapisanego w formacie FASTA (podobnie jak w przypadku wczytywania danych do programu ClustalX.

Dokonuje się tego poprzez menu: Action-Import sequences. Wczytane sekwencje z pliku pojawiają się w oknie roboczym programu.

WIDOK OKNA ROBOCZEGO

ęęłęórogram GEISHA. Widok okna roboczego po wczytaniu sekwencji przeznaczonych do analizy porównawczej.

APLIKACJA DOT MATRIX

Po wczytaniu sekwencji zaznacza się okienka przy tych sekwencjach, które mają zostać poddane analizie.

Jeśli zaznaczone zostaną dwie sekwencje, można przeprowadzić analizę "Pairwise homology", ze szczegółowym badaniem podobieństwa występującego między nimi.

Wykorzystana jest tu graficzna aplikacja dot matrix, dająca przejrzysty i łatwy do zinterpretowania obraz wyników porównania. Przykładowy obraz graficznej interpretacji wyniku dot matrix można zobaczyć na następnej stronie (program GEISHA).

GRAFICZNEJ INTERPRETACJI WYNIKU - DOT MATRIX

ęęłęóPorównywanie dwóch sekwencji przy użyciu programu GEISHA. Obraz graficznej interpretacji wyniku dot matrix.

FUNKCJE DOT MATRIX

W tej części analizy użytkownik ma możliwość wstępnego zadeklarowania parametrów wizualizacji takich wyników, które uzna za istotne. Wyniki niespełniające warunków progowych zadeklarowanych parametrów zostaną odfiltrowane i nie będą widoczne.

Można je jednakże uwidocznić włączając opcję "Unfiltered". Po prawej stronie okna dot matrix znajduje się tabelka tych wzajemnych ustawień sekwencji, które są uwidocznione na obrazie z lewej strony.

Na obrazie dot matrix widoczna jest ramka przeszukiwania, ułatwiająca precyzyjne ustawianie kursora myszki na punktach, których współrzędne odpowiadają konkretnym pozycjom obu sekwencji. Dodatkowo w prawym dolnym oknie widoczne są fragmenty obu sekwencji, które aktualnie znajdują się w ramce przeszukiwania.

Pozycje znajdujące się dokładnie w środku ramki zaznaczone są w tym oknie na czerwono. Obraz graficzny dot matrix można powiększać lub zmniejszać w pewnym zakresie.

Punkty uwidocznione na obrazie dot matrix przedstawiają pozycje porównywanych sekwencji, które wykazują identyczność (kolor żółty) lub podobieństwo genetyczne (kolor zielony i niebieski).

Podobieństwo genetyczne polega na tym, że porównywane aminokwasy są różne, ale ich kodony mogą różnić się tylko w jednej pozycji, przez co istnieje możliwość mutacyjnej przemiany jednego aminokwasu w drugi poprzez pojedynczą tranzycję (kolor zielony) lub transwersję (kolor niebieski).

Jeśli w podstawowym oknie danych wejściowych (wczytane sekwencje) zaznaczonych zostanie więcej niż dwie sekwencje, wówczas możliwa jest analiza porównawcza zmierzająca do wzajemnego dopasowania wszystkich zaznaczonych sekwencji (Przycisk "Multiple alignment").

PORÓWNYWANIE WIELU SEKWENCJI

ęęłęóPorównywanie wielu sekwencji przy użyciu programu GEISHA. Wynik dopasowania wielu sekwencji i prosty diagram dystansów filogenetycznych.

*Program GEISHA w tej części analizy dostarcza danych, które mogą zostać wykorzystane do konstruowania/weryfikacji molekularnych drzew filogenetycznych.

ĆWICZENIE 5.1

ęęłęóAnaliza porównawcza dwóch sekwencji białkowych. Dokonaj szczegółowego porównania poniższych sekwencji aminokwasowych stosując program GEISHA.

ęęłęó>A

RPDFCELPAETGLCKAYIRSFHYNLAAQQ

CLQFIYGGCGGNANRFKTIDECRRTCVG

QDHPKFCYLPADPGRCKAHIPRFYYDSAS

NKCNKFIYGGCPGNANNFKTWDECRQTCGASA

Utwórz plik tekstowy (np. o nazwie 2sekwencje.txt) z obiema sekwencjami zapisanymi w formacie FASTA.

Uruchom program GEISHA.

Z menu "Action" wybierz "Import sequences..." i wczytaj plik 2sekwencje.txt.

Użyj przycisku File w dolnej części okna imprtowania sekwencji.

W oknie roboczym programu pojawią się obie sekwencje (o nazwie A i B). Zaznacz okienka przy obu sekwencjach, a następnie kliknij myszką na przycisk "Pairwise homology...".

Pojawi się okno ustawienia parametrów analizy porównawczej z wpisanymi wartościami domyślnymi. Pozostaw te wartości niezmienione i kliknij na przycisk "OK". Wynik porównania sekwencji można zobaczyć na następnej stronie.

ęęłęóWynik porównania sekwencji A i B przy domyślnych parametrach analizy porównawczej

Z obrazu dot matrix wynika, że domyślne parametry obliczeń nie eliminują wszystkich nieistotnych wzajemnych ustawień porównywanych sekwencji.

W dolnej części obrazu widoczne są wyniki ustawień, które można uznać za przypadkowe rezultaty.

Rezultatem istotnym są punkty układające się tuż przy głównej przekątnej okna prezentacji graficznej dot matrix.

Nieistotne rezultaty można wyeliminować z obrazu dot matrix zmieniając parametry progowe analizy porównawczej.

Zamknij okno wizualizacji wyników i ponownie kliknij na przycisk "Pairwise homology..." w oknie importowania sekwencji. Znowu pojawi się okno ustawień parametrów progowych.

Tym razem zmień (za pomocą suwaka) wartość progową "Score treshold" z 0.33 na 0.5. Kliknij na przycisk "OK" w celu wywołania okna wizualizacji wyników analizy.

Tym razem otrzymany zostaje czysty obraz dot matrix, zawierający jedynie istotne ustawienie ukazujące rzeczywiste podobieństwo porównywanych sekwencji (jest to zilustrowane na następnej stronie).

ęęłęóWynik porównania sekwencji A i B przy zmienionej wartości parametru progowego "Score treshold" na 0.5.

ĆWICZENIE 5.2

Analiza porównawcza wielu sekwencji białkowych. Dopasowywanie sekwencji.

W oparciu o algorytm semihomologii genetycznej, posługując się programem GEISHA dokonaj dopasowania następującego zbioru sekwencji aminokwasowych:

ęęłęó>I

VNCSLYASGIGKDGTSWVACPRNLKPVCGTDGSTYSNECGICLYNREHGANVEKEYDGECRPKHVM

>II

IDCSPYLQVVRDGNTMVACPRILKPVCGSDSFTYDNECGICAYNAEHHTNISKLHDGECKLEIGS

>III

VDCSKYPSTVSKDGRTLVACPRILSPVCGTDGFTYDNECGICAHNAEQRTHVSKKHDGKCRQEIPE

>IV

IDCDQYPTRKTTGGKLLVRCPRILLPVCGTDGFTYDNECGICAHNAQHGTEVKKSHDGRCKERSTP

LDCTQYLSNTQNGEAITACPFILQEVCGTDGVTYSNDCSLCAHNIELGTSVAKKHDGRCREEVPE

>VI

LDCSKYKTSTLKDGRQVVACTMIYDPVCATNGVTYASECTLCAHNLEQRTNLGKRKNGRCEEDITK

>VII

EHCREFQKVSPICTMEYVPHCGSDGVTYSNRCFFCNAYVQSNRTLNLVSMAAC

Zapisz badane sekwencje w pliku o nazwie sekwencje.txt, w formacie FASTA.

Uruchom program GEISHA.

Wczytaj zawartość pliku sekwencje.txt do programu (menu "Action", "Import sequences...").

W oknie importowania sekwencji zaznacz wszystkie sekwencje z listy.

Kliknij na przycisk "Multiple alignment..." znajdujący się w dolnej części okna.

Wartości progowe parametrów analizy w oknie ustawień parametrów pozostaw niezmienione (domyślne) i kliknij "OK".

Pojawią się dwa okna wynikowe. W jednym widoczne będą dopasowane sekwencje, w drugim schematyczne przedstawienie dystansu filogenetycznego między analizowanymi sekwencjami.

ęęłęóWyniki analizy porównawczej siedmiu sekwencji z pliku sekwencje.txt uzyskane za pomocą programu GEISHA.

ĆWICZENIE 5.3

Korzystając z programu GEISHA dokonaj analizy porównawczej sekwencji z poniższego zbioru:

ęęłęó>P00994

QGRPSFCNLPAETGPCKASFRQYYYNSKSGGCQQFIYGGCRGNQNRFDTTQQCQGVCV

>P00985

RPDFCELPAETGLCKAYIRSFHYNLAAQQCLQFIYGGCGGNANRFKTIDECRRTCVG

>P81547

APVNEDCLLPKKVGPCRAAVPRFYYNSDSGKCEGFTYGGCHANANNFKTKDECKNACH

>P00986

RPRFCELPAETGLCKARIRSFHYNRAAQQCLEFIYGGCGGNANRFKTIDECHRTCVG

>P82966

GRPKFCELPPEPGLCNARKTFFYYSLHSHACQKFIYGGCGGNANKFKTIDECHRTCVG

>P00991

QDHPKFCYLPADPGRCKAHIPRFYYDSASNKCNKFIYGGCPGNANNFKTWDECRQTCGASA

>P25660

KNRPTFCNLLPETGRCNALIPAFYYNSHLHKCQKFNYGGCGGNANNFKTIDECQRTCAAKYGRSS

>P16044

TERGFLDCTSPPVTGPCRAGFKRYNYNTRTKQCEPFKYGGCKGNGNRYKSEQDCLDACSGF

>P20229

RPGFCELPAAKGLCKAHKPAFYYNKDSHRCQKFIYGGCGGNANRFRTIDECNRTCVG

>P00984

LQHRTFCKLPAEPGPCKASIPAFYYNWAAKKCQLFHYGGCKGNANRFSTIEKCRHACVG

Porównaj parami sekwencje P00994 z P00986 oraz P82966 z P25660. Dobierz takie parametry progowe, przy których wyeliminowane zostaną przypadkowe wyniki dopasowań z interpretacji graficznej dot matrix.

Dopasuj do siebie wszystkie sekwencje z tego zbioru.

Optymalne wartości parametrów progowych przy których wyeliminowane zostaną mało istotne "szumy" z obrazu interpretacji graficznej, są następujące:

Window size=21

Score treshold=0.5

Na kolejnych stronach można zobaczyć obraz wyników przy tych parametrach dla par:

P00994 i P00986,

P82966 i P25660.

ęęłęóObraz wyników dla pary P00994 i P00986.

ęęłęóObraz wyników dla pary P82966 i P25660.

ęęłęóWynik dopasowania wszystkich sekwencji (dla domyślnych wartości parametrów progowych).

ĆWICZENIE 5.4

ęęłęóKorzystając z programu GEISHA określ czy białko o sekwencji:

ęęłęóVDCSRFPNATDKEGKDVLVCNKDLRPICGTDGV

TYTNDCLLCAYSIEFGTNISKEHDGECKETVPM

NCSSYANTTSEDGKVMVLCNRAFNPVCGTDGV

TYDNECLLCAHKVEQGASVDKRHDGGCRKELA

AVSVDCSEYPKPDCTAEDRPLCGSDNKTYGNK

CNFCNAVVESNGTLTLSHFGKC

ęęłęózbudowane jest z powtarzających się segmentów na poziomie struktury pierwszorzędowej. Innymi słowy - sprawdź czy to białko kodowane jest przez gen zduplikowany, lub zmultiplikowany.

W celu stwierdzenia, bądź wykluczenia budowy segmentowej białka (powtarzające się odcinki sekwencji) należy dokonać analizy porównawczej danej sekwencji z nią samą:

utwórz plik tekstowy (np. o nazwie sekwencja.txt) zawierający powyższą sekwencję zapisaną w formacie FASTA,

uruchom program GEISHA,

z menu "Action" wybierz "Import sequences..." i wczytaj plik sekwencja.txt (użyj przycisku File w dolnej części okna importowania sekwencji). W oknie roboczym programu pojawi się sekwencja (o nazwie "sekwencja"),

powtórz jeszcze raz czynność wczytywania sekwencji i wgraj ponownie tę samą sekwencję do programu. W oknie roboczym będą teraz dwie sekwencje, które są dwukrotnym powtórzeniem tej samej sekwencji.

Zaznacz okienka przy obu sekwencjach, a następnie kliknij myszką na przycisk "Pairwise homology...". Pojawi się okno ustawienia parametrów analizy porównawczej z wpisanymi wartościami domyślnymi.

Poprzez manipulację tymi wartościami pozbądź się nieistotnych "szumów" z graficznej interpretacji wyników. Parametry te należy dobierać ostrożnie, żeby nie wyeliminować wyników znaczących, które mogą świadczyć o segmentowej strukturze pierwszorzędowej białka. Dla sekwencji podanej w tym ćwiczeniu zaleca się ustawić następujące wartości parametrów:

Window size=21,

Score threshold=0.5.

ęęłęóWynik porównania wewnętrznego sekwencji z pliku sekwencja.txt (z nią samą) przy ustawieniu parametrów: Window size=21; Score threshold=0.5

Wynik dot matrix pokazuje, że oprócz oczywistej 100% identyczności sekwencji porównywanej z nią samą (żółty, ciągły odcinek na głównej przekątnej układu dot matrix) istnieją dodatkowe wyraźne odcinki odpowiadające innym ustawieniom wzajemnym porównywanych sekwencji niż ustawienie 1-1 (pierwsza pozycja naprzeciwko pozycji pierwszej, druga naprzeciwko drugiej, itd.).

Te dodatkowe odcinki świadczą o tym, że pewne fragmenty sekwencji są w istotnej mierze takie same (bardzo podobne), co fragmenty położone w innych miejscach całej sekwencji. A zatem mogą być ( i zazwyczaj są) efektem duplikacji genu kodującego to białko. Jeśli duplikacja miała miejsce stosunkowo dawno w czasie ewolucyjnym, to te dodatkowe odcinki będą krótsze i zawierać będą sporo przerw (pozycji nieidentycznych).

Im dłuższe i bardziej nieprzerwane są te dodatkowe odcinki, tym mniej zmian mutacyjnych zaszło po takiej duplikacji, czyli sama duplikacja miała miejsce stosunkowo niedawno.

Jeśli wynik dot matrix pokazuje tylko jeden taki dodatkowy odcinek po jednej stronie przekątnej (druga strona jest po prostu jej zwierciadlanym odbiciem) to znaczy, że w przeszłości gen uległ tylko jednej duplikacji. Jeśli takich dodatkowych odcinków jest więcej i są one tak samo oddalone od siebie, to taki gen jest przykładem produktu multiplikacji. Liczba odcinków po jednej stronie głównej przekątnej jest zawsze o 1 mniejsza od liczby powtarzających się segmentów w sekwencji.

Zatem w przypadku sekwencji analizowanej w tym ćwiczeniu mamy do czynienia z produktem dwóch duplikacji wyjściowej sekwencji, czyli z trzema powtarzającymi się segmentami.

Na podstawie analizy otrzymanych wyników można określić długość powtarzających się segmentów, oraz dokładnie określić ich początek i koniec. Długość segmentu wynika z różnicy numerów pozycji ustawionych naprzeciw siebie przy wynikach znaczących.

W analizowanym przypadku najmniejsze różnice wynoszą zawsze ok. 65, a większe wartości są wielokrotnością tej liczby. Stąd wniosek, że długość jednego segmentu wynosi ok. 65 pozycji. Przy jednym z dodatkowych ustawień uwidocznionych na obrazie dot matrix widać wyraźnie, że zawiera on dwa odcinki, które niezupełnie są kolinearne.

Krótszy odcinek jest nieco przesunięty w stosunku do dłuższego, przy czym jest to przesunięcie nieznaczne, bardzo odbiegające od wartości 65. Taki obraz świadczy o istnieniu delecji/insercji między odpowiednimi dwoma segmentami (w tym przypadku - między segmentem drugim i trzecim). Długość odcinka, który uległ delecji/insercji można określić w taki sam sposób jak określa się długość powtarzających się segmentów.

Wyszukiwarka