RAPORT - LAB 4 - Agata Jackiewicz - sprawdzony, MGR, sem I, Bioinformatyka zaawansowana


Łódź, 13.05.2011r.

Agata Jackiewicz

Biotechnologia

Nr albumu: 149769

BIOINFORMATYKA

LABORATORIUM 4:

Przeszukiwanie baz danych sekwencyjnych: BLAST, PSI-BLAST oraz PHI-BLAST

Ćwiczenie 1

Numery dostępowe do sekwencji mRNA oraz białka z bazy RefSeq dla ludzkiego genu RBP4 to:

Punkt 1

  1. Uruchamiam stronę internetową: http://blast.ncbi.nlm.nih.gov/Blast.cgi.

  2. Uruchamiam program BLASTn.

  3. Stosując odpowiednie parametry dokonuję przeszukania BLASTn.

  4. Formatuję listę wyników w taki sposób, by wyświetlała ich tylko 50.

  5. Na 50 pozycji listy wyników znajduje się następujące trafienie:

Numer dostępowy

Opis

XM_001375167

PREDICTED: Monodelphis domestica similar to retinol binding protein 4, plasma, (LOC100023751), mRNA

Dla powyższego trafienia:

Punkt 2

  1. Uruchamiam stronę internetową: http://blast.ncbi.nlm.nih.gov/Blast.cgi.

  2. Uruchamiam program BLASTp.

  3. Stosując odpowiednie parametry dokonuję przeszukania BLASTp.

  4. Formatuję listę wyników w taki sposób, by wyświetlała ich tylko 50.

  5. Na 50 pozycji listy wyników znajduje się następujące trafienie:

Numer dostępowy

Opis

CBN81434.1

Plasma retinol-binding protein 1 [Dicentrarchus labrax]

Dla powyższego trafienia:

Punkt 3

Na podstawie otrzymanych wyników mogę stwierdzić, iż więcej informacji o sekwencji w zapytaniu daje przeszukiwanie z użyciem BLASTp. Opis sekwencji w zapytaniu jest bardziej rozbudowany. Ponad to ukazuje się dodatkowa informacja mówiąca, że sekwencja białka zawiera konserwatywną domenę, która jest charakterystyczna dla nadrodziny białek - lipokalin. Dobrze, w przeszukiwaniu BLASTp jest więcej trafień homologów z rodziny RBP[Author ID1: at Mon May 16 13:27:00 2011 ]

Ćwiczenie 2

Punkt 1

  1. Uruchamiam stronę internetową: http://blast.ncbi.nlm.nih.gov/Blast.cgi.

  2. Uruchamiam narzędzie BLASTp.

  3. Dokonuję przeszukania BLASTp stosując jako bazę danych - SwissProt, gdyż wiem, że informacje w niej zawarte są przypisane przez ekspertów i przez to znacznie bardziej wirygodne. W odpowiednie okno wprowadzam sekwencję:

>fragment_mysiej_sekw

RALSLIGKRAISTSVCLRAHGSVVKSEDYAFPTYADRRDYPLPDVAHVTMLSASQKALKEKEKADWSSLSRDEKVQLYRIQFNESFAEMNRGTNEWKTVVGMAMFF

  1. Wyniki, które otrzymałam wskazują na to, iż wprowadzona sekwencja białka stanowi fragment białka: Cytochrome c oxidase subunit 4 isoform 1,

mitochondrial.

Długość białka wynosi: 169 aminokwasów.[Author ID1: at Mon May 16 13:34:00 2011 ]

OK[Author ID1: at Mon May 16 13:34:00 2011 ]

Ćwiczenie 3

Punkt 1

  1. Uruchamiam stronę internetową: http://blast.ncbi.nlm.nih.gov/Blast.cgi.

  2. Uruchamiam narzędzie BLASTp.

  3. Stosując odpowiednie parametry dokonuję przeszukania BLASTp.

  4. Na liście trafień znalazło się 1 białko należące do rodziny białek GALT:

Lp.

Numer dostępowy

Wartość E

Ocena

1.

P31764

4.9

30.0

Punkt 2

  1. Uruchamiam stronę internetową: http://blast.ncbi.nlm.nih.gov/Blast.cgi.

  2. Uruchamiam narzędzie PSI-BLAST.

  3. Stosując odpowiednie parametry dokonuję przeszukania PSI-BLAST.

  4. Po pierwszej iteracji na liście trafień znalazło się to samo białko z rodziny GALT:

Lp.

Numer dostępowy

Wartość E

Ocena

1.

P31764

4.9

30.0

Po drugiej iteracji wartości dla tego samego białka z rodziny GALT:

Lp.

Numer dostępowy

Wartość E

Ocena

1.

P31764

4e-05

47.0

Znaczący statystycznie jest wynik otrzymany po drugiej iteracji. Wskazuje na to otrzymana wartość E, która im mniejszą osiąga wartość tym wynik dopasowania jest bardziej istotny statystycznie.

  1. Trafienie ludzkiego białka GALT o numerze dostępowym P07902 pojawiło się na liście wyników w drugiej iteracji.

  2. Wartości parametrów dla białka z rodziny GALT o numerze dostępowym P49789 w miarę zwiększania liczby iteracji zawiera tabela poniżej:

  3. Nr iteracji

    Wartość E

    Ocena

    1

    4.9

    30.0

    2

    4e-05

    47.0

    3

    8e-19

    92.3

    W miarę zwiększania liczby iteracji wartość oceny zwiększa się, natomiast wartość E zmniejsza się. Jednocześnie oznacza to, iż wynik staje się coraz bardziej istotny statystycznie.

    Wartości te po kolejnych iteracjach ulegają zmianie ze względu na to, że informacja zawarta w dopasowaniu wielosekwencyjnym wyznaczonym po poprzedniej iteracji jest wykorzystywana w kolejnej.

    W pierwszym przeszukaniu ocenie podlega jedynie dopasowanie sekwencji w zapytaniu do sekwencji z bazy danych. Na podstawie uzyskanych dopasowań par sekwencji jest następnie konstruowane dopasowanie wielosekwencyjne, które obejmuje umieszczenie pod sekwencją w zapytaniu wyszukanych sekwencji z bazy danych.

    Wówczas podczas kolejnej iteracji dopasowywania ocenie będzie podlegało dopasowanie pozostałych sekwencji z bazy danych z powstałą kolumną dopasowania wielosekwencyjnego.

    Co więcej do oceny dopasowania wykorzystywany jest system punktacji określany mianem precyzyjnie różnicującej macierzy wartościującej (PSSM). Jest ona specyficzna i dopasowana do wyników otrzymanych po poprzedniej iteracji.

    Wykorzystanie macierzy PSSM w przeszukiwaniu baz danych pozwala na uzyskanie istotnych statystycznie trafień, które nie były obecne na liście wyników po pierwszej iteracji przeszukiwania. [Author ID1: at Mon May 16 13:43:00 2011 ]

    OK. Przy kolejnej iteracji PSI BLAST tworzy nową macierz punktacji uzależnioną od zmian zachodzących na konkretnych pozycjach w [Author ID1: at Mon May 16 13:43:00 2011 ]zbiorze[Author ID1: at Mon May 16 13:44:00 2011 ] [Author ID1: at Mon May 16 13:43:00 2011 ]wynikow[Author ID1: at Mon May 16 13:44:00 2011 ]

    Punkt 3

    Na podstawie uzyskanych wyników z wykorzystaniem obu programów łatwo stwierdzić, iż w analizowanym przypadku, lepszy dla określenia podobieństwa między białkami jest PSI-BLAST. Po trzech iteracjach wyraźnie widać, iż białko z rodziny GALT jest trafieniem istotnym statystycznie, na co zupełnie nie wskazuje wynik otrzymany w wyniku przeszukania bazy danych z zastosowaniem programu BLASTp (E = 4,9).

    Wynika to z faktu, iż analizowane białka są spokrewnione, ale nie jest to oczywiste po porównaniu ich sekwencji aminokwasowej.

    Po każdej kolejnej iteracji konstruowana jest macierz PSSM specyficzna dla otrzymanego wyniku. Dopuszcza ona podstawienia aminokwasów, które nie są dopuszczane w standardowych macierzach punktacji. [Author ID1: at Mon May 16 13:52:00 2011 ]

    OK[Author ID1: at Mon May 16 13:52:00 2011 ]

    Ćwiczenia 4

    Punkt 1

    1. Uruchamiam stronę internetową: http://www.expasy.ch/.

    2. W bazie danych UniProtKB odszukuję dane białko oraz jego kod dostępowy dla bazy danych PROSITE - PS00156

    3. Wzór sekwencyjny dla dekarboksylazy monofosforanu orotydyny to:

    [LIVMFTAR]-[LIVMF]-x-D-x-K-x(2)-D-[IV]-[ADGP]-x-T-[CLIVMNTA]

    Punkt 2

    1. Uruchamiam stronę internetową: http://blast.ncbi.nlm.nih.gov/Blast.cgi.

    2. Uruchamiam narzędzie PHI-BLAST.

    3. Stosując odpowiednie parametry dokonuję przeszukania PI-BLAST.

    Kod dostępowy białka, który stosuję to: P05035.

    1. W pierwszej iteracji PHI-BLAST uzyskałam 270 wyników.

    Punkt 3

    1. Dokładna sekwencja wzoru z N. crassa to: IFEDRKFVDIGSTV

    2. Przekształcam wzór sekwencyjny zawarty w Punkcie 1 tak, aby dokładnie odzwierciedlał sekwencję otaczająca katalityczną lizynę (Lys, K) i zawierał po 2 aminokwasy z każdej strony lizyny

    [LIVMFTAR]-[LIVMF]-x-D-R-K-F-V-D-[IV]-[ADGP]-x-T-[CLIVMNTA]

    Punkt 4

    1. Stosuję nowoutworzony wzór w celu ponownego przeszukania PHI-BLAST.

    2. Otrzymuję: 6 wyników.

    Punkt 5

    Wyniki otrzymane w punktach 2 oraz 3 znacznie różnią się od siebie ich liczbą. Różnica ta spowodowana jest zastosowaniem w punkcie 4 przekształconego wzoru sekwencyjnego, w którym zostały dokładnie zdefiniowane po 2 aminokwasy z każdej strony katalitycznej lizyny. W punkcie 2 do przeszukiwania stosowany był wzór sekwencyjny, w którym zdefiniowany był tylko jeden z aminokwasów otaczających katalityczną lizynę (kwas asparaginowy - D). [Author ID1: at Mon May 16 14:00:00 2011 ]

    OK.[Author ID0: at Thu Nov 30 00:00:00 1899 ]

    [Author ID0: at Thu Nov 30 00:00:00 1899 ]

    Ocena: bardzo dobry[Author ID1: at Mon May 16 14:01:00 2011 ]



    Wyszukiwarka