LABORATORIUM BIOINFORMATYKI ZAAWANSOWANEJ
ĆWICZENIE nr 1
TEMAT: Przeszukiwanie baz danych sekwencyjnych: BLAST, PSI-BLAST i PHI-BLAST
WYDZIAŁ: BIOTECHNOLOGII I NAUK O ŻYWIENIU CZŁOWIEKA
KIERUNEK: BIOTECHNOLOGIA
ROK AKADEMICKI: 2011/2012
DATA WYKONANIA ĆWICZENIA : 8.05.2012
DZIEŃ TYGODNIA : WTOREK
GODZINA : 14.00 – 16.00
IMIĘ I NAZWISKO | NUMER ALBUMU |
---|---|
Michał Orzechowski | 178387 |
OCENA ZE SPRAWOZDANIA …………………
UWAGI PROWADZĄCEGO: …………………………………………….…..………………………………….………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
PODPIS ……………………
Ćwiczenie 1.
Numery dostępowe do sekwencji białka i mRNA dla ludzkiego genu RBP4
Białko: NP_006735.2
mRNA: NM_006744.3
Wynikiem przeszukania BLASTn bazy „nucleotide collection” używając sekwencji nukleotydowej tran skryptu ludzkiego RBP4, po odpowiednim sformatowaniu listy, okazało się być trafienie:
PREDICTED: Meleagrisgallopavo retinol-binding protein 4-like (LOC100540752), mRNA o numerze dostępowym XM_003208045.1. Jego wartość E wynosi: 1e-92
Wyszukanie bazy „non redundant protein seuences” przez BLASTp z użyciem sekwencji aminokwasowej ludzkiego białka RBP4 jako zapytania, na 50 pozycji wyników było trafienie:
unnamed protein product [Mus musculus] o numerze dostępowym BAE41090.1 , a jego wartość E wynosiła 6e-109.
Wartość E - odpowiada oczekiwanej liczbie sekwencji z bazy danych, których ocena dopasowania z sekwencją w zapytaniu jest większa lub równa od obserwowanej oceny określonego dopasowania. Niskie wartości E (mniejsze niż 1) oznaczają, że dopasowanie danej pary sekwencji jest istotne statystycznie i raczej nie może być wynikiem przypadku.
E = Kmn e-lS
Podczas przeszukiwania programami BLASTn i BLASTp nie można bezpośrednio porównać wartości E. Należy porównać, które trafienia są precyzyjniejsze. Jednakże można zaobserwować, że wartość E dla przeszukiwania przez BLASTp jest większa od tej uzyskanej przez przeszukiwanie przez BLASTn.
Na podstawie uzyskanych wyników stwierdzam, że więcej informacji o sekwencji w zapytaniu daje BLASTp. Opis sekwencji jest nardziej rozbudowany oraz w przeszukiwaniu jest więcej trafień homologów.
Ćwiczenie 2.
Wynikiem przeszukiwania dla fragmentu sekwencji podanej w instrukcji:
>fragment_mysiej_sekw RALSLIGKRAISTSVCLRAHGSVVKSEDYAFPTYADRRDYPLPDVAHVTMLSASQKALKEKEKADWSSLSRDEKVQLYRIQFNESFAEMNRGTNEWKTVVGMAMFF
Jest białko Oksydaza Cytochromu C podjednostki 4 izoformy 1, mitochondrialna. Białko to składa się z 169 aminokwasów, a jego numer dostępowy to NP_034071.1.
O najlepszym wyniku dopasowania decyduje pokrycie się z sekwencją (która u nas wynosi 100%) oraz wartość E.
Ćwiczenie 3.
Znalezione białko FHIT w bazie Swiss-Prot to białko FHIT_HUMAN Bis(5'-adenosyl)-triphosphatase o numerze dostępowym P49789.
Po zastosowaniu się do zaleceń podanych w instrukcji i dokonaniu przeszukania BLASTp odnalazłem jedno trafienie spełniające kryteria naszego poszukiwania i było to białko Galactose-1-phosphate uridylyltransferase o numerze dostępowym P31764.2.
Pełna nazwa białka - Galactose-1-phosphate uridylyltransferase
Wartość E: 7.5
Ocena: 30.0
Po przeszukaniu bazy swiss prot programem PSI Blast nie odnalazłem żadnego trafienia odpowiadającego ludzkiemu białku GALT (P07902).
Odnalazłem natomiasturydylo-transferazę galaktozo-1-fosforanową o numerze dostępowym P31764.2.
Iteracja | Wartość E | Ocena |
---|---|---|
1 | 7,5 | 30.0 |
2 | 4e-06 | 48.1 |
3 | 1e-25 | 103 |
Po drugiej iteracji w wynikach pojawia się białko GALT.
Iteracja | Wartość E | Ocena |
---|---|---|
1 | 3e-05 | 45.8 |
2 | 1e-24 | 101 |
3 | 2e-35 | 130 |
Zaobserwowano zależność w obu przypadkach, że wraz z zwiększaniem liczby iteracji ocena rośnie, przy jednoczesnym spadku wartości E. Wynik robi się coraz bardziej istotny statystycznie z każdą iteracją.
PSI-BLAST dostosowuje macierz punktacji do uzyskanych wyników, dzięki czemu można znaleźć dalej spokrewnione sekwencje o niskiej identyczności sekwencji ale większym podobieństwie.
Ćwiczenie 4.
PS00156 – numer dostępowy w bazie PROSITE dla dekarboksylazy monofosforanu.
[LIVMFTAR]-[LIVMF]-x-D-x-K-x(2)-D-[IV]-[ADGP]-x-T-[CLIVMNTA]
Numer dostępowy zastosowanej sekwencji - P05035. W pierwszej iteracji uzyskałem 270 wyników.
Dokładna sekwencja N. crassa LIFEDRKFVD, zatem sekwencja w której po 2 aminokwasy otaczają katalityczna lizynę wygląda następująco:
[LIVMFTAR]-[LIVMF]-x-D-R-K-F-V-D-[IV]-[ADGP]-x-T-[CLIVMNTA]
Przeszukanie PHI-BLAST z sekwencją, do której dołożyliśmy 3 prawidłowe aminokwasy wokół katalitycznej lizyny, dało nam 6 wyników.
Punkt 4 ogranicza się tylko do 6 wyników, gdzie w pkt. 2 otrzymaliśmy ich 270. Jest to spowodowane tym, że w punkcie 4 wstawione są 3 konkretne aminokwasy które ograniczają dopasowanie.