Bioinformatyka – wykład 5
Wyszukiwanie w bazach sekwencji BLAST:
Biologiczne znaczenie podobieństwa sekwencji
Homologia, identyczność i podobieństwo
Działanie BLAST’a
Interpretacja raportu BLAST’a
Biologiczne analizy z BLAST’em
Działanie PSI-BLAST
Podobieństwo sekwencji
Dwie sekwencje białkowe identyczne w ponad 25% (dla sekwencji ponad 100aa) są „prawie zawsze” homologiczne
Dwie sekwencje DNA identyczne w ponad 70% (dla sekwencji ponad 100nt) są „prawie zawsze” homologiczne
Sekwencje homologiczne posiadają : - wspólnego przodka (białka i DNA)
- podobną strukturę 3D (białka), - często podobną funkcję (białka)
Homologia
Dwa białka o identyczności mniejszej niż 25%
- mogą być lub nie być homologiczne
- przy takiej identyczności nie można stwierdzić jednoznacznie
Ten zakres podobieństwa określany jest jako tzw. „Strefa półmroku” (ang. „Twilight Zone”)
Homologia, podobieństwo i identyczność
Identyczność jest miarą uzyskaną na podstawie dopasowania sekwencji
- sekwencja A może być „w 32 % identyczna” jak sekwencja B
Podobieństwo jest miarą jak mało różnią się od siebie pod względem właściwości np. aminokwasy w pewnej pozycji dwóch sekwencji
- np. izoleucyna i leucyna są podobne
Homologia jest cechą, która występuje lub nie występuje
- sekwencja A JEST lub NIE JEST homologiczna z sekwencją B
- sekwencja A NIE może być „w 40% homologiczna z” B
Homologia jest ustalana na podstawie zmierzonej identyczności lub podobieństwa.
Jak ustalić homologię?
Porównanie sekwencji białka A z każdą sekwencją w bazie danych np. SwissProt
Zidentyfikowanie białka B, które jest np. w 40% identyczne do badanego
- (specjaliści preferują ocenę na bazie E-value)
Jeśli A i B są bardzo podobne, możemy wnioskować o ich bardzo prawdopodobnej homologii
- analogia do np. „Jaś i Małgosia są prawdopodobnie rodzeństwem ponieważ są bardzo podobni”
Jeśli znana jest struktura lub funkcja białka B, wtedy białko A i białko B bardzo prawdopodobnie posiadają tę sama strukturę lub funkcję.
Biologia in-silico:
Ustalenie homologiczności białka A i B umożliwia ekstrapolację wiedzy uzyskanej z jednego z nich na drugie
Jest to rodzaj wirtualnego eksperymentu
Jest to „biologia in-silico”!
BLAST:
BLAST: Basic Local Alignment Search Tool
Podstawowe narzędzie wyszukiwania lokalnegodopasowania
BLAST – narzędzie porównywania sekwencji ze wszystkimi innymi sekwencjami zawartymi w bazie danych
BLAST może porównać: - sekwencje nukleotydowe, - sekwencje białkowe
BLAST dokładniej porównuje sekwencje białkowe niż sekwencje nukleotydowe
BLAST dokonuje dopasowania lokalnego: - dopasowuje to, co może być dopasowane, - ignoruje resztę
BLAST jest bardzo szybki np. przeszukanie SwissProt zajmuje kilka minut
BLAST posiada szereg funkcji przygotowanych do różnorodnych zadań
BLAST – funkcje:
Wybór właściwego BLAST’a białkowego
Zadanie BLAST
Informacje nt białka (np. funkcji) blastp (P Û P)
blastp porównuje analizowane białko
z białkami w bazie danych
Wykrycie nowych genów kodujących tblastn (P Û P ¬ N)
białko tblastn porównuje analizowane białko
z sekwencjami DNA po translacji w 6 możliwych ramkach odczytu
Uruchomienie blastp
Popularne publiczne serwery: NCBI blast.ncbi.nlm.nih.gov/Blast.cgi, EBI www.ebi.ac.uk/Tools/sss/, EMBNet ch.embnet.org/software/aBLAST.html, ExPASy expasy.org/tools/blast/, Instytut Pasteur’a bioweb2.pasteur.fr/dbsearch/intro-en.html
Wybór przeszukiwanej bazy danych: NR – aby szukać dowolnej sekwencji, Swiss-Prot – aby przeszukać białka o znanych funkcjach, PDB – aby przeszukać białka o znanej strukturze 3D
„Wytnij” i „Wklej” badaną sekwencję ew. podaj jej kod
ew. zmień macierz zastąpień (ang. substitution matrix) i karę za przerwy (ang. gap penalties)
Kliknij przycisk BLAST
Blastp – przykład
P09405 nucleolin Mus musculus; nukleolina jest wielofunkcyjnym głównym białkiem jąderkowym rosnących komórek eukariotycznych
EMBnet Advanced BLASTp; Baza przeszukiwana: SwissProt; BLAST filter On/Off; tzw. filtr regionów o małej złożoności (ang. low complexity filter) w dopasowaniu: XXXXXXX…Domyślnie włączony
NCBI BLASTp; Baza przeszukiwana: SwissProt; Filter Low complexity regions. Domyślnie wyłączony
Raport BLAST’a
Ilustracja graficzna - przegląd dopasowań
Wykaz „trafień” - ocena (tzw. score) każdego dopasowania
Dopasowania - szczegóły każdego dopasowania
Ilustracja graficzna (NCBI Blast):
Oś pozioma Query (0-700) odpowiada analizowanej sekwencji aminokwasowej (zapytanie)
Kolor koduje jakość dopasowania; czerwień: bardzo dobre; zieleń: akceptowalne; czerń: złe
Cienkie linie łączą niezależne dopasowania w tej samej sekwencji
Wykaz trafień
Indeks (np. Accession number) znalezionej sekwencji
-zależny i charakterystyczny dla konkretnej bazy sekwencji
Opis pobrany z bazy sekwencji
Ocena dopasowania Score (Bits)
- Uzyskana na podstawie macierzy zastąpień
- Duża wartość oceny = dobre dopasowanie
- wartości poniżej 50 wskazują na bardzo słabe dopasowanie
Wartość E-Value
- Mała wartość E-value = dobre dopasowanie
Odsyłacze do innych powiązanych genomowych baz danych
blastp – macierz zastąpień (substytucji)
Podobieństwo aminokwasów
Ocena E-Value
E-Value oznacza Expectation Value tj. wartość oczekiwana
Wartość E-Value jest najczęściej wykorzystywaną miarą do oceny podobieństwa sekwencji
Odpowiada na pytanie:
„Ile razy może przypadkowo pojawić się dopasowanie sekwencji co najmniej tak
dobre jak uzyskane (tj. o nie gorszej ocenie Bits score) w przeszukiwanej bazie?”
- ocena oparta jest na wartości podobieństwa sekwencji i liczbie rekordów w bazie
danych
Jeśli dopasowanie posiada bardzo małą wartość E-Value, jest bardzo wysoce prawdopodobne, że uzyskany rezultat nie jest wynikiem przypadku
- najbardziej prawdopodobnym wyjaśnieniem obserwowanego podobieństwa jest wspólne pochodzenie
- wnioskujemy o homologii analizowanych sekwencji
Wartość E-Value zależy od liczby rekordów w bazie!
„Dobre” i „złe” wartości E-Value
Mała wartość E-value oznacza „dobre dopasowanie”
1 = „złe” E-Value
1e-3 = 1x10-3 = „graniczne” E-value
1e-4 = 1x10-4 = „dobre” E-Value
1e-10 = 1x10-10 = „bardzo dobre” E-Value
Wartości E-Value mniejsze niż 1x10-4 wskazują na możliwą homologię
Wartości E-Value większe niż 1x10-4 wskazują na konieczność dodatkowej analizy, aby potwierdzić ewentualną homologię
Dlaczego używamy E-Value?
Wartości E-value umożliwiają porównywanie dopasowań różnej długości
Wartości E-value są używane przez większość programów porównujących sekwencje
- PSI-BLAST (BLAST ukierunkowany na relacje ewolucyjne)
- Analiza domen (p. MotifScan)
- FASTA (wyszukiwanie sekwencji podobnych)
Wartości E-Value zawsze mają takie samo znaczenie
- możność porównywania wyników różnych programów
Dopasowania na przykładzie NCBI Blast.
Wgląd w klastry identyczności i podobieństwa
-bywa więcej niż jeden w sekwencji
-Identities identyczne
-Positives identyczne i podobne(+)
-Gaps przerwy w dopasowaniu
Aminokwasy zaznaczone na szaro małymi literami (NCBI Blast) lub XXXX (EMBNet BLAST) są tzw. regionami o małej złożoności (ang. low-complexity regions)
- np. bogate w Pro (P) lub Glu (E)
- regiony o małej złożoności nie są brane pod uwagę podczas dopasowywania
- unikanie fałszywych trafień
BLAST sekwencji DNA
Rodzaj zastosowanego BLAST’a a rodzaj sekwencji DNA
- kodujące DNA blastx (N ® P Û P), tblastx (N ® P Û P ¬ N)
- nie kodujące DNA blastn (N Û N)
BLAST sekwencji DNA jest mniej dokładny niż BLAST sekwencji białkowej
W przypadku kodującej sekwencji DNA blastx i tblastx dokona automatycznej translacji we wszystkich 6 możliwych ramkach odczytu
BLAST nukleotydowy też może filtrować regiony o niskiej złożoności (ang. low complexity regions)
Zapytanie a BLAST
Wybór właściwego BLAST’a nukleotydowego
Zadanie BLAST
Analiza niekodującego DNA blastn (N Û N)
blastn działa dobrze tylko w
przypadku bliskich sekwencji DNA
(ponad 70% identyczności)
Wykrycie nowych białek tblastx (N ® P Û P ¬ N)
Wykrycie białek kodowanych przez blastx (N ® P Û P)
analizowaną sekwencję DNA
Ocena jakości sekwencji DNA blastx (N ® P Û P)
badana sekwencja DNA jest kodująca
ale istnieje podejrzenie, że zawiera
błędy w sekwencji
Znaczenie BLAST
Oryginalna publikacja wprowadzająca BLAST jest czwartą najczęściej cytowaną publikacją naukową: ponad 21,000 cytowań nt BLAST, ponad 18,000 cytowań nt PSI-BLAST
BLAST zmienił współczesną biologię !!!
Kolejne slajdy pokazują więcej zastosowań procedur BLAST’a; niekoniecznie są to najlepsze procedury, są efektywną metodą badań rozpoznawczych
Poszukiwanie genu z BLAST’em
Zadanie
Poszukiwanie genu
Wykorzystanie BLAST’a
Pocięcie sekwencji genomowej na krótkie (2~5Kb) nakładające się sekwencje. Użycie blastx do przeszukania podobieństwa każdego fragmentu wobec bazy białkowej NR (ang. Non Redundant protein database). Działa lepiej na genach bez intronów.
Bardziej skomplikowaną alternatywą jest sekwencjonowanie mRNA lub użycie programu do przewidywania genów
Analiza strukturalna z BLAST’em
Zadanie
Przewidywaniestruktury 3D białka
Wykorzystanie BLAST’a
Użycie blastp do wyszukania sekwencji podobnych w bazie Protein Data Bank (baza struktur przestrzennych). W przypadku uzyskania dobrego trafienia (ponad 25% identyczności) na całej długości sekwencji białka można wnioskować, iż analizowane białko ma podobną strukturę 3D.
Skomplikowaną alternatywą jest analiza struktury białka metodą rentgenowską lub NMR lub przeprowadzenie modelowania homologicznego.
Analiza in-silico z BLAST’em
Zadanie
Przewidywanie funkcji białka
Wykorzystanie BLAST’a
Użycie blastp do wyszukania sekwencji podobnych w bazie SwissProt. W przypadku uzyskania dobrego trafienia(>> 25% identyczności) na całej długości sekwencji białka, problem można uznać za w znacznej mierze rozwiązany – analizowane białko ma tę samą funkcję jak znalezione w bazie SwissProt.
Skomplikowaną alternatywą jest przeprowadzenie analizy domen lub wykonania eksperymentów „na mokro”
Zgromadzenie członków rodziny białkowej
Zadanie
Znajdowanie członkówrodziny białkowej
Wykorzystanie BLAST’a
Użycie blastp (lub PSI-BLAST – mocniejsza odmiana BLAST do wyszukiwania pokrewnych białek) do wyszukania sekwencji podobnych w bazie NR (ang. Non Redundant protein database). Po znalezieniu wszystkich członków rodziny, można wykonać dopasowanie znalezionych sekwencji i stworzyć drzewo filogenetyczne.
Skomplikowaną alternatywą jest wykorzystanie PCR do klonowania analizowanej sekwencji
PSI-BLAST
PSI-BLAST to Position-Specific Iterated BLAST
- bardziej czuły niż BLAST: znajduje dopasowania, które BLAST nie znajdzie
- bardziej specyficzny niż BLAST: znajduje mniej fałszywych dopasowań
- wolniejszy niż BLAST
PSI-BLAST odnajduje odległe homologi
- pozwala na zidentyfikowanie bardzo odległych członków rodziny białka
PSI-BLAST wykorzystuje wyniki każdej iteracji, aby zwiększyć specyficzność wyszukiwania
Iteracje PSI-BLAST
PSI-BLAST wykorzystujenajlepsze wyniki pierwszejiteracji do utworzenia profilu(PSSM tj. position-specific scoring matrix)
PSI-BLAST używa ten profil do ponownego przeszukiwania bazy
PSI-BLAST kontynuuje przeszukiwanie aż do chwili, kiedy nie znajduje już nowych dopasowani
PSI-BLAST – przykład
Analiza relacji leghemoglobiny z hemogloginą
Leghemoglobina jest hemoproteiną wiążącą tlen znalezioną w brodawkach korzeniowych roślin motylkowych. Rośliny te pozostają w symbiozie z bakteriami posiadającymi zdolność wiązania azotu atmosferycznego (bakterie brodawkowe). Kompleks enzymatyczny – nitrogenaza odpowiedzialny za przekształcenie azotu cząsteczkowego do jonów amonowych może działać tylko w środowisku beztlenowym. Dlatego jej działanie w komórkach korzeni roślin jest możliwe po obniżeniu stężenia tlenu poprzez związanie go z leghemoglobiną. (źródło: Wikipedia)
-P69905 (HBA_HUMAN) Hemoglobina człowieka
-PSI-BLAST w NCBI
blastp > PSI-BLAST
Database: Protein Data Bank (pdb)
Kolejne iteracje: Run PSI-Blast iteration …
Znalezione po 2-giej iteracji: 1GDI_A Chain A, Crystal Structure Of Ferric Complexes Of The Yellow Lupin Leghemoglobin With Isoquinoline
Kilka wskazówek dot. używania PSI-BLAST’a
Jeżeli białko jest wielodomenowe, wyszukuj zgodności z jedną domeną na raz
PSI-BLAST jest wolniejszy niż zwykły BLAST z powodu iteracji
Można podać PSI-BLAST’owi własny profil PSSM (Position Specific Substitution Matrix)- w tym celu użyj serwer w NCBI (sekcja Algorithm parameters)