Bioinformatyka – wykład 4
Analiza sekwencji białkowej
Biochemia In-silico
Serwery „online” pozwalają określić wiele właściwości sekwencji białkowych
- masa cząsteczkowa
- współczynnik ekstynkcji
- połówkowy „czas życia” białka
Możliwa jest symulacja trawienia białka proteazami i rozkładu innymi czynnikami
chemicznymi. Dostępne na: www.expasy.ch
Podstawowe właściwości białka
ProtParam
wyznacza paramtery fizykochemiczna sekwencji białkowej: skład aminokwasowy
i atomowy, punkt izoelektryczny, współczynnik ekstynkcji, stabilność, itp.
UWAGA podczas interpretacji wyników!
Przykład: właściwości synataksyny 1A szczura P32851
PeptideCutter
przewiduje potencjalne miejsca trawienia sekwencji białkowej proteazami i czynnikami chemicznymi Przykład: trawienie albuminy surowicy człowieka
(ALBU_HUMAN, P02768)
Analiza lokalnych właściwości
Wiele właściwości lokalnych istotnie wpływa na funkcję białka
- Regiony hydrofobowe mogą być domenami transmembranowymi
- Regiony „coiled-coiled” – wzajemne „nawinięcie” dwóch lub trzech alfa
α–helis są potencjalnymi domenami iterakcji białko-białko
- Jednolite regiony hydrofilowe są potencjalnymi pętlami „zahaczonymi” na powierzchni białka
Techniki ich wykrywania
- Przewidywanie metodą „przesuwanego okna” (prosta)
- Przewidywanie metodami Ukrytych Modeli Markowa (wyrafinowana)
Technika „przesuwanego okna”
Dobrze nadaje się do wykrywania silnych „sygnałów”. Metoda bardzo prosta
- niewiele artefaktów
- niezbyt wielka czułość
Wykorzystanie: ProtScale na www.expasy.org
Praktyczna zasada:
- okno powinno mieć rozmiar
- zbliżony do rozmiaru
- wykrywanego efektu
Domeny transmembranowe:
Wykrycie domen transmembranowych niesie wiele informacji o białku
Wiele ważnych receptorów posiada w swej strukturze siedem (7) domen transmembranowych
Segmenty transmembranowe można wykrywać z użyciem ProtScale (via
www.expasy.org)
Najbardziej dokładne przewidywanie można uzyskać z wykorzystaniem
serwera TMHMM (Transmembrane Helices, Hiden Markov Models)
ProtScale – przykład :Fragment reduktazy żelazowej P78588
(FREL_CANAL)
Skala hyfrofobowości
- np. Kyte’a & Doolittle’a
- np. Eisenberg’a
ProtScale
- wybór szerokości okna ! (19)
TMHMM – przewidywanie domen transmembranowych
TMHMM jest obecnie najlepszą metodą przewidywania obecności w strukturze domen transmembranowych
TMHMM wykorzystuje metodę tzw. „ukrytych modeli Markowa”
Zasada jest całkowicie różna od „przesuwanego okna” stosowanego przez ProtScale
TMHMM daje tylko przewidywanie (ale bardzo prawdopodobne)
Model struktury przestrzennej rodopsyny:
Rodopsyna, ze względu na barwę nazywana też purpurą wzrokową lub czerwienią wzrokową – światłoczuły barwnik występujący w narządzie wzroku (pręciki w siatkówce) głowonogów, stawonogów i kręgowców. Rodopsyna warunkuje widzenie zmrokowe – tj. odcieni szarości. Rodopsyna składa się z białka opsyny, które wiązaniem kowalencyjnym łączy się z kofaktorem 11-cis retinalem (retinenem), który pełni rolę chromoforu. Wiązanie łączy ε- aminową grupę lizyny w pozycji 296 łańcucha białkowego z grupą aldehydową retinalu. Żaden inny stereoizomer retinalu nie wykazuje takiej właściwości łączenia się z opsyną. Pod wpływem światła docierającego do znajdującej się w pręcikach rodopsyny (wystarczy 1 foton) dochodzi do izomeryzacji formy 11-cis retinalu w drugi izomer – formę alltrans. Rodopsyna jest białkiem transbłonowym złożonym z 7 helikalnych łańcuchów i zmiana konformacyjna rodopsyny, powoduje aktywację związanego z nią białka G,
transducyny, a następnie inicjację sygnału komórkowego. Metarodopsyna II pod wpływem witaminy A powraca do formy 11-cis, łączy się z powrotem z opsyną w cząsteczkę rodopsyny gotową do rozpadu. Nazywa się to cyklem widzenia. Istotny wydaje się być sposób pobudzenia neuronów w siatkówce. W awitaminozie A synteza rodopsyny jest niemożliwa, co objawia się upośledzeniem widzenia o zmroku (tzw. ślepota zmierzchowa). Za odkrywcę rodopsyny uważa się Franza Christiana Bolla
Białka G i receptory sprzężone z białkami G
Przewidywanie regionów wtórnie zwiniętych helis („coiled-coil”)
Obszary potencjalnego oddziaływania białko - białko
Przewidywanie: COILS Serve (http://www.ch.embnet.org/software/COILS_form.html)
Przykład: dimer miozyny łańcuch lekki (aa. 953–1080)
Przewidywanie modyfikacji post-translacyjnych:
Modyfikacje post-translacyjne bardzo często występują w różnych białkach bardzo w podobnych konserwatywnych wzorcach (motywach, szablonach) sekwencji
PROSITE – baza danych większości znanych wzorców (motywów), każdy skojarzony z funkcją białka lub modyfikacją post-translacyjną
PROSITE dostarcza bardzo obszernej dokumentacji każdej znanej funkcji wzorca (motywu)
Możliwa jest wyszukiwanie wszystkich znanych wzorców PROSITE w dowolnej sekwencji białkowej np. w celu określenia bardzo prawdopodobnych modyfikacji potranslacyjnych np. w celu określenia prawdopodobnej lokalizacji wewnątrzkomórkowej np. w celu określenia prawdopodobnej funkcji białka
Dojrzewanie białka modyfikacje potranslacyjne:
Dojrzewanie może obejmować:
usuwanie fragmentów
specyficzne cięcie (cleavage) białka
modyfikacje chemiczne
fosforylację
przyłączenie lipidów lub cukrów (glikozylacja)
Wzorce PROSITE’a i wyrażenia regularne
Wzorzec: <A-x-[ST](2)-x(0,1)-{V}
Tekst: Sekwencja musi zaczynać się (N-koniec) alaniną ^A, następnie jest dowolny aminokwas x, następnie jest dwa razy seryna lub treonina [ST](2), następnie dowolny aminokwas lub nic x(0,1), następnie dowolny aminokwas z wyjątkiem waliny {V}
Wyrażenie regularne (Regexp): ^A.[ST]{2}.?[^V]
Przykłady wzorców PROSITE
Enzymy
- Miejsce aktywne dehydrogenazy L-mleczanowej [LIVMA]-G-[EQ]-H-G-[DN]-[ST]
- Aktywacja ubikwityny P-[LIVM]-C-T-[LIVM]-[KRH]-x-[FT]-P
Sygnatury potranslacyjne
- Miejsce fosforylacji kinazy tyrozynowej [RK]-x(2)-[DE]-x(3)-Y or [RK]-x(3)-[DE]-x(2)-Y
- Splicing białka [DNEG]-x-[LIVFA]-[LIVMY]-[LVAST]-H-N-[STC]
Sygnatury oddziaływania DNA-RNA
Histon H4 G-A-K-R-H
- p53 M-C-N-S-S-C-[MV]-G-G-M-N-R-R
Wyszukiwanie wzorców PROSITE
PROSITE na ExPASy www.expasy.org/tools/scanprosite
Wzorce/motywy PROSITE są zapisywane w postaci wzorców
- „wzorce” – krótkie sekwencje związane z bardzo istotnymi właściwościami białka (lokalizacja komórkowa, wiązanie liganda, zmiana postranslacyjna, …)
- krótkie wzorce są mało informacyjne (przypadkowość)
- wzorce jedynie wskazują możliwość !
- aby wyciągnąć wnioski, należy zestawić wynik PROSITE’a z innymi informacjami
- dobrze sprawdzają się w identyfikowaniu krótkich motywów o określonej funkcji biologicznej
Nie wszystko jest w PROSITE !
Aktualnie PROSITE zawiera ok. 1300 wzorców
Inne specjalistyczne narzędzia do przewidywania post-translacynych modyfikacji: ExPASy sekcja Post-translational modification prediction
Przykład: prekursor ludzkiego czynnika V krzepniecia krwi – P12259
Modyfikacja post-translacyjna:
Rozszczepienie proteolityczne na dwa łańcuchy:
Coagulation factor V łańcuch ciężki (koniec N)
Coagulation factor V łańcuch lekki (koniec C)
bardzo liczne glikozylacje
Wykonanie:
- UniProt P12259
- ScanProsite
- „długie” wzorce
- „krótkie” wzorce: glikozylacja PS00001 ASN_GLYCOSYLATION aa. 51-54, …
uwaga: mirystylacja PS00008 MYRISTYL aa. ?20-27?, … (powinna występować na N-końcu)
Interpretacja wzorców PROSITE’a
Sprawdź funkcję wzorca: Czy jest zgodna z badanym białkiem?
- wzorce mogą sugerować nieistniejącą cechę białka: np.: wzorzec mirystylacji u prokariota - nieprawdopodobne; w białkach prokariota nie występuje mirystylacja!
(mirystylacja – przeniesienie reszty kwasu mirystynowego na N-końcową resztę glicyny)
Krótkie wzorce są bardziej informacyjne, jeśli są zachowane w sekwencjach homologów
- w tej sytuacji należy przygotować dopasowanie wielu sekwencji (prezentacja)
Domeny białkowe:
Definicja:
- strukturalna domeny białkowej - Niezależna jednostka fałdowania białka globularnego. Fragment cząsteczki białka zachowujący swój kształt po oddzieleniu od reszty cząsteczki białka
- oparta na sekwencji aa- Konserwatywne fragmenty sekwencji obecne w różnych białkach
Domeny składają się co najmniej z 50 aminokwasów (mogą osiągać do 500 aa)
Domeny są na ogół mniej konserwatywne niż wzorce, ale zazwyczaj są dłuższe
Domeny opisywane są tzw. profilami (oraz wzorcami)
Domeny są jednostkami funkcyjnymi
W przypadku białek, analiza domen stopniowo zastępuje analizę wzorców
Białka zazwyczaj zbudowane są z domen
Domena jest autonomiczną jednostką fałdowania cząsteczki białka
Domeny mają co najmniej 50 - 200 aminokwasów, rzadko mniej (np. palec cynkow)
Częste jest występowanie równoczesne:domeny regulatorowej, domeny wiążącej, domeny katalitycznej np. immunotoksyna DTGM
Tytyna (konektyna) – domeny białkowe
Tytyna – największe nieoligomeryczne białko, 34 tys. aa, m.cz. 3.8 mln. Da ok. 280 domen
Ewolucja białka przez przyrastanie domen
Ok. 2/3 białek organizmów jednokomórkowych i ok. 80% wielokomórkowych to białka wielodomenowe powstałe w wyniku duplikacji genów
Wielodomenowe białka powstały w wyniku presji ewolucji na nowe funkcje
Różne białka różnicowały się od wspólnego przodka przez różne kombinacje i przyłączanie domen
Wiele tych samych domen znajdujemy u Archea, Bacteria i Eukariota
Białka nicieni zawierają ok. 3x więcej domen niż białka drożdży, białka człowieka zawierają ok. 2x więcej domen niż białka nicieni
Ta sama domena występuje w różnych białkach
Domena posiada specyficzną funkcję, ale funkcja białka zależy również od innych domen w nim występujących
Struktura i funkcja białka zmienia się, ale domeny zmieniają się mało (konserwatyzm)
Aktualnie zdefiniowanych jest ok. 9 tys. domen (Pfam)
Nowe sekwencje białkowe w większości powstają w wyniku kombinacji już istniejących, a nie „wynajdowania” nowych
Nature is a tinkerer and not an inventor (Natura jest majsterkowiczem a nie wynalazcą) Jacob. F. (1977) „Evolution and tinkering” Science 196 (4295): 1161-6
Wykrywanie domen
Wykrywanie domen przez: - porównywanie białek o podobnej funkcji,
- dopasowywanie sekwencji tych białek,- identyfikowanie konserwatywnych segmentów
Domena jest dopasowaniem wielu sekwencji opisanym jako tzw. profil (w PROSITE; to nie jest wzorzec!)
W każdej kolumnie wskazany jest aminokwas najczęściej występujący
Profil opisuje częstość/prawdopodobieństwo występowania aminokwasu w danej pozycji
Palec cynkowy – domena białkowa:
domena wiążąca DNA,bardzo „popularna” domena!
krótka!: 25-30 AA - 2 krótkie odcinki β- sheets, następnie 〈-helix
Zn2+ (kluczowy dla stabilności)
42 tys. białek w UniProtKB z tą domeną
Kolekcje domen
Badacze wykrywają i charakteryzują domeny białkowe od ponad 20 lat – identyfikacja domen jest bardzo ważna – określa prawdopodobną funkcję białka
Istnieje osiem (8) aktualizowanych kolekcji wykrytych domen
- Kolekcje ręczne są bardzo dokładne ale niewielkie
- Kolekcje automatyczne są bardzo obszerne ale mniej informacyjne
Kolekcje te : nakładają się na siebie i zostały zestawione przez różnych badaczy. Mają inne słabe i mocne strony, dlatego analizując swoje białko, należy korzystać ze wszystkich!
„Wielka 8”(prezentacja)
Pfam jest największą kolekcją ręczną (ok. 8 tys.domen)
Pfam występuje często jako odniesienie
Przeszukiwanie kolekcji domen:
Domeny w Pfam na ogół posiadają znaną funkcję. Dopasowanie pomiędzy badaną sekwencją a domeną : wskazuje na możliwą funkcję białka, jest bardzo informacyjne dla dalszych badań!
Trzy dostępne serwery do znajdowania domen przez przeszukiwanie kolekcji domen:
- InterProScan www.ebi.ac.uk/interproscan
- CD-Search (Conserved Domains) www.ncbi.nih.nlm.gov
- Motif Scan www.ch.embnet.org
Przykład: domeny białka fosB – FOSB_HUMAN P53539
fosB, G0/G1 switch regulatory protein 3
Wykonanie: UniProt P53539, InterProScan
„Suwak leucynowy”, „nożyce leucynowe” (ang. leucine zipper)
InterProScan to najpełniejsze wyszukiwanie domen w bazach domen. Daje możliwość porównania sekwencji z większością kolekcji. Nie podaje oceny statystycznej uzyskanych wyników.
Wynik przeszukiwania CD-Search:
Serwer CD (Conserved Domain) udostępniany przez NCBI
CD zawiera mniej baz niż InterProScan
CD zawiera domeny (z NCBI) niedostępne w InterProScan (m.in. Cluster of Ortologous Group)
Podaje statystyczną ocenę wyniku tzw. E-value
- 10e-15 Małe E-value Dobre dopasowanie
- 2.1 Duże E-value Złe dopasowanie
Przykład: domeny białka fosB – FOSB_HUMAN P53539
Wykonanie - UniProt P53539, CD server
Motif Scan
Motif Scan zawiera domeny jeszcze niedostępne oficjalnie poprzez InterPro
Oparty głównie o PROSITE’a i Pfam
Najmocniejszy interfejs do PROSITE’a
Podaje ocenę statystyczną wyniku (ang. score)
- Im wyższy wynik tym lepiej (mniej prawdopodobny przypadkowe podobieństwo do sekwencji domeny)
- Na ogół wyniki >7 mają wartość
- Wyniki „mocnego” dopasowania wyróżnione wykrzyknikiem (!)
Unikatowy interfejs graficzny ze szczegółami dopasowania (ang. match detail)
Przeszukiwanie Motif Scan: Wykonanie: - UniProt P53539, - MotifScan
Analiza szczegółowa
Motif Scan daje możliwość sprawdzenia, czy aminokwas jest zachowany w badanej sekwencji
-Wysoki słupek powyżej 0 = Wysoce konserwatywny aminokwas w tym miejscu
-Zieleń = badana sekwencja ma oczekiwany aminokwas
-Czerwień = badana sekwencja nie ma w tym miejscu oczekiwanego aminokwasu
-R (Arginine) bardzo oczekiwana w tej pozycji • Wysoki słupek (np. potencjalne miejsce aktywne w przypadku enzymu)
-Jeśli badana sekwencja posiada w tym miejscu argininę . . .• Słupek wypełniony jest
zielenią (np. badane białko może posiadać aktywność enz.)
Kilka terminów
Domeny są dzisiaj tak ważne, różne grupy badawcze nadają im różne nazwy: HMM, Domain,PSSM (Position Specific Score Matrix ),Profile (lub extended profile),MSA,
Nazwy powyższe mają tylko nieco inne znaczenie, ale
W większości przypadków można uznać, że oznaczają to samo (jeśli użyte są w kontekście dopasowania sekwencji)
Analiza domen in-silico
Analiza domen (i wzorców) wydaje się być najbardziej informacyjną dot. białek techniką analityczną in-silico, jaka jest dzisiaj dostępna.
Do badania własnych sekwencji dostępne są narzędzia on-line
Oprogramowanie do analizy sekwencji aminokwasowych
ExPASy Expert Protein Analysis System
Swiss EMBnet (http://www.ch.embnet.org/)
CBS Prediction Server (http://www.cbs.dtu.dk/services/)
Biological Software w Institut Pasteur
EMBOSS The European Molecular Biology Open Software Suite (i wEMBOSS)
GCG Wisconsin prod. Accelrys. Inc., pakiet już nie jest rozwijany, zastępuje go EMBOSS