Przewidywanie struktury białek: od modelowania opartego o szablony
do rekombinacji fragmentów metodą dr Frankensteina
Iwona A. Cymerman, Joanna M. Sasin, Janusz M. Bujnicki
Pracownia Bioinformatyki i Inżynierii Białka
Międzynarodowy Instytut Biologii Molekularnej i Komórkowej
ul. Ks. Trojdena 4, 02-109 Warszawa, e-mail: iamb@genesilico.pl
Hasła do zapamiętania: bioinformatyka, struktura białka, przyrównanie sekwencji,
modelowanie homologiczne, meta-serwer.
Wykaz skrótów: MSA (multiple sequence alignment), PSSM (position-specific score matrix),
HMM (Hidden Markov Model), ISS (Intermediate Sequence Search), FR (Fold Recognition),
MR (Molecular Replacement)
1) Wstęp
Niniejszy rozdział zawiera zwięzłą charakterystykę metody teoretycznego przewidywania
trzeciorzędowej struktury białek, nazywanej modelowaniem homologicznym. Niezwykle
dynamiczny rozwój informatyki jak i coraz większe możliwości obliczeniowe umożliwiły
powstanie szeregu algorytmów służących analizie białek. Ze względu na ograniczoną objętość
rozdziału, jak również mnogość dostępnych obecnie baz danych i serwisów, nie są one
szczegółowo omawiane w tekście a jedynie zebrane w tabele zawierające odnośniki do ich
lokalizacji w Internecie. Zaproponowano również tłumaczenia nowych pojęć związanych z
analizą sekwencji, w nawiasach umieszczając oryginalne określenia. Zamysłem autorów było
przedstawienie czytelnikowi alternatywnych programów do przewidywania struktury, jak
również zwrócenie uwagi na ich ograniczenia, które należy uwzględnić podczas interpretacji
wygenerowanego modelu struktury białka. Dodatkowo pragniemy zaznaczyć, że nie istnieje
jedna, optymalna dla wszystkich białek metoda przewidywania ich struktury. Dlatego też
autorzy mają nadzieję, że poniższy rozdział stanie się niejako drogowskazem i zastymuluje
wszystkich, w których kręgu zainteresowań leży badanie białek, do sięgnięcia po niezwykle
skuteczne i efektywne narzędzia, jakich dostarcza dziś bioinformatyka.
2) Struktura białka
2.1) Znajomość struktury białka
Białka pełnią kluczową rolę praktycznie we wszystkich procesach zachodzących w
komórce. Pełne zrozumienie mechanizmu działania badanego białka możliwe jest zazwyczaj
dopiero w kontekście jego struktury trzeciorzędowej. Znajomość ta ułatwia planowanie
eksperymentów, jak również interpretację otrzymanych wyników. Za przykład niech posłuży
tu badanie funkcji enzymu – małego białka o długości 100 aminokwasów. Aby
zidentyfikować komplet aminokwasów tworzących centrum katalityczne, ale bez znajomości
aminokwasów konserwowanych w obrębie rodziny, do której przynależy białko, należałoby
prawdopodobnie wykonać kilkadziesiąt substytucji, głównie aminokwasów o zjonizowanych
lub polarnych grupach bocznych oraz histydyn i cystein, bo to one właśnie najczęściej tworzą
miejsca aktywne w enzymach. Analiza sekwencji w rodzinie białek spokrewnionych z
białkiem badanym pozwala zazwyczaj zredukować tę liczbę do konserwowanych pozycji.
Jednak w wielu rodzinach białek także aminokwasy nienależące do centrum aktywnego są
konserwowane, a czasami centrum katalityczne wykazuje różny skład aminokwasowy u
różnych członków rodziny. Dysponując wiarygodnym modelem struktury trzeciorzędowej
białka wybór celów do mutagenezy można zredukować do kilku aminokwasów np.
tworzących kieszeń katalityczną i znajdujących się blisko siebie w przestrzeni.
Struktura dostarcza także informacji o położeniu każdego z funkcjonalnie ważnych
aminokwasów względem innych (co może sugerować sposób wiązania substratu i mechanizm
reakcji) oraz względem reszty białka, skąd można wnioskować, czy znajduje się on na
powierzchni, czy też jest położony głęboko w strukturze. Badanie cech białka, które
uwidaczniają się jedynie w kontekście struktury trzeciorzędowej, jak np. rozkład potencjału
elektrostatycznego lub obecność hydrofobowych grup bocznych na powierzchni białka, może
być pomocne w identyfikacji regionów biorących udział w oddziaływaniu z innymi białkami,
kwasami nukleinowymi, niebiałkowymi cząsteczkami będącymi inhibitorami, czy też
aktywatorami. Jednym z praktycznych zastosowań informacji o strukturze trzeciorzędowej
białka jest użycie jej do projektowania leków, które dzięki oddziaływaniom z jego
powierzchnią modyfikują jego niepożądaną aktywność.
Innym przykładem wykorzystania znajomości struktury może być lokalizacja
przestrzenna mutacji odpowiedzialnych za choroby. Porównanie struktury białka
funkcjonalnego i zmutowanego dostarcza nie tylko informacji o zmianie konformacyjnej, jaka
nastąpiła na skutek mutacji, ale również ułatwia racjonalne projektowanie potencjalnego leku,
znoszącego efekt mutacji.
2.2) A jeśli struktura badanego białka nie jest znana?
W chwili obecnej (lipiec 2004) w bazach danych dostępnych jest 1 966 784 sekwencji.
Większość z nich stanowią jednak „hipotetyczne” produkty otwartych ramek odczytu,
wydedukowane w oparciu o sekwencje DNA pochodzące z projektów genomowych.
Natomiast liczba struktur białek rozwiązanych doświadczalnie (przy użyciu technik
krystalograficznych lub jądrowego rezonansu magnetycznego (NMR)) wynosi zaledwie
25 000. Wynika to z konieczności zainwestowania dużych nakładów czasowych (otrzymanie
czystego białka, hodowla kryształów, które pozwolą otrzymać wzór dyfrakcyjny o
odpowiedniej rozdzielczości) i finansowych (koszt sprzętu, w przypadku krystalografii -
dyfraktometr, cyklotron, w przypadku NMR – spektroskop, drogie znakowanie białka) a i to
nie zawsze gwarantuje rozwiązanie struktury.
Naprzeciw ograniczeniom metod doświadczalnych wychodzą metody teoretyczne,
pozwalające na zbudowanie modelu białka „in silico”. Zgodnie z hipotezą Anfinsena [1]
sekwencja aminokwasowa białka ściśle determinuje jego strukturę przestrzenną, która w
danych warunkach fizjologicznych odpowiada globalnemu minimum energii swobodnej.
Można sobie zatem wyobrazić, że idealna metoda przewidywania struktury białka polegałaby
na symulacji komputerowej procesu zwijania się łańcucha polipeptydowego. Jednak obecny
stan wiedzy o fizyko-chemicznych procesach kierujących zwijaniem się białek nie pozwala na
stworzenie wiarygodnej funkcji umożliwiającej wystarczająco dokładne obliczenie energii
swobodnej dowolnej konformacji białka. Nawet gdyby taka funkcja została stworzona,
współcześnie istniejące komputery są o wiele za wolne do przeanalizowania wystarczającej
liczby konformacji, aby z dużym prawdopodobieństwem trafić na konformację na tyle bliską
strukturze natywnej, by możliwe bylo odróżnienie jej od struktur nienatywnych, przy
zastosowaniu kryteriów energetycznych. Dlatego też poszukuje się innych metod, które
umożliwiłyby zaproponowanie hipotetycznej trójwymiarowej struktury białka w oparciu o
inne zasady, niż prawa fizyki.
Porównania struktur rozwiązanych doświadczalnie wykazały, że białka homologiczne (tj.
pochodzące od wspólnego przodka), zazwyczaj zachowują podobną strukturę pomimo
nagromadzenia substytucji aminokwasowych (Rys. 1). Także insercje i delecje najczęściej
zachodzą w pętlach na powierzchni białka, pozostawiając niemal niezmienionym rdzeń
strukturalny składający się zazwyczaj z
α-helis i/lub β-wstęg bogatych w aminokwasy
hydrofobowe. Jeżeli sekwencję badanego białka o nieznanej strukturze („celu” ang. target)
przyrówna się (ang. align) do sekwencji innego, spokrewnionego białka o znanej strukturze
(„szablonu” ang. template), zamiast symulacji fizycznego procesu zwijania się łańcucha
polipeptydowego można zasymulować proces ewolucji białka-celu z homologicznego białka-
szablonu. Poprzez wprowadzenie substytucji, insercji i delecji do sekwencji szablonu można
otrzymać sekwencję celu, której konformacja będzie bardzo przypominać konformację
wyjściową. Metoda symulacji procesu ewolucji sekwencji i struktur białek homologicznych
została nazwana „modelowaniem homologicznym” (ang. homology modeling) i jest obecnie
najbardziej skuteczną strategią przewidywania struktury białka.
3) Budowa modelu w praktyce (krok po kroku)
Modelowanie homologiczne składa się z kilku etapów. Symulacja procesu ewolucji
poprzedzona jest analizą sekwencji celu, na podstawie wyników której następuje selekcja
potencjalnych szablonów i ich przyrównanie (ang. alignment) do sekwencji celu (Rys. 2).
Poniżej opisane zostały kolejne etapy zmierzające do zbudowania wiarygodnego modelu
białka.
3.1) Analiza sekwencji
3.1.1) Identyfikacja domen
Większość białek zbudowana jest z konserwowanych ewolucyjnie domen. Postuluje
się, że liczba domen o odmiennej architekturze trzeciorzędowej (ang. fold) wynosi nie więcej
niż kilka tysięcy, z czego dla około połowy udało się doświadczalnie rozwiązać strukturę
przynajmniej jednego przedstawiciela [2]. Wykorzystanie informacji o liczbie domen, z
których zbudowane jest białko, może być wskazówką dla określenia funkcji białka, jak
również ma kluczowe znaczenie dla przeprowadzenia kolejnych etapów badania białka „in
silico”. Aby zidentyfikować w badanym białku potencjalną obecność wcześniej
scharakteryzowanych domen, przeprowadza się porównanie jego sekwencji z bazami
motywów i profili sekwencyjnych charakterystycznych dla znanych domen (Tab. 1). W
bazach domen można znaleźć informacje o dystrybucji filogenetycznej białek posiadających
daną domenę, o domenach występujacych zwykle razem, zwięzłe opisy najbardziej typowych
funkcji pełnionych przez domeny, odnośniki do publikacji opisujących analizy rodzin lub ich
reprezentatywnych członków oraz odnośniki do innych baz danych. Domeny w bazach
danych klasyfikowane są na podstawie różnych kryteriów, takich jak wzajemne podobieństwo
sekwencji lub pokrewieństwo ewolucyjne. Zaleca się więc przeszukanie kilku baz danych i
porównanie zaproponowanych wyników. Możliwe jest przeprowadzenie zintegrowanego
przeszukiwania kilku baz danych jednocześnie, przy użyciu takich serwisów internetowych
jak InterPro lub CDD (Tab. 1).
Jeżeli w sekwencji celu zostanie zidentyfikowana obecność więcej niż jednej domeny,
to kolejne etapy przewidywania struktury trzeciorzędowej białka powinny być początkowo
przeprowadzone dla każdej z nich z osobna. Przeszukiwanie baz danych „pełną sekwencją”
może prowadzić do wyciągnięcia błędnych wniosków o „pełnej” homologii dwóch
niespokrewnionych białek, w których faktycznie tylko jedna z domen wykazuje wspólne
pochodzenie.
3.1.2) Przyrównanie sekwencji
Kolejnym krokiem w analizie sekwencji celu jest użycie programów (Tab. 2) do
przeszukiwania baz danych i identyfikacji sekwencji podobnych do sekwencji celu (jak
wspomniano wyżej, w przypadku białek wielodomenowych warto przeprowadzic taką analizę
osobno dla każdej domeny).
Przeszukanie bazy danych zadaną sekwencją umożliwia identyfikację fragmentów
sekwencji spełniających wyznaczone przez badacza kryteria podobieństwa, świadczące o tym
że sekwencja zadana i sekwencje zidentyfikowane w bazie danych posiadają region o
wspólnym pochodzeniu (konserwowaną ewolucyjnie domenę lub zestaw domen). W oparciu
o przyrównania sekwencji parami generowane jest przyrównanie wielosekwencyjne (ang.
MSA - multiple sequence alignment), które służy do identyfikacji pozycji zmiennych i
konserwowanych w całej rodzinie. Zidentyfikowane sekwencje członków rodziny można
także pobrać z bazy danych i zbudować dla nich przyrównanie wielosekwencyjne innymi
metodami niż poprzez porównanie fragmentów sekwencji z sekwencją zadaną. Lepsze wyniki
można osiągnąć stosując programy, które generują przyrównanie wielosekwencyjne poprzez
przyrównanie sekwencji „każda z każdą” (np. CLUSTALX, PCMA). W zależności od
zastosowanego algorytmu i użytych parametrów – macierzy substytucji, kar za wprowadzenie
przerw itd. można uzyskać odmienne przyrównania. Dlatego też, wygenerowane
przyrównanie należy porównać z wynikami zaproponowanymi przez program przeszukujący
bazę danych i ewentualnie wprowadzić korektę do MSA.
Dysponując wiarygodnym MSA można kontynuować przeszukiwanie bazy danych, tym
razem jednak wyszukując sekwencje podobne nie do pojedynczej sekwencji zadanej, ale do
całej rodziny – pozwala to na zidentyfikowanie sekwencji, które nagromadziły wiele mutacji i
utraciły podobieństwo do najbardziej „typowych” członków rodziny, ale w dalszym ciągu
zachowują pewne cechy wspólne dla rodziny jako całości. W szczególności można w ten
sposób zidentyfikować podobieństwo między dwiema odlegle spokrewnionymi rodzinami,
które razem tworzą „nadrodzinę”.
Najbardziej popularnym narzędziem wykorzystującym powyższą strategię jest PSI-
BLAST [3] (ang. Position-Specific, Iterated Basic Local Alignment Search Tool;
http://www.ncbi.nlm.nih.gov/BLAST/
). Po wstępnym przeszukaniu bazy danych algorytmem
BLAST i identyfikacji sekwencji spokrewnionych z zadaną sekwencją można zbudować
profil (ang. PSSM – position-specific score matrix), zawierajacy informację na temat
częstości występowania (konserwacji) aminokwasów w poszczególnych pozycjach
przyrównania. W kolejnych iteracjach baza danych sekwencji przeszukiwana jest przy użyciu
całego profilu, który za każdym razem aktualizuje się poprzez dołączanie nowo
zidentyfikowanych członków rodziny. Przeszukiwania prowadzi się do momentu, kiedy nie
można zidentyfikować więcej sekwencji, które spełniałyby wyznaczone kryteria
podobieństwa. Można wtedy przerwać poszukiwania lub jeżeli istnieją ku temu powody,
kontynuować je z użyciem mniej rygorystycznych kryteriów. Alternatywnie, przyrównanie
spokrewnionych sekwencji (MSA) może być użyte do stworzenia ukrytego modelu Markowa
(ang. HMM – Hidden Markov Model), który podobnie jak PSSM może być użyty do
przeszukiwania baz danych i identyfikacji odlegle spokrewnionych członków rodziny [4].
Inną możliwością jest wielokrotne przeszukiwanie baz danych przy osobnym użyciu każdej z
sekwencji zawartych w MSA. Strategia ta (ang. ISS – intermediate sequence search) [5] jest
jednak dużo bardziej kosztowna obliczeniowo.
Ze względu na różnice w otrzymanych wynikach, optymalnym podejściem jest użycie
kilku różnych metod i zintegrowanie ich rezultatów. Użycie PSSM do przeszukiwania baz
danych pozwala niekiedy wyszukać sekwencje, których podobieństwo do celu obejmuje
niewielkie obszary i niemożliwe byłoby ich zidentyfikowanie przy użyciu porównania typu
sekwencja-sekwencja (ang. pairwise comparison). Z drugiej jednak strony przeszukiwanie
bazy profilem może nie uwzględnić białek, które zachowały znaczące podobieństwo do kilku
przedstawicieli rodziny, ale nie wykazują podobieństwa do „średniej”. Te lukę wypełnia
właśnie zastosowanie ISS. Należy jednak pamiętać, że ISS skutkuje dużą ilością „fałszywych
pozytywów”, czyli sekwencji, które wykazują podobieństwo do poszczególnych
pojedynczych członków rodziny na skutek czystego przypadku, a nie ze względu na ich
pokrewieństwo.
3.1.2.1) Edytory sekwencji
Niezwykle użytecznym narzędziem służącym obróbce sekwencji są edytory takie jak
np.: BioEdit (http://www.mbio.ncsu.edu/BioEdit/bioedit.html), GeneDoc
(http://www.psc.edu/biomed/genedoc/) lub DCSE (
http://rrna.uia.ac.be/dcse/
), czy SeaView
(
http://pbil.univ-lyon1.fr/software/seaview.html
). Pozwalają one nie tylko na „ręczne”
korygowanie przyrównań wygenerowanych automatycznie przez programy wymienione w
poprzednim podrozdziale, ale umożliwiają też wizualizację różnorakich cech przyrównanych
sekwencji. np. wyszczególnienie pozycji często występujących aminokwasów (Rys. 1), co
może ułatwić identyfikację potencjalnych miejsc wiązania liganda lub centrum aktywnego
enzymu, a skupienie się na aminokwasach hydrofobowych może pomóc w odnalezieniu
elementów szczególnie istotnych dla stabilności strukturalnej białka.
3.1.3) Przewidywanie struktury drugorzędowej
Kolejnym krokiem w analizie białka-celu jest identyfikacja elementów struktury
drugorzędowej. Od czasu rozwiązania pierwszych struktur białek zaproponowano wiele
schematów klasyfikacji elementów strukturalnych [6]. Najbardziej powszechna i najprostsza
klasyfikacja wyróżnia elementy, w których kolejne aminokwasy wykazują podobną
konformację: spiralnie zwinięte helisy (najczęściej występuje typ α) i rozciągnięte wstęgi (β)
oraz łączące te elementy pętle. Należy podkreślić, że istnieją różne algorytmy identyfikacji
helis, wstęg i pętli w strukturze białka, które nie do końca zgadzają się ze sobą, zwłaszcza
jeżeli chodzi o klasyfikację aminokwasów na krańcach struktur
α i β oraz elementów o
konformacji rozciągniętej, które nie tworzą wiązań wodorowych z innymi elementami
rozciągniętymi [7][8].
Istnieje wiele algorytmów przewidywania struktur drugorzędowych w oparciu o
sekwencję białka. Najstarsze algorytmy, jak algorytm Chou i Fasmana [9], czy GOR [10] są
w stanie przewidzieć, w jakiej strukturze znajdzie się dany aminokwas (
α, β czy pętla) z
dokładnością najwyżej 60-65% i zdecydowanie odradzamy ich używanie, mimo iż metody te
są wciąż stosowane w na pozór nowoczesnych komercyjnych (zwykle bardzo drogich)
programach do analizy sekwencji białek. Współczesne metody (Tab. 3) pozwalają na
przewidywanie struktury drugorzędowej z dokładnością ok. 75-80%, przy czym
wiarygodność przewidywania konformacji heliakalnej (
α) jest zazwyczaj wyższa (ok. 80%-
85%) a konformacji rozciągniętej (β) niższa (60%-70%). Najbardziej skuteczne są metody,
które przeprowadzają przewidywanie struktury nie dla pojedynczych sekwencji, a dla MSA
sekwencji homologicznych - zbudowanego przez badacza lub generowanego automatycznie
przez stosowany algorytm. Informacja zawarta w MSA dostarcza dodatkowych informacji o
konserwacji elementów hydrofobowych oraz o prawdopodobnym występowaniu pętli w
regionach obejmujących delecje bądź insercje w MSA.
Dodatkowo, podczas przewidywania struktury drugorzędowej warto zastosować kilka
reguł. Otóż, jeśli pośród bliskich homologów znajduje się białko o znanej strukturze
(rozwiązanej krystalograficznie lub przez NMR) to „skopiowanie” struktury drugorzędowej
daje zazwyczaj lepszy wynik, niż przewidywanie jej „de novo”. Ponadto, przed
przystąpieniem do przewidywania struktury drugorzędowej warto jest użyć MSA, z którego
usunięto najbardziej rozdywergowane sekwencje. W przypadku korzystania z programu,
który nie pozwala na wprowadzenie wygenerowanego przez uzytkownika MSA jako danych
wejściowych, warto wykonać niezależne przewidywanie struktury drugorzędowej dla kilku
członków rodziny. Otrzymanie pokrywających się wyników zwiększa pewność
przewidywania. I tak jak w przypadku innych metod – w miejscach dla których
przewidywanie jest niejednoznaczne, warto jest porównać wyniki zaproponowane przez różne
metody i zastanowić się nad przyczyną różnic (może np. w MSA wystąpiły błędy, które
należy skorygować i powtórzyć przewidywanie?).
3.1.4) Przewidywanie nieuporządkowania strukturalnego
W niektórych białkach można zaobserwować fragmenty „nieuporządkowane”, które
nie tworzą zdefiniowanej struktury i występują jako populacja różniących się od siebie
konformacji. Często występują one w łącznikach (ang. linker) pomiędzy domenami, w
długich pętlach lub N- i C-końcowych „ogonach”. Regiony nieustrukturalizowane występują
również w elementach białek biorących udział w oddziaływaniach międzycząsteczkowych –
w wielu przypadkach spośród populacji możliwych konformacji tylko jedna jest zdolna do
wiązania liganda, co powoduje „ustrukturalizowanie” danego regionu podczas formowania
kompleksu międzycząsteczkowego. Przewidywanie lokalizacji potencjalnych rejonów
nieustrukturalizowanych za pomocą metod bioinformatycznych (Tab. 3) może dać cenne
wskazówki do dalszego przewidywaniu struktury trzeciorzędowej białka, jak i identyfikacji
potencjalnych miejsc interakcji z innymi cząsteczkami.
3.1.5) Białka transbłonowe
Około 30% białek komórkowych to białka transbłonowe. Ze względu na zakotwiczenie w
błonach charakteryzują się one specyficzną budową. Ich hydrofobowe segmenty
wewnątrzbłonowe przeplatane są naprzemiennie zewnątrzbłonowymi elementami
hydrofilowymi. Powszechnie występują białka transbłonowe dwóch typów: zbudowane z
hydrofobowych regionów α-helikalnych oraz z szeregu β-wstęg, składających się na tzw.
strukturę β-baryłki (ten drugi typ białek transbłonowych jest charakterystyczny dla błony
zewnętrznej bakterii gramujemnych). Dostępne są programy komputerowe wyspecjalizowane
w identyfikacji obydwu typów białek błonowych (Tab. 4). Niektóre z nich oprócz
identyfikacji transbłonowych elementów struktury drugorzędowej i łączących je pętli
przewidują także ich topologię względem błony, umożliwiając identyfikację fragmentów
zorientowanych do wewnątrz i na zewnątrz komórki.
3.2) Metody przewidywania struktury trzeciorzędowej poprzez identyfikację szablonu
strukturalnego
Przewidywanie struktury białka metodą modelowania homologicznego opiera się na
wykorzystaniu szablonu – homologicznego białka o znanej strukturze. Często jednak analiza
sekwencji, nawet z użyciem profili czy ukrytych modeli Markowa nie jest w stanie
doprowadzić do identyfikacji homologicznego białka o strukturze rozwiązanej
doświadczalnie. Nie oznacza to jednak, że taki homolog nie istnieje, a jedynie, że nie można
go wykryć poprzez porównywanie samych sekwencji. Teoretycznie liczba możliwych
konformacji białka jest nieskończona, jednak w świecie białek występuje ograniczona liczba
sposobów zwinięcia białka, którą szacuje się na kilka tysięcy [2] [11] [12] [13]. Obserwacja,
iż białka mogą przyjmować podobne zwinięcie (ang. fold) pomimo niewielkiego, bądź wręcz
braku podobieństwa sekwencyjnego, stała się podstawą rozwoju metod rozpoznających
architekturę przestrzenną białka (ang. fold recognition) i ograniczających przewidywanie
struktury trzeciorzędowej białka do „odgadnięcia”, czy któraś ze znanych struktur innych
białek jest podobna do rzeczywistej (nieznanej podczas przewidywania) struktury
analizowanego celu oraz czy te znane struktury mogłyby być użyte jako szablony do
modelowania.
Programy służące rozpoznawaniu architektury białka składają się zwykle z następujących
modułów: 1) bazy danych struktur, 2) metody umożliwiającej porównanie sekwencji celu do
sekwencji białek zawartych w bazie danych, 3) algorytmu obliczającego optymalne
przyrównanie sekwencji celu i szablonu, 4) metody szacującej istotność i poprawność
przyrównania i jego ocenę statystyczną [14]. Zasadniczo istnieją dwie strategie
porównywania sekwencji celu z sekwencjami białek z bazy danych - wykorzystujące
informacje o strukturze trzeciorzędowej szablonu lub pomijające ją.
3.2.1) Metody sekwencyjne
Metody sekwencyjne (Tab. 5) opierają się jedynie na podobieństwie sekwencyjnym celu i
szablonu, nie uwzględniając informacji o strukturze szablonu. Dokonują jedynie
przyrównania sekwencji celu i sekwencji szablonu, zazwyczaj wykorzystując informacje o
sekwencjach homologicznych i de facto porównując nie same sekwencje, a całe profile, lub
ukryte modele Markowa. Czasami używa się „meta-profili”, które oprócz informacji o
konserwacji sekwencji aminokwasowej, w porównywanych rodzinach, zawierają
przewidywaną strukturę drugorzędową, przewidywane preferencje poszczególnych
aminokwasów w sekwencji względem stopnia solwatacji itp. Informacja ta pochodzi z analizy
sekwencji, a nie z danych doświadczalnych (np. pomimo, że dla potencjalnych szablonów
porównywanych z sekwencją celu struktura drugorzędowa jest znana, to tutaj jest ona
przewidywana „de novo”). Metody te dają najlepsze rezultaty w przypadku stosunkowo
bliskiego podobieństwa sekwencyjnego pomiędzy celem a szablonem.
3.2.2) Metody przewlekania (ang. „threading”)
Metody przewlekania (Tab. 5) w swojej funkcji oceniającej prawdopodobieństwo, że
dana struktura może być dobrym szablonem, zawierają oszacowanie kompatybilności
sekwencji celu z doświadczalnie określoną strukturą. Ortodoksyjne metody przewlekania
używają potencjałów fizyko-chemicznych, aby obliczyć energię oddziaływania aminokwasów
celu gdy badana sekwencja dopasowana jest optymalnie do „rusztowania” jakie stanowi
struktura szablonu. Praktyka wykazuje jednak, że takie metody są stosunkowo mało
skuteczne, prawdopodobnie na skutek niedoskonałości oceny energii oddziaływań. Najlepsze
spośród współczesnych metod przewlekania łączą w swoich funkcjach oceny dopasowania
zarówno podobieństwo sekwencyjne celu i szablonu (lub raczej odpowiadających im profili),
jak i podobieństwo przewidywanej struktury celu z doświadczalnie określoną strukturą
szablonu (pokrywanie się elementów struktury drugorzędowej, usytuowanie na powierzchi
białka aminokwasów przewidywanych jako uwodnione itp.).
Metody służące rozpoznawaniu architektury białka są w stanie poprawnie
zidentyfikować odpowiedni szablon do modelowania w ponad 40% przypadków, gdy
sekwencja celu nie wykazuje statystycznie istotnego podobieństwa do żadnego białka o
znanej strukturze. Słabym punktem wszystkich tych metod (zarówno opartych o same
sekwencje jak i o sekwencje i struktury) jest brak skutecznej funkcji oceniającej przyrównania
sekwencji celu i szablonu. Często zdarza się, że białko o strukturze podobnej do prawdziwej
struktury białka-celu znajduje się wśród np. dziesięciu najlepiej ocenionych potencjalnych
szablonów, jednak jego ocena jest zbliżona do oceny dziewięciu innych przewidywań, które
są „fałszywymi pozytywami”.
3.2.3) Budowa modelu - korygowanie przyrównania sekwencji celu do szablonu
Jak wspomniano, model białka generowany jest przez program symulujący ewolucję celu
z szablonu na podstawie zaproponowanego przyrównania ich sekwencji. Niewątpliwie
najważniejszym etapem jest więc wybór szablonu oraz poprawne przyrównanie jego
sekwencji z sekwencją celu. Te dwa czynniki w głównej mierze determinują poprawność
modelu. Model oparty na błędnym szablonie bądź na niepoprawnym przyrównaniu
praktycznie zawsze będzie błędny. Korekta przyrównania następować powinna w oparciu o 1)
dane literaturowe (jak np. identyfikacja wzajemnie odpowiadających sobie aminokwasów
tworzących miejsce wiązania podobne w obu białkach mimo ich ogólnego braku
podobieństwa sekwencyjnego), 2) sprawdzenie, czy wprowadzone delecje i insercje znajdują
się w obrębach pętli, w których to rejonach zmiany są dużo bardziej dynamiczne niż w
zazwyczaj wysoko konserwowanej strukturze rdzenia, 3) ocenę modelu pod względem
występowania cech charakterystycznych dla dobrze zwiniętych i upakowanych białek
Najbardziej popularnymi wśród wolno dostepnych programów do modelowania
homologicznego (symulującymi ewolucję sekwencji celu w oparciu o strukturę szablonu) są
MODELLER (
http://salilab.org/modeller/
) [15] i SWISS-MODEL
(
http://www.expasy.org/swissmod/SWISS-MODEL.html
) [16]. Podstawowe różnice
pomiędzy tymi programami to zastosowanie różnych algorytmów do budowy modelu oraz
różne procedury wykorzystywane do minimizacji energii. W oparciu o przyrównanie
sekwencyjne SWISS-MODEL ustala regiony konserwowane, w których konformacja
łańcucha głównego nie zmieni się lub zmieni niewiele i po prostu kopiuje ich koordynaty.
Taki niepełny model używany jest jako „rusztowanie” do wymodelowania insercji i delecji
poprzez wstawienie z bazy danych takich fragmentów struktury, których końce mają podobną
odległość, co końce rusztowania i których sekwencja najbardziej przypomina sekwencję
modelowanego odcinka. Łańcuchy boczne aminokwasów są dobudowywane w oparciu o
konformację łańcuców w szablonie. Jeżeli aminokwasy są identyczne lub posiadają
identyczne fragmenty to koordynaty ich atomów są kopiowane z szablonu do celu, natomiast
dla aminokwasów, które uległy substytucji, łańcuch boczny wybierany jest z listy konformacji
naczęściej występujących w białkach i wstawiany tak, by spowodować jak najmniej
konfliktów sterycznych z atomami innych aminokwasów. Tak powstały model poddawany
jest minimizacji energii z użyciem pola siłowego GROMOS 96
(
http://www.igc.ethz.ch/gromos/
).
MODELLER nie kopiuje w sposób jawny koordynatów przestrzennych szablonu,
natomiast ustala odległości i kąty pomiędzy atomami szablonu i następnie przenosi je jako
więzy przestrzenne (ang. restrains) na odpowiadające im atomy homologicznych
aminokwasów celu. Dodatkowe więzy mają na celu zapewnienie „białko-podobności”
modelu, tj. opisują idealne wartości długości wiązań i kątów pomiędzy atomami. Dodatkowo
użytkownik może dodać własne więzy pochodzące z analizy doświadczalnej (np. wyniki
mutagenezy lub sieciowania) lub bioinformatycznej (np. przewidywanie struktury
drugorzędowej dla regionu, który nie ma homologicznego odpowiednika w szablonie). Model
budowany jest tak, aby zminimalizować naruszenie wszystkich więzów. W końcowym etapie
budowy modelu przeprowadzana jest minimalizacja energii w polu siłowym CHARMM22
(
http://yuri.harvard.edu/
) aby zapewnić poprawną stereochemię i korzystne oddziaływania
pomiędzy grupami funkcyjnymi.
Obydwa te programy umożliwiają modelowanie struktury celu w oparciu o pojedynczy
szablon, jak i o cały zestaw homologicznych szablonów (np. odpowiadających różnym
domenom lub podjednostkom w multimerze). Oba programy dostarczają zwykle modeli o
porónywalnej jakości, a wybór jednego z nich jest dyktowany przede wszystkim przez
doświadczenie badacza. Z doświadczenia autorów SWISS-MODEL lepiej nadaje się do
modelowania białek o wysokim podobieństwie sekwencji, zwłaszcza w oparciu o jeden
szablon i gdy liczba insercji i delecji w sekwencji celu jest niewielka, natomiast MODELLER
lepiej sprawdza się w modelowaniu odległych homologów oraz gdy konieczne jest
równoczesne zastosowanie wielu szablonów strukturalnych. Jak przy innych analizach
bioinformatycznych, zalecanym podejściem jest zastosowanie obu w.w. metod (a także
innych, jeżeli użytkownik ma do nich dostęp), a następnie porównanie wyników i w
szczególności analiza różnic, która może pomóc w identyfikacji różnych artefaktów procesu
modelowania charakterystycznych dla poszczególnych programów.
3.2.4) Ocena modelu
Dostępnych jest wiele metod służących ocenie poprawności struktury białka, z których
większość powstała z myślą o analizie modeli krystalograficznych. Można je jednak stosować
również do weryfikacji modeli teoretycznych (Tab. 6). Metody te analizują takie cechy
strukturalne jak geometria, stereochemia, czy też kompatybilność charakteru
fizykochemicznego danego aminokwasu z kontekstem strukturalnym w jakim został
umieszczony (np. czy hydrofobowe grupy boczne otoczone są innymi grupami
hydrofobowymi i czy naładowane grupy boczne są eksponowane na zewnątrz białka lub
sparowane z grupami bocznymi o przeciwnym ładunku). Różnice w ocenie modeli różnymi
metodami wynikają z czułości i przypisywania różnych wag poszczególnym komponentom
funkcji oceny.
Należy podkreślić, że najczęściej spotykane funkcje oceny służą określeniu, czy
analizowany model jest „białko-podobny”, czy też wykazuje nietypowe cechy, ale nie są w
stanie obiektywnie stwierdzić, czy jest on poprawny, czy błędny bez odniesienie do danych
doświadczalnych o wysokiej rozdzielczości (pochodzących z badań krystalograficznych lub
NMR). Ponadto analiza struktur białek o wysokiej rozdzielczości wskazuje, że nietypowe
cechy strukturalne można napotkać stosunkowo często i że są one najczęściej związane ze
specyficzną funkcją pełnioną przez białko. Wynika to z faktu, że w procesie ewolucji
pozytywnej selekcji podlega nie tylko stabilność strukturalna białka, ale też jego zdolność do
interakcji z innymi cząsteczkami, które to cechy często bywają wzajemnie niekompatybilne.
Dlatego interpretacji wyników oceny modelu struktury białka należy dokonywać w
kontekście jego funkcji biologicznej (o ile jest ona znana). Na przykład wiele miejsc wiązania
ligandów (np. jonów metalu) tworzonych jest w białkach przez ujemnie naładowane grupy
boczne znajdujące się w otoczeniu hydrofobowym. Identyfikacja takich „niekompatybilnych”
konstelacji grup bocznych w modelu strukturalnym może sugerować istnienie miejsca
ważnego dla funkcji (zwłaszcza, jeżeli reszta modelu oceniona jest jako „białko-podobna”),
choć może także oznaczać, że podczas budowy modelu wystąpił błąd (np. ze względu na
nieprawidłowe przyrównanie celu do szablonu) i aminokwasy są „przesunięte” względem
faktycznej pozycji. W takich sytuacjach należy koniecznie porównać ocenę
„białkopodobności” modelu z oceną szablonu, rozważyć konserwację „kontrowersyjnych”
aminokwasów w obrębie rodziny, oraz przeanalizować możliwości wygenerowania
alternatywnych modeli, opartych o zmienione przyrównania sekwencji lub korzystających z
innych szablonów.
Należy podkreślić, że ocena poprawności modelu teoretycznego wyłącznie pod względem
stereochemii (np. popularne w badaniach krystalograficznych badanie wykresu
Ramachandrana) ma zwykle niewielki sens dla modeli teoretycznych wygenerowanych
metodami modelowania homologicznego. Parametry stereochemiczne, wartości kątów i
długości wiązań w modelach homologicznych są najczęściej bardzo podobne do ich
odpowiedników w użytych szablonach strukturalnych i nie odzwierciedlają dobrze stopnia
poprawności samego modelu. Np. można łatwo wygenerować zupełnie błędny model
struktury białka wykazujący doskonałą stereochemię (np. przez błąd w przyrównaniu
sekwencji celu do szablonu), jak i model bardzo bliski strukturze natywnej, w którym
długości i kąty wiązań będą dalekie od idealnych (np. z powodu użycia kilku szablonów w
których homologiczne aminokwasy miały odmienną konformację). Autorzy niniejszego
rozdziału gorąco polecają użycie metod oceniających właściwości znacznie trudniejsze do
„podrobienia” w błędnych modelach, zwłaszcza. kompatybilność aminokwasów z otoczeniem
(np. VERIFY3D, PROSAII, lub ANOLEA) czy upakowanie atomów w rdzeniu białka
(SOESA). Ostatnio zaproponowano specjalną metodę PROQ [17] służącą do oszacowania
jakości modeli teoretycznych. W przeciwieństwie do wyżej wymienionych metod
opracowanych oryginalnie dla struktur krystalicznych i dopiero później zaadaptowanych
przez „modelarzy teoretycznych”, celem PROQ nie jest identyfikacja struktur nienatywnych
(w odróżnieniu od idealnej struktury natywnej), a odróżnienie modeli poprawnych (choć w
dalszym ciągu niekoniecznie idealnych) od zupełnie błędnych. Od wcześniej omawianych
algorytmów PROQ różni się jednak tym, że ocenia jakość na poziomie całego modelu a nie
jego poszczególnych elementów (atomów czy aminokwasów) i nie pozwala na wyróżnienie
fragmentów porawnych i tych, które należałoby poprawić. Jak wspomniano wcześniej,
zalecanym podejściem jest użycie kilku alternatywnych metod oceny struktury modelu i
porónanie ich wyników. Autorzy chcieliby uczulić czytelników na fakt, iż ze względu na
łatwość wygenerowania modeli zupełnie błędnych, przy jakimkolwiek użyciu modelu
teoretycznego należy KONIECZNIE podawać ocenę jego poprawności. Modele nie ocenione
za pomocą opisanych tu metod (lub innych, sprawdzających podobne parmetry), są
praktycznie bezwartościowe.
4) Od sekwencji do modelu poprzez jedno „kliknięcie” myszy
Teoretyczne
modele
białek, które otrzymały pozytywną ocenę w testach poprawności,
mogą służyć zazwyczaj jako przybliżona i z założenia obarczona drobnymi błędami, ale w
miarę wiarygodna mapa, która może naprowadzić na ślad aminokwasów ważnych dla funkcji
białka. Biorąc jednak pod uwagę mnogość dostępnych metod przewidywania różnych cech
strukturalnych oraz konieczność konfrontacji ich wyników, wygenerowanie wiarygodnego
modelu struktury białka nie jest zadaniem łatwym. Zastymulowało to rozwój programów,
najczęściej zaimplementowanych jako serwisy internetowe, zwanych „Meta-serwerami”. Jako
dane wejściowe przyjmują one od użytkownika sekwencję celu, przesyłają ją następnie do
innych serwisów analizujących sekwencje białek, gromadzą ich wyniki i przedstawiają
podsumowanie rezultatów. „Meta-serwery” najczęściej prezentują przewidywania dotyczące
potencjalnej przynależności do rodziny białek, przewidywanej struktury drugorzędowej,
rozpoznania architektury, a niekiedy generują również wstępne modele. Jako przykład
omówiony zostanie Meta-serwer GeneSilico [18] (http://genesilico.pl/meta/).
Użytkownik może nakazać analizę przygotowanego przez siebie przyrównania
wielosekwencyjnego (MSA) lub pojedynczej sekwencji. W przypadku pojedynczej sekwencji
MSA zostanie wygenerowany automatycznie. Dodatkowo użytkownik decyduje o
pozostawieniu lub usunięciu z przyrównania regionów, w których występują przerwy.
Powoduje to ograniczenie przewidywania do regionów, które wykazują największe
podobieństwo do struktury szablonu. Meta-serwer GeneSilico oferuje przewidywanie
obecności domen, struktury drugorzędowej, występowania elementów transbłonowych oraz
prezentuje wyniki identyfikacji potencjalnych szablonów proponowane przez różne metody,
służące rozpoznawaniu architektury białka. Wyniki przedstawiane są w postaci przyrównań
sekwencji celu i proponowanych szablonów. Każde z przyrównań posiada dodatkowo ocenę
oszacowaną przez algorytm generujący wynik. Na podstawie rezultatów threadingu
generowane jest przewidywanie konsensusowe z użyciem algorytmów Pcons2 i 5. Nie
proponują one dodatkowego szablonu, czy przyrównania, a jedynie wybierają 10 potencjalnie
najlepszych przyrównań spośród zaproponowanych przez inne metody.
Użytkownik serwera ma również możliwość otrzymania wstępnych modeli struktury
trzeciorzędowej celu, zbudowanych automatycznie na podstawie zaproponowanych
przyrównań. Modele te są często niekompletne i mogą zawierać znaczące błędy, nawet jeżeli
zostały zbudowane na bazie poprawnie wybranego szablonu, jednak stanowią użyteczny
punkt wyjściowy dla dalszej analizy i budowy ostatecznego modelu.
5) Modele hybrydowe
Większość prezentowanych wyżej metod, w założeniu, buduje wstępny model
struktury celu w oparciu o jeden szablon. Nakłada to ograniczenia na nowopowstający model
– przyjmuje on architekturę podobną do architektury struktur rozwiązanych
eksperymentalnie, mimo, że natywna struktura celu może wykazywać unikalne cechy bądź
stanowić hybrydę cech występujących u kilku spokrewnionych białek o znanej strukturze.
Ponadto metody FR umożliwiają zbudowanie poprawnych modeli jedynie dla takich
sekwencji, które posiadają potencjalne szablony w bazie danych rozwiązanych struktur.
Ograniczenia te stały się bodźcem do tworzenia metod konstruujących modele hybrydowe,
zapoczątkowanych przez pionierski program „3D-SHOTGUN” opracowany przez Daniela
Fischera [19]. W metodzie tej punktem wyjścia jest zbiór wyników wygenerowanych przez
metody rozpoznające architekturę białka. Spośród nich wybierane są przyrównania cel-
szablon, które zostały ocenione przez poszczególne metody jako najlepsze. Dla nich
generowane są prowizoryczne modele składające się jedynie z koordynatów atomów węgli
Cα tych aminokwasów szablonu, którym udało się przyporządkować jakiś aminokwas
pochodzący z sekwencji celu. Algorytm 3D-SHOTGUN identyfikuje podzbiory modeli
wykazujące wzajemne podobieństwo strukturalne oraz, przy zastosowaniu programu MaxSub
[20], buduje przyrównanie przestrzenne wszystkich wyselekcjonowanych struktur. Tworzenie
modeli hybrydowych dla każdego podzbioru struktur podobnych odbywa się poprzez wybór
elementów struktury drugorzędowej występujących najczęściej w zbiorze modeli. Fragmenty
te są następnie łączone ze sobą, na zasadzie prostych transformacji geometrycznych. Powstałe
w ten sposób modele hybrydowe są oceniane poprzez wyznaczenie stopnia podobieństwa
każdego z nich do całego zbioru modeli. Ostatecznie generowana jest seria modeli, które
mogą stanowić hybrydy struktur o zupełnie różnych architekturach. Jednak metoda ta nie
przynosi w pełni satysfakcjonujących rezultatów. To co jest w niej cechą konkurencyjną w
stosunku do innych metod, czyli pośrednie wykorzystanie wielu szablonów i alternatywnych
przyrównań, jest również jej „piętą Achillesową”. Modele wygenerowane przez 3D-
SHOTGUN posiadają często duże przerwy pomiędzy węglami C
α, które powinny ze sobą
sąsiadować, jak i przestrzenne zbitki koordynatów, z których nie można w prosty sposób
odtworzyć „białkopodobnej” struktury pełnoatomowej. Tym niemniej, jeżeli weźmie się pod
uwagę odległości pomiędzy przewidywaną i rzeczywistą pozycją poszczególnych węgli C
α,
to „poszatkowane” modele wygenerowane metodą 3D-SHOTGUN okazują się zazwyczaj
bardziej podobne do struktury rzeczywistej niż „białkopodobne” modele wygenerowane przez
oryginalne metody dostarczające danych metodzie hybrydowej [21] [22]. Mimo iż
interpretacja funkcjonalna tych fragmentów modelu, które naruszają prawa fizyki rządzące
zarówno zwijaniem się struktury białka, jak i wykonywaniem jego funkcji w komórce jest
wysoce problematyczna, modele 3D-SHOTGUN mogą stanowić użyteczny punkt wyjścia do
prób rozwiązania konfliktów sterycznych i wygenerowania modeli poddających się
interpretacji.
Innym
przykładem metody hybrydowej jest zaproponowany przez Paula Bates'a i
wspólpracowników [23], algorytm genetyczny pozwalający na rekombinację modeli
pełnoaatomowych zbudowanych w oparciu o odmienne szablony i przyrównania
(http://www.bmm.icnet.uk/~3djigsaw/recomb/index.html). Selekcja modeli wyjściowych
odbywa się przy użyciu tzw. funkcji dopasowania (ang. fitness), w której skład wchodzi
ocena energii oddziaływania poszczególnych aminokwasów ze sobą i energia solwatacji grup
bocznych. Miejsca rekombinacji modeli wyznaczane są losowo w obrębach pętli, łączących
ze sobą elementy struktur drugorzędowych. Modele pochodne tworzone są poprzez łączenie
fragmentów modeli wyjściowych, czemu towarzyszy naprawianie geometrii pętli, jeśli była
ona zaburzona przez rekombinacje. W algorytmie genetycznym Batesa, oprócz rekombinacji,
zaimplementowany został także proces mutacji polegający na nałożeniu na siebie dwóch
struktur i uśrednieniu ich koordynat kartezjańskich. Po każdej rundzie rekombinacji usuwane
są z populacji te modele, które wykazują ewidentne zaburzenia budowy (więcej niż jedno
złamanie łańcucha głównego oraz więcej niż 4% nieplanarnych wiązań peptydowych). Unika
się w ten sposób tworzenia zbitek koordynat i innych nieprawdopodobnych konformacji
często obecnych w modelach generowanych przez 3D-SHOTGUN.
Podstawowym ograniczeniem metod 3D-SHOTGUN i algorytmu genetycznego
Batesa jest fakt, że dobre rozwiązania można znaleźć tylko wtedy, gdy w początkowym
zbiorze przyrównań sekwencji cel-szablon znajduje się przynajmniej jedno, chociaż
częściowo poprawne rozwiązanie. Jeżeli dany element struktury drugorzędowej budowanego
modelu jest błędnie przewidziany we wszystkich elementach populacji wyjściowej, to w
końcowym modelu również pojawi się błędne rozwiązanie.
Autorzy poniższego rozdziału opracowali własną metodę budowania modeli
hybrydowych, która pozwala na ominięcie powyższego ograniczenia. Podejście w stylu
„potwora FRankensteina” (ang. „Frankenstein’s Monster approach”) [24] polega na
konstrukcji modelu spełniającego kryteria „białkopodobności”, a pochodzącego ze zbioru
wstępnych (i w znacznej mierze „niebiałkopodobnych” modeli generowanych na podstawie
przyrównań zaproponowanych przez metody FR. W modelach wyjściowych identyfikuje się
„białkopodobne” fragmenty (np. przy użyciu programu VERIFY3D [25]) a następnie
przyrównuje się je ze sobą. „Potwór FRankensteina” konstruowany jest w pierwszym rzędzie
z fragmentów najczęściej występujących we wszystkich modelach (niezależnie od oceny) a
następnie jest uzupełniany fragmentami ocenionymi jako „najbardziej białkopodobne”. Tak
skonstruowany „potwór” przypomina modele generowane przez 3D-SHOTGUN, tj. może być
niekompletny i wykazywać konflikty steryczne na styku fragmentów. Struktura „potwora”
służy jednak nie jako fizyczny model struktury białka, a jako referencja do wyznaczenia
nowego przyrównania pomiędzy sekwencją celu a zbiorem szablonów, na podstawie którego
generowany jest model drugiej generacji, tym razem w zamierzeniu „białkopodobny”. W
modelu tym ocenia się kompatybilność sekwencji aminokwasowej z otoczeniem dla
wszystkich elementów struktury drugorzędowej. Regiony o nisko ocenionej kompatybilności
(„niebiałkowe”) traktuje sie jako niedopasowane, chyba że użytkownik nakaże ich
„specjalne” traktowanie (w ten sposób można uwzględnić np. dane doświadczalne wskazujące
na centrum aktywne, które może wykazywać cechy uznane za „niebiałkowe”). Dla każdego
regionu uznanego za niedopasowany podejmuje się próbę poprawienia lokalnego
dopasowania sekwencji do struktury poprzez wygenerowanie alternatywnych przyrównań, w
których sekwencję systematycznie „przesuwa się” w stronę obydwu końców danego elementu
struktury drugorzędowej. Dla każdego przyrównania budowany jest nowy model, który
podlega ocenie. Następnie przeprowadza się rekombinację fragmentów o najlepszej ocenie i
tworzy „potwora” drugiej generacji i całą procedurę modelownia powtarza się aż do
otrzymania modelu o oczekiwanej jakości lub zatrzymuje, w razie gdy kolejne próby poprawy
dopasowania na poziomie przyrównania sekwencji nie są w stanie poprawić oceny modelu na
poziomie struktury trzeciorzędowej. Jeżeli w modelu wygenerowanym na tym etapie brakuje
elementów na N- i C- końcach lub występują duże insercje, dla których nie udaje się
wygenerować „białkopodobnych” struktur to mogą być one ewentualnie dodane „de novo”
(patrz niżej). Ostateczny model otrzymuje się po zastosowaniu procedury granicznej
minimizacji energetycznej, mającej na celu usunięcie ewentualnych zawad sterycznych oraz
optymizację długości i kątów wiązań.
Modele wygenerowane za pomocą powyższej procedury są prawie zawsze
„białkopodobne”. Metoda „potwora Frankensteina” ta najlepiej działa dla przypadków, w
których serwery FR wiarygodnie przewidują konkretną architekturę, nie ma jedynie zgody co
do preferowanego przyrównania sekwencyjnego. Tym niemniej, jeżeli wśród przyrównań
sekwencyjnych stanowiących punkt wyjścia znajduje się tylko jedno poprawne
przewidywanie architekturze trzeciorzędowej, to nadal istnieje szansa, że wygenerowany
zostanie model o poprawnie wymodelowanym rdzeniu strukturalnym, w którym wiele błędów
występujących w oryginalnym przyrównaniu zostanie naprawionych. W przypadkach kiedy
nie można zidentyfikować właściwego szablonu, „potwora Frankensteina” nie da się ożywić i
jedyną możliwością pozostaje zastosowanie metod „de novo”.
6) Modelowanie struktury białka de novo
Przykładem metody „de novo” budującej modele z fragmentów jest ROSETTA [26]
[27] [28], rozwijana przez zespół kierowany przez Davida Bakera. Metoda ta łączy w sobie
pewne cechy modelowania homologicznego i symulacji zwijania łańcucha polipeptydowego.
Modele budowane są z krótkich, 9- i 3-aminokwasowych fragmentów znanych struktur,
tworzących „bibliotekę” możliwych konformacji. W przeciwieństwie do tradycyjnych metod
modelowania z użyciem szablonów, danemu regionowi sekwencji nie jest
przyporządkowywana na stałe jedna konformacja. ROSETTA przeprowadza symulację, w
trakcie której 9- lub 3-aminokwasowe odcinki sekwencji celu przyjmują różne konformacje w
oparciu o model probabilistyczny opisujący związki między konformacją i sekwencją
fragmentów. Lista konformacji dopuszczalnych dla wszystkich odcinków sekwencji ustalana
jest na początku symulacji na podstawie lokalnego podobieństwa odcinków sekwencji celu i
przewidywanej struktury drugorzędowej do sekwencji i obserwowanej konformacji
fragmentów tworzących „bibliotekę”. Kolejna różnica pomiędzy ROSETTĄ i poprzednio
wymienionymi programami polega na tym, że fragmenty do budowy modelu pobierane są z
niespokrewnionych struktur, które mogą wykazywać globalnie odmienną architekturę.
Ostateczny model generowany jest przez ROSETTĘ w oparciu o ocenę energii oraz/lub przez
identyfikację globalnych konformacji, które najczęściej powtarzały się w całej symulacji.
ROSETTA jest obecnie jednym z niewielu programów, które potrafią niekiedy wygenerować
model o zgrubnie prawidłowej strukturze bez odniesienia do żadnego specyficznego szablonu
(czyli „de novo”), co umożliwia próby przewidywania struktury trzeciorzędowej dla białek,
które nie posiadają homologa o znanej strukturze. Tym niemniej, należy podkreślić, że
otrzymanie prawidłowego modelu „de novo” jest nadal raczej rzadkością niż regułą.
Możliwości programu ROSETTA zostały wykorzystane w meta-serwerze ROBETTA
[29] [30], który umożliwia konstruowanie modelu białka częściowo w oparciu o szablon, a
częściowo „de novo”. ROBETTA automatycznie dzieli sekwencję celu na regiony, które
można wymodelować w oparciu o szablon i na takie, które nie wykazują globalnego
podobieństwa do żadnej ze znanych struktur. Część białka jest modelowana poprzez
„tradycyjną” homologię, natomiast pozostała część jest zwijana poprzez wstawianie 9– i 3-
aminokwasowych fragmentów. Metoda ta wydaje się być szczególnie obiecująca w
przypadku potrzeby wymodelowania struktury białek, które w stosunku do dostępnych
szablonów wykazują obecność sporych insercji i/lub wydłużonych końców, których nie da się
wymodelować innymi metodami niż „de novo”. Niestety, ze względu na duży koszt
obliczeniowy związany z idealnym włączaniem elementów modelowanych „de novo” do
łańcucha modelowanego homologiczne oraz z upakowaniem przestrzennym tych elementów
wzajemnie wobec siebie i wobec reszty białka, obecna wersja meta-serwera ROBETTA
często generuje modele z nieciągłościami i zbitkami koordynat, podobnymi do tych
otrzymywanych z metody 3D-SHOTGUN. Wprowadza to konieczność naprawiania i
udokładniania modeli wynikowych przez zastosowanie innych metod.
7) Perspektywy
Metody przewidywania struktury trzeciorzędowej białek są rozwijane przez grupy
bioinformatyków na całym świecie, a efekty jakie można uzyskać przy ich zastosowaniu
zdają się być coraz lepsze (CASP-http://predictioncenter.llnl.gov/). I choć jakość modeli
teoretycznych zwykle odbiega od jakości struktur rozwiązanych dzięki krystalografii, to
jednak mogą być one pomocne w interpretacji danych doświadczalnych i np. służyć do
wyliczenia „rzeczywistej” struktury metodą podstawienia molekularnego [31] (MR, ang.
Molecular Replacement). W niektórych przypadkach może umożliwić to rozwiązanie
struktury białka bezpośrednio z danych dyfrakcyjnych, dzięki czemu czasochłonny i
kosztowny etap uzyskiwania pochodnych ciężkoatomowych analizowanego białka może stać
się zbędny. Wykazano, że w niektórych przypadkach udaje się rozwiązać strukturę białka-
celu dzięki użyciu modeli stworzonych na bazie szablonów, których podobieństwo
sekwencyjne do sekwencji celu jest niższe niż 30%, nawet jeżeli dla struktur samych
szablonów procedura MR zawodziła [32]. Kluczowe w takich sytuacji jest uzyskanie
poprawnego przyrównania sekwencji celu do szablonu i identyfikacja regionów niepewnych
oraz nieustrukturalizowanych.
Modele białek można również, z dużym powodzeniem, stosować do przewidywania ich
funkcji. Przy obecnych dysproporcjach w wiedzy na temat sekwencji i struktur
trzeciorzędowych tego typu analizy są często jedynym sposobem, aby uzyskać odpowiedź na
najważniejsze pytania biologii dotyczące funkcji poznanych białek oraz przebiegu procesów,
w których one uczestniczą. Jedną z możliwych analiz tego typu jest rozpatrywanie
właściwości powierzchni modelu, np. przy zastosowaniu mapowania powierzchni białek na
obiekty sferyczne i porównywaniu tych sfer. W takim wypadku nieuniknione niedokładności
w budowie modelu nie mają znaczenia dla wyników eksperymentu [33], a w literaturze
można znaleźć bardzo wiele przykładów kiedy wyniki tego typu przewidywań teoretycznych
pokryły się z wynikami uzyskanymi poźniej drogą doświadczalną [34].
Jedna z najintensywniej rozwijanych gałęzi bioinformatyki jest bezpośrednio powiązana z
przemyslem farmaceutycznym i dotyczy projektowania leków. Aktualny stopień
zaawansowania metod przewidywania struktur trzeciorzędowych pozwala na tworzenie na
tyle dokładnych modeli białek, np. białek bakteryjnych, że możliwym jest poznanie, drogą
czysto teoretyczną, cząsteczek molekularnych z jakimi one oddziaływują.
Powyższe przykłady dowodzą jak biologia teoretyczna może w wielu wypadkach
wychodzić naprzeciw biologii doświadczalnej, także tej, która ma swoje praktyczne
zastosowanie w dziedzinach niezwykle ważnych dla ludzkości. Autorzy są przekonani, że
przewidywanie struktury przestrzennej białka stanie się wkrótce elementarną częścią
większości eksperymentów „białkowych”, ułatwiając nie tylko fazę projektową
eksperymentu, ale często również interpretację wyników eksperymentalnych.
Podziękowania
Autorzy chcieliby gorąco podziękować wszystkim twórcom metod bioinformatycznych, które
są nieodpłatnie udostępniane społeczności akademickiej. Dziękujemy także pozostałym
członkom naszego Zespołu za owocne dyskusje i za wkład w rozwój nowych metod
badawczych. Nasze badania naukowe możliwe są dzięki wsparciu finansowemu
zapewnionemu przez granty i stypendia z KBN, NIH, EMBO, HHMI, EU 6FP, FNP i BIF.
Literatura
[1] Anfinsen CB (1973) Principles that govern the folding of protein chains.
Science, 181: 223-30.
[2] Chothia C (1992) Proteins. One thousand families for the molecular biologist.
Nature, 357(6379):543-4
[3] Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997)
Gapped BLAST and PSI-BLAST: a new generation of protein database search programs,
Nucleic Acids Res., 25: 3389-3402.
[4] Karplus K, Barrett C, Hughey R (1998). Hidden Markov models for detecting remote
homologies.
Bioinformatics,14: 846-56.
[5] Park J, Teichmann SA, Hubbard T, Chothia C (1997) Intermediate sequences increase the
detection of homology between sequences. J Mol Biol., 273: 349-54.
[6] Rost B Review: protein secondary structure prediction continues to rise.
J Struct Biol, 134: 204-18
[7] Kabsch W, Sander C (1983) Dictionary of protein secondary structure: pattern recognition
of hydrogen-bonded and geometrical features.
Biopolymers. 22: 2577-637
[8] Frishman D, Argos P (1995) Knowledge-based protein secondary structure assignment.
Proteins, 23: 566-79
[9] Chou PY, Fasman GD (1974) Prediction of protein conformation. Biochemistry, 13: 222-
45.
[10] Garnier J, Osguthorpe DJ, Robson B (1978) Analysis of the accuracy and implications of
simple methods for predicting the secondary structure of globular proteins. J Mol Biol., 120:
97-120
[11] Gerstein M, Levitt M (1997) A structural census of the current population of protein
sequences. Proc Natl Acad Sci U S A., 94: 11911-6
[12] Wolf YI, Grishin NV, Koonin EV (2000) Estimating the number of protein folds and
families from complete genome data. J Mol Biol., 299: 897-905.
[13] Koonin EV, Wolf YI, Karev GP (2002) The structure of the protein universe and genome
evolution. Nature, 420: 218-23.
[14] Fischer D, Elofsson A, Rice D, Eisenberg D (1996) Assessing the performance of fold
recognition methods by means of a comprehensive benchmark. Pac. Symp. Biocomput, 300-
18.
[15] Sali A, Blundell TL (1993) Comparative protein modelling by satisfaction of spatial
restraints. J. Mol. Biol. 234: 779-815,
[16] Peitsch MC (1996) ProMod and Swiss-Model: Internet-based tools for automated
comparative protein modelling. Biochem. Soc. Trans. 24:274-279.
[17] Schwarzenbacher R, Godzik A, Grzechnik SK, Jaroszewski L (2004)
The importance of alignment accuracy for molecular replacement.
Acta Crystallogr D Biol Crystallogr. 60:1229-36.
[18] Kurowski MA, Bujnicki JM (2003) GeneSilico protein structure prediction meta-server.
Nucleic Acids Res, 31: 3305-7.
[19] Fischer D (2003) 3D-SHOTGUN: A novel, cooperative, fold-recognition meta-predictor.
Proteins: Structure, Function and Genetics 51: 434-441
[20] Siew N, Elofsson A, Rychlewski L, Fischer D (2000) MaxSub: an automated measure for
the assessment of protein structure prediction quality. Bioinformatics, 16: 776-85.
[21] Sasson I, Fischer D (2003) Modeling three-dimensional protein structures for CASP5
using the 3D-SHOTGUN meta-predictors. Proteins, 53 Suppl 6: 389-94.
[22] Fischer D (2003) 3DS3 and 3DS5 3D-SHOTGUN meta-predictors in CAFASP3.
Proteins, 53 Suppl 6: 517-23.
[23] Bates PA, Kelley LA, MacCallum RM, Sternberg MJ (2001) Enhancement of protein
modeling by human intervention in applying the automatic programs 3D-JIGSAW and 3D-
PSSM. Proteins; Suppl 5: 39-46
[24] Kosiński J, Cymerman IA, Feder M, Kurowski MA, Sasin JM, Bujnicki JM
A "FRankenstein's monster" approach to comparative modeling: merging the finest fragments
of Fold-Recognition models and iterative model refinement aided by 3D structure evaluation.
Proteins 53 Suppl 6: 369-79.
[25] Eisenberg D, Luthy R, Bowie JU (1997) VERIFY3D: assessment of protein models with
three-dimensional profiles. Methods Enzymol, 277: 396-404
[26] Bradley P, Chivian D, Meiler J, Misura KM, Rohl CA, Schief WR, Wedemeyer WJ,
Schueler-Furman O, Murphy P, Schonbrun J, Strauss CE, Baker D (2003) Rosetta predictions
in CASP5: successes, failures, and prospects for complete automation. Proteins;53 Suppl 6:
457-68
[27] Bonneau R, Tsai J, Ruczinski I, Chivian D, Rohl C, Strauss CE, Baker D (2001) Rosetta
in CASP4: progress in ab initio protein structure prediction. Proteins, Suppl 5: 119-26
[28] Rohl CA, Strauss CE, Misura KM, Baker D (2004) Protein structure prediction using
Rosetta. Methods Enzymol.; 383: 66-93
[29] Kim DE, Chivian D, Baker D (2004) Protein structure prediction and analysis using the
Robetta server. Nucleic Acids Res; 32(Web Server issue): 526-31
[30] Chivian D, Kim DE, Malmstrom L, Bradley P, Robertson T, Murphy P, Strauss CE,
Bonneau R, Rohl CA, Baker D (2003) Automated prediction of CASP-5 structures using the
Robetta server. Proteins, 53 Suppl, 6:524-33.
[31] Schwarzenbacher R, Godzik A, Grzechnik SK, Jaroszewski L (2004) The importance of
alignment accuracy for molecular replacement. Acta Crystallogr D Biol Crystallogr. 60:1229-
36.
[32] Claude JB, Suhre K, Notredame C, Claviere JM, Abergel C (2004) CaspR: a web server
for automated molecular replacement using homology modeling. Nucleic Acids Research,32,
(Web Server issue): 606-609
[33] Pawlowski K, Godzik A (2001) Surface Map Comparison: Studying Function Diversity
of Homologous Proteins. J Mol Biol; 309:793-806.
[34] Zapata JM, Pawlowski K, Haas E, Ware CF, Godzik A, Reed JC (2001) A diverse family
of proteins containing tumor necrosis factor receptor-associated factor domains. J Biol Chem,
276: 24242-52.
a)
10 20 30 40 50 60 70
....|....|....|....|....|....|....|....|....|....|....|....|....|....|
1NBB ADTKE
V
LEA
R
EAYFKSLGGSMKAMTGVA
K
---AF
D
AEAAKVEAAK
L
EKI--LATDVAP
L
FPAGTSSTDLP
1A7V QT--D
V
IAQ
R
KAILKQMGEATKPIAAML
K
GEAKF
D
QA---VVQKS
L
AAIADDSKKLPA
L
FPADSK--TGG
1GQA ADAEH
V
VEA
R
KGYFSLVALEFGPLAAMA
K
GEMPY
D
AAAAKAHASD
L
VTL--TKYDPSD
L
YAPGTSADDVK
80 90 100 110 120 130
....|....|....|....|....|....|....|....|....|....|....|....|....|..
1NBB GQ
T
E
A
KAA
IW
ANMDD
F
GAKGKAMHE
A
GG
A
VIAAANAGDG-AAFG
A
ALQKLG
G
T
CK
A
CHDD
Y
R
EED--
1A7V -D
T
A
A
LPK
IW
EDKAK
F
DDLFAKLAA
A
AT
A
AQGT---IKDEASLK
A
NIGGVL
G
N
CK
S
CHDD
F
R
AKKS-
1GQA G-
T
A
A
KAA
IW
QDADG
F
QAKGMAFFE
A
VA
A
LEPAA--GAGQKELA
A
AVGKVG
G
T
CK
S
CHDD
F
R
VKR-
b)
1NBB
1A7V
1GQA
Rysunek 1
Porównanie dywergencji sekwencji i struktur na podstawie białek należacych do rodziny
cytochromów c. A) Przyrównanie sekwencji aminokwasowych cytochromów c pochodzących
z następujących organizmów: 1NBB - Rhodobacter capsulatus, 1A7V - Rhodopseudomonas
palustris, 1GQA - Rhodobacter sphaeroides. B) Przyrównanie rozwiązanych
krystalograficznie struktur w.w. białek. Białka homologiczne mimo „utraty” podobieństwa
sekwencji zachowują ewidentne podobieństwo struktury trzeciorzędowej.
Rysunek 2
Etapy modelowania homologicznego.
Tabela 1
Programy służące przeszukiwaniu baz domen białkowych:
Program URL
(http://)
Programy służące przeszukiwaniu baz domen białkowych
PFAM www.sanger.ac.uk/Software/Pfam/
SMART smart.embl-heidelberg.de/
TIGRFAMs www.tigr.org/TIGRFAMs/
PRODOME prodes.toulouse.inra.fr/prodom/2002.1/html/home.php
PROSITE us.expasy.org/prosite/
SBASE hydra.icgeb.trieste.it/~kristian/SBASE/
BLOCKS bioinfo.weizmann.ac.il/blocks/
COGs www.ncbi.nlm.nih.gov/COG/
CDD
www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
INTERPRO www.ebi.ac.uk/interpro/
CDART
www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?c
PRINTS www.bioinf.man.ac.uk/dbbrowser/PRINTS/
Tabela 2
Programy służące obliczaniu przyrównań wielosekwencyjnych
Program URL
(http://)
Programy służące obliczaniu przyrównań wielosekwencyjnych
ClustalW www.ebi.ac.uk/clustalw/
TCoffee igs-server.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi
Macaw ftp://ncbi.nlm.nih.gov/pub/macaw/
PCMA ftp://iole.swmed.edu/pub/PCMA/
Tabela 3
Programy służące przewidywaniu struktury drugorzędowej białek
Program URL
(http://)
Serwisy służące przewidywaniu elementów struktury
α/β/pętla
PSIPRED bioinf.cs.ucl.ac.uk/psipred/
SSPRO www.igb.uci.edu/tools/scratch/
PHD cubic.bioc.columbia.edu/predictprotein/
PROF www.aber.ac.uk/~phiwww/prof/
PRED2ARY www.cmpharm.ucsf.edu/~jmc/pred2ary/
APSSP2 www.imtech.res.in/raghava/apssp2/
PREDATOR bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html
NNSSP bioweb.pasteur.fr/seqanal/interfaces/nnssp-simple.html
HMMSTR www.bioinfo.rpi.edu/~bystrc/hmmstr/
NPREDICT www.cmpharm.ucsf.edu/~nomi/nnpredict.html
Przewidywanie innych typów struktur drugorzędowych
TURNS www.imtech.res.in/raghava/
COILS www.ch.embnet.org/software/COILS_form.html
Serwisy służące przewidywaniu rejonów nieustrukturalizowanych
NORSP cubic.bioc.columbia.edu/services/NORSp/
GLOBPLOT globplot.embl.de/
PONDR www.pondr.com/
“Meta-serwery” integrujące przewidywania generowane przez inne metody
JPRED www.compbio.dundee.ac.uk/~www-jpred/
NPS@ npsa-pbil.ibcp.fr
META-PP cubic.bioc.columbia.edu/meta/
Serwis prezentujący ocenę wiarygodności przewidywań struktury drugorzędowej
EVA cubic.bioc.columbia.edu/eva/doc/intro_sec.html
Tabela 4
Programy służące przewidywaniu regionów transbłonowych w białkach
Program URL
(http://)
α-helikalne białka transmembranowe
HMMTOP www.enzim.hu/hmmtop/
DAS www.sbc.su.se/~miklos/DAS/
PHDhtmn cubic.bioc.columbia.edu/predictprotein/
SOSUI sosui.proteome.bio.tuat.ac.jp/sosuiframe0.html
TMAP www.mbb.ki.se/tmap/
TMHMM www.cbs.dtu.dk/services/TMHMM-2.0/
TMpred www.ch.embnet.org/software/TMPRED_form.html
MEMSAT bioinf.cs.ucl.ac.uk/psipred/
TopPred2 www.sbc.su.se/~erikw/toppred2/
WHAT saier-144-37.ucsd.edu/what.html
UMDHMM phyyz4.med.buffalo.edu/Softwares-Services_files/umdhmm.htm
PRED-TMR2 biophysics.biol.uoa.gr/PRED-TMR2/input.html
ORIENTM biophysics.biol.uoa.gr/OrienTM/submit.html
BPROMPT www.jenner.ac.uk/BPROMPT
Białka transmembranowe zawierające struktury
β
BBF www-biology.ucsd.edu/~msaier/transport/software/bbfsource.tar.gz
HMM www.biocomp.unibo.it
Tabela 5
Programy służące identyfikacji szablonu
Program URL
(http://)
Metody wykorzystujące informację o sekwencji szablonu
FFAS ffas.ljcrf.edu
SAM-T99 www.cse.ucsc.edu/research/compbio/HMM-apps/T99-query.html
ESyPred3D www.fundp.ac.be/urbm/bioinfo/esypred/
ORFEUS grdb.bioinfo.pl/
Metody przewlekania, wykorzystujące informację o struktorze szablonu
3DPSSM www.sbg.bio.ic.ac.uk/~3dpssm/
FUGUE www-cryst.bioc.cam.ac.uk/~fugue/
GENThreader bioinf.cs.ucl.ac.uk/psipred/
INBGU www.cs.bgu.ac.il/~bioinbgu/form.html
PROTINFO protinfo.compbio.washington.edu/
RPFOLD www.imtech.res.in/raghava/rpfold/
RAPTOR www.cs.uwaterloo.ca/features/raptor/
PROSPECT compbio.ornl.gov/PROSPECT/
LOOPP ser-loopp.tc.cornell.edu/cbsu/loopp.htm
SAM-T02 www.soe.ucsc.edu/research/compbio/HMM-apps/T02-query.html
Metody konsensusowe
PCONS www.sbc.su.se/~arne/pmodeller/
Wybrane “Meta-serwery” integrujące przewidywania innych programów
BIOINFO bioinfo.pl/meta/
GENESILICO genesilico.pl/meta/
@TOME
bioserv.cbs.cnrs.fr/HTML_BIO/frame_meta.html
ROBETTA robetta.bakerlab.org/
Tabela 6
Programy służące ocenie poprawności modelu
Program URL
(http://)
Programy służące ocenie poprawności modelu
VERIFY3D shannon.mbi.ucla.edu/DOE/Services/Verify_3D/
ANOLEA protein.bio.puc.cl/cardex/servers/anolea/index.html
PROSAII www.came.sbg.ac.at/Services/prosa.html
SOESA bioc.rice.edu/soesa/
WHAT IF
www.cmbi.kun.nl/whatif/
ERRAT www.doe-mbi.ucla.edu/Services/ERRATv2/
PROQ www.sbc.su.se/~bjorn/ProQ/