SLAJD 1. Bazy danych struktur biomolekularnych
Przewidywanie struktury białek jest jedną z najbardziej ważnych dziedzin nauki związanych ściśle ze strukturalną biologią obliczeniową, bioinformatyką oraz chemią teoretyczną. Jej głównym celem jest wyznaczanie trójwymiarowej struktury białek na podstawie znanej sekwencji aminokwasowej. Innymi słowy, zajmuje się przewidywaniem struktury czwartorzędowej na podstawie pierwszorzędowej. Poznanie struktury białek jest istotne w wielu innych dziedzinach badań (między innymi w projektowaniu leków).
SLAJD 3. Co dwa lata organizowany jest eksperyment CASP, który w skrócie polega na tym, że oceniane są wyniki różnych grup badawczych w przewidywaniu struktury białek.
Praktyczny aspekt przewidywania struktury białek jest obecnie bardzo istotny. Za pomocą nowoczesnego sekwencjonowania DNA (Human Genome Project) można otrzymać olbrzymie ilości sekwencji białkowych, w stosunkowo krótkim czasie. Wyznaczenie struktury białek pozostaje jednak daleko w tyle, gdyż dwie główne eksperymentalne metody rozwiązywania struktur białkowych: krystalografia i rezonans magnetyczny (NMR) są czasochłonne i wymagają dużego nakładu pracy.
SLAJD 4. Uzyskanie struktury białka jest bardzo trudnym zadaniem, ponieważ:
Liczba możliwych konformacji białka jest olbrzymia
Fizyczne podstawy stabilności strukturalnej białek nie są do końca poznane
Sekwencja aminokwasów może nie determinować struktury czwartorzędowej. Za przykład mogą posłużyć czaperony (ang. chaperones) - białka, które mają zdolność do indukowania określonej ścieżki zwijania innych białek
Symulacja zwijania się białka w strukturę natywną (konformacja białka, w jakiej ono występuje i funkcjonuje w organizmie. Naruszenie tej struktury i utrata zdolności do spełniania naturalnej funkcji określa się jako denaturację.)przy pomocy metod dynamiki molekularnej nie jest powszechnie stosowane zarówno ze względów teoretycznych jak i praktycznych.
SLAJD 5
!!!!!!PRZECZYTAĆ :Pomimo wymienionych wyżej przeszkód w ostatnim czasie ma miejsce znaczny postęp w tej dziedzinie. Przewidzenie struktury małych białek jest już możliwe prawie w 100% przypadków. W tym celu korzysta się rutynowo z wielu metod, które można podzielić na dwie klasy: modelowanie de novo i modelowanie porównawcze.
Modelowanie struktur de novo Modelowanie struktur białkowych de novo (lub ab initio) polega na zbudowaniu trójwymiarowego modelu białka „od zera”. Jest wiele procedur, które albo próbują naśladować zwijanie się białka, albo korzystają z metod stochastycznych do znalezienia właściwej konformacji (np. globalna optymalizacja odpowiedniej funkcji energii). Te procedury wymagają jednak dużej mocy obliczeniowej i dlatego znajdują zastosowanie tylko dla niewielkich białek. Do przewidywania „de novo” struktury większych białek potrzeba znacznie lepszych algorytmów i zasobów sprzętowych. Pomimo ograniczeń sprzętowych potencjalne korzyści płynące z osiągnięć genomiki strukturalnej powodują ustawiczny wzrost zainteresowania metodami de novo.
SLAJD 6 Modelowanie porównawcze
W modelowaniu porównawczym jako punkt startowy lub szablon (ang. template) stosuje się znane struktury białek. Efektywność tej metody wynika z faktu, że mimo, że ilość istniejących białek jest olbrzymia, to ilość możliwych topologii (czyli powtarzalnych motywów struktury czwartorzędowej) jest ograniczona. Szacuje się, że jest tylko około 2000 możliwych topologii w naturze dla milionów różnych białek.
SLAJD 7 Metody modelowania porównawczego dzielą się na dwie grupy:
Modelowanie homologiczne - opiera się na założeniu, że białka homologiczne mają bardzo podobną strukturę. Mając sekwencję aminokwasową odpowiadającą nieznanej strukturze oraz rozwiązaną strukturę białka homologicznego, każdy aminokwas w rozwiązanej strukturze jest podstawiany odpowiadającym mu aminokwasem z nieznanej struktury.
Przewlekanie (ang. threading) polega na przeszukiwaniu bazy danych rozwiązanych struktur. W każdym przypadku przy użyciu specjalnej funkcji celu oceniana jest zgodność sekwencji nieznanej struktury ze strukturą białka z bazy danych, a najbardziej zgodne struktury służą do budowania modelu białka o nieznanej strukturze.
SLAJD 8 PDB - baza struktur białkowych
Baza struktur białkowych (ang. Protein Data Bank), stworzona i rozwijana w Brookhaven National Laboratories obecnie zarządzana przez RCSB. Zbiory zawierają wszystkie opublikowane struktury trzeciorzędowe białek, kwasów nukleinowych, węglowodanów i innych związków, oznaczone eksperymentalnie metodami krystalograficznymi i spektroskopii NMR. Strona WWW bazy PDB pozwala wprowadzać i pobierać dane o strukturach przestrzennych molekuł.
Roboczą regułą bazy PDB jest odrzucanie struktur trzeciorzędowych będących produktem modelowania obliczeniowego, a nie konkretnych eksperymentów fizycznych; nie zaleca się wprowadzania do bazy danych pochodzących wyłącznie z nieeksperymentalnego modelowania obliczeniowego.
SLAJD 9 Za pośrednictwem strony WWW RCSB można pobierać struktury przestrzenne molekuł przy użyciu dwóch różnych narzędzi kwerendowych. :Aplikacja SearchLite przeprowadza przeszukiwanie tekstowe po bazie danych. Interfejs SearchFields dostarcza dodatkową możliwość przeszukiwania specyficznych pól w zasobach bazy danych.
Sekwencje zakodowane w formacie plików PDB sprawiają znaczne kłopoty programistom. Ponieważ kompletność informacji o strukturze nie zawsze jest zagwarantowana, rekordy PDB zawierają dwie kopie informacji strukturalnej: sekwencje jawną i ukrytą. Obie formy są wymagane do rekonstrukcji wzoru chemicznego danego biopolimeru.
SLAJD 10 Sekwencje jawne znajdują się w wierszach rozpoczynających się słowem kluczowym SEQRES. Sekwencje ukryte w plikach PDB zawarte są w danych stereochemicznych oraz przy nazwach każdego zapisu ATOM. Są użyteczne przy rozwiązywaniu niejasności związanych z sekwencjami jawnymi, jak odwrotne kodowanie sekwencji nukleotydowych lub weryfikacja występowania niestandardowych aminokwasów. W praktyce wiele przeglądarek plików PDB odtwarza strukturalny wzór chemiczny białka jedyne na podstawie s ukrytej, pomijając informację dostarczaną przez wiersz SEQRES z sekwencją jawną Jeśli taki program ma za zadanie przedstawianie sekwencji pewnej niekompletnej cząsteczki to wygeneruje on niefizjologiczną i biologicznie niezwiązaną sekwencję. S ukryta zatem jest niewystarczająca do odtworzenia kompletnego wzoru strukturalnego cząsteczki.
SLAJD 11
!!!!!!PRZECZYTAĆ :Najlepszym źródłem zatwierdzonych sekwencji białkowych i nukleotydowych pochodzących z rekordów strukturalnych PDB, jest usługa MMDB, dostarczana przez NCBI, która stanowi część systemu serwisowego Entrez.
MMBD - baza danych modelowania molekularnego w NCBI
Opracowana w NCBI baza danych modelowania molekularnego (ang. Molecular Modelinng Database), jest kompilacją wszystkich struktur przestrzennych określonych za pomocą badań krystalograficznych i analiz NMR, zgromadzonych w bazie PDB w Brookhaven. Rekordy bazy MMDB zapisane SA raczej w formacie ASN.1, niż w formacie PDB. Niezależnie od tego, pliki zapisane w formacie PDB mogą również być pobierane z bazy MMDB. Poprzez prezentowanie danych Ew formacie ASN.1, rekordy MMDB, w odróżnieniu od oryginalnych rekordów PDB, posiadają dodatkową informację, która zawiera dane dotyczące strukturalnego wzoru chemicznego.
SLAJD 12 Interfejs WWW bazy MMDB zawiera stronę Structure Summary (podsumowanie struktury) dla każdego rekordu strukturalnego MMDB. Strony te zawierają m.in. sekwencje każdego łańcucha występującego w strukturze zapisane w formacie FASTA, strony WWW bazy PDB, łącza do pokrewnych sekwencji białkowych i nukleotydowych dla każdego łańcucha w strukturze.
Pliki MMDB zapisane w formacie ASN.1 umożliwiają znacznie szybsze wprowadzenie danych i zwracanie wyników niż pliki w innych formatach.
SLAJD 13 Przeglądarka MMDB - Cn3D
Aplikacja ta (skrót od ang. „see in 3-D”) jest przeglądarką struktur przestrzennych stosowaną do oglądania struktur zawartych w rekordach bazy MMDB. Cn3D ma możliwość wyświetlania struktury danej cząsteczki w sposób taki, że nie dopuszcza możliwości błędnej interpretacji danych, co zależy od kompletności informacji o wzorze strukturalnym w rekordach ASN.1 bazy MMDB i jako taki nie potrafi odczytywać plików PDB. Wersja programu Cn3D 3.0 zezwala na wybór podzbiorów struktury molekularnej oraz niezależnego stylu i kolorów wizualizacji. Można zapisać wybrany styl i następnie zapisać taką postać bezpośrednio do pliku ASN.1 co jest odejściem od manualnej edycji zawartości plików PDB czy też zapisu skryptowego. Obrazy w wersji 3.0 oparte są na 3Dgrafice OpenGL co nadaje obrazom wysoką jakość. Pozwala też na animacje struktur przestrzennych. W trakcie animacji obrazu użytkownik może dowolnie obracać i przybliżać oglądaną strukturę, co jest szczególnie użyteczne np. przy śledzeniu procesu zwijania się białka
SLAJD 14 Program BLAST a sekwencje PDB - nowe podobieństwa sekwencji
Badacz poszukujący struktury odpowiadającej nowej sekwencji, może użyć aplikacji BLAST gdyż bazy te zawierają kopie wszystkich zatwierdzonych sekwencji występujących w bazie MMDB. Interfejs WWW BLASTa może zostać użyty w celu przeprowadzenia przeszukiwań przez wklejenie sekwencji w formacie FASTA w odpowiednie okno tekstowe na stronie WWW a następnie wybranie bazy sekwencji „pdb”. Uruchomione zostanie przeszukiwanie wśród wszystkich zatwierdzonych sekwencji aktualnej publicznie dostępnej bazy danych struktur.
NOWY ROZDZIAŁ
SLAJD 15 Metody przewidywania regionów kodujących w sekwencjach DNA
SLAJD 16
!!!!! PRZECZYTAĆ Od kiedy ukończono roboczą wersję sekwencji ludzkiego genomu w 2000r i zakończono jego sekwencjonowanie w 2002, badacze maja za zadanie rozwinąć nowe strategie umożliwiające im obróbkę dużej liczby danych sekwencyjnych.
Dane przechodzą tzw. „proces dojrzewania” : od prostego oznaczenia sekwencji nukleotydowej, poprzez fazę, w której staja się częścią zgromadzonej i jeszcze niekompletnej sekwencji, aż do osiągnięcia ostatecznej, złożonej sekwencji z poziomem błędu mniejszym niż jedna zasada na 10 000. Badacze mogą zadawać sobie pytanie, czy dane odcinki sekwencji reprezentują regiony kodujące czy niekodujące. Zdolność przeprowadzenia takiego rozróżnienia ma ogromne znaczenie w związku z dążeniem do systematycznego sekwencjonowania genomów. Metody automatyczne będą się z czasem stawać coraz bardziej istotne w poznawaniu genomu człowieka i innych genomów.
[I tak, na poziomie sekwencji DNA, w oszarze znajdującym się powyżej końca 5' genu, znajduja się promotory i inne sekwencje regulatorowe, które kontrolują transkrypcję tego genu. Sam gen jest nieciągły i skł. Się z intronów i egzonów ITD.]
SLAJD 17
Mimo, że proces przepisywania informacji z DNA na białko jest bardziej złożony u eukariota niż prekariota, sam fakt że jest on poznany w całości u eukariontów, mógłby sugerować stosunkową łatwość dokładnego przewidywania położenia intronów i egzonów. Niestety sygnały kontrolujące proces przesyłania informacji z poziomu DNA na poziom białek nie są dobrze zdefiniowane, co wyklucza ich zastosowanie jako pewnych wskaźników do rozpoznawania struktury genu. Tak więc można stwierdzić, że nie istnieje żadna prosta metoda pozwalajaca na przewidzenie położenia intronów i egzonów ze 100% pewnością.
W celu zwiększenia dokładności przewidywania struktury genu, można zastosować kombinacje wielu metod.
SLAJD 18
Strategie poszukiwania genów można pogrupować na 3 główne kategorie:
Metody oparte na składzie, które uwzględniają ogólne właściwości sekwencji, czyli używalności poszczególnych kodonów, okresowości występowania powtórzeń i złożoności składu sekwencji.
Metody oparte na sygnałach , analizują obecność lub brak specyficznych sekwencji, wzorów i konsensusów sekwencji. Metody te rozpoznają miejsca donorowe i akceptorowe, miejsca wiązania czynników transkrypcyjnych, kodony START i STOP translacji.
Metody porównawcze Metody porównawcze oparte na określaniu homologii sekwencji. Stwierdzają, czy już wcześniej scharakteryzowane regiony kodujące odpowiadają regionom w analizowanej sekw.
W celu zwiększenia skuteczności przewidywania genu, stosuje się kombinacje tych metod.
SLAJD 19
GRAIL (ang. Gene Recognition and Analysis Internet Link)
Należy do jednego z pierwszych programów rozpoznających geny i ma szerokie zastosowanie. Istnieją dwie podstawowe wersje.
GRAIL 1 wykorzystuje metodę sieci neuronowych do rozpoznania właściwości kodujących sekwencji w oknach o ustalonej długości i rozpatruje samą sekwencję bez uwzględniania dodatkowych cech , tj. np. miejsca łączenia między intronami i egzonami.
Ulepszony GRAIL 1a dodatkowo uwzględnia regiony bezpośrednio przyległe do potencjalnych obszarów kodujących, co zwiększa skuteczność znajdowania prawdziwych eksonów i eliminuje wyniki fałszywe pozytywne.
Te 2 programy odpowiednie są do poszukiwania pojedynczych eksonów.
SLAJD 20
GRAIL 2 uwzględnia zmienną długość okien i informację o kontekście genu; jest odpowiedni do określenia modelu struktury genu.
Ostatnio autorzy Grala udostępnili GRAIL-EXP, który wykorzystuje dodatkowe informacje przy wykonywaniu przewidywań, uwzględniając przeszukiwanie baz danych zawierających kompletne lub częściowe sekwencje genów, co poprawiło działanie Grala.)
SKAN z książki
(Analizie poddano sekwencję pochodzącą z klonu będącego częścią systematycznie sekwencjowanego chromosomu z genomu człowieka. Zastosowano specjalnie aplikację klient-serwer o nazwie XGRAIL, która pozwala na graficzne przedstawienie wyników programu GRAIL pokazanych na rysunku. Ponieważ dana sekw DNA jest duza i zawiera przynajmniej jeden gen, posłużono się programem GRAIL 2. Duże gorne okno przedstawia fragm..klonu , w górnej części okna znajduja się przewidywane egzony. Histogram przedstawia prawdopodobieństwo że dany region jest egzonem. Informacje pokazano w oknie Model Exons. Modele mogą zostać złożone i pokazana jako modele genu w oknie Gene Models jak i produkty translacji białka w oknie Protein Translation. W modelach genu wzgl. SA tylko prawdopodobne eksony z przyjętą określoną wart. prawdopodobieństwa. , sekwencja białkowa może być nastepnie wykorzystana do przeszukiwania publicznych baz danych, w celu znalezienia homologicznych sekwencji. Wyniki są przedstawione w oknie Db Hits.
GENSCAN został zaprojektowany do przewidywania kompletnej struktury genu. Może identyfikować introny, eksony, regiony promotorowe. Może dokonywać z duża dokładnością przewidywań na sekwencjach reprezentujących albo niekompletny gen albo wiele genów rozdzielonym międzygenowym DNA. Program opiera się na tzw. modelu probabilistycznym składu sekwencji genomowej i struktury genu. Algorytm może określić prawdopodobieństwo, że dany odcinek reprezentuje ekson lub promotor. Optymalne eksony wykazują największe prawdopodobieństwo i reprezentują tą część analizowanej sekwencji, która posiada największą szansę.
W Burge laboratory przy MIT (Massachusetts Institute of Technology) stał się dostępny nowy program GenomeScan, który przypisuje większe prawdopodobieństwa tym przypuszczalnym eksonom, które wykazują podobieństwo do sekwencji znalezionych przez program BLASTX, niż eksonom, dla których nie stwierdzono podobieństwa dla innych sekwencji. Większą pewność przypisuje się regionom wykazującym większe prawdopodobieństwo do innych sekwencji niż regionom o mniejszym podobieństwie, gdyż niski stopień podobieństwa czasami oznacza brak homologii. Dlatego przewidywania uzyskane za pomocą tego programu odpowiadają wszystkim lub prawie wszystkim regionom wykazującym duże podobieństwo do innych sekwencji, mogą one jednak czasami ignorować regiony o małym podobieństwie, które albo wykazują słabe sygnały kodowania albo są niezgodny z innymi dodatkowymi informacjami. Dokładność programu GenomeScan może być znacząco większa niż programy GENSCAN, gdy analizuje się sekwencje, które są średnio lub blisko spokrewnione z innymi sekwencjami kodującymi białka.
SLAJD
Filogenetyka (Kladystyka - od gr. klados - gałąź)
Jest nauką o relacjach ewolucyjnych. Celem analizy filogenetycznej jest wysuwanie wniosków na temat tych relacji lub ich szacowanie. Historia ewolucyjna odtwarzana dzięki analizie filogenetycznej jest zwykle przedstawiana w postaci rozgałęzionych diagramów przypominających drzewo i odzwierciedlających przypuszczalne zależności genealogiczne między np. organizmami.
Istnieją trzy podstawowe założenia w kladystyce:
- każda grupa organizmów jest ze sobą spokrewniona przez pochodzenie od wspólnego przodka,
- kladogeneza ma charakter bifurkacyjny (rozwidlający się), jednak jest to kwestionowane,
- zmiany w cechach pojawiają się w liniach filogenetycznych z upływem czasu, jest to warunek konieczny.
SLAJD
Związki wynikające z analizy kladystycznej są najczęściej przedstawiane w postaci drzewa filogenetycznego (RYSUNEK 343).
SLAJD
Za pomocą tego drzewa można wyjaśnić wiele terminów:
- klad jest taksonem monofiletycznym. Jest to grupa organizmów lub genów, które obejmują ostatniego wspólnego przodka wszystkich członków kladu oraz wszystkich potomków tego ostatniego wspólnego przodka,
- takson - wyróżniona grupa organizmów, która niekoniecznie musi być kladem,
- długość gałęzi odpowiada dywergencji organizmów lub genów,
- węzeł - miejsce rozwidlenia gałęzi.
SLAJD
Dopasowywanie sekwencji - tworzenie modelu danych
Dane sekwencyjne do analiz są zwykle zestawieniami sekwencji dopasowanych. Poszczególne pozycje zasad są powszechnie określane jako miejsca. Miejsca są odpowiednikiem cech w teoretycznych rozważaniach nad filogenezą, a rzeczywista zasada zajmująca dane miejsce jest zwana stanem cechy.
Etapy w procesie dopasowywania sekwencji obejmują wybór procedur dopasowywania i stworzenie zbioru danych filogenetycznych z dopasowanych sekwencji. Typowa procedura dopasowywania sekwencji wymaga zastosowania programu tj. CLUSTAL W, a następnie ręcznego poprawienia uzyskanego dopasowania i przesłania danych do programu tworzącego drzewa filogenetyczne.
SLAJD
Wyznaczanie parametrów dopasowania
Najważniejszymi parametrami są te, które określają rozmieszczenie pewnych regionów zwanych indelami lub przerw w dopasowanych sekwencjach o różnej długości. Parametry te powinny zmieniać się dynamicznie tak aby układy niepasujących zasad powinny być bardziej prawdopodobne, gdy sekwencje stają się bardziej odległe.
Najlepsza procedura dopasowywania to ta, która najlepiej opisuje zależności ewolucyjne między badanymi sekwencjami. Nie należy podawać programowi tworzącemu drzewa dopasowania wygenerowanego komputerowo, ponieważ proces tworzenia drzewa nie widzi ewentualnych błędów i nie poprawi ich.
SLAJD
Niektóre programy dopasowujące sekwencje stosują optymalizację według pewnego modelu stochastycznego. Dopasowywanie sekwencji na podstawie struktury drugorzędowej lub trzeciorzędowej jest filogenetycznie jest bardziej wiarygodne niż oparte na strukturze pierwszorzędowej, ponieważ porównania są przeprowadzane głównie na strukturach złożonych.
SLAJD
Dopasowywanie sekwencji - wybór zbioru danych filogenetycznych
W dopasowaniach zawierających sekwencje nie różniące się długością, zbiór danych może być różny. W przypadku sekwencji o różnej długości, różnica między zbiorem danych w dopasowanych sekwencjach i zbiorem danych filogenetycznych jest uwarunkowana tym, jak traktowane są w dopasowaniu niejednoznaczności i indele.
Metoda największej oszczędności czyli parsymonii dopuszcza traktowanie przerw jako cech w dopasowanych sekwencjach. Mogą być one uwzględnianie albo jako dodatkowy stan cechy lub jako zbiór cech niezależnych od substytucji zasad.
SLAJD
Podczas konstruowania zestawienia sekwencji dopasowanych przeznaczonego do analizy filogenetycznej należy pamiętać o następujących kwestiach:
- etap tworzenia dopasowania jest jednym z najważniejszych gdyż dostarcza zbiór danych wykorzystywanych przez modele ewolucji,
- powinno się poprawiać uzyskane dopasowanie usuwając niejasno dopasowane regiony i wstawiając lub kasując przerwy, aby dokładniej odzwierciedlić prawdopodobny proces ewolucyjny, który doprowadził do dywergencji między sekwencjami,
- korzystne jest przeprowadzanie analizy filogenetycznej na podstawie serii nieznacznie zmodyfikowanych dopasowań aby określić jak wątpliwe regiony w dopasowaniu wpływaja na wyniki i do jakiej postaci wyników można mieć mniejsze lub większe zaufanie.
SLAJD
Metody tworzenia drzew
Dzielimy je na metody oparte na odległości i metody oparte na cechach.
- metody oparte na odległości obliczają odległości między parami sekwencji według pewnej miary (najpowszechniej stosowane to metoda przyłączania najbliższego sąsiada NJ i metoda Fitcha - Margoliasha);
- metody oparte na cechach konstruują drzewa, które optymalizują rozkład struktur rzeczywistych danych dla każdej cechy (zalicza się tu metodę parsymonii i metodę największej wiarygodności).
SLAJD
Najpowszechniej stosowany algorytm w tworzeniu drzew filogenetycznych to metoda przyłączania sąsiada (NJ), który nie uwzględnia kryterium optymalizacji. W pełni rozwiązane drzewo powstaje przez całkowite „rozłożenie” drzewa w kształcie gwiazdy (z ang. star tree) przez kolejne wstawianie gałęzi między pary najbliższych, a w rzeczywistości najbardziej oddzielnych sąsiadów i pozostałych zakończeń drzewa (RYSUNEK).
SLAJD
Para najbliższych sąsiadów jest następnie łączona, co skutecznie kryguje drzewo mające kształt gwiazdy, a cały proces jest powtarzany. Metoda ta jest szybka.
Metoda Parsymonii (MP)
Metoda przestrzega zasady, że najlepsze rozwiązanie jest najprostsze. W praktyce dzrewo MP jest najkrótsze i wykazuje najmniejszą liczbę zmian równoległych