WYKŁAD 1, 23/02/2012
Wstęp do bioinformatyki
Bioinformatyka jest dyscypliną pomocniczą biologii, gałęzią biologii teoretycznej. Zajmuje się wykorzystaniem komputerów do wspomagania prowadzenia badań w wielu dziedzinach biologii, np.
taksonomii
biologii molekularnej
biochemii
biofizyki
Wspomaganie to polega na gromadzeniu, udostępnianiu i przetwarzaniu danych różnego typu. Przetwarzanie zgromadzonych danych może prowadzić do nowych odkryć, należy jednak pamiętać, że bioinformatyka umożliwia predykcje, które muszą być zawsze zweryfikowane doświadczalnie.
Systemy linuksowe dzielą się na kilka rodzajów, w zależności od sposobu „pakietowania” oprogramowania:
systemy „redhatopodobne”: pakiety rpm, np. Fedora, RedHat Enterprise Linux, Suse, CentOS, PLD
systemy „debianopodobne”: pakiety deb, np. Debian, Ubuntu, Xubuntu, Kubuntu itp.
systemy kompilowane: wszystkie programy kompilowane ze źródeł, np. Gentoo, Linux from scratch
Slackware - dystrybucja oparta o pakiety tzg
Obsługa linuksa w trybie graficznym:
praca z systemem linuksowym w trybie graficznym nie różni się zasadniczo od pracy w Windowsie
w linuksie nie da się pracować bez zalogowania - podania loginu i hasła
popularne skróty klawiaturowe działają tak samo
wygląd może się dosyć mocno różnić w zależności od używanych programów i ustawień
programy windowsowe nie działają z zasady w innych systemach, dlatego pod linuksem używa się programów spoza Microsoft
Oprogramowanie pod linuksem:
programy potrzebne do pracy z komputerem dostępne są dla każdego użytkownika za darmo
w większości systemów instalacje są automatyczne, nie trzeba się martwić zakupem licencji i instalacją osobnych programów
niektóre wysoce specjalistyczne programy występują wyłącznie w wersji dla Windows (np. CorelDraw, AutoCAD)
niektóre bioinformatyczne narzędzia występują wyłącznie pod linuksem
pakiet biurowy - OpenOffice
Bazy danych
Zasoby informacji na temat organizmów i procesów w nich zachodzących można podzielić na kilka kategorii:
sekwencje nukleotydowe i białkowe
mapy genetyczne i fizyczne
struktury białek i innych molekuł
literatura
informacje o ekspresji genów
Trzy główne ośrodki gromadzonych danych sekwencyjnych to:
NCBI (National Center of Biological Information) w USA
DDBJ (DNA Data Bank of Japan) w Japonii
EMBL (European Molecular Biology Laboratory) w Europie
Te trzy ośrodki prowadzą zsynchronizowane bazy danych - informacje zgłoszone w jednej z nich zostaną wprowadzone do wszystkich trzech.
Bazy sekwencji:
aby informacje o sekwencji genomów i białek gromadzone w bazach danych były użyteczne, dane muszą być przechowywane w odpowiedniej formie, łatwej do przetwarzania komputerowego, a jednocześnie do czytelnej prezentacji ludzkiemu użytkownikowi
wymaga to określenia odpowiedniego modelu danych, czyli formalnego sposobu ich opisu; informacje, jakie należy uwzględnić to m.in.
- pozycja systematyczna organizmu, z którego pochodzi sekwencja
- rodzaj cząsteczki (DNA, RNA, białko)
- rodzaj sekwencji (genomowa, plazmidowa, sztucznie stworzony wektor)
- autor
- unikalny numer sekwencji
ponieważ najczęściej nie wyciągamy z bazy rekordów, gdzie jakieś pola mają określoną wartość, tylko takie, gdzie pole „sekwencja” ma zawartość podobną do sekwencji, którą poszukujemy (sekwencji kwerendowej), standardowy model relacyjnej bazy danych nie jest odpowiedni
przeszukiwanie olbrzymich baz danych wymaga użycia algorytmu heurystycznego, takiego, jak zaimplementowany w programie BLAST; takie programy mają różne wymagania co do formatu bazy danych, np. BLAST wymaga odpowiedniego przygotowania bazy (sformatowanie jej programem formatdb)
najczęściej w bazach danych rekordy są przechowywane w plikach binarnych; w przypadkach baz sekwencyjnych korzysta się raczej z formatu tekstowego (plain text)
poszczególne rekordy są wyróżnionymi częściami jednego, dużego pliku tekstowego; dane w takim pliku są opisywane przy użyciu języka ASN1, a następnie program umożliwiający dostęp do bazy interpretuje odpowiedni rekord i wyświetla go w wybranym, czytelnym dla człowieka formacie
może to być np. Fasta (inaczej format Pearsona) lub GenBank
Numery dostępu:
każda sekwencja w bazie danych ma unikalny tzw. numer dostępu
w przypadku bazy nukleotydowej (GenBank) numer ten ma postać XXnnnnnn.n, gdzie X oznacza dowolną literę, zaś n liczbę
każda sekwencja, zarówno w bazie białkowej, jak i nukleotydowej ma przypisany globalny identyfikator (GI) - ośmiocyfrową liczbę, która jest absolutnie unikalna, nie tylko w obrębie danej bazy, ale we wszystkich innych bazach sekwencyjnych; jest również wewnętrznym identyfikatorem NCBI
trzeci rodzaj identyfikatora to tzw. RefSeq Id; ma on format NX_nnnnnn.n, gdzie X=C dla chromosomów, X=M dla transkryptów, X=T dla sztucznych wektorów, X=P dla białek; rekordy RefSeq są danymi odniesienia
Bazy map genetycznych i fizycznych:
bardzo duża kolekcja map zgromadzona jest w NCBI, w sekcji Genome; dostęp do tych informacji realizowany jest poprzez aplikację MapView
NCBI zintegrowała wiele map różnych typów - genetyczne, cytogenetyczne, fizyczne, hybryd poradiacyjnych
mapa genetyczna - odległości między markerami są podane w centymorganach (1 centymorgan = 1% rekombinacji)
mapy genomów pozwalają na klonowanie interesującego nas odcinka genomu, co w przypadku eukariontów wymaga zlokalizowania genu na jednym z chromosomów, a następnie w jego obrębie; mapy fizyczne, w szczególności mapy klonów ze zlokalizowanymi markerami bardzo upraszczają sytuację
mapy cytogenetyczne - tworzy się przy pomocy techniki FISH; sondy fluorescencyjne hybrydyzuje się do określonej sekwencji
najprostszymi rodzajami map fizycznych są mapy restrykcyjne; tworzy się je trawiąc DNA genomowe różnymi kombinacjami enzymów restrykcyjnych i następnie ustalając kolejność miejsc cięcia
Bazy struktur:
gromadzą informacje o przestrzennej budowie makromolekuł (białek i kwasów nukleinowych)
najważniejsze bazy danych to:
- PDB (Protein Data Bank)
- MMDB (Molecular Modelling Data Base)
dane w MMDB są dużo bardziej sformalizowaną i łatwiejszą do obróbki komputerowej wersją struktur z PDB
w MMDB znajdują się struktury określone wyłącznie eksperymentalnie, zaś w PDB również modele teoretyczne
Bazy literatury:
główną bazą danych literatury dla nauk biologicznych jest PubMed, prowadzony przez NCBI
rekordy w tej bazie danych zawierają:
- tytuł publikacji
- autorów i ich afiliację
- dane o czasopiśmie, w którym ukazała się publikacja
- datę publikacji
- unikalny identyfikator PMID
- abstrakt
bardzo wygodną cechą PubMed jest zamieszczanie linków do artykułów związanych z właśnie przeglądanym
Bazy informacji o ekspresji genów:
istnieją geny różnie eksprymowane u ludzi chorych i zdrowych, związane ze specyficznymi jednostkami chorobowymi
WYKŁAD 2, 1/03/2012
Przeszukiwanie baz sekwencji
Przeszukiwanie baz danych sekwencji polega na skonstruowaniu alignmentu, czyli dopasowaniu sekwencji kwerendowej do sekwencji poszukiwanej. Konstrukcja alignmentu zachodzi nie w obrębie całej bazy danych, ale w obrębie rekordów, które dadzą istotne wyniki (idea algorytmu heurystycznego).
Niech A będzie alfabetem (np. A = {A, C, T, G} dla sekwencji nukleotydowej), z którego pochodzą symbole w dwóch zbiorach X i Y, o liczności odpowiednio n i m (i = 0, 1, …, n, xi należy do A; j = 0, 1, …, n, yj należy do A).
Zbiory te nazywamy sekwencjami. Alignmentem sekwencji X i Y nazywamy uporządkowany zbiór par PI (xi, yj), takich, że:
VI: iI > iI-1 ^ jI > jI-1
Chodzi o to, by zmaksymalizować liczbę kolumn o identycznych wartościach.
Rodzaje alignmentów:
1. alignmenty dzielimy na dwie klasy:
globalne - dopasowywane są całe sekwencje, niezależnie od różnicy długości
lokalne - dopasowywane są najlepiej pasujące fragmenty sekwencji
2. z przyczyn obliczeniowych wyróżniamy:
alignmenty dwóch sekwencji
alignmenty wielu sekwencji
Ocena alignmentu
Odróżnianie alignmentów „lepszych” od „gorszych” wymaga jakiejś mierzalnej wartości. Liczbę, która mówi o „dobroci” alignmentów nazywamy score - oceną. Score zależy od:
liczby par dopasowanych (np. AA)
liczby par niedopasowanych (np. AG)
wartości liczbowych przypisanych różnym parom w macierzy wagowej
liczby i długości przerw
przyjętego sposobu liczenia kar za przerwy i ich wartości
Matematycznie, score jest sumą score wszystkich par dopasowanych i kar za przerwy.
Macierz wagowa to tablica, w której wszystkim możliwym parom symboli z danego alfabetu przypisano jakieś wartości liczbowe. Macierze wagowe mają prostą interpretację probabilistyczną - im wyższy jest score przypisany danej parze symboli, tym większe prawdopodobieństwo napotkania takiej pary w „dobrych” alignmentach i odwrotnie.
Kary za przerwy
Najczęściej stosuje się dwa rodzaje funkcji ważącej przerwy:
liniowe: GP(g) = dg
afiniczne: GP(g) = d + (g-1)e
W modelu afinicznym g oznacza długość przerwy, d oznacza karę za otwarcie przerwy, natomiast e karę za jej przedłużenie.
Ponieważ prawdopodobieństwo powstania przerwy o długości n nie jest na ogół równe prawdopodobieństwu powstania n przerw o długości 1 (insercje lub delecje mogą zachodzić blokami), bardziej realistyczny jest model afiniczny, który wprowadza mniejszą karę za przedłużenie już otwartej przerwy. Z tego powodu jest on szerzej stosowany niż model liniowy.
Macierze twarde (np. BLOSUM80) uzyskujemy z sekwencji, które niewiele się od siebie różnią. Te macierze dużo wyżej nagradzają idealne dopasowania. Macierze miękkie (np. BLOSUM45) łagodniej karzą przerwy lub nieidealne dopasowania.
Istnieją algorytmy umożliwiające obliczenie alignmentu optymalnego dowolnych dwóch sekwencji. Alignment globalny oblicza się zgodnie z algorytmem Needlemana-Wunscha. Alignment lokalny konstruuje się przy pomocy algorytmu Smith-Watermana. Algorytmy te stosują techniki programowania dynamicznego - podziału dużego problemu na mniejsze, łatwe do rozwiązania.
Przeszukiwanie baz sekwencji polega na:
dopasowaniu sekwencji kwerendowej do każdej sekwencji w bazie (po kolei)
stwierdzeniu, które dopasowania są wynikiem przypadku (losowe), a które są efektem wspólnego pochodzenia i podobieństwa struktury (statystycznie istotne)
Do konstrukcji dopasowania można wykorzystać dowolny algorytm, jednak te oparte na programowaniu dynamicznym są zbyt wolne.
HOMOLOGIA JEST LUB JEJ NIE MA!! CECHAMI ILOŚCIOWYMI (COŚ JEST MNIEJSZE LUB WIĘKSZE) SĄ IDENTYCZNOŚĆ I PODOBIEŃSTWO!! |
Statystyczna istotność dopasowania jest miarą „sensowności” alignmentu. Dokładniej, mówi ona, jak prawdopodobne jest znalezienie w losowej bazie sekwencji, której alignment z sekwencją kwerendową będzie miał score większy lub równy score aktualnego dopasowania.
Losowa baza sekwencji to baza o takiej wielkości, jak faktycznie przeszukiwana, w której pozamieniano litery, nie zmieniając przy tym składu bazy - czyli ich częstości występowania. Jak widać, o istotności dopasowania można mówić wyłącznie w kontekście przeszukiwanych baz danych.
Istnieją dwie miary statystycznej ilości dopasowania:
e-value - oczekiwana liczba losowych sekwencji, których alignmenty z sekwencją kwerendową będą miały score większy lub równy score ocenianego dopasowania
p-value - prawdopodobieństwo, że istnieje przynajmniej jedna losowa sekwencja, której alignment z sekwencją kwerendową będzie miał score większy lub równy score ocenianego alignmentu
E-value i p-value są ze sobą związane. Dla wartości dużo mniejszych niż 0,01, E(S) ≈ P(S).
P(S) = 1 - e-E(S)
Stąd istotne będą dopasowania, dla których e-value i p-value będą dużo mniejsze od 1. Standardowo za próg istotności uznaje się wartość 0,01.
Przeszukiwanie baz danych sekwencji z użyciem algorytmu Smith-Watermana lub Needlemana-Wunscha trwa długo, dlatego stosuje się inne algorytmy, które pozwalają proces przyspieszyć kosztem absolutnej poprawności wyników.
Programem, który jest najczęściej używany do przeszukiwania jest BLAST. Przeszukiwanie przy użyciu pojedynczej sekwencji nie jest najczulszą metodą. Do przeszukiwania można wykorzystać informacje płynące z dopasować wielu sekwencji - możliwość znalezienia odległych homologów jest wtedy znacząco większa. Wtedy stosuje się PSI-BLAST.
Czułość przeszukiwania to prawdopodobieństwo niepominięcia istotnego dopasowania. Im czułość większa, tym większą pewność mamy, że znaleźliśmy wszystkie faktyczne homologi, znajdujące się w bazie sekwencji.
Specyficzność to 1 - prawdopodobieństwo błędnego uznania dopasowania za istotne. Im wyższa specyficzność, tym rzadziej w wynikach znajdą się bzdury.
BLAST działa szybciej niż algorytmy oparte na programowaniu dynamicznym, ponieważ nie konstruuje alignmentów sekwencji kwerendowej ze wszystkimi sekwencjami w bazie. BLAST konstruuje alignmenty z krótkimi, idealnie dopasowanymi fragmentami sekwencji, tzw. słowami. Słowa muszą spełniać trzy warunki:
score ich dopasowania musi być większy od danego progu
nie mogą się nakładać
odległość między nimi musi być mniejsza od ustalonego progu
Sprawdzanie BLASTem opiera się na tym, że istotnie podobne sekwencje zawierają słowa.
BLAST zawdzięcza swoją prędkość temu, że sprawdza obecność słów z sekwencji kwerendowej w specjalnie przygotowanej tablicy, zawierającej informacje o tym, jakie słowa występują w kolejnych sekwencjach z bazy i jaka jest ich pozycja. Dla wybranej sekwencji konstruowany jest alignment i oceniana jest jego istotność.
PSI-BLAST
Algorytm wykorzystujący BLAST do iteracyjnego (powtarzanego) przeszukiwania bazy białkowej sekwencją białkową przy użyciu informacji płynących z dopasowania wielu sekwencji. W metodzie tej obecność konkretnego aminokwasu w danej pozycji sekwencji z bazy „nagradzana” jest score zależnego od składu kolumny alignmentu, do której ten aminokwas jest dopasowywany, a nie tylko od macierzy wagowej - mówimy, że score jest pozycyjnie specyficzny.
Dzięki temu mamy możliwość wykrywania dalekich homologów, których podobieństwo liczone „tradycyjną” metodą byłoby zbyt niskie, żeby uznać dopasowanie za istotne.
Parametr „inclusion threshold”
Najważniejszym z parametrów umożliwiających kontrolę nad przeszukiwaniem jest w przypadku PSI-BLASTa próg włączenia. Jest to maksymalne e-value, jaką może mieć dopasowanie danej sekwencji, aby była ona włączona do profilu (i brana pod uwagę w kolejnej iteracji). Użycie zbyt wysokiej wartości powoduje, że do profilu włączane są śmieci - sekwencje, które nie są homologiczne do sekwencji kwerendowej. Z kolei zbyt niska wartość wykluczy z profilu sekwencje, które powinny się w nim znaleźć, czyli faktycznie odległe homologi. Właściwą wartość należy dobrać eksperymentalnie. Dobrym punktem startowym jest wartość 0,005.
WYKŁAD 3, 8/03/2012
Alignmenty wielu sekwencji
Konstruowanie alignmentów wielu sekwencji jest jednym z ważnych zadań bioinformatyki. Analignmentów wielu sekwencji używa się w analizie filogenetycznej i przy przeszukiwaniu baz danych.
Rozszerzenie pojęcia alignmentu dwóch sekwencji na większą ich liczbę nazywamy multiple alignment.
W idealnym przypadku aminokwasy lub zasady w każdej kolumnie alignmentu mają wspólne pochodzenie ewolucyjne i zajmują podobne miejsca w strukturach swoich cząstek. Z zasady zawsze istnieje dobry alignment ewolucyjny dla dowolnego zestawu sekwencji (nawet jeśli ich struktury nie dają się nałożyć), jednak stwierdzenie, który z bardzo wielu możliwych alignmentów jest właściwy może nie być możliwe. Alignment w sensie strukturalnym możemy zweryfikować jeżeli dysponujemy wszystkimi strukturami wchodzącymi w skład alignmentu.
Podstawowymi pytaniami w analizie sekwencji białkowych są:
czy dana sekwencja należy do określonej rodziny białek
jeżeli tak, to jakie zakonserwowane elementy w niej występują
jaka jest przypuszczalna funkcja danego białka?
Aby na nie odpowiedzieć, należy przyrównać sekwencję kwerendową do różnych sekwencji pochodzących z rodziny, do której białko prawdopodobnie należy.
Drugim, niezmiernie istotnym zastosowaniem alignmentu jest analiza filogenetyczna. Drzewa filogenetyczne konstruuje się na podstawie alignmentu.
Trzecim zastosowaniem jest identyfikacja nieznanych do tej pory członków rodzin białkowych w bazach danych.
System oceny alignmentu wielu sekwencji powinien brać pod uwagę dwie rzeczy:
score pozycyjnie specyficzny - pewne pozycje są silniej zakonserwowane niż inne
sekwencje tworzące alignment nie ewoluowały niezależnie, a związki między nimi określa drzewo filogenetyczne
Idealnym score dla alignmentu wielu sekwencji byłoby prawdopodobieństwo takiego alignmentu, przy założeniu prawidłowego drzewa filogenetycznego i modelu ewolucyjnego. W takim przypadku prawdopodobieństwo alignmentu jest iloczynem prawdopodobieństw.
Na ogół nie znamy prawidłowego drzewa, a model ewolucyjny musiałby być tak skomplikowany, że jego stosowanie w praktyce jest niemożliwe - stosuje się więc następujące przybliżenia:
niezależność kolumn alignmentu
niezależność ewolucji
Ze względu na zbyt wysoką złożoność obliczeniową algorytmów konstruujących optymalny alignment, konieczne jest stosowanie algorytmów heurystycznych, szybszych, lecz nie gwarantujących optymalnych rozwiązań. Najczęściej stosowaną heurystyką jest progresywna metoda konstrukcji alignmentu. Polega ona na konstrukcji alignmentu na podstawie alignmentu dwóch sekwencji.
Algorytm alignmentu progresywnego:
utwórz (N-1)N/2 alignmentów sekwencji (każda z każdą)
na podstawie score'ów otrzymanych alignmentów oblicz odległości między sekwencjami
na podstawie odległości oblicz drzewo przewodnie (np. metodą „Neighbor-Joining”, NJ)
utwórz alignment najbliżej spokrewnionych sekwencji, od tego momentu jest on niezmienny („zamrożony”)
do istniejącego alignmentu dołącz kolejną, najbliższą sekwencję
powtarzaj powyższy krok, dopóki są sekwencje do dołączenia
W niektórych metodach konstruuje się najpierw alignment z najbardziej zbliżonych par, a następnie z utworzonych alignmentów dwóch sekwencji robi się alignmenty czterech najbliższych sekwencji. I tak dalej.
ClustalW
W programie ClustalW i jego odpowiedniku z graficznym interfejsem (ClustalX) zastosowano metodę progresywnego konstruowania alignmentu z użyciem profili i score w postaci SP. Zaimplementowano także dodatkowe heurystyki poprawiające wynik:
sekwencje są ważone w celu skompensowania nadreprezentacji dużych podrodzin zbliżonych do siebie białek
macierz wagowa jest wybierana na podstawie wstępnego oszacowania podobieństwa; sekwencje blisko spokrewnione porównywane są przy pomocy macierzy twardych, np. BLOSUM80, a odległe od siebie przy pomocy macierzy miękkich, np. BLOSUM32
kary za przerwy są pozycyjnie specyficzne; zależą od stopnia zakonserwowania kolumny i rodzaju aminokwasów, jakie się w niej pojawiają (kary są wyższe w kolumnach, gdzie są aminokwasy hydrofobowe)
kara za otwarcie przerwy jest mniejsza, jeżeli kolumna należy do ciągu przynajmniej pięciu aminokwasów hydrofilowych
obie kary za przerwy są wyższe, jeżeli w kolumnie nie ma przerw, ale są one w poprzedniej kolumnie
drzewo przewodnie może być dostosowywane „w locie” - alignmenty o niskim score są przesuwane na późniejszy etap, kiedy ilość informacji będzie większa
ANALIZA FILOGENETYCZNA
Analiza filogenetyczna - dział biologii, zajmujący się ustalaniem zależności ewolucyjnych między organizmami i grupami organizmów. Jest ściśle związana z systematyką. Wydaje się, że wszystkie organizmy pochodzą od wspólnego przodka (LUCA). W związku z tym, relacje filogenetyczne między nimi można przedstawić w postaci drzewa życia o korzeniu będącym wspólnym przodkiem wszystkich współczesnych organizmów.
Ewolucja zachodzi na poziomie molekularnym (substytucje, insercje i delecje w materiale genetycznym), manifestuje się jednak również makroskopowo. Jednak badając ewolucję przy pomocy cech makroskopowych, należy zawsze pamiętać o ich podłożu molekularnym.
Rozwój technik sekwencjonowania DNA spowodował, że stało się możliwe porównywanie sekwencji homologicznych wszystkich genów danego organizmu. Umożliwia to zbadanie, jak zachodziła ewolucja pojedynczych genów i całego genomu.
Może zdarzyć się tak, że ewolucja jakiegoś genu zachodziła inaczej niż większości genów danego organizmu. Analiza filogenetyczna umożliwia nam stwierdzenie tego faktu.
Informacje płynące z drzew filogenetycznych pomagają w przypisaniu potencjalnej funkcji danej sekwencji.
Drzewo filogenetyczne - diagram (graf skierowany), przedstawiający relacje filogenetyczne między organizmami.
Drzewo może być ukorzenione (pokazuje wtedy kierunek ewolucji) bądź nieukorzenione (pokazuje jedynie względne relacje między organizmami).
Drzewo skonstruowane przy pomocy metod kladystycznych nazywamy kladogramem, zaś skonstruowane przy pomocy metod fenetycznych nazywamy fenogramem.
Kladystyka - metoda analizy filogenetycznej używająca wspólnych cech odziedziczonych, czyli synapomorfii, do określenia zależności między organizmami.
Fenetyka - opiera się na klasyfikacji organizmów na podstawie ogólnego podobieństwa.
Niektóre drzewa filogenetyczne dają się na siebie nałożyć, jeżeli nie bierze się pod uwagę długości krawędzi. Mówimy o nich, że mają równoważną topologię. Jeżeli długość krawędzi jest identyczna, mówimy o drzewach całkowicie identycznych.
Istnieje wiele metod konstrukcji drzew filogenetycznych. Najważniejsze są trzy:
metody odległościowe (fenetyczne)
metody oszczędnościowe (parsymonii, kladystyczne)
metody maksymalnego prawdopodobieństwa (kladystyczne)
Metody odległościowe:
na podstawie score dopasowania określa się odległości między sekwencjami; najczęściej odległości te umieszcza się w tzw. macierzy odległości
odległości w zbiorze sekwencji określa się jako funkcję liczby f (liczby dywergencji), czyli miejsc w alignmencie, gdzie sekwencje się różnią
do określenia odległości dla sekwencji DNA można użyć dowolnego modelu substytucji:
- Jukesa-Cantona - najprostszy; częstości równowagowe nukleotydów 0,25; wszystkie rodzaje mutacji jednakowo prawdopodobne
- Kimury - częstości równowagowe nukleotydów 0,25; tranzycje dwa razy częstsze niż transwersje
- Hasegawy, Kishino i Yano - najbardziej skomplikowany; zakłada rzeczywiste częstości równowagowe; częstości mutacji oszacowane na podstawie sekwencji
dla białek można użyć modelu ewolucji DNA do symulacji ewolucji sekwencji białkowej lub zastosować model substytucji dla białek:
- najczęściej stosuje się model PAM lub PMB (Probability Matrix for Blocks)
- nie można stosować macierzy BLOSUM, ponieważ nie pozwalają one na określenie właściwej liczby substytucji, skorygowanej o wielokrotne podstawienia
w pakiecie PHYLIP macierze odległościowe oblicza program protdist dla białek i dnadist dla DNA
gdy mamy skonstruować macierz odległościową, musimy na jej podstawie skonstruować drzewo; w zależności od własności macierzy, stosuje się jedną z metod:
- jeżeli macierz jest ultrametryczna, stosujemy metodę UPGMA
- jeżeli macierz jest addytywna, stosujemy przyłączanie sąsiada (NJ) lub metodę Fitch i Margoliash
Macierz jest ultrametryczna, kiedy sekwencje ewoluowały ze stałą szybkością (sytuacja BARDZO mało prawdopodobna). Jeżeli dla dowolnych trzech sekwencji x, y i z zachodzi równość:
dxy = dxz = dyz
lub dwie są równe, a trzecia wartość mniejsza, macierz jest ultrametryczna.
Macierz jest addytywna, kiedy została uzyskana z sekwencji, których filogeneza jest określona drzewem o odległościach addytywnych. Drzewo takie ma tę własność, że odległość między dowolną parą liści jest równa sumie długości krawędzi je łączących.
Przyłączenie sąsiada (NJ, Neighbor-Joining):
algorytm ten jest prosty i szybki; w efekcie daje drzewa nieukorzenione
przyłączenie sąsiada działa identyfikując pary sąsiadujących sekwencji (sekwencji będących następcami jednego węzła)
WYKŁAD 4, 15/03/2012
Metody oszczędnościowe:
zasada parsymonii wywodzi się z filozoficznej zasady zwanej brzytwą Ockhama „Nie należy mnożyć bytów ponad potrzebę”
w kladystyce owe byty to klady, natomiast w metodzie oszczędnościowej chodzi o zdarzenia ewolucyjne (na poziomie molekularnym: substytucje, insercje i delecje)
działają one, zliczając zdarzenia ewolucyjne potrzebne do wygenerowania danego drzewa z danych; wymaga w związku z tym oceny każdego możliwego drzewa
w przypadku dużej liczby sekwencji ocena wszystkich drzew może być niemożliwa, trzeba więc zastosować metody heurystyczne zmniejszające przestrzeń przeszukiwania
metody oszczędnościowe mogą generować więcej niż jedno najoszczędniejsze drzewo, tzw. drzewo konsensusowe
wszystkie algorytmy metod oszczędnościowych składają się z dwóch odrębnych części:
1. obliczanie kosztu pojedynczego drzewa
2. przeszukiwanie zbioru wszystkich możliwych drzew lub jego podzbioru
krok pierwszy polega na obliczeniu kosztu dla pojedynczego miejsca (kolumny alignmentu), przy określonej topologii drzewa i przypisanych sekwencjach do liści oraz zsumowaniu kosztu wszystkich kolumn
metody dokładne:
- „brute force” - przeszukiwanie wszystkich drzew
- „branch and bound” - ogranicza przestrzeń przeszukiwania
metody przybliżone:
- stochastyczna zamiana gałęzi - konstruuje się drzewo losowe, ocenia, losowo zmienia się topologię i ponownie ocenia; akceptuje się nowe drzewo, jeśli jego koszt jest mniejszy
- stochastyczna budowa drzewa - wybiera się losowo trzy sekwencje i umieszcza na drzewie (jest tylko jeden sposób), a następnie dokłada się kolejną sekwencję w takim miejscu, które daje najniższy koszt; jest to najczęściej stosowane podejście
Prosta parsymonia - zlicza zdarzenia ewolucyjne, nie przypisując im wag. Algorytm realizujący zliczenia dla pojedynczego miejsca (kolumny alignmentu) o numerze u jest prosty:
inicjalizacja: ustaw koszt C = 0 i k = 2n-1 (k to liczba węzłów w drzewie o n liściach)
rekursja: aby uzyskać zbiór możliwych symboli ancestralnych dla węzła k (Rk):
- jeżeli k jest liściem: Rk = xku (u-ty symbol w sekwencji przypisanej do węzła k)
- jeżeli k nie jest liściem: należy obliczyć zbiory Ri i Rj dla węzłów zastępczych i i j; następnie obliczyć zbiór Rk = Ri ∩ Rj; jeżeli zbiór jest pusty, należy obliczyć zbiór
Rk = Ri u Rj, a koszt zwiększa się o 1
terminacja: koszt drzewa = C
Interpretacja drzew uzyskanych metodą oszczędnościową:
w przypadku prostej parsymonii, długość gałęzi na ogół bezpośrednio odpowiada liczbie substytucji (zsumowanych po wszystkich miejscach) wzdłuż tej gałęzi
długości gałęzi w parsymonii ważonej mogą również się opierać na zliczeniach substytucji, najczęściej jest to jednak zsumowany koszt wszystkich zdarzeń wzdłuż gałęzi
Drzewa uzyskane metodami parsymonii, w których występują grupy siostrzane, połączone długimi (relatywnie) gałęziami, należy traktować podejrzliwie.
Felsenstein wykazał, że parsymonia może konsekwentnie błędnie rekonstruować pewien typ drzew, gdzie liczba cech jest niewielka. Sytuacja ta jest nazywana przyciąganiem długich gałęzi.
Metody maksymalnego prawdopodobieństwa (ML) poszukują wśród wszystkich możliwych drzew takiego, którego prawdopodobieństwo przy założeniu danych jest największe. Aby znaleźć to prawdopodobieństwo, potrzebne jest prawdopodobieństwo wyewoluowania sekwencji x z ancestralnej sekwencji y wzdłuż gałęzi o długości t. Prawdopodobieństwo topologii T z zestawionych sekwencji ancestralnych przypisanych węzłom można obliczyć mnożąc przez siebie wszystkie prawdopodobieństwa, po jednym dla każdej gałęzi drzewa.
Ponieważ na ogół nie znamy sekwencji ancestralnej, trzeba wysumować prawdopodobieństwo po wszystkich możliwych przodkach. Proces przeszukiwania maksymalnego prawdopodobieństwa będzie się składał z dwóch etapów:
obliczenie prawdopodobieństwa danej topologii i przypisanie sekwencji do liści
znalezienie zestawu długości gałęzi maksymalizującego prawdopodobieństwo
Ponieważ liczba drzew rośnie bardzo szybko wraz ze wzrostem liczby liści, a metody ML są kosztowne obliczeniowo, potrzebne są heurystyki ograniczające przestrzeń poszukiwania.
Prosty algorytm ML działa używając modelu ewolucyjnego, w którym założone są niezmienne szybkości substytucji. Dodatkowym założeniem jest brak przerw w alignmencie i niezależna ewolucja w poszczególnych miejscach.
ANALIZA SEKWENCJI BIAŁKOWYCH
Zidentyfikowanie nowego białka, np. w nowo zsekwencjonowanym genomie, powoduje konieczność przeanalizowania jego sekwencji. Analiza taka ma na celu przede wszystkim określenie prawdopodobnej funkcji białka.
Analizy możemy podzielić na trzy grupy:
analiza sekwencji (struktury pierwszorzędowej)
analiza struktury drugorzędowej
analiza struktury trzeciorzędowej
Analizy sekwencji, jako całości:
skład aminokwasowy
teoretyczne pI i teoretyczna masa cząsteczkowa białka
indeks (nie)stabilnośc (ProtParam)
powtórzenia, statystyczne odległości między aminokwasami (SAPS)
wykrywanie coiled coils (kłębuszki, zwoje, super-drugorzędowe struktury)
Wykrywanie funkcjonalnych fragmentów sekwencji:
poszukiwanie zakonserwowanych domen (InterProScan, MotifScan, SMART)
poszukiwanie zakonserwowanych motywów (MotifScan)
Wykrywanie potencjalnych modyfikacji potranslacyjnych - różne modyfikacje i organizmów prokariotycznych i eukariotycznych.
SEKWENCJONOWANIE DNA
Jest to ustalanie kolejności zasad w sekwencji DNA (ewentualnie aminokwasów w białku, jeżeli mówimy o sekwencjonowaniu białka). Ostatnio powstało wiele metod sekwencjonowania, co spowodowało gwałtowny spadek cen. Ogólnie, metody sekwencjonowania można podzielić na trzy grupy:
sekwencjonowanie przez degradację
sekwencjonowanie przez syntezę
sekwencjonowanie w trakcie przechodzenia przez nanopory
Sekwencjonowanie przez degradację:
najstarsza i najmniej wydajna z metod, opracowana w połowie lat 70' przez Maxama i Gilberta
polega na hydrazynolizie ssDNA i chromatografii, która identyfikuje oderwany nukleotyd
Sekwencjonowanie przez syntezę:
nowoczesne metody sekwencjonowania oparte są na syntezie nici DNA na matrycy DNA, którego sekwencja jest ustalana
matryca może być namnażana klonalnie (w emulsji lub na stałym podłożu) albo jest pojedynczą cząsteczką DNA (sekwencjonowanie w czasie rzeczywistym)
syntezę może prowadzić polimeraza (w metodzie Sangera, pirosekwencjonowaniu, metodzie Illumina, Helicos) lub ligaza
Metoda Sangera (dideoksyterminatorów):
metoda polega na zasadzie zahamowania syntezy DNA przez tzw. terminatory (dideoksynukleotydy)
do reakcji wydłużania primerów dodawane są w niewielkiej ilości terminatory, co powoduje, że uzyskuje się pulę produktów każdej możliwej długości, każdy zakończony określonym terminatorem
produkty są rozdzielane na żelu poliakrylamidowym i wykrywane
odróżnianie fragmentów kończących się określonym terminatorem jest możliwe dzięki wyznakowaniu ich różnymi fluoroforami
Sekwencjonowanie drugiej generacji (NGS):
większość metod NGS opiera się na połączeniu klonalnego namnażania sekwencji fragmentów DNA z wykrywaniem sygnału fluorescencyjnego, generowanego w trakcie włączenia nukleotydu do syntetyzowanej nici
możliwe są trzy podejścia:
1. pirosekwencjonowanie - niemodyfikowane nukleotydy są dodawane po kolei
2. metoda Helicos - zmodyfikowane nukleotydy (odwracalne terminatory) dodawane są po kolei
3. metoda Illumina - zmodyfikowane nukleotydy (odwracalne terminatory) dodawane są jednocześnie
w przypadku metod Helicos i Illumina niezbędne jest odblokowanie włączonych nukleotydów w celu umożliwienia kolejnego cyklu sekwencjonowania
w metodzie Helicos jest cztery razy więcej cykli niż w metodzie Illumina; w dodatku metoda Helicos daje badaczowi obraz monochromatyczny, zaś Illumina obraz kolorowy
WYKŁAD 5, 22/03/2012
Pirosekwencjonowanie:
polega na wykrywaniu światła generowanego przez lucyferazę z ATP wytworzonego przez pirofosforan uwolniony w trakcie włączania zasady do syntetyzowanej nici DNA
w połączeniu z klonalnym namnażaniem losowych matryc w trakcie emPCR daje możliwość uzyskania do miliona odczytów (pojedynczych sekwencji) w trakcie jednego cyklu pracy urządzenia (około 10h)
w zależności od zastosowanej chemii długość odczytów wynosi 100-450 zasad
Illumina/Solexa:
polega na połączeniu amplifikacji „mostków” DNA na stałym podłożu i wykrywaniu inkorporacji znakowanych fluoroforami nukleotydów w formie odwracalnych terminatorów
na jednej płytce (slide) można utworzyć ponad 100 milionów klastrów sekwencji, z których każdy da jeden odczyt
długość pojedynczego odczytu wynosi około 150 zasad
dzięki „mostkowaniu” (bridging) uzyskuje się odczyty z obu końców sekwencjonowanych fragmentów
Sekwencjonowanie w czasie rzeczywistym (Real Time Sequencing):
polega na obserwacji syntezy pojedynczej cząstki DNA przez cząsteczkę polimerazy immobilizowaną w dołku płytki szklanej
znakowane fluorescencyjnie odwracalne terminatory podawane są kolejno
matryce nie są amplifikowane, wobec czego sygnał jest słaby
metoda ta generuje najwięcej błędów, ale za to potencjalnie może dawać najdłuższe odczyty
Sekwencjonowanie w trakcie przechodzenia przez nanopory:
polega na rejestrowaniu zmian prądu płynącego w poprzek dwuwarstwy lipidowej, w której znajduje się nanopor - zwykle, białkowy kanał jonowy
prąd jonowy jest najmniejszy, gdy w kanale znajduje się adenina - największy nukleotyd
prąd jonowy jest największy, gdy w kanale znajduje się cytozyna - najmniejszy nukleotyd
Strategie sekwencjonowania genomów i metody składania
Sekwencjonowanie fragmentów DNA dłuższych niż jeden odczyt z metody Sangera wymaga ustalenia strategii zapewniającej najefektywniejsze (w sensie kosztów) i najprostsze uzyskanie pełnej sekwencji.
W zależności od długości sekwencji różne strategie są najbardziej opłacalne. Wybierając strategię należy brać pod uwagę:
długość sekwencji
dostępność środków finansowych
dostępność sprzętu
Dla fragmentów DNA o długości do kilkudziesięciu kilopar zasad mamy do wyboru dwie strategie:
ukierunkowane klonowanie
primer walking
Dla dłuższych sekwencji używana jest właściwie tylko jedna metoda: shotgun sequencing.
Ukierunkowane klonowanie:
strategia ta była dawniej stosowana do sekwencjonowania całych genomów; w tej chwili robi się to tylko dla krótkich fragmentów DNA sekwencjonowanych metodą Sangera
polega ona na:
- ustaleniu mapy restrykcyjnej badanego fragmentu
- sklonowaniu fragmentu restrykcyjnego
- zsekwencjonowaniu sklonowanego fragmentu
- złożeniu uzyskanej sekwencji w jedną całość na podstawie mapy restrykcyjnej
zalety metody:
- złożenie odczytu w ciągłą całość (contig) jest bardzo proste
wady metody:
- niektóre fragmenty nie dają się klonować
- koszt z zasady jest wysoki
- klonowanie trwa długo
Primer walking:
stosowany do krótkich fragmentów DNA, czasem w kombinacji z ukierunkowanym klonowaniem
jest również standardową metodą finishingu, czyli domykania sekwencji - uzyskiwanie brakujących sekwencji pozwala połączyć contigi
wymaga zastosowania metody Sangera
polega na:
- uzyskaniu fragmentu sekwencji, od którego można zacząć
- projektowaniu primerów do znanej już sekwencji i generowaniu odczytów
- przedłużaniu sekwencji
- powtarzaniu powyższych kroków przez określoną liczbę cykli
Shotgun sequencing:
sekwencjonowanie losowych fragmentów DNA jest w tej chwili standardową metodą; uzyskiwane odczyty zawsze wymagają złożenia przy pomocy odpowiedniego programu
głębia pokrycia - średnia liczba odczytów, które uczestniczą w tworzeniu contigu w danym miejscu
A |
A |
T |
A |
A |
C |
A |
G |
A |
A |
T |
A |
|
|
|
|
|
A |
T |
A |
A |
C |
|
|
|
|
T |
A |
A |
|
|
|
|
|
|
|
A |
C |
A |
G |
|
|
|
|
|
|
A |
G |
1 |
2 |
3 |
3 |
3 |
2 |
2 |
2 |
teoria Landera-Watermana pozwala przewidzieć najbardziej prawdopodobną liczbę contigów uzyskanych dla genomu o wielkości G, przy określonej długości odczytów L i ich liczbie równej N
E(contigs) = N ∙ e-αN
gdzie α = (L-T)/G, zaś T to minimalna długość nakładających się sekwencji pozwalających połączyć odczyty; zależność ta pozwala wybrać najefektywniejszą metodę sekwencjonowania
Przykład
Mamy do zsekwencjonowania genom o długości 4,5 ∙ 106 par zasad.
FIRMA |
A (Sanger) |
B (Roche) |
C (Illumina) |
średnia długość odczytu |
800 par zasad |
700 par zasad |
100 par zasad |
cena |
25 zł/odczyt |
45 000 zł/800 000 odczytów |
60 000 zł/3 mld odczytów |
α |
0,0000178 |
0,000173 |
0,000151 |
koszt sekwencjonowania |
60 000 ∙ 25 zł = 1 500 000 zł |
0,1 ∙ 45 000 zł = 4 500 zł |
0,00066 ∙ 60 000 zł = 40 zł |
Podkreślone liczby pochodzą z wykresu krzywej Poissona, otrzymanego poprzez wykreślenie funkcji dla teorii Landera-Watermana.
Ta teoria nie bierze pod uwagę kosztów konstrukcji bibliotek.
Kwestia sparowanych odczytów:
pewne sekwencje w genomach powtarzają się
jeżeli odczyty z sekwencjonowania w całości zawierają się w powtórzeniach, nie wiadomo, z którego pochodzą
jeżeli z jednej strony odczytu mamy sekwencję unikalną, a na drugim końcu jest fragment powtórzenia, nadal nie wiadomo, z której kopii taki odczyt pochodzi
dlatego stosujemy niesparowane odczyty, w najlepszym wypadku otrzymując zestaw contigów, z których każdy będzie kończył się powtórzeniem
WYKŁAD 6, 29/03/2012
Składanie zachłanne:
kiedyś projektowane sekwencje były na tyle małe, a stosowane strategie na tyle proste, że odczytywano składanie ręcznie
kiedy sekwencjonowanie potaniało, a projektowanie zaczęto robić metodą shotgun, składanie przez człowieka przestało być możliwe
ponieważ problem składania fragmentów DNA sprowadza się do konstrukcji alignmentu wielu sekwencji, wymyślono, że można zastosować do tego celu algorytm progresywny
programy używające tego rozwiązania nazywa się zachłannymi assemblerami, ponieważ dopasowują one najmocniej nakładające się odczyty i robią tak do momentu, kiedy nie ma już co dopasować
rozwiązanie to dobrze nadaje się do konstruowania contigów jeśli nie mamy wielu odczytów
wymaga policzenia alignmentu wszystkich par odczytów, do tego każdy odczyt występuje w dwóch orientacjach (forward i reverse)
w erze „sangerowskiej” projektowane sekwencje były na tyle nieduże, że podejście to sprawdzało się mimo bardzo dużych wymagań pamięciowych
Overlap-Layout-Consensus (OLC):
kiedy projektowane sekwencje rozrosły się na tyle, że ręczne domykanie dziur nie dawało się zrobić, rozwiązaniem okazało się być poszukiwanie ścieżki Hamiltona w grafie konstruowanym na podstawie informacji o nakładających się odczytach
overlap - oblicz, które odczyty nakładają się na siebie i skonstruuj graf, w którym odczyty są węzłami, a krawędzie łączą nakładające się odczyty
layout - uproszczenie grafu przez skompresowanie mocno nakładających się odczytów w jeden węzeł (contig)
consensus - konstrukcja sekwencji konsensusowej
Składanie przy pomocy grafu de Bruijna
krawędź może połączyć dwa węzły wtedy i tylko wtedy, gdy w drugim węźle występuje x-1 identycznych zasad, co w pierwszym węźle (węzły nakładają się w ilości liter x-1)
skonstruowanie sekwencji sprowadza się do skorzystania ze ścieżki Eulera, która musi odwiedzić wszystkie węzły; wyznacza się ją stosując algorytmy liniowe
ANALIZA SEKWENCJI GENOMOWYCH
Analiza sekwencji genomowych sprowadza się do znalezienia w nich genów (w przypadku Eucaryota również innych struktur) i sekwencji regulatorowych, takich jak: promotory, silencery, enhancery, terminatory, operatory itp.
Ze względu na oczywiste różnice między Procaryota i Eucaryota do analizy genomów stosowane są różne narzędzia w zależności od grupy systematycznej, do jakiej należy badany organizm.
S-D - sekwencja Shine-Dalgarno, AGGAG, komplementarna do C-końca podjednostki 16S rRNA.
ORFy kodujące zawierają więcej preferowanych kodonów niż ORFy, które nie kodują żadnych genów, mimo obecności sekwencji S-D.
Ukryte Modele Markova - odróżniają ORFy kodujące od ORFów niekodujących. Sekwencje odróżnia od siebie prawdopodobieństwo występowania poszczególnych kodonów. Ogólnie Model Markowa przedstawia zbiór stanów i prawdopodobieństwa przejść między nimi - taki graf. Stanami mogą być np. nukleotydy w sekwencji: A, T, G, C (mamy 4 stany). Jeśli weźmiemy sekwencje DNA, to biorąc kolejne nukleotydy możemy poruszać się po grafie. Na razie nie było nic o prawdopodobieństwach, tylko graf. Jeśli weźmiemy zbiór sekwencji o interesujących nas właściwościach możemy wyliczyć dla nich model markowa tzn. prawdopodobieństwa przejść między stanami, tzn. będziemy mieli prawdopodobieństwo jak często po A następuje np. G i tak dla wszystkich możliwości (macierz 4x4 w naszym przypadku). Mając taki model możemy sprawdzić czy dowolna inna sekwencja do niego pasuje poruszając się po grafie i wyliczając prawdopodobieństwo otrzymania danej sekwencji. W ukrytym modelu Markowa nie mamy informacji w którym stanie się znajdujemy, analizując DNA, możemy mieć więcej stanów niż ATGC, możemy np. określać jakieś specjale warunki, które wprowadzą nam stany A', T' itd. W HMM z każdym stanem skojarzony jest zbiór wartości, które emituje. Możemy mieć np. stany ATGCA'T'G'C' i zbiór emitowanych wartości ATGC. Problemem jest jak na podstawie emitowanych wartości określić najbardziej prawdopodobny ciąg stanów, który wyemitował takie wartości.
Można stosować model I rzędu (prawdopodobieństwo zależy od stanu poprzedniego) dla sekwencji kodonów (alfabet 64 kodonów) albo model V rzędu i alfabet nukleotydowy.
Program Glimmer posługuje się Interpolowanym Modelem Markova, co oznacza, że nie jest to model o stałym rzędzie. Prawdopodobieństwo wystąpienia określonej zasady w danym miejscu zależy od n poprzednich, gdzie n zależy od ilości n-merów w danych treningowych. Innym programem używającym Modele Markova jest Prodigal.
WYKŁAD 7, 12/04/2012
Analiza sekwencji genomowych obejmuje kilka etapów:
analiza cech sekwencji jako całości
- zawartość par GC
- tzw. GC-skew (G-C/G+C)
przewidywanie sekwencji kodujących
- ORFów
- sekwencji wiązania rybosomów
- w przypadku genomów eukariotycznych, również przewidywanie intronów i egzonów
przewidywanie sekwencji regulatorowych
- promotorów
- terminatorów (tylko u Procaryota)
- miejsc wiązania czynników transkrypcyjnych
- silencerów i enhancerów (tylko u Eucaryota)
analiza białek kodowanych przez znalezione ORFy
- znalezienie ich homologów
- przewidywanie ich funkcji na podstawie funkcji homologów
Analiza cech sekwencji takich, jak zawartość par GC i GC-skew nie jest konieczna do zgłoszenia sekwencji do bazy danych, ale jest potrzebna do publikacji. Istnieje wiele programów umożliwiających stworzenie wykresów GC i GC-skew. Należą do nich m.in. UGENE i ARTEMIS.
GC-skew jest liczbą, która zmienia znak przy miejscu początku i terminacji replikacji lub transkrypcji.
Przewidywanie sekwencji kodujących odbywa się dwuetapowo:
poszukiwanie wszystkich ORFów o długości przekraczającej podany próg, zwykle 30 aminokwasów
ocena, które z ORFów mają szanse kodować (patrz: Ukryte Modele Markova)
Przewidywanie miejsc wiązania rybosomów:
prokariotyczne miejsca wiązania rybosomów to sekwencje komplementarne do 3' końca 16S rRNA, umożliwiające związanie rybosomu do transkryptu i rozpoczęcie translacji
większość bakterii ma wariacje na temat motywu AGGAG w odległości 3-10 pz powyżej kodu START
wykrywanie miejsca wiązania rybosomu można prowadzić naocznie, przeglądając odpowiednie rejony sekwencji, powyżej znalezionych ORFów
w przypadku dłuższych sekwencji, takie podejście jest niepraktyczne
Przewidywanie promotorów:
promotory genów metabolizmu podstawowego (transkrybowane przez polimerazy z podjednostką σ70) są najczęściej względnie łatwo znajdowane w genomach, ze względu na zakonserwowane, charakterystyczne motywy (-10 i -35)
motywy te wyglądają podobnie u większości bakterii: -35 TTGACA, -10 TATAAT
promotory obsługiwane przez inne podjednostki σ wyglądają inaczej
do poszukiwań promotorów można zastosować metodę naoczną
dostępne oprogramowanie:
- NNTP - ograniczenie: sekwencja mniejsza niż 100 kpz
- wyszukiwanie wzorców, np. w UGENE, które sprawdza, czy odległości między elementami są rozsądne
Przewidywanie terminatorów:
organizmy prokariotyczne mają dwa różne rodzaje terminatorów: ρ-zależne i ρ-niezależne
terminatory ρ-zależne nie dają się przewidzień bioinformatykom ze względu na brak zakonserwowanych sekwencji, wiążących białko ρ
terminatory ρ-niezależne to charakterystyczne sekwencje, składające się z odwróconych powtórzeń z niesparowaną pętlą i ciągu co najmniej pięciu tymin po jego 3' stronie; przykład (sekwencja tworzy strukturę szpilki do włosów):
GGCGAGCAGAATCGCTCGCCTTTTTT
Przewidywanie operatorów:
sekwencje o dość zakonserwowanej strukturze, charakteryzują się tym, że są pełne powtórzeń
technika, którą się posługuje to Autoalignment - robimy alignment sekwencji z nią samą
problem polega na stwierdzeniu, jaki czynnik transkrypcyjny wiąże się do danego miejsca operatorowego
Anotacja (dla Computational Biology at the Nano+Bio Center)
sformalizowany opis sekwencji, umożliwiający jej zgłoszenie do bazy danych
sposób opisu zależy od wymagań bazy, do której zamierza się zgłosić sekwencję (najczęściej jest to GenBank)
Narzędzia do anotacji:
do mniejszych sekwencji stosujemy narzędzia on-line on nazwie BankIt (na stronie NCBI)
duże sekwencje zgłaszane są przy pomocy programu Sequin albo (w przypadku genomów) za pomocą tbl2asn, który przetwarza pliki tekstowe na plik z anotacją
WYKŁAD 8, 19/04/2012
Projektowanie primerów do PCR i sekwencjonowania oraz sond do hybrydyzacji to istotna część projektowania eksperymentów. Jeżeli musimy zaprojektować kilka oligonukleotydów, można zrobić to ręcznie i sprawdzić za pomocą odpowiedniego programu. Projektowanie kilkuset lub kilku tysięcy sekwencji z konieczności odbywa się automatycznie.
Primer do sekwencjonowania/sonda do hybrydyzacji musi być specyficzny, czyli powinien hybrydyzować do swojej docelowej sekwencji. Powinien mieć odpowiednią temperaturę topnienia (poniżej temperatury pracy polimerazy). Nie powinien tworzyć struktur drugorzędowych (w sekwencji nie powinno być odwróconych powtórzeń). Nie powinien tworzyć homo- lub heterodimerów. Powinien mieć zrównoważony skład nukleotydowy. 3' koniec nie powinien zawierać wyłącznie GC. W jego sekwencji nie powinno być homopolimerów dłuższych niż 3 nukleotydy.
Sekwencja matrycy:
primery projektujemy używając sekwencji matrycowej, która może być znana w całości albo właśnie ustalana
należy zwrócić uwagę, żeby primery projektować tam, gdzie sekwencja ma wysoką jakość - inaczej może się okazać, że sekwencji komplementarnej do primera nie ma w matrycy
jeżeli pracujemy na składaniu odczytów z sekwencji, szczególną uwagę trzeba zwrócić na regiony pokryte tylko jednym odczytem
jeżeli jest możliwość sprawdzenia unikalności primera w obrębie całej matrycy, należy to zrobić (w przypadku genomów eukariotycznych, za pomocą BLASTa)
Temperatura topnienia primera zależy od:
długości primera
zawartości GC
stężenia kationów jednowartościowych i dwuwartościowych (Mg2+)
stężenia dNTP
stężeń primera i matrycy - normalnie zaniedbywalny wpływ
obecności DMSO
Oprogramowanie do projektowania primerów/sond:
w większości oparte na algorytmie primer3
primer3 jest również wbudowany w UGENE
na stronie NCBI dostępny jest PrimerBLAST - połącznie primer3 z BLASTem, umożliwiające sprawdzenie specyficzności primerów dla bardzo dużych matryc
dużo firm ma własne oprogramowanie, dostępne dla klientów (np. Invitrogen, ThermoScientific)
Oprogramowanie do sprawdzania primerów:
primery zaprojektowane ręcznie należy sprawdzić (szpilki, homodimery, heterodimery, specyficzność, TM)
do sprawdzenia parametrów fizycznych primerów wykorzystuje się algorytm progresywny mfold
wiele stron internetowych umożliwia przeprowadzenie takiej analizy
specyficzność primerów sprawdzamy BLASTem (blastn, minimalna możliwa długość słowa, duże e-value, np. 1000, jako bazę wybieramy genom, na którym robimy PCR)