Bioinformatyka- wykład 3
Analiza sekwencji nukleotydowej
1. Usuwanie z sekwencji DNA „zanieczyszczeń”
2. Mapy restrykcyjne
3. Projektowanie starterów PCR
4. Znajdowanie w sekwencji DNA genów kodujących białka
5. Składanie całego genomu
Czyszczenie klonowanej sekwencji DNA:
W celu sekwencjonowania genomów, badane sekwencje DNA są często klonowane w wektorze genetycznym (plazmid, sztuczny chromosom YAC lub BAC oraz kosmid)
Sekwencja nukleotydowa wektora może zostać wymieszana z badaną sekwencją DNA
Analizowana sekwencja DNA, powinna zawsze zostać najpierw „oczyszczona” np. przy pomocy NCBI VecScreen (również przed umieszczeniem sekwencji w publicznej bazie sekwencji)
Przykład: czyszczenie sekwencji GenBank MVU87251
MVU87251 Neovison vison (norka amerykańska) GT dinucleotide repeat,
chromosome 7q2.1
VecScreen
Wektor klonujący plazmid pBR322 Escherichia coli
Obliczanie mapy restrykcyjnej
Cięcie sekwencji DNA z użyciem enzymów restrykcyjnych
Każdy typ enzymu restrykcyjnego rozpoznaje i rozcina inną sekwencję (na ogół palindromową):
EcoRI: 5’ G|AATTC 3’
3’ CTTAA|G 5’ (lepkie końce, Escherichia coli )
BamHI: 5’ G|GATCC 3’
3’ CCTAG|G 5’ (lepkie końce, Bacillus amyloliquefaciens )
AluI: 5’ AG|CT 3’
3’ TC|GA 3’ (tępe końce, Arthrobacter luteus )
Znanych jest ponad 900 różnych enzymów restrykcyjnych, każdy o innej specyficzności
REBASE The Restriction Enzyme Database
Mapa restrykcyjna to lista wszystkich potencjalnych miejsc trawienia w cząsteczce DNA
Programy obliczające mapę restrykcyjną: Webcutter, WatCut, TACG ,Restriction Mapping, Restriction Enzyme Picker, NEBcutter, SMS Restriction Map, RestrictionMapper, EMBOSS Nucleic restriction:remap, restrict, restover
Przykład: mapa restrykcyjna wektora klonującego pBR322 pBR322, Webcutter
Projektowanie starterów PCR:
Reakcja łańcuchowa polimerazy PCR – metoda powielania (amplifikacji) sekwencji DNA (K. Mullis, nagroda Nobla w 1993 r.)
PCR wiele zastosowań
klonowanie genów
ustalenie ojcostwa
kryminalistyka
cykliczne trzy etapy PCR (sterowane temperaturą):
denaturacja DNA (ok. 950),
hybrydyzacja starterów z matrycą (45 – 600, specyficzne dla startera),
polimeryzacja (elongacja) z użyciem termostabilnej polimerazy DNA (ok. 720),
PCR powiela DNA pomiędzy dwiema kotwicami
Po n cyklach (na ogół 20-40) jedna cząsteczka ulega ok. 2n amplifikacji
Wystarczy znajomość tylko sekwencji oskrzydlających docelowy rejon DNA
Kotwice to tzw. PCR startery (primery)
Startery PCR
Typowa długość 20 (18 – 30) nukleotydów
Powinny „pasować” do końców analizowanej sekwencji
Powinny dobrze hybrydyzować z DNA w dobrze dobranej indywidualnej temperaturze hybrydyzacji
Projekt dobrego startera – b. ważny krok analizy
Primer3Plus w BioTools@UMass Medical School bardzo dobre miejsce do łatwego projektowania starterów PCR. Znajduje:
dobrą lokalizację dla starterów
dobrą stabilizację
różne powielane długości
Przykład: startery genu somatostatyny I człowieka
HUMSOMI w GenBank : somatostatyna J00306 Primer3Plus
EMBOSS Nucleic Primers:
eprimer3
primersearch
stssearch
Analiza składu DNA – zawartość G+C:
Duża zmienność składu DNA
Stabilność sekwencji DNA uzależniona od zawartość G+C (całkowita guanina i cytozyna)
Duża zawartość G+C bardzo mocno stabilizuje cząsteczki DNA
Określenie zawartości G+C w badanej sekwencji DNA np. EMBOSS: geecee
Przewidywanie genów:
Najważniejszą analizą sekwencji DNA jest przewidywanie genów
Przewidywanie genów wymaga różnych metod dla Prokariota i Eukariota
U Prokariota
Brak intronów – geny kodujące białko są ciągłe
Przewidywanie genów kodujących białko u Prokariota można uznać za problem rozwiązany osiągana dokładność – 99%
U Eukariota
Introny – długie sekwencje niekodujące
Eksony – krótkie sekwencje kodujące
Przewidywanie genów Eukariota jest ciągle problemem otwartym
Większość metod wykorzystuje Model Ukrytych Łańcuchów Markowa (HMM)
Przewidywanie genów prokariotycznego genomu:
U Prokariota geny kodujące białko są ciągłe - Brak intronów
Przewidywanie genów kodujących białko u Prokariota można uznać za problem rozwiązany - osiągana dokładność – 99%
GeneMark – znajdowanie genów:
Prokariota
GeneMark bardzo dobry algorytm (program) dla genomów prokariotycznych
GeneMark potrafi:
znaleźć krótkie białka
analizować nakładające się geny
zidentyfikować najlepszy kodon startowy (ATG)
GeneMark wykorzystuje tzw. Ukryte Modele Markowa
GeneMark – przykład
Analiza genów genomu Rickettsia conori
GeneMark
Kompletny genom Rickettsia conori
GeneBank AE006914
Wynik
1 + <1 822 822 1
2 + 1039 1356 318 1
3 + 1367 2116 750 1
4 + 2117 2893 777 1
5 + 2890 5991 3102 1
…
1479 - 1266323 1267363 1041 1
1480 - 1267320 1268360 1041 1
Znaleziono 1480 genów, w tym zachodzące na siebie w innej ramce odczytu!
Przewidywanie genów Eukariota:
Geny eukariotyczne są trudne do przewidywania
- sekwencje kodujące – eksony
- sekwencje niekodujące – introny
Dokładne przewidywanie genów Eukariota jest ciągle problemem otwartym
- ENSEMBL zawiera ok. 22 tys. genów genomu człowieka. Jest prawdopodobne, że jest to większość genów człowieka (nadal jest nieznana dokładna ich liczba, pdp. ok. 22,5 tys., a nie jak niegdyś podejrzewano, iż jest to 30 – 70 tys. genów)
Aktualne metody automatyczne dają 70% dokładnośćw przypadku genomu człowieka
Przewidywanie genów Eukariota ciągle wymaga wspomagania danymi eksperymentalnymi (np. sekwencjami homologicznych białek)
Algorytmy i programy znajdowania genów Eukariota nie wymagające do identyfikacji dodatkowych danych eksperymentalnych
- HMMgene
- GeneMark
- Geneid
- GENSCAN (nie mylić z GenomeScan)
- AUGUSTUS
- Na ogół mają trudności z poprawną lokalizacją eksonu inicjującego
Algorytmy i programy znajdowania genów Eukariota wymagające do identyfikacji dodatkowych danych eksperymentalnych
- GenomeScan (nie mylić z GENSCAN)
- Wise2
- Dają dużo lepsze wyniki za cenę wspomagania znanymi sekwencjami białek homologicznych
Elementy powtarzalne a lokalizacja genów eukariotycznych:
Elementy powtarzalne (ang. repetitive elements) w sekwencji DNA
- w większości przypadków nie kodują białek
- miewają strukturę podobną do regularnych sekwencji kodujących genów
- mogą prowadzić do przewidywania nieistniejących eksonów
- w niektórych genach są jednak sekwencjami kodującymi
- ich rola jest istotna, choć nie do końca poznana
Maskowanie elementów powtarzalnych
- RepeatMasker Web Server
- Censor udostępniany przez bazę Repbase
Przewidywanie genów dla
- sekwencji maskowanej
- sekwencji niemaskowanej
Wybór „właściwej” sekwencji genu np. w oparciu o analizę podobieństwa (BLAST)
Maskowanie elementów powtarzalnych - przykład
AABR03001285.1 (AABR03001285.1.fasta) Rattus norvegicus strain BN/SsNHsdMCW chromosome 1, 4 clones RNOR03204165, whole genome shotgun sequence np. RepeatMasker GENESCAN
Wynik
Sekwencja niemaskowana gen1: 15 eksonów, białko 589aa
Sekwencja maskowana gen1: 14 eksonów, białko 544aa
Analiza BLAST(x,p) wskazuje na poprawność (pdp) wyniku przewidywania genu dla sekwencji maskowanej (tj. krótsze białko)
GenomeScan – znajdowanie genów eukariotycznych:
GenomeScan bardzo dobry program (algorytm) do przewidywania genów
Eukariota
GenomeScan wykorzystuje
- Ukryte Modele Markowa (HMM)
- poszukiwanie homologiczne, tj. wykorzystuje informacje eksperymentalne o podobnych białkach (przez BLASTx)
GenomeScan działa dobrze z
- długimi eksonami
- genami o niskiej zawartości G i C
Przykład – dane testowe Homo sapiens Xq28 genomic DNA; Białka homologiczne
Inny „dobry” algorytm - Wise2
Tworzenie danych genomowych:
Do niedawna sekwencjonowanie całych genomów było bardzo kosztowne i trudne
Robiły to tylko nieliczne instytuty badawcze
Dzisiaj szacuje się, że w ciągu kilku najbliższych lat koszty sekwencjonowania genomu człowieka spadną do ok. 1000$
- przy tej cenie możliwe stanie się złożenie własnego genomu
- zjawiska uboczne np.
pozytywne – zdrowszy tryb życia, profilaktyka, ukierunkowana zindywidualizowana terapia
negatywne – koszty ubezpieczenia zdrowotnego?
Jak złożyć cały genom z fragmentów sekwencji?
Sekwencjonowanie i składanie genomu:
Sekwencjonowanie całego genomu
etap 1 – „pocięcie” na wiele małych nakładających się fragmentów o długości 150 – 200 kb
etap 2 – klonowanie każdego fragmentu (z użyciem wektora)
etap 3 – sekwencjonowanie każdego fragmentu metodą „shotgun” (F. Sanger, 1980)
- urządzenie sekwencjonujące analizują jedynie losowe krótkie fragmenty o długości ok. 1 kb zwane odczytami (ang. reads)
etap 4 – konieczne składanie odczytów (reads) w tzw. kontigi (contigs) w oparciu o pokrywające się fragmenty
PHRAP – najbardziej popularny publicznie dostępny (dla nauki bezpłatny) program do składania fragmentów „shotgun” (pracuje również z bardzo długimi sekwencjami)
- www.phrap.org wymaga instalacji lokalnej („na komputerze”)
- CAP3 – inny popularny publicznie dostępny program do łączenia niewielkich danych, udostępniany m.in. przez Uniwersytet w Lyonie
http://pbil.univ-lyon1.fr/cap3.php dostępny via WWW (maks. długość sekwencji nt wynosi ok. 50 tys. zasad)
Nieomówione ważne zagadnienia:
Biologicznie ważne sygnały zawarte w niekodujących fragmentach DNA
- Przewidywanie regionów promotorowych
- Elementy regulatorowe
- Miejsca wiążące białko