Bioinformatyka wykład 3

Bioinformatyka- wykład 3

Analiza sekwencji nukleotydowej

1. Usuwanie z sekwencji DNA „zanieczyszczeń”

2. Mapy restrykcyjne

3. Projektowanie starterów PCR

4. Znajdowanie w sekwencji DNA genów kodujących białka

5. Składanie całego genomu

Czyszczenie klonowanej sekwencji DNA:

MVU87251 Neovison vison (norka amerykańska) GT dinucleotide repeat,

chromosome 7q2.1

VecScreen

Wektor klonujący plazmid pBR322 Escherichia coli

Obliczanie mapy restrykcyjnej

EcoRI: 5’ G|AATTC 3’

3’ CTTAA|G 5’ (lepkie końce, Escherichia coli )

BamHI: 5’ G|GATCC 3’

3’ CCTAG|G 5’ (lepkie końce, Bacillus amyloliquefaciens )

AluI: 5’ AG|CT 3’

3’ TC|GA 3’ (tępe końce, Arthrobacter luteus )

Projektowanie starterów PCR:

klonowanie genów

ustalenie ojcostwa

kryminalistyka

denaturacja DNA (ok. 950),

hybrydyzacja starterów z matrycą (45 – 600, specyficzne dla startera),

polimeryzacja (elongacja) z użyciem termostabilnej polimerazy DNA (ok. 720),

Typowa długość 20 (18 – 30) nukleotydów

Powinny „pasować” do końców analizowanej sekwencji

Powinny dobrze hybrydyzować z DNA w dobrze dobranej indywidualnej temperaturze hybrydyzacji

Projekt dobrego startera – b. ważny krok analizy

dobrą lokalizację dla starterów

dobrą stabilizację

różne powielane długości

HUMSOMI w GenBank : somatostatyna J00306 Primer3Plus

EMBOSS Nucleic Primers:

eprimer3

primersearch

stssearch

Analiza składu DNA – zawartość G+C:

Przewidywanie genów:

U Prokariota

U Eukariota

Większość metod wykorzystuje Model Ukrytych Łańcuchów Markowa (HMM)

Przewidywanie genów prokariotycznego genomu:

GeneMark – znajdowanie genów:

Prokariota

GeneMark bardzo dobry algorytm (program) dla genomów prokariotycznych

GeneMark potrafi:

znaleźć krótkie białka

analizować nakładające się geny

zidentyfikować najlepszy kodon startowy (ATG)

GeneMark wykorzystuje tzw. Ukryte Modele Markowa

GeneMark – przykład

Analiza genów genomu Rickettsia conori

GeneMark

Kompletny genom Rickettsia conori

GeneBank AE006914

Wynik

1 + <1 822 822 1

2 + 1039 1356 318 1

3 + 1367 2116 750 1

4 + 2117 2893 777 1

5 + 2890 5991 3102 1

1479 - 1266323 1267363 1041 1

1480 - 1267320 1268360 1041 1

Znaleziono 1480 genów, w tym zachodzące na siebie w innej ramce odczytu!

Przewidywanie genów Eukariota:

- sekwencje kodujące – eksony

- sekwencje niekodujące – introny

- ENSEMBL zawiera ok. 22 tys. genów genomu człowieka. Jest prawdopodobne, że jest to większość genów człowieka (nadal jest nieznana dokładna ich liczba, pdp. ok. 22,5 tys., a nie jak niegdyś podejrzewano, iż jest to 30 – 70 tys. genów)

- HMMgene

- GeneMark

- Geneid

- GENSCAN (nie mylić z GenomeScan)

- AUGUSTUS

- Na ogół mają trudności z poprawną lokalizacją eksonu inicjującego

- GenomeScan (nie mylić z GENSCAN)

- Wise2

- Dają dużo lepsze wyniki za cenę wspomagania znanymi sekwencjami białek homologicznych

Elementy powtarzalne a lokalizacja genów eukariotycznych:

- w większości przypadków nie kodują białek

- miewają strukturę podobną do regularnych sekwencji kodujących genów

- mogą prowadzić do przewidywania nieistniejących eksonów

- w niektórych genach są jednak sekwencjami kodującymi

- ich rola jest istotna, choć nie do końca poznana

- RepeatMasker Web Server

- Censor udostępniany przez bazę Repbase

- sekwencji maskowanej

- sekwencji niemaskowanej

Maskowanie elementów powtarzalnych - przykład

AABR03001285.1 (AABR03001285.1.fasta) Rattus norvegicus strain BN/SsNHsdMCW chromosome 1, 4 clones RNOR03204165, whole genome shotgun sequence np. RepeatMasker GENESCAN

Wynik

Sekwencja niemaskowana gen1: 15 eksonów, białko 589aa

Sekwencja maskowana gen1: 14 eksonów, białko 544aa

Analiza BLAST(x,p) wskazuje na poprawność (pdp) wyniku przewidywania genu dla sekwencji maskowanej (tj. krótsze białko)

GenomeScan – znajdowanie genów eukariotycznych:

Eukariota

- Ukryte Modele Markowa (HMM)

- poszukiwanie homologiczne, tj. wykorzystuje informacje eksperymentalne o podobnych białkach (przez BLASTx)

- długimi eksonami

- genami o niskiej zawartości G i C

Tworzenie danych genomowych:

- przy tej cenie możliwe stanie się złożenie własnego genomu

- zjawiska uboczne np.

pozytywne – zdrowszy tryb życia, profilaktyka, ukierunkowana zindywidualizowana terapia

negatywne – koszty ubezpieczenia zdrowotnego?

Jak złożyć cały genom z fragmentów sekwencji?

Sekwencjonowanie i składanie genomu:

Sekwencjonowanie całego genomu

- urządzenie sekwencjonujące analizują jedynie losowe krótkie fragmenty o długości ok. 1 kb zwane odczytami (ang. reads)

PHRAP – najbardziej popularny publicznie dostępny (dla nauki bezpłatny) program do składania fragmentów „shotgun” (pracuje również z bardzo długimi sekwencjami)

- www.phrap.org wymaga instalacji lokalnej („na komputerze”)

- CAP3 – inny popularny publicznie dostępny program do łączenia niewielkich danych, udostępniany m.in. przez Uniwersytet w Lyonie

http://pbil.univ-lyon1.fr/cap3.php dostępny via WWW (maks. długość sekwencji nt wynosi ok. 50 tys. zasad)

Nieomówione ważne zagadnienia:

Biologicznie ważne sygnały zawarte w niekodujących fragmentach DNA

- Przewidywanie regionów promotorowych

- Elementy regulatorowe

- Miejsca wiążące białko


Wyszukiwarka

Podobne podstrony:
elementy bioinformatyki wyklad2
Bioinformatyka wykład 1
elementy bioinformatyki wyklad4
bioinformatyka wyklad #6
bioinformatyka wyklad #3
Bioinformatyka wykłady
bioinfoI wyklad01
elementy bioinformatyki wyklad3
bioinfoI wyklad03
bioinfoI wyklad02
Bioinformatyka wyklad #4
elementy bioinformatyki wyklad1
Bioinformatyka wykładMocx
bioinformatyka wyklad #2
Bioinformatyka wykład 5
bioinfoI wyklad04
Bioinformatyka wykład ocx
elementy bioinformatyki wyklad2

więcej podobnych podstron