bioinfoI wyklad02


Bioinformatyka
Wykład II
Marcin Gołębiewski Ph.D.
Zakład Biotechnologii
Wydział Biologii i Nauk o Ziemi
Uniwersytet Mikołaja Kopernika
2 marca 2010
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Wstęp
Zasoby informacji na temat organizmów i procesów w nich
zachodzących można podzielić na kilka kategorii:
Sekwencje nukleotydowe i białkowe
Map genetycznych i fizycznych
Struktury białek i innych biomolekół
Literatura
Informacje o ekspresji genów
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji: gdzie i jakie
Trzy główne ośrodki gromadzenia danych sekwencyjnych to
NCBI (National Center of Biological Information) w USA
(www.ncbi.nlm.nih.gov)
DDBJ (DNA Data Bank of Japan) w Japonii
(www.ddbj.nig.ac.jp)
EMBL (European Molecular Biology Laboratory) w Europie
(www.embl.org)
Prowadzą one zsynchronizowane bazy sekwencji nukleotydowych
(DNA i RNA), odpowiednio GenBank, DDBJ i EMBL-Bank oraz
białkowych (GenPept, DDBJ CDSDB i TrEMBL).
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji: format
Aby informacje o sekwencjach genomów i białek gromadzone
w bazach danych były użyteczne, dane muszą być
przechowywane w odpowiedniej formie, łatwej do
przetwarzania komputerowego, a jednocześnie do czytelnej
prezentacji ludzkiemu użytkownikowi.
Wymaga to określenia odpowiedniego modelu danych, czyli
formalnego sposobu ich opisu. Informacje jakie należy
uwzględnić to m. in.:
pozycja systematyczna organizmu z którego pochodzi
sekwencja
rodzaj cząsteczki (DNA, RNA, białko)
rodzaj sekwencji (genomowa, plazmidowa, sztucznie stworzony
wektor)
autor (autorzy)
unikalny numer sekwencji (tzw. accession number)
odnośniki do publikacji na temat sekwencji
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji: format
Ponieważ najczęściej nie wyciągamy z bazy rekordów gdzie
jakieś pola mają określoną wartość, tylko takie, gdzie pole
 sekwencja ma zawartość podobną do sekwencji którą
przeszukujemy (query sequence), standardowy model
relacyjnej bazy danych nie jest w tym przypadku
najodpowiedniejszy.
Przeszukiwanie olbrzymich baz wymaga użycia algorytmów
heurystycznych, takich jak zaimplementowane w programach
BLAST. Programy te mają różne wymagania co do formatu
bazy danych. Np. BLAST wymaga odpowiedniego
przygotowania bazy (sformatowania jej programem formatdb).
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji: format
Najczęściej w bazach danych rekordy są przechowywane w
plikach binarnych, w przypadku baz sekwencji korzysta się
raczej z formatu tekstowego (plain text, inaczej flat file).
Poszczególne rekordy są wyróżnionymi częściami jednego,
dużego pliku tekstowego. Dane w takim pliku są opisywane
przy użyciu języka ASN.1 (Abstract Syntax Notation 1), a
następnie program umożliwiający dostęp do bazy (interface)
interpretuje odpowiedni rekord i wyświetla go w wybranym,
czytelnym dla człowieka, formacie.
Może to być np. Fasta (inaczej format Pearson a) lub
GenBank (Pept w przypadku białek), pozostałe dostępne
formaty (ASN.1, html, xml itp.) są dużo mniej zwarte i
trudniej interpretowalne, bądz przekazują niewiele informacji
(GI list, brief).
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji: format
Przykład rekordu z bazy GenPept w formacie GenPept:
LOCUS NP_775029 216 aa linear BCT 06-JAN-2005
DEFINITION TraX [Citrobacter freundii].
ACCESSION NP_775029
VERSION NP_775029.1 GI:27383499
DBSOURCE REFSEQ: accession NC_004464.2
KEYWORDS .
SOURCE Citrobacter freundii
ORGANISM Citrobacter freundii
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
Enterobacteriaceae; Citrobacter.
REFERENCE 1 (residues 1 to 216)
AUTHORS Golebiewski,M., Zienkiewicz,M., Adamczyk,M., Kern-Zdanowicz,I. and
Ceglowski,P.
TITLE Complete nucleotide sequence of highly transmissible plasmid
pCTX-M3
JOURNAL Unpublished
REFERENCE 2 (residues 1 to 216)
AUTHORS .
CONSRTM NCBI Genome Project
TITLE Direct Submission
JOURNAL Submitted (27-DEC-2002) National Center for Biotechnology
Information, NIH, Bethesda, MD 20894, USA
REFERENCE 3 (residues 1 to 216)
AUTHORS Golebiewski,M.
TITLE Direct Submission
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji: format
Przykład rekordu z bazy GenPept w formacie GenPept cd.:
JOURNAL Submitted (18-OCT-2002) Department of Microbial Biochemistry,
Institute of Biochemistry and Biophysics PAS, Pawinskiego 5A,
Warsaw 02-106, Poland
COMMENT PROVISIONAL REFSEQ: This record has not yet been subject to final
NCBI review. The reference sequence was derived from AAN87693.
Method: conceptual translation.
FEATURES Location/Qualifiers
source 1..216
/organism="Citrobacter freundii"
/db_xref="taxon:546"
/plasmid="pCTX-M3"
Protein 1..216
/product="TraX"
/calculated_mol_wt=23970
CDS 1..216
/gene="traX"
/locus_tag="pCTX-M3_070"
/coded_by="NC_004464.2:50797..51447"
/note="similar to plasmid ColIb-P9 TraX in GenBank
Accession Number AB021078"
/citation=[PUBMED 10423535]
/transl_table=11
/db_xref="GeneID:1055568"
ORIGIN
1 mtdenktgdk dtaksgklkk gldvvtgvnd lpegkakrti yyitgisdiy fiiasvkqtf
61 sllfqrasfv kkqiknldgp pvdsdanqpf aevmkrsnrp vselldkasl ykkywlccff
121 alvlillflt sgyarlllng spnmsllrat ltcgvlfaag iftfikaltc efmgwqlrnq
181 ahsdaeqgtl ryflndggvr ntfnfsqagq ergphe
//
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji: format
Ten sam rekord w formacie fasta:
>gi|27383499|ref|NP_775029.1| TraX [Citrobacter freundii]
MTDENKTGDKDTAKSGKLKKGLDVVTGVNDLPEGKAKRTIYYITGISDIYFIIASVKQTFSLLFQRASFV
KKQIKNLDGPPVDSDANQPFAEVMKRSNRPVSELLDKASLYKKYWLCCFFALVLILLFLTSGYARLLLNG
SPNMSLLRATLTCGVLFAAGIFTFIKALTCEFMGWQLRNQAHSDAEQGTLRYFLNDGGVRNTFNFSQAGQ
ERGPHE
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji - numery dostępu
Każda sekwencja w bazie danych ma unikalny tzw. numer
dostępu (accession number).
W przypadku bazy nukleotydowej (GenBank) numer ten ma
postać XXnnnnnn.n, gdzie X oznacza dowolną literę, a n
dowolną cyfrę, natomiast w przypadku baz białkowych
accession ma format XXXnnnnn.n.
Cyfra po kropce oznacza numer wersji sekwencji - jeżeli
sekwencja jest zmieniana przez autorów (np. poprawiana, czy
coś jest dodawane do opisu) numer wersji zwiększa się o
jeden. W bazie mogą więc znajdować się różne wersje tej
samej sekwencji o tym samym accession, różniące się tylko
numerem wersji.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji - numery dostępu
Każda sekwencja zarówno w bazie białkowej, jak i
nukleotydowej ma przypisany globalny identyfikator (global
identifier - GI) - ośmiocyfrową liczbę która jest absolutnie
unikalna, nie tylko w obrębie danej bazy, ale we wszystkich
innych bazach sekwencyjnych. Jest on również wewnętrznym
identyfikatorem w NCBI.
Tak więc, dwie wersje tej samej sekwencji mają różne
numery GI.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji - RefSeq
Istnieje trzeci rodzaj identyfikatorów sekwencji tzw. RefSeq
Id (Reference Sequence Id). Mają one format NX nnnnnn.n,
gdzie X=C dla chromosomów, X=M dla transkryptów
(mRNA), X=T dla sztucznych wektorów i X=P dla białek.
Rekordy RefSeq są danymi odniesienia dla systemu anotacji
funkcjonalnej, badania ekspresji genów, polimorfizmów itp.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy map genetycznych i fizycznych - gdzie i jakie
Bardzo duża kolekcja wszystkich typów map zgromadzona jest
w NCBI, w sekcji Genome
(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome).
Dostęp do tych informacji realizowany jest poprzez aplikację
MapView (na stronie Genome link Map Viewer po prawej
stronie).
NCBI zintegrowało dużo map różnego typu (fizycznych i
genetycznych), umożliwiając przedstawienie wybranych w
formie graficznej. W bazie znajdują się mapy sprzężeń, hybryd
poradiacyjnych, cytogenetyczne i fizyczne: STS i EST.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Mapy genetyczne i fizyczne - po co mapować?
Mapy genomów pozwalają na klonowanie interesujących nas
odcinków genomu, co w przypadku eukaryontów wymaga
zlokalizowania genu na jednym z chromosomów, a następnie w
jego obrębie. Mapy fizyczne, w szczególności mapy klonów ze
zlokalizowanymi markerami bardzo upraszczają tę procedurę.
Mapowanie genomu jest także pomocne w sekwencjonowaniu
genomów. Mapa fizyczna oparta na bibliotece klonów
ułożonych w contigi (nakładających się), pozwala na złożenie
sekwencji całego chromosomu z sekwencji poszczególnych
klonów.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Mapy genetyczne
Mapy genetyczne (mapy sprzężeń - Genetic Linkage (GL)
Maps) gromadzą informacje o ułożeniu markerów
genetycznych na chromosomach i ich względnej odległości.
Opierają się one na zróżnicowaniu częstości rekombinacji
między markerami w zależności od ich fizycznej odległości na
chromosomie.
Markery między którymi rekombinacja zachodzi rzadko
są określane jako sprzężone i na ogół leżą blisko siebie
na tym samym chromosomie, natomiast takie, między
którymi rekombinacja jest częsta są niesprzężone i
prawdopodobnie leżą daleko od siebie, bądz też na
różnych chromosomach
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Mapy genetyczne
Odległości na mapach genetycznych wyrażane są w
centymorganach (cM) - 1 cM to taka odległość przy której
prawdopodobieństwo rekombinacji między markerami wynosi
0.01.
Ponieważ częstości rekombinacji nie są jednakowe
wzdłóż całego chromosomu, odległości wyrażone w
centymorganach nie muszą dawać się (i najczęściej nie
dają się) przeliczyć na odległości fizyczne.
Mapy GL są mapami o niskiej rozdzielczości - najlepsze mają
ok. 2 cM, co odpowiada jednemu markerowi na ok. 1-5 Mbp
(średnio, w zależności od chromosomu).
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Mapy hybryd poradiacyjnych
Mapy hybryd poradiacyjnych (Radiation Hybrid (RH) Maps)
są zbliżone do map sprzężeń - również są oparte na częstości
kosegregacji markerów, z tym, że przerwanie ciągłości
chromosomów wywołane jest letalną dawką promieniowania, a
nie crossing-over.
Odległości na mapach RH wyraża sięw jednostkach cR
(centirays -  centypromienie ), analogicznie do
centymorganów, jeden cR oznacza odległość przy której
prawdopodobieństwo pęknięcia chromosomu między dwoma
markerami wynosi 0.01.
Mapy RH charakteryzują się wyższą rozdzielczością niż mapy
sprzężeń, przy czym rozdzielczość zależy od dawki
promieniowania użytej przy konstrukcji hybryd.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Mapy cytogenetyczne
Mapy cytogenetyczne tworzy się przy pomocy techniki FISH
(Fluorescent In Situ Hybridization), hybrydyzując sondy o
znanej sekwencji do chromosomów i jednocześnie wybarwiając
chromosomy w celu uwidocznienia prążków.
Pozwala to na ustalenie (z niską rozdzielczością) kolejności
markerów na chromosomie i przypisanie ich do prążków.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Mapy fizyczne
Mapy fizyczne jednoznacznie określają kolejność markerów,
które zawsze mają znaną sekwencję, na chromosomie.
Najprostszymi rodzajami map fizycznych są mapy restrykcyjne
i mapy STS (Sequence Tagged Sites).
Pierwsze tworzy się trawiąc DNA genomowe różnymi
kombinacjami enzymów restrykcyjnych i ustalając potem
kolejność miejsc cięcia (co daje również odległości między
miejscami cięcia).
Mapy STS dają informację o kolejności markerów. Ich
konstrukcja polega na zlokalizowaniu fragmentów PCR w
bibliotece klonów o dużych insertach. Następnie na podstawie
nakładania się markerów w poszczególnych klonach ustala się
kolejność klonów i markerów.
Rozdzielczość mapy STS zależy od rozmiarów insertów w
bibliotece i liczby stosowanych markerów.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Mapy fizyczne
Mapy fizyczne mogą być kombinacją map restrykcyjnych i
STS z innymi, np. mogą mieć nałożone informacje o EST
(Expressed Sequence Tag), czy innych markerach
zlokalizowanych różnymi metodami.
Takie mapy nazywamy zintegrowanymi.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy struktur
Bazy struktur gromadzą informację o przestrzennej budowie
makromolekuł (białek i kwasów nukleinowych).
Najważniejszymi bazami są:
PDB (Protein Data Bank) prowadzona przez RCSB
(www.rcsb.org/pdb/)
MMDB (Molecular Modelling Data Base) oparta na PDB i
prowadzona przez NCBI (sekcja Structures na stronie
www.ncbi.nlm.nih.org/gquery/gquery.fcgi)
Dane w MMDB są dużo bardziej sformalizowaną i łatwiejszą do
obróbki komputerowej wersją struktur z PDB.
W MMDB znajdują się wyłącznie struktury określone
eksperymentalnie, natomiast w PDB są również modele
teoretyczne.
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy struktur - format danych
Dane w PDB opisywane są w specyficznym formacie składającym
się z:
1. nagłówka (header)
HEADER Receptor Protein 18-Apr-05 2BR7
COMPND Crystal Structure Of Acetylcholine-Binding Protein (Achbp)
COMPND 2 From Aplysia Californica In Complex With Hepes
SOURCE ORGANISM_SCIENTIFIC: Aplysia californica; ORGANISM_COMMON:
SOURCE 2 California sea hare
AUTHOR P.H.N.Celie, I.E.Kasheverov, D.Y.Mordvintsev, R.C.Hogg, P.
AUTHOR 2 Van Nierop, R.Van Elk, S.E.Van Rossum-Fikkert, M.N.Zhmak, D
AUTHOR 3 .Bertrand, V.Tsetlin, T.K.Sixma & A.B.Smit
REMARK 00 NCBI PDB FORMAT VERSION 5.0
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy struktur - format danych
2. specyfikacji sekwencji
SEQRES 1 A 217 GLN ALA ASN LEU MET ARG LEU LYS SER ASP LEU PHE ASN
SEQRES 2 A 217 ARG SER PRO MET TYR PRO GLY PRO THR LYS ASP ASP PRO
SEQRES 3 A 217 LEU THR VAL THR LEU GLY PHE THR LEU GLN ASP ILE VAL
SEQRES 4 A 217 LYS VAL ASP SER SER THR ASN GLU VAL ASP LEU VAL TYR
SEQRES 5 A 217 TYR GLU GLN GLN ARG TRP LYS LEU ASN SER LEU MET TRP
SEQRES 6 A 217 ASP PRO ASN GLU TYR GLY ASN ILE THR ASP PHE ARG THR
SEQRES 7 A 217 SER ALA ALA ASP ILE TRP THR PRO ASP ILE THR ALA TYR
SEQRES 8 A 217 SER SER THR ARG PRO VAL GLN VAL LEU SER PRO GLN ILE
SEQRES 9 A 217 ALA VAL VAL THR HIS ASP GLY SER VAL MET PHE ILE PRO
SEQRES 10 A 217 ALA GLN ARG LEU SER PHE MET CYS ASP PRO THR GLY VAL
SEQRES 11 A 217 ASP SER GLU GLU GLY VAL THR CYS ALA VAL LYS PHE GLY
SEQRES 12 A 217 SER TRP VAL TYR SER GLY PHE GLU ILE ASP LEU LYS THR
SEQRES 13 A 217 ASP THR ASP GLN VAL ASP LEU SER SER TYR TYR ALA SER
SEQRES 14 A 217 SER LYS TYR GLU ILE LEU SER ALA THR GLN THR ARG GLN
SEQRES 15 A 217 VAL GLN HIS TYR SER CYS CYS PRO GLU PRO TYR ILE ASP
...
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy struktur - format danych
3. specyfikacji struktury II-rzędowej
HELIX 1 hel ASN A 3 PHE A 12
HELIX 2 hel ASN B 3 PHE B 12
HELIX 3 hel ASN C 3 PHE C 12
HELIX 4 hel LEU D 4 LEU D 11
HELIX 5 hel LEU E 4 PHE E 12
SHEET 1 str PRO A 26 LEU A 60
SHEET 2 str THR A 74 ALA A 80
SHEET 3 str ASP A 87 SER A 92
SHEET 4 str VAL A 97 SER A 101
SHEET 5 str GLN A 103 HIS A 109
SHEET 6 str GLY A 111 CYS A 125
SHEET 7 str GLY A 135 TRP A 145
SHEET 8 str GLU A 151 THR A 156
SHEET 9 str TYR A 172 HIS A 185
SHEET 10 str PRO A 192 GLU A 204
...
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy struktur - format danych
4. współrzędnych poszczególnych atomów
ATOM 1 C GLN A 1 -114.958 -17.239 -78.414 1.00 62.95 C
ATOM 2 CA GLN A 1 -115.670 -17.241 -77.028 1.00 63.68 C
ATOM 3 CB GLN A 1 -116.332 -15.895 -76.721 1.00 63.88 C
ATOM 4 CD GLN A 1 -118.418 -14.440 -76.959 1.00 64.96 C
ATOM 5 CG GLN A 1 -117.737 -15.757 -77.318 1.00 64.84 C
ATOM 6 N GLN A 1 -114.789 -17.634 -75.901 1.00 63.52 N
ATOM 7 NE2 GLN A 1 -119.049 -13.815 -77.956 1.00 65.69 N
ATOM 8 O GLN A 1 -113.795 -16.823 -78.540 1.00 62.60 O
ATOM 9 OE1 GLN A 1 -118.381 -13.996 -75.793 1.00 66.99 O
...
ATOM 1634 NH1 ARG A 205 -85.670 -7.627 -41.822 1.00 51.33 N
ATOM 1635 NH2 ARG A 205 -87.657 -6.914 -40.905 1.00 49.90 N
ATOM 1636 O ARG A 205 -81.061 -4.340 -39.441 1.00 40.99 O
TER
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy sekwencji - format danych
5. położeniu atomów rozpuszczalnika
HETATM 8181 N1 EPE 1 6 -71.394 -15.135 -72.832 1.00 44.23 N
HETATM 8182 C2 EPE 1 6 -72.218 -14.089 -73.449 1.00 43.40 C
HETATM 8183 C3 EPE 1 6 -73.213 -14.758 -74.388 1.00 40.95 C
HETATM 8184 N4 EPE 1 6 -72.339 -15.566 -75.205 1.00 39.37 N
HETATM 8185 C5 EPE 1 6 -71.793 -16.754 -74.585 1.00 40.37 C
HETATM 8186 C6 EPE 1 6 -70.746 -16.191 -73.623 1.00 41.85 C
HETATM 8187 C7 EPE 1 6 -72.002 -15.116 -76.551 1.00 38.49 C
HETATM 8188 C8 EPE 1 6 -71.705 -16.340 -77.391 1.00 38.43 C
HETATM 8189 O8 EPE 1 6 -72.818 -16.654 -78.233 1.00 39.70 O
...
HETATM 8287 O HOH 9 56 -81.113 -20.218 -60.272 1.00 19.44 O
HETATM 8288 O HOH 9 57 -89.338 -23.955 -61.992 1.00 31.41 O
HETATM 8289 O HOH 9 58 -72.770 -9.052 -72.334 1.00 29.98 O
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy struktur - format danych
6. informacji o wiązaniach
CONECT 999 1088
CONECT 1491 1497
CONECT 2635 2724
CONECT 3127 3133
CONECT 4271 4360
CONECT 4763 4769
CONECT 5907 5996
...
CONECT 8236 8237
CONECT 8237 8238
CONECT 8237 8239
CONECT 8237 8240
END
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy literatury
Główną bazą danych literaturowych dla nauk biologicznych jest
PubMed (dawniej Medline), prowadzona przez NCBI i dostępna do
przeszukiwania pod adresem
www.ncbi.nlm.nih.gov/gquery/gquery.fcgi.
Rekordy w tej bazie zawierają:
tytuł publikacji
autora (-ów) i jego (ich) afiliację
dane o czasopiśmie w którym ukazała się publikacja
datę publikacji
unikalny identyfikator PMID (PubMed ID)
abstrakt (jeżeli jest dostępny)
Bardzo wygodną cechą PubMed jest zamieszczenie linków do
artykułów związanych z właśnie przeglądanym (link  Related
Articles ).
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II
Bazy informacji o ekspresji genów
GEO Profiles - profile ekspresji i  obfitości (molecular
abundance).
GEO Datasets - informacje o eksperymentach dostarczających
danych do bazy GEO Profiles
Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II


Wyszukiwarka