Bioinformatyka
Wykład II
Marcin Gołębiewski Ph.D.
Zakład Biotechnologii
Wydział Biologii i Nauk o Ziemi
Uniwersytet Mikołaja Kopernika
2 marca 2010
Marcin Gołębiewski Ph.D.
Wstęp
Zasoby informacji na temat organizmów i procesów w nich
zachodzących można podzielić na kilka kategorii:
Sekwencje nukleotydowe i białkowe
Map genetycznych i fizycznych
Struktury białek i innych biomolekół
Literatura
Informacje o ekspresji genów
Marcin Gołębiewski Ph.D.
Bazy sekwencji: gdzie i jakie
Trzy główne ośrodki gromadzenia danych sekwencyjnych to
NCBI (National Center of Biological Information) w USA
(
www.ncbi.nlm.nih.gov
)
DDBJ (DNA Data Bank of Japan) w Japonii
(
www.ddbj.nig.ac.jp
)
EMBL (European Molecular Biology Laboratory) w Europie
(
www.embl.org
)
Prowadzą one zsynchronizowane bazy sekwencji nukleotydowych
(DNA i RNA), odpowiednio GenBank, DDBJ i EMBL-Bank oraz
białkowych (GenPept, DDBJ CDSDB i TrEMBL).
Marcin Gołębiewski Ph.D.
Bazy sekwencji: format
Aby informacje o sekwencjach genomów i białek gromadzone
w bazach danych były użyteczne, dane muszą być
przechowywane w odpowiedniej formie, łatwej do
przetwarzania komputerowego, a jednocześnie do czytelnej
prezentacji ludzkiemu użytkownikowi.
Wymaga to określenia odpowiedniego modelu danych, czyli
formalnego sposobu ich opisu. Informacje jakie należy
uwzględnić to m. in.:
pozycja systematyczna organizmu z którego pochodzi
sekwencja
rodzaj cząsteczki (DNA, RNA, białko)
rodzaj sekwencji (genomowa, plazmidowa, sztucznie stworzony
wektor)
autor (autorzy)
unikalny numer sekwencji (tzw. accession number)
odnośniki do publikacji na temat sekwencji
Marcin Gołębiewski Ph.D.
Bazy sekwencji: format
Ponieważ najczęściej nie wyciągamy z bazy rekordów gdzie
jakieś pola mają określoną wartość, tylko takie, gdzie pole
“sekwencja” ma zawartość podobną do sekwencji którą
przeszukujemy (query sequence), standardowy model
relacyjnej bazy danych nie jest w tym przypadku
najodpowiedniejszy.
Przeszukiwanie olbrzymich baz wymaga użycia algorytmów
heurystycznych, takich jak zaimplementowane w programach
BLAST. Programy te mają różne wymagania co do formatu
bazy danych. Np. BLAST wymaga odpowiedniego
przygotowania bazy (sformatowania jej programem formatdb).
Marcin Gołębiewski Ph.D.
Bazy sekwencji: format
Najczęściej w bazach danych rekordy są przechowywane w
plikach binarnych, w przypadku baz sekwencji korzysta się
raczej z formatu tekstowego (plain text, inaczej flat file).
Poszczególne rekordy są wyróżnionymi częściami jednego,
dużego pliku tekstowego. Dane w takim pliku są opisywane
przy użyciu języka ASN.1 (Abstract Syntax Notation 1), a
następnie program umożliwiający dostęp do bazy (interface)
interpretuje odpowiedni rekord i wyświetla go w wybranym,
czytelnym dla człowieka, formacie.
Może to być np. Fasta (inaczej format Pearson’a) lub
GenBank (Pept w przypadku białek), pozostałe dostępne
formaty (ASN.1, html, xml itp.) są dużo mniej zwarte i
trudniej interpretowalne, bądź przekazują niewiele informacji
(GI list, brief).
Marcin Gołębiewski Ph.D.
Bazy sekwencji: format
Przykład rekordu z bazy GenPept w formacie GenPept:
LOCUS
NP_775029
216 aa
linear
BCT 06-JAN-2005
DEFINITION
TraX [Citrobacter freundii].
ACCESSION
NP_775029
VERSION
NP_775029.1
GI:27383499
DBSOURCE
REFSEQ: accession NC_004464.2
KEYWORDS
.
SOURCE
Citrobacter freundii
ORGANISM
Citrobacter freundii
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
Enterobacteriaceae; Citrobacter.
REFERENCE
1
(residues 1 to 216)
AUTHORS
Golebiewski,M., Zienkiewicz,M., Adamczyk,M., Kern-Zdanowicz,I. and
Ceglowski,P.
TITLE
Complete nucleotide sequence of highly transmissible plasmid
pCTX-M3
JOURNAL
Unpublished
REFERENCE
2
(residues 1 to 216)
AUTHORS
.
CONSRTM
NCBI Genome Project
TITLE
Direct Submission
JOURNAL
Submitted (27-DEC-2002) National Center for Biotechnology
Information, NIH, Bethesda, MD 20894, USA
REFERENCE
3
(residues 1 to 216)
AUTHORS
Golebiewski,M.
TITLE
Direct Submission
Marcin Gołębiewski Ph.D.
Bazy sekwencji: format
Przykład rekordu z bazy GenPept w formacie GenPept cd.:
JOURNAL
Submitted (18-OCT-2002) Department of Microbial Biochemistry,
Institute of Biochemistry and Biophysics PAS, Pawinskiego 5A,
Warsaw 02-106, Poland
COMMENT
PROVISIONAL REFSEQ: This record has not yet been subject to final
NCBI review. The reference sequence was derived from AAN87693.
Method: conceptual translation.
FEATURES
Location/Qualifiers
source
1..216
/organism="Citrobacter freundii"
/db_xref="taxon:546"
/plasmid="pCTX-M3"
Protein
1..216
/product="TraX"
/calculated_mol_wt=23970
CDS
1..216
/gene="traX"
/locus_tag="pCTX-M3_070"
/coded_by="NC_004464.2:50797..51447"
/note="similar to plasmid ColIb-P9 TraX in GenBank
Accession Number AB021078"
/citation=[PUBMED 10423535]
/transl_table=11
/db_xref="GeneID:1055568"
ORIGIN
1 mtdenktgdk dtaksgklkk gldvvtgvnd lpegkakrti yyitgisdiy fiiasvkqtf
61 sllfqrasfv kkqiknldgp pvdsdanqpf aevmkrsnrp vselldkasl ykkywlccff
121 alvlillflt sgyarlllng spnmsllrat ltcgvlfaag iftfikaltc efmgwqlrnq
181 ahsdaeqgtl ryflndggvr ntfnfsqagq ergphe
//
Marcin Gołębiewski Ph.D.
Bazy sekwencji: format
Ten sam rekord w formacie fasta:
>gi|27383499|ref|NP_775029.1| TraX [Citrobacter freundii]
MTDENKTGDKDTAKSGKLKKGLDVVTGVNDLPEGKAKRTIYYITGISDIYFIIASVKQTFSLLFQRASFV
KKQIKNLDGPPVDSDANQPFAEVMKRSNRPVSELLDKASLYKKYWLCCFFALVLILLFLTSGYARLLLNG
SPNMSLLRATLTCGVLFAAGIFTFIKALTCEFMGWQLRNQAHSDAEQGTLRYFLNDGGVRNTFNFSQAGQ
ERGPHE
Marcin Gołębiewski Ph.D.
Bazy sekwencji - numery dostępu
Każda sekwencja w bazie danych ma unikalny tzw.
numer
dostępu
(accession number).
W przypadku bazy nukleotydowej (GenBank) numer ten ma
postać XXnnnnnn.n, gdzie X oznacza dowolną literę, a n
dowolną cyfrę, natomiast w przypadku baz białkowych
accession ma format XXXnnnnn.n.
Cyfra po kropce oznacza numer wersji sekwencji - jeżeli
sekwencja jest zmieniana przez autorów (np. poprawiana, czy
coś jest dodawane do opisu) numer wersji zwiększa się o
jeden. W bazie mogą więc znajdować się różne wersje tej
samej sekwencji o tym samym accession, różniące się tylko
numerem wersji.
Marcin Gołębiewski Ph.D.
Bazy sekwencji - numery dostępu
Każda sekwencja zarówno w bazie białkowej, jak i
nukleotydowej ma przypisany globalny identyfikator (global
identifier - GI) - ośmiocyfrową liczbę która jest absolutnie
unikalna, nie tylko w obrębie danej bazy, ale we wszystkich
innych bazach sekwencyjnych. Jest on również wewnętrznym
identyfikatorem w NCBI.
Tak więc, dwie wersje tej samej sekwencji mają różne
numery GI.
Marcin Gołębiewski Ph.D.
Bazy sekwencji - RefSeq
Istnieje trzeci rodzaj identyfikatorów sekwencji tzw. RefSeq
Id (Reference Sequence Id). Mają one format NX nnnnnn.n,
gdzie X=C dla chromosomów, X=M dla transkryptów
(mRNA), X=T dla sztucznych wektorów i X=P dla białek.
Rekordy RefSeq są danymi odniesienia dla systemu anotacji
funkcjonalnej, badania ekspresji genów, polimorfizmów itp.
Marcin Gołębiewski Ph.D.
Bazy map genetycznych i fizycznych - gdzie i jakie
Bardzo duża kolekcja wszystkich typów map zgromadzona jest
w NCBI, w sekcji Genome
(
www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
).
Dostęp do tych informacji realizowany jest poprzez aplikację
MapView (na stronie Genome link Map Viewer po prawej
stronie).
NCBI zintegrowało dużo map różnego typu (fizycznych i
genetycznych), umożliwiając przedstawienie wybranych w
formie graficznej. W bazie znajdują się mapy sprzężeń, hybryd
poradiacyjnych, cytogenetyczne i fizyczne: STS i EST.
Marcin Gołębiewski Ph.D.
Mapy genetyczne i fizyczne - po co mapować?
Mapy genomów pozwalają na klonowanie interesujących nas
odcinków genomu, co w przypadku eukaryontów wymaga
zlokalizowania genu na jednym z chromosomów, a następnie w
jego obrębie. Mapy fizyczne, w szczególności mapy klonów ze
zlokalizowanymi markerami bardzo upraszczają tę procedurę.
Mapowanie genomu jest także pomocne w sekwencjonowaniu
genomów. Mapa fizyczna oparta na bibliotece klonów
ułożonych w contigi (nakładających się), pozwala na złożenie
sekwencji całego chromosomu z sekwencji poszczególnych
klonów.
Marcin Gołębiewski Ph.D.
Mapy genetyczne
Mapy genetyczne (mapy sprzężeń - Genetic Linkage (GL)
Maps) gromadzą informacje o ułożeniu markerów
genetycznych na chromosomach i ich względnej odległości.
Opierają się one na zróżnicowaniu częstości rekombinacji
między markerami w zależności od ich fizycznej odległości na
chromosomie.
Markery między którymi rekombinacja zachodzi rzadko
są określane jako sprzężone i na ogół leżą blisko siebie
na tym samym chromosomie, natomiast takie, między
którymi rekombinacja jest częsta są niesprzężone i
prawdopodobnie leżą daleko od siebie, bądź też na
różnych chromosomach
Marcin Gołębiewski Ph.D.
Mapy genetyczne
Odległości na mapach genetycznych wyrażane są w
centymorganach (cM) - 1 cM to taka odległość przy której
prawdopodobieństwo rekombinacji między markerami wynosi
0.01.
Ponieważ częstości rekombinacji nie są jednakowe
wzdłóż całego chromosomu, odległości wyrażone w
centymorganach nie muszą dawać się (i najczęściej nie
dają się) przeliczyć na odległości fizyczne.
Mapy GL są mapami o niskiej rozdzielczości - najlepsze mają
ok. 2 cM, co odpowiada jednemu markerowi na ok. 1-5 Mbp
(średnio, w zależności od chromosomu).
Marcin Gołębiewski Ph.D.
Mapy hybryd poradiacyjnych
Mapy hybryd poradiacyjnych (Radiation Hybrid (RH) Maps)
są zbliżone do map sprzężeń - również są oparte na częstości
kosegregacji markerów, z tym, że przerwanie ciągłości
chromosomów wywołane jest letalną dawką promieniowania, a
nie crossing-over.
Odległości na mapach RH wyraża sięw jednostkach cR
(centirays - “centypromienie”), analogicznie do
centymorganów, jeden cR oznacza odległość przy której
prawdopodobieństwo pęknięcia chromosomu między dwoma
markerami wynosi 0.01.
Mapy RH charakteryzują się wyższą rozdzielczością niż mapy
sprzężeń, przy czym rozdzielczość zależy od dawki
promieniowania użytej przy konstrukcji hybryd.
Marcin Gołębiewski Ph.D.
Mapy cytogenetyczne
Mapy cytogenetyczne tworzy się przy pomocy techniki FISH
(Fluorescent In Situ Hybridization), hybrydyzując sondy o
znanej sekwencji do chromosomów i jednocześnie wybarwiając
chromosomy w celu uwidocznienia prążków.
Pozwala to na ustalenie (z niską rozdzielczością) kolejności
markerów na chromosomie i przypisanie ich do prążków.
Marcin Gołębiewski Ph.D.
Mapy fizyczne
Mapy fizyczne jednoznacznie określają kolejność markerów,
które zawsze mają znaną sekwencję, na chromosomie.
Najprostszymi rodzajami map fizycznych są mapy restrykcyjne
i mapy STS (Sequence Tagged Sites).
Pierwsze tworzy się trawiąc DNA genomowe różnymi
kombinacjami enzymów restrykcyjnych i ustalając potem
kolejność miejsc cięcia (co daje również odległości między
miejscami cięcia).
Mapy STS dają informację o kolejności markerów. Ich
konstrukcja polega na zlokalizowaniu fragmentów PCR w
bibliotece klonów o dużych insertach. Następnie na podstawie
nakładania się markerów w poszczególnych klonach ustala się
kolejność klonów i markerów.
Rozdzielczość mapy STS zależy od rozmiarów insertów w
bibliotece i liczby stosowanych markerów.
Marcin Gołębiewski Ph.D.
Mapy fizyczne
Mapy fizyczne mogą być kombinacją map restrykcyjnych i
STS z innymi, np. mogą mieć nałożone informacje o EST
(Expressed Sequence Tag), czy innych markerach
zlokalizowanych różnymi metodami.
Takie mapy nazywamy zintegrowanymi.
Marcin Gołębiewski Ph.D.
Bazy struktur
Bazy struktur gromadzą informację o przestrzennej budowie
makromolekuł (białek i kwasów nukleinowych).
Najważniejszymi bazami są:
PDB (Protein Data Bank) prowadzona przez RCSB
(
www.rcsb.org/pdb/
)
MMDB (Molecular Modelling Data Base) oparta na PDB i
prowadzona przez NCBI (sekcja Structures na stronie
www.ncbi.nlm.nih.org/gquery/gquery.fcgi
)
Dane w MMDB są dużo bardziej sformalizowaną i łatwiejszą do
obróbki komputerowej wersją struktur z PDB.
W MMDB znajdują się wyłącznie struktury określone
eksperymentalnie, natomiast w PDB są również modele
teoretyczne.
Marcin Gołębiewski Ph.D.
Bazy struktur - format danych
Dane w PDB opisywane są w specyficznym formacie składającym
się z:
1. nagłówka (header)
HEADER
Receptor Protein
18-Apr-05
2BR7
COMPND
Crystal Structure Of Acetylcholine-Binding Protein (Achbp)
COMPND
2 From Aplysia Californica In Complex With Hepes
SOURCE
ORGANISM_SCIENTIFIC: Aplysia californica; ORGANISM_COMMON:
SOURCE
2 California sea hare
AUTHOR
P.H.N.Celie, I.E.Kasheverov, D.Y.Mordvintsev, R.C.Hogg, P.
AUTHOR
2 Van Nierop, R.Van Elk, S.E.Van Rossum-Fikkert, M.N.Zhmak, D
AUTHOR
3 .Bertrand, V.Tsetlin, T.K.Sixma & A.B.Smit
REMARK
00 NCBI PDB FORMAT VERSION 5.0
Marcin Gołębiewski Ph.D.
Bazy struktur - format danych
2. specyfikacji sekwencji
SEQRES
1 A
217
GLN ALA ASN LEU MET ARG LEU LYS SER ASP LEU PHE ASN
SEQRES
2 A
217
ARG SER PRO MET TYR PRO GLY PRO THR LYS ASP ASP PRO
SEQRES
3 A
217
LEU THR VAL THR LEU GLY PHE THR LEU GLN ASP ILE VAL
SEQRES
4 A
217
LYS VAL ASP SER SER THR ASN GLU VAL ASP LEU VAL TYR
SEQRES
5 A
217
TYR GLU GLN GLN ARG TRP LYS LEU ASN SER LEU MET TRP
SEQRES
6 A
217
ASP PRO ASN GLU TYR GLY ASN ILE THR ASP PHE ARG THR
SEQRES
7 A
217
SER ALA ALA ASP ILE TRP THR PRO ASP ILE THR ALA TYR
SEQRES
8 A
217
SER SER THR ARG PRO VAL GLN VAL LEU SER PRO GLN ILE
SEQRES
9 A
217
ALA VAL VAL THR HIS ASP GLY SER VAL MET PHE ILE PRO
SEQRES
10 A
217
ALA GLN ARG LEU SER PHE MET CYS ASP PRO THR GLY VAL
SEQRES
11 A
217
ASP SER GLU GLU GLY VAL THR CYS ALA VAL LYS PHE GLY
SEQRES
12 A
217
SER TRP VAL TYR SER GLY PHE GLU ILE ASP LEU LYS THR
SEQRES
13 A
217
ASP THR ASP GLN VAL ASP LEU SER SER TYR TYR ALA SER
SEQRES
14 A
217
SER LYS TYR GLU ILE LEU SER ALA THR GLN THR ARG GLN
SEQRES
15 A
217
VAL GLN HIS TYR SER CYS CYS PRO GLU PRO TYR ILE ASP
...
Marcin Gołębiewski Ph.D.
Bazy struktur - format danych
3. specyfikacji struktury II-rzędowej
HELIX
1 hel ASN A
3
PHE A
12
HELIX
2 hel ASN B
3
PHE B
12
HELIX
3 hel ASN C
3
PHE C
12
HELIX
4 hel LEU D
4
LEU D
11
HELIX
5 hel LEU E
4
PHE E
12
SHEET
1 str
PRO A
26
LEU A
60
SHEET
2 str
THR A
74
ALA A
80
SHEET
3 str
ASP A
87
SER A
92
SHEET
4 str
VAL A
97
SER A 101
SHEET
5 str
GLN A 103
HIS A 109
SHEET
6 str
GLY A 111
CYS A 125
SHEET
7 str
GLY A 135
TRP A 145
SHEET
8 str
GLU A 151
THR A 156
SHEET
9 str
TYR A 172
HIS A 185
SHEET
10 str
PRO A 192
GLU A 204
...
Marcin Gołębiewski Ph.D.
Bazy struktur - format danych
4. współrzędnych poszczególnych atomów
ATOM
1
C
GLN A
1
-114.958 -17.239 -78.414
1.00 62.95
C
ATOM
2
CA
GLN A
1
-115.670 -17.241 -77.028
1.00 63.68
C
ATOM
3
CB
GLN A
1
-116.332 -15.895 -76.721
1.00 63.88
C
ATOM
4
CD
GLN A
1
-118.418 -14.440 -76.959
1.00 64.96
C
ATOM
5
CG
GLN A
1
-117.737 -15.757 -77.318
1.00 64.84
C
ATOM
6
N
GLN A
1
-114.789 -17.634 -75.901
1.00 63.52
N
ATOM
7
NE2 GLN A
1
-119.049 -13.815 -77.956
1.00 65.69
N
ATOM
8
O
GLN A
1
-113.795 -16.823 -78.540
1.00 62.60
O
ATOM
9
OE1 GLN A
1
-118.381 -13.996 -75.793
1.00 66.99
O
...
ATOM
1634
NH1 ARG A 205
-85.670
-7.627 -41.822
1.00 51.33
N
ATOM
1635
NH2 ARG A 205
-87.657
-6.914 -40.905
1.00 49.90
N
ATOM
1636
O
ARG A 205
-81.061
-4.340 -39.441
1.00 40.99
O
TER
Marcin Gołębiewski Ph.D.
Bazy sekwencji - format danych
5. położeniu atomów rozpuszczalnika
HETATM 8181
N1
EPE 1
6
-71.394 -15.135 -72.832
1.00 44.23
N
HETATM 8182
C2
EPE 1
6
-72.218 -14.089 -73.449
1.00 43.40
C
HETATM 8183
C3
EPE 1
6
-73.213 -14.758 -74.388
1.00 40.95
C
HETATM 8184
N4
EPE 1
6
-72.339 -15.566 -75.205
1.00 39.37
N
HETATM 8185
C5
EPE 1
6
-71.793 -16.754 -74.585
1.00 40.37
C
HETATM 8186
C6
EPE 1
6
-70.746 -16.191 -73.623
1.00 41.85
C
HETATM 8187
C7
EPE 1
6
-72.002 -15.116 -76.551
1.00 38.49
C
HETATM 8188
C8
EPE 1
6
-71.705 -16.340 -77.391
1.00 38.43
C
HETATM 8189
O8
EPE 1
6
-72.818 -16.654 -78.233
1.00 39.70
O
...
HETATM 8287
O
HOH 9
56
-81.113 -20.218 -60.272
1.00 19.44
O
HETATM 8288
O
HOH 9
57
-89.338 -23.955 -61.992
1.00 31.41
O
HETATM 8289
O
HOH 9
58
-72.770
-9.052 -72.334
1.00 29.98
O
Marcin Gołębiewski Ph.D.
Bazy struktur - format danych
6. informacji o wiązaniach
CONECT
999 1088
CONECT 1491 1497
CONECT 2635 2724
CONECT 3127 3133
CONECT 4271 4360
CONECT 4763 4769
CONECT 5907 5996
...
CONECT 8236 8237
CONECT 8237 8238
CONECT 8237 8239
CONECT 8237 8240
END
Marcin Gołębiewski Ph.D.
Bazy literatury
Główną bazą danych literaturowych dla nauk biologicznych jest
PubMed (dawniej Medline), prowadzona przez NCBI i dostępna do
przeszukiwania pod adresem
www.ncbi.nlm.nih.gov/gquery/gquery.fcgi
.
Rekordy w tej bazie zawierają:
tytuł publikacji
autora (-ów) i jego (ich) afiliację
dane o czasopiśmie w którym ukazała się publikacja
datę publikacji
unikalny identyfikator PMID (PubMed ID)
abstrakt (jeżeli jest dostępny)
Bardzo wygodną cechą PubMed jest zamieszczenie linków do
artykułów związanych z właśnie przeglądanym (link “Related
Articles”).
Marcin Gołębiewski Ph.D.
Bazy informacji o ekspresji genów
GEO Profiles - profile ekspresji i “obfitości” (molecular
abundance).
GEO Datasets - informacje o eksperymentach dostarczających
danych do bazy GEO Profiles
Marcin Gołębiewski Ph.D.