Bioinformatyka Wyklad II

Bioinformatyka

Wykład II

Marcin Gołębiewski Ph.D.

Zakład Biotechnologii

Wydział Biologii i Nauk o Ziemi

Uniwersytet Mikołaja Kopernika

2 marca 2010

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Wstęp

Zasoby informacji na temat organizmów i procesów w nich
zachodzących można podzielić na kilka kategorii:

Sekwencje nukleotydowe i białkowe

Map genetycznych i fizycznych

Struktury białek i innych biomolekół

Literatura

Informacje o ekspresji genów

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji: gdzie i jakie

Trzy główne ośrodki gromadzenia danych sekwencyjnych to

NCBI (National Center of Biological Information) w USA
(

www.ncbi.nlm.nih.gov

)

DDBJ (DNA Data Bank of Japan) w Japonii
(

www.ddbj.nig.ac.jp

)

EMBL (European Molecular Biology Laboratory) w Europie
(

www.embl.org

)

Prowadzą one zsynchronizowane bazy sekwencji nukleotydowych
(DNA i RNA), odpowiednio GenBank, DDBJ i EMBL-Bank oraz
białkowych (GenPept, DDBJ CDSDB i TrEMBL).

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji: format

Aby informacje o sekwencjach genomów i białek gromadzone
w bazach danych były użyteczne, dane muszą być
przechowywane w odpowiedniej formie, łatwej do
przetwarzania komputerowego, a jednocześnie do czytelnej
prezentacji ludzkiemu użytkownikowi.
Wymaga to określenia odpowiedniego modelu danych, czyli
formalnego sposobu ich opisu. Informacje jakie należy
uwzględnić to m. in.:

pozycja systematyczna organizmu z którego pochodzi
sekwencja
rodzaj cząsteczki (DNA, RNA, białko)
rodzaj sekwencji (genomowa, plazmidowa, sztucznie stworzony
wektor)
autor (autorzy)
unikalny numer sekwencji (tzw. accession number)
odnośniki do publikacji na temat sekwencji

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji: format

Ponieważ najczęściej nie wyciągamy z bazy rekordów gdzie
jakieś pola mają określoną wartość, tylko takie, gdzie pole
“sekwencja” ma zawartość podobną do sekwencji którą
przeszukujemy (query sequence), standardowy model
relacyjnej bazy danych nie jest w tym przypadku
najodpowiedniejszy.

Przeszukiwanie olbrzymich baz wymaga użycia algorytmów
heurystycznych, takich jak zaimplementowane w programach
BLAST. Programy te mają różne wymagania co do formatu
bazy danych. Np. BLAST wymaga odpowiedniego
przygotowania bazy (sformatowania jej programem formatdb).

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji: format

Najczęściej w bazach danych rekordy są przechowywane w
plikach binarnych, w przypadku baz sekwencji korzysta się
raczej z formatu tekstowego (plain text, inaczej flat file).

Poszczególne rekordy są wyróżnionymi częściami jednego,
dużego pliku tekstowego. Dane w takim pliku są opisywane
przy użyciu języka ASN.1 (Abstract Syntax Notation 1), a
następnie program umożliwiający dostęp do bazy (interface)
interpretuje odpowiedni rekord i wyświetla go w wybranym,
czytelnym dla człowieka, formacie.

Może to być np. Fasta (inaczej format Pearson’a) lub
GenBank (Pept w przypadku białek), pozostałe dostępne
formaty (ASN.1, html, xml itp.) są dużo mniej zwarte i
trudniej interpretowalne, bądź przekazują niewiele informacji
(GI list, brief).

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji: format

Przykład rekordu z bazy GenPept w formacie GenPept:

LOCUS

NP_775029

216 aa

linear

BCT 06-JAN-2005

DEFINITION

TraX [Citrobacter freundii].

ACCESSION

NP_775029

VERSION

NP_775029.1

GI:27383499

DBSOURCE

REFSEQ: accession NC_004464.2

KEYWORDS

SOURCE

Citrobacter freundii

ORGANISM

Citrobacter freundii
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
Enterobacteriaceae; Citrobacter.

REFERENCE

(residues 1 to 216)

AUTHORS

Golebiewski,M., Zienkiewicz,M., Adamczyk,M., Kern-Zdanowicz,I. and
Ceglowski,P.

TITLE

Complete nucleotide sequence of highly transmissible plasmid
pCTX-M3

JOURNAL

Unpublished

REFERENCE

(residues 1 to 216)

AUTHORS

CONSRTM

NCBI Genome Project

TITLE

Direct Submission

JOURNAL

Submitted (27-DEC-2002) National Center for Biotechnology
Information, NIH, Bethesda, MD 20894, USA

REFERENCE

(residues 1 to 216)

AUTHORS

Golebiewski,M.

TITLE

Direct Submission

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji: format

Przykład rekordu z bazy GenPept w formacie GenPept cd.:

JOURNAL

Submitted (18-OCT-2002) Department of Microbial Biochemistry,
Institute of Biochemistry and Biophysics PAS, Pawinskiego 5A,
Warsaw 02-106, Poland

COMMENT

PROVISIONAL REFSEQ: This record has not yet been subject to final
NCBI review. The reference sequence was derived from AAN87693.
Method: conceptual translation.

FEATURES

Location/Qualifiers

source

1..216
/organism="Citrobacter freundii"
/db_xref="taxon:546"
/plasmid="pCTX-M3"

Protein

1..216
/product="TraX"
/calculated_mol_wt=23970

CDS

1..216
/gene="traX"
/locus_tag="pCTX-M3_070"
/coded_by="NC_004464.2:50797..51447"
/note="similar to plasmid ColIb-P9 TraX in GenBank
Accession Number AB021078"
/citation=[PUBMED 10423535]
/transl_table=11
/db_xref="GeneID:1055568"

ORIGIN

1 mtdenktgdk dtaksgklkk gldvvtgvnd lpegkakrti yyitgisdiy fiiasvkqtf

61 sllfqrasfv kkqiknldgp pvdsdanqpf aevmkrsnrp vselldkasl ykkywlccff

121 alvlillflt sgyarlllng spnmsllrat ltcgvlfaag iftfikaltc efmgwqlrnq
181 ahsdaeqgtl ryflndggvr ntfnfsqagq ergphe

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji: format

Ten sam rekord w formacie fasta:

>gi|27383499|ref|NP_775029.1| TraX [Citrobacter freundii]
MTDENKTGDKDTAKSGKLKKGLDVVTGVNDLPEGKAKRTIYYITGISDIYFIIASVKQTFSLLFQRASFV
KKQIKNLDGPPVDSDANQPFAEVMKRSNRPVSELLDKASLYKKYWLCCFFALVLILLFLTSGYARLLLNG
SPNMSLLRATLTCGVLFAAGIFTFIKALTCEFMGWQLRNQAHSDAEQGTLRYFLNDGGVRNTFNFSQAGQ
ERGPHE

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji - numery dostępu

Każda sekwencja w bazie danych ma unikalny tzw.

numer

dostępu

(accession number).

W przypadku bazy nukleotydowej (GenBank) numer ten ma
postać XXnnnnnn.n, gdzie X oznacza dowolną literę, a n
dowolną cyfrę, natomiast w przypadku baz białkowych
accession ma format XXXnnnnn.n.

Cyfra po kropce oznacza numer wersji sekwencji - jeżeli
sekwencja jest zmieniana przez autorów (np. poprawiana, czy
coś jest dodawane do opisu) numer wersji zwiększa się o
jeden. W bazie mogą więc znajdować się różne wersje tej
samej sekwencji o tym samym accession, różniące się tylko
numerem wersji.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji - numery dostępu

Każda sekwencja zarówno w bazie białkowej, jak i
nukleotydowej ma przypisany globalny identyfikator (global
identifier - GI) - ośmiocyfrową liczbę która jest absolutnie
unikalna, nie tylko w obrębie danej bazy, ale we wszystkich
innych bazach sekwencyjnych. Jest on również wewnętrznym
identyfikatorem w NCBI.

Tak więc, dwie wersje tej samej sekwencji mają różne
numery GI.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji - RefSeq

Istnieje trzeci rodzaj identyfikatorów sekwencji tzw. RefSeq
Id (Reference Sequence Id). Mają one format NX nnnnnn.n,
gdzie X=C dla chromosomów, X=M dla transkryptów
(mRNA), X=T dla sztucznych wektorów i X=P dla białek.

Rekordy RefSeq są danymi odniesienia dla systemu anotacji
funkcjonalnej, badania ekspresji genów, polimorfizmów itp.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy map genetycznych i fizycznych - gdzie i jakie

Bardzo duża kolekcja wszystkich typów map zgromadzona jest
w NCBI, w sekcji Genome
(

www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome

Dostęp do tych informacji realizowany jest poprzez aplikację
MapView (na stronie Genome link Map Viewer po prawej
stronie).

NCBI zintegrowało dużo map różnego typu (fizycznych i
genetycznych), umożliwiając przedstawienie wybranych w
formie graficznej. W bazie znajdują się mapy sprzężeń, hybryd
poradiacyjnych, cytogenetyczne i fizyczne: STS i EST.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Mapy genetyczne i fizyczne - po co mapować?

Mapy genomów pozwalają na klonowanie interesujących nas
odcinków genomu, co w przypadku eukaryontów wymaga
zlokalizowania genu na jednym z chromosomów, a następnie w
jego obrębie. Mapy fizyczne, w szczególności mapy klonów ze
zlokalizowanymi markerami bardzo upraszczają tę procedurę.

Mapowanie genomu jest także pomocne w sekwencjonowaniu
genomów. Mapa fizyczna oparta na bibliotece klonów
ułożonych w contigi (nakładających się), pozwala na złożenie
sekwencji całego chromosomu z sekwencji poszczególnych
klonów.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Mapy genetyczne

Mapy genetyczne (mapy sprzężeń - Genetic Linkage (GL)
Maps) gromadzą informacje o ułożeniu markerów
genetycznych na chromosomach i ich względnej odległości.
Opierają się one na zróżnicowaniu częstości rekombinacji
między markerami w zależności od ich fizycznej odległości na
chromosomie.

Markery między którymi rekombinacja zachodzi rzadko
są określane jako sprzężone i na ogół leżą blisko siebie
na tym samym chromosomie, natomiast takie, między
którymi rekombinacja jest częsta są niesprzężone i
prawdopodobnie leżą daleko od siebie, bądź też na
różnych chromosomach

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Mapy genetyczne

Odległości na mapach genetycznych wyrażane są w
centymorganach (cM) - 1 cM to taka odległość przy której
prawdopodobieństwo rekombinacji między markerami wynosi
0.01.

Ponieważ częstości rekombinacji nie są jednakowe
wzdłóż całego chromosomu, odległości wyrażone w
centymorganach nie muszą dawać się (i najczęściej nie
dają się) przeliczyć na odległości fizyczne.

Mapy GL są mapami o niskiej rozdzielczości - najlepsze mają
ok. 2 cM, co odpowiada jednemu markerowi na ok. 1-5 Mbp
(średnio, w zależności od chromosomu).

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Mapy hybryd poradiacyjnych

Mapy hybryd poradiacyjnych (Radiation Hybrid (RH) Maps)
są zbliżone do map sprzężeń - również są oparte na częstości
kosegregacji markerów, z tym, że przerwanie ciągłości
chromosomów wywołane jest letalną dawką promieniowania, a
nie crossing-over.

Odległości na mapach RH wyraża sięw jednostkach cR
(centirays - “centypromienie”), analogicznie do
centymorganów, jeden cR oznacza odległość przy której
prawdopodobieństwo pęknięcia chromosomu między dwoma
markerami wynosi 0.01.

Mapy RH charakteryzują się wyższą rozdzielczością niż mapy
sprzężeń, przy czym rozdzielczość zależy od dawki
promieniowania użytej przy konstrukcji hybryd.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Mapy cytogenetyczne

Mapy cytogenetyczne tworzy się przy pomocy techniki FISH
(Fluorescent In Situ Hybridization), hybrydyzując sondy o
znanej sekwencji do chromosomów i jednocześnie wybarwiając
chromosomy w celu uwidocznienia prążków.

Pozwala to na ustalenie (z niską rozdzielczością) kolejności
markerów na chromosomie i przypisanie ich do prążków.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Mapy fizyczne

Mapy fizyczne jednoznacznie określają kolejność markerów,
które zawsze mają znaną sekwencję, na chromosomie.
Najprostszymi rodzajami map fizycznych są mapy restrykcyjne
i mapy STS (Sequence Tagged Sites).

Pierwsze tworzy się trawiąc DNA genomowe różnymi
kombinacjami enzymów restrykcyjnych i ustalając potem
kolejność miejsc cięcia (co daje również odległości między
miejscami cięcia).

Mapy STS dają informację o kolejności markerów. Ich
konstrukcja polega na zlokalizowaniu fragmentów PCR w
bibliotece klonów o dużych insertach. Następnie na podstawie
nakładania się markerów w poszczególnych klonach ustala się
kolejność klonów i markerów.

Rozdzielczość mapy STS zależy od rozmiarów insertów w
bibliotece i liczby stosowanych markerów.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Mapy fizyczne

Mapy fizyczne mogą być kombinacją map restrykcyjnych i
STS z innymi, np. mogą mieć nałożone informacje o EST
(Expressed Sequence Tag), czy innych markerach
zlokalizowanych różnymi metodami.

Takie mapy nazywamy zintegrowanymi.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy struktur

Bazy struktur gromadzą informację o przestrzennej budowie
makromolekuł (białek i kwasów nukleinowych).
Najważniejszymi bazami są:

PDB (Protein Data Bank) prowadzona przez RCSB
(

www.rcsb.org/pdb/

)

MMDB (Molecular Modelling Data Base) oparta na PDB i
prowadzona przez NCBI (sekcja Structures na stronie

www.ncbi.nlm.nih.org/gquery/gquery.fcgi

)

Dane w MMDB są dużo bardziej sformalizowaną i łatwiejszą do
obróbki komputerowej wersją struktur z PDB.
W MMDB znajdują się wyłącznie struktury określone
eksperymentalnie, natomiast w PDB są również modele
teoretyczne.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy struktur - format danych

Dane w PDB opisywane są w specyficznym formacie składającym
się z:
1. nagłówka (header)

HEADER

Receptor Protein

18-Apr-05

2BR7

COMPND

Crystal Structure Of Acetylcholine-Binding Protein (Achbp)

COMPND

2 From Aplysia Californica In Complex With Hepes

SOURCE

ORGANISM_SCIENTIFIC: Aplysia californica; ORGANISM_COMMON:

SOURCE

2 California sea hare

AUTHOR

P.H.N.Celie, I.E.Kasheverov, D.Y.Mordvintsev, R.C.Hogg, P.

AUTHOR

2 Van Nierop, R.Van Elk, S.E.Van Rossum-Fikkert, M.N.Zhmak, D

AUTHOR

3 .Bertrand, V.Tsetlin, T.K.Sixma & A.B.Smit

REMARK

00 NCBI PDB FORMAT VERSION 5.0

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy struktur - format danych

2. specyfikacji sekwencji

SEQRES

1 A

217

GLN ALA ASN LEU MET ARG LEU LYS SER ASP LEU PHE ASN

SEQRES

2 A

217

ARG SER PRO MET TYR PRO GLY PRO THR LYS ASP ASP PRO

SEQRES

3 A

217

LEU THR VAL THR LEU GLY PHE THR LEU GLN ASP ILE VAL

SEQRES

4 A

217

LYS VAL ASP SER SER THR ASN GLU VAL ASP LEU VAL TYR

SEQRES

5 A

217

TYR GLU GLN GLN ARG TRP LYS LEU ASN SER LEU MET TRP

SEQRES

6 A

217

ASP PRO ASN GLU TYR GLY ASN ILE THR ASP PHE ARG THR

SEQRES

7 A

217

SER ALA ALA ASP ILE TRP THR PRO ASP ILE THR ALA TYR

SEQRES

8 A

217

SER SER THR ARG PRO VAL GLN VAL LEU SER PRO GLN ILE

SEQRES

9 A

217

ALA VAL VAL THR HIS ASP GLY SER VAL MET PHE ILE PRO

SEQRES

10 A

217

ALA GLN ARG LEU SER PHE MET CYS ASP PRO THR GLY VAL

SEQRES

11 A

217

ASP SER GLU GLU GLY VAL THR CYS ALA VAL LYS PHE GLY

SEQRES

12 A

217

SER TRP VAL TYR SER GLY PHE GLU ILE ASP LEU LYS THR

SEQRES

13 A

217

ASP THR ASP GLN VAL ASP LEU SER SER TYR TYR ALA SER

SEQRES

14 A

217

SER LYS TYR GLU ILE LEU SER ALA THR GLN THR ARG GLN

SEQRES

15 A

217

VAL GLN HIS TYR SER CYS CYS PRO GLU PRO TYR ILE ASP

...

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy struktur - format danych

3. specyfikacji struktury II-rzędowej

HELIX

1 hel ASN A

PHE A

HELIX

2 hel ASN B

PHE B

HELIX

3 hel ASN C

PHE C

HELIX

4 hel LEU D

LEU D

HELIX

5 hel LEU E

PHE E

SHEET

1 str

PRO A

LEU A

SHEET

2 str

THR A

ALA A

SHEET

3 str

ASP A

SER A

SHEET

4 str

VAL A

SER A 101

SHEET

5 str

GLN A 103

HIS A 109

SHEET

6 str

GLY A 111

CYS A 125

SHEET

7 str

GLY A 135

TRP A 145

SHEET

8 str

GLU A 151

THR A 156

SHEET

9 str

TYR A 172

HIS A 185

SHEET

10 str

PRO A 192

GLU A 204

...

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy struktur - format danych

4. współrzędnych poszczególnych atomów

ATOM

GLN A

-114.958 -17.239 -78.414

1.00 62.95

ATOM

GLN A

-115.670 -17.241 -77.028

1.00 63.68

ATOM

GLN A

-116.332 -15.895 -76.721

1.00 63.88

ATOM

GLN A

-118.418 -14.440 -76.959

1.00 64.96

ATOM

GLN A

-117.737 -15.757 -77.318

1.00 64.84

ATOM

GLN A

-114.789 -17.634 -75.901

1.00 63.52

ATOM

NE2 GLN A

-119.049 -13.815 -77.956

1.00 65.69

ATOM

GLN A

-113.795 -16.823 -78.540

1.00 62.60

ATOM

OE1 GLN A

-118.381 -13.996 -75.793

1.00 66.99

...
ATOM

1634

NH1 ARG A 205

-85.670

-7.627 -41.822

1.00 51.33

ATOM

1635

NH2 ARG A 205

-87.657

-6.914 -40.905

1.00 49.90

ATOM

1636

ARG A 205

-81.061

-4.340 -39.441

1.00 40.99

TER

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy sekwencji - format danych

5. położeniu atomów rozpuszczalnika

HETATM 8181

EPE 1

-71.394 -15.135 -72.832

1.00 44.23

HETATM 8182

EPE 1

-72.218 -14.089 -73.449

1.00 43.40

HETATM 8183

EPE 1

-73.213 -14.758 -74.388

1.00 40.95

HETATM 8184

EPE 1

-72.339 -15.566 -75.205

1.00 39.37

HETATM 8185

EPE 1

-71.793 -16.754 -74.585

1.00 40.37

HETATM 8186

EPE 1

-70.746 -16.191 -73.623

1.00 41.85

HETATM 8187

EPE 1

-72.002 -15.116 -76.551

1.00 38.49

HETATM 8188

EPE 1

-71.705 -16.340 -77.391

1.00 38.43

HETATM 8189

EPE 1

-72.818 -16.654 -78.233

1.00 39.70

...
HETATM 8287

HOH 9

-81.113 -20.218 -60.272

1.00 19.44

HETATM 8288

HOH 9

-89.338 -23.955 -61.992

1.00 31.41

HETATM 8289

HOH 9

-72.770

-9.052 -72.334

1.00 29.98

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy struktur - format danych

6. informacji o wiązaniach

CONECT

999 1088

CONECT 1491 1497
CONECT 2635 2724
CONECT 3127 3133
CONECT 4271 4360
CONECT 4763 4769
CONECT 5907 5996
...
CONECT 8236 8237
CONECT 8237 8238
CONECT 8237 8239
CONECT 8237 8240
END

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy literatury

Główną bazą danych literaturowych dla nauk biologicznych jest
PubMed (dawniej Medline), prowadzona przez NCBI i dostępna do
przeszukiwania pod adresem

www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

Rekordy w tej bazie zawierają:

tytuł publikacji

autora (-ów) i jego (ich) afiliację

dane o czasopiśmie w którym ukazała się publikacja

datę publikacji

unikalny identyfikator PMID (PubMed ID)

abstrakt (jeżeli jest dostępny)

Bardzo wygodną cechą PubMed jest zamieszczenie linków do
artykułów związanych z właśnie przeglądanym (link “Related
Articles”).

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II

Bazy informacji o ekspresji genów

GEO Profiles - profile ekspresji i “obfitości” (molecular
abundance).

GEO Datasets - informacje o eksperymentach dostarczających
danych do bazy GEO Profiles

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład II