Wykład Bioinformatyka
Wykład 4, 2008
1
Bioinformatyka
Wykład 4.
E. Banachowicz
Zakład Biofizyki Molekularnej
IF UAM
http://www.amu.edu.pl/~ewas
Formaty danych - GenBank
Poco wprowadza się dane do komputerów?
1. żeby je pobrać
2. żeby coś odkryć
Jeśli baza danych nie pozwala na wyszukanie potrzebnej
informacji, jest by bezużyteczna. (Nawet największa baza!)
Wykład Bioinformatyka
Wykład 4, 2008
2
Formaty danych - GenBank
1. dane muszą mieć jednoznaczną strukturę
i zdefiniowane powiązania
2. dane muszą być stabilne
Model danych w NCBI oparty jest na sekwencji DNA
(stabilność), i daje możliwość śledzenia informacji od literatury
do sekwencji.
Stabilność danych
sekwencja
DNA
literatura
PubMed
sekwencja
białka
struktura
3D
4 podstawowe dane
Full Text
el. Journal
OMIM
Mapy i
genomy
Taksonomia
Wykład Bioinformatyka
Wykład 4, 2008
3
pliki ASCII
• większość programów do analizy sekwencji
nie akceptuje znaków spoza zestawu ASCII
(różna interpretacja, problemy z transferem)
• Poza sekwencją DNA lub białka (raw sequence) –
odpowiedni format
• Kod DNA i białka ujednolicony został przez
NC-IUB (
Nomenclature Committee of the International Union of
Biochemistry and Molecular Biology -
http://www.chem.qmul.ac.uk/iubmb/
Zasady/kwasy nukleinowe
- ujednolicony kod
A
adenozyna
M A C (amino)
C
cytozyna
S G C (strong)
G
guanina
W A T (weak)
T
tymidyna
B G T C
U
urydyna
D G A T
R G A (puryna)
H A C T
Y T C (pyrymidyna)
V G C A
K G T (keto)
N A G C T (dowolna)
-
gap of indeterminate length
NC – IUP (1984)
Wykład Bioinformatyka
Wykład 4, 2008
4
Standardowy kod aminokwasów
A Ala alanina
P
Pro prolina
B
Asx kw. asparaginowy/asparagina Q
Gln glutamina
C Cys cysteina
R
Arg arginina
D Asp kw. asparaginowy
S
Ser seryna
E Glu kw. glutaminowy
T
Thr treonina
F Phe fenyloanina
U
selenocysteina
G Gly glicyna
V Val
walina
H His histydyna
W Trp tryptofan
I Ile izoleucyna
Y Tyr tyrozyna
K Lys lizyna
Z
Glx kw.glutaminowy/glutamina
L Leu leucyna
X
Xxx dowolny
M Met metionina
* stop translacji
N Asn asparagina
- gap of indeterminate length
Abstract Syntax Notation Sequence Format ASN.1
ASN.1 (skrót od Abstract Syntax Notation One
abstrakcyjna notacja składniowa numer jeden)
język opisu danych przejęty i rozwijany przez NCBI
Wykład Bioinformatyka
Wykład 4, 2008
5
Integracja danych z wielu różnych źródeł
• np. PubMed
(np. wyszukiwanie według autorów)
Tag
Name
AB
Abstract
AD
Affiliation
AID
Article Identifier
AU
Author
CI
Copyright Information
CIN
Comment In
CN
Corporate Author
CON
Comment On
CRF
Corrected and republished from
CRI
Corrected and republished in
DA
Date Created
DCOM
Date Completed
DEP
Date of Electronic Publication
DP
Publication Date
EDAT
Entrez Date
EFR
Erratum For
EIN
Erratum In
FAU
Full Author Name
FIR
Full Investigator
FPS
Full Personal Name as Subject
GN
General Note
GR
Grant Number
GS
Gene Symbol
IP
Issue
IR
Investigator
IRAD
Investigator Affiliation
IS
ISSN
JID
NLM Unique ID
JT
Full Journal Title
LA
Language
LID
Location ID
MEDLINE Display
LR
Last Revision Date
MH
MeSH Terms
MHDA
MeSH Date
OAB
Other Abstract
OCI
Other Copyright Information
OID
Other ID
ORI
Original Report In
OT
Other Term
OTO
Other Term Owner
OWN
Owner
PG
Pagination
PHST
Publication History Status Date
PL
Place of Publication
PMID
PubMed Unique Identifier
PRIN
Partial Retraction In
PROF
Partial Retraction Of
PS
Personal Name as Subject
PST
Publication Status
PT
Publication Type
PUBM
Publishing Model
RF
Number of References
RIN
Retraction In
RN
EC/RN Number
ROF
Retraction Of
RPF
Republished From
RPI
Republished In
SB
Subset
SFM
Space Flight Mission
SI
Secondary Source Identifier
SO
Source
SPIN
Summary For Patients In
STAT
Status Tag
TA
Journal Title Abbreviation
TI
Title
TT
Transliterated Title
UIN
Update In
UOF
Update Of
VI
Volume
Wykład Bioinformatyka
Wykład 4, 2008
6
streszczenie
brak streszczenia
dostępny w PMC
dostępny pełen teskt
cytowanie
nr stron
autorzy
tytuł
identyfikator
czasopismo
data publikacji
DDBJ/GenBank/EMBL
Podobna struktura i identyfikatory: A12345=A12345
PIR/ Swiss-Prot
Różne identyfikatory: A12345≠A12345
Seq-id klasa obiektów
Wykład Bioinformatyka
Wykład 4, 2008
7
GenBank:
http://www.ncbi.nlm.nih.gov/
nazwa lokusa
(locus)
długość i typ
sekwencji
klasyfikacja
organizmu
data
wprowadzenia
nazwa lokusa
(locus)
długość i typ
sekwencji
klasyfikacja
organizmu
data
wprowadzenia
Wykład Bioinformatyka
Wykład 4, 2008
8
GenBank:
http://www.ncbi.nlm.nih.gov/
opis objektu
ACCESSION
numer dostępu do oryginalnego
źródła
VERSION numer kolejnej wersji
KEYWORDS
słowa kluczowe (cross reference)
SOURCE
organizm, z którego pochodziło DNA
ORGANISM opis organizmu
REFERENCE bibliografia
GenBank:
http://www.ncbi.nlm.nih.gov/
COMMENT np.funkcja biologiczna
FEATURES informacje o sekwencji przez
podanie położenia zasad lub przedziału położeń
sourece, misc_signal, mRNA, CDS,
intron, mutation
ORIGIN
początek sekwencji
//
koniec sekwencji
Wykład Bioinformatyka
Wykład 4, 2008
9
EMBL:
http://www.ebi.ac.uk/embl/index.html/
European Molecular Biology Laboratory
Wygląd strony w 2006
Wykład Bioinformatyka
Wykład 4, 2008
10
EMBL:
http://www.ebi.ac.uk/embl/index.html/
European Molecular Biology Laboratory
ID
numer identyfikacyjny w bazie danych
AC
numer dostępowy do pierwotnej sekwencji
SV
wersja
DT
data wprowadzenia lub modyfikacji
DE
opis
OS,OC
– organizm pochodzenia DNA
RN
(
RP
,
RA
,
RT
,
RL
,…) bibliografia
FH
,
FT
– informacje o sekwencji (FEATUREs)
SQ
,
//
- początek i koniec sekwencji
Wykład Bioinformatyka
Wykład 4, 2008
11
Format sekwencji FASTA
>embl|DQ423612|DQ423612 Influenza A virus (A/Cygnus olor/Astrakhan/Ast05-2-
10/2005(H5N1)) polymerase basic protein 1 (PB1) gene, complete cds. ...
caaaccatttgaatggatgtcaatccgactttacttttcttgaaagtaccagtgcaaaat
gctataagtaccacattcccttatactggagaccctccatacagccatgggacagggaca
ggatacaccatggacacagtcaacagaacacaccaatattcagaaaaggggaagtggaca
acaaacacagagactggagcaccccaactcaacccgattgatggaccactacctgaggat
aatgagcccagtggttatgcacaaacagattgtgtattggaagcaatggctttccttgaa
gaatcccacccagggatctttgaaaactcgtgtcttgaaacgatggaaattgttcaacaa
acaagagtggataaactgacccaaggtcgtcagacctatgactggacattgaatagaaac
caaccggctgcaaccgctttggccaacactatagaaatcttcagatcgaacggtctaaca
gccaatgaatcgggacggctaatagatttcctcaaggatgtgatggaatcaatggataag
gaagaaatggagataacaacacacttccagagaaagagaagagtgagagacaacatgacc
aaaaagatggtcacacaaagaacaatagggaagaaaaagcaaaggctgaacaaaaagagc
tacctgataagagcactgacactgaatacaatgacaaaagatgcagaaagaggcaaattg
aagaggcgagcaattgcaacacccggaatgcaaatcagaggattcgtgtactttgttgaa
acattagcgaggagtatctgtgagaaacttgagcaatctggactcccagttggagggaat
gaaaagaaggctaaattggcaaacgtcgtgaggaagatgatgactaactcacaagatact
gaactctcctttacaattactggagacaatactaaatggaatgagaatcagaatcctagg
> jednoliniowy opis
wszystkie linie tekstu nie powinny być dłuższe niż 80 znaków
>gi|89213215|gb|ABD64049.1| polymerase basic protein 1 [Influenza A virus (A/Cygnus olor/Astrakhan/Ast05-2-
10/2005(H5N1))]
MDVNPTLLFLKVPVQNAISTTFPYTGDPPYSHGTGTGYTMDTVNRTHQYSEKGKWTTNTETGAPQLNPID
GPLPEDNEPSGYAQTDCVLEAMAFLEESHPGIFENSCLETMEIVQQTRVDKLTQGRQTYDWTLNRNQPAA
TALANTIEIFRSNGLTANESGRLIDFLKDVMESMDKEEMEITTHFQRKRRVRDNMTKKMVTQRTIGKKKQ
RLNKKSYLIRALTLNTMTKDAERGKLKRRAIATPGMQIRGFVYFVETLARSICEKLEQSGLPVGGNEKKA
KLANVVRKMMTNSQDTELSFTITGDNTKWNENQNPRMFLAMITYITRNQPEWFRNVLSIAPIMFSNKMAR
LGRGYMFESKSMKLRTQIPAEMLANIDLKYFNELTKKKIEKIRPLLIDGTASLSPGMMMGMFNMLSTVLG
VSILNLGQKRYTKTTYWWDGLQSSDDFALIVNAPNHEGIQAGVDRFYRTCKLVGINMSKKKSYINRTGTF
EFTSFFYRYGFVANFSMELPSFGVSGINESADMSIGVTVIKNNMINNDLGPATAQMALQLFIKDYRYTYR
CHRGDTQIQTRRSFELKKLWEQTRSKAGLLVSDGGPNLYNIRNLHIPEVCLKWELMDEDYQGRLCNPLNP
FVSHKEIESVNNAVVMPAHGPAKGMEYDAVATTHSWIPKRNRSILNTSQRGILEDEQMYQKCCNLFEKFF
PSSSYRRPVGISSMVEAMVSRARIDARIDFESGRIKKEEFAEIMKICSTIEELRRPK
Wykład Bioinformatyka
Wykład 4, 2008
12
NBRF/PIR (National Biomedical Research
Foundation/Protein Information Resource
http://www-nbrf.georgetown.edu/pirwww/dbinfo/
>P1;gi|89213215|gb|ABD64049_1|
gi|89213215|gb|ABD64049_1| 757 bases
MDVNPTLLFL KVPVQNAIST TFPYTGDPPY SHGTGTGYTM DTVNRTHQYS
EKGKWTTNTE TGAPQLNPID GPLPEDNEPS GYAQTDCVLE AMAFLEESHP
GIFENSCLET MEIVQQTRVD KLTQGRQTYD WTLNRNQPAA TALANTIEIF
RSNGLTANES GRLIDFLKDV MESMDKEEME ITTHFQRKRR VRDNMTKKMV
TQRTIGKKKQ RLNKKSYLIR ALTLNTMTKD AERGKLKRRA IATPGMQIRG
READSEQ – konwersja formatów
http://www.ebi.ac.uk/cgi-bin/readseq.cgi
Wykład Bioinformatyka
Wykład 4, 2008
13
ID
Name
Read
Write
Int'leaf
Features
Sequence
Content-type
Suffix
1
GenBank|gb
yes
yes
--
yes
yes
biosequence/genbank
.gb
2
EMBL|em
yes
yes
--
yes
yes
biosequence/embl
.embl
3
Pearson|Fasta|fa
yes
yes
--
--
yes
biosequence/fasta
.fasta
4
GCG
yes
yes
--
--
yes
biosequence/gcg
.gcg
5
MSF
yes
yes
yes
--
yes
biosequence/msf
.msf
6
Clustal
yes
yes
yes
--
yes
biosequence/clustal
.aln
7
NBRF
yes
yes
--
--
yes
biosequence/nbrf
.nbrf
8
PIR|CODATA
yes
yes
--
--
yes
biosequence/codata
.pir
9
ACEDB
yes
yes
--
--
yes
biosequence/acedb
.ace
10
Phylip3.2
yes
yes
yes
--
yes
biosequence/phylip2
.phylip2
11
Phylip|Phylip4
yes
yes
yes
--
yes
biosequence/phylip
.phylip
12
Plain|Raw
yes
yes
--
--
yes
biosequence/plain
.seq
13
PAUP|NEXUS
yes
yes
yes
--
yes
biosequence/nexus
.nexus
14
XML
yes
yes
--
yes
yes
biosequence/xml
.xml
15
FlatFeat|FFF
yes
yes
--
yes
--
biosequence/fff
.fff
16
GFF
yes
yes
--
yes
--
biosequence/gff
.gff
17
BLAST
yes
--
yes
--
yes
biosequence/blast
.blast
18
Pretty
--
yes
yes
--
yes
biosequence/pretty
.pretty
19
SCF
yes
--
--
--
yes
biosequence/scf
.scf
20
DNAStrider
yes
yes
--
--
yes
biosequence/strider
.strider
21
IG|Stanford
yes
yes
--
--
yes
biosequence/ig
.ig
22
Fitch
--
--
--
--
yes
biosequence/fitch
.fitch
23
ASN.1
--
--
--
--
yes
biosequence/asn1
.asn
znane formaty sekwencji
Anatomia danych SwissProt/TrEMBL
http://www.expasy.ch/
Wykład Bioinformatyka
Wykład 4, 2008
14
Wykład Bioinformatyka
Wykład 4, 2008
15
MeCP2
NCBI
•
http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?d
b=protein&val=1708973
EMBL-EBI
•
PIR
•
http://pir.georgetown.edu/cgi-bin/textsearch.pl
ReadSeq
•
http://www.ebi.ac.uk/cgi-bin/readseq.cgi
PDB
Wykład Bioinformatyka
Wykład 4, 2008
16
plik PDB
plik PDB
Wykład Bioinformatyka
Wykład 4, 2008
17
plik PDB
plik PDB
Ser
Lys
Val
Wykład Bioinformatyka
Wykład 4, 2008
18
plik PDB
Identyfikacja sekwencji w BD
• Identyfikacja przez porównanie z innymi
sekwencjami
Zestawienia sekwencji = uliniowienie =
=porównanie = alignment
Wykład Bioinformatyka
Wykład 4, 2008
19
Porównywanie sekwencji
• Pierwsze pytanie biologa molekularnego,
kiedy odkryje nową sekwencję:
Czy w bazie sekwencji są już sekwencje podobne
do mojej?
sekwencje są identyczne –
nic nowego….
sekwencja jest podobna (ma „krewnych”)
– nowy członek
znanej rodziny
sekwencja ma kilka podobnych regionów, motywów lub
domen
– można zaproponować funkję
Nie ma znaczącego podobieństwa
– dużo pracy…..
Porównywanie sekwencji
• Celem porównania białek jest między
innymi przypisanie informacji znanej dla
jednej cząsteczki drugiej cząsteczce
Wykład Bioinformatyka
Wykład 4, 2008
20
39
Pokrycie sekwencji
• dopasowanie globalne – dopasowanie
wzdłuż całej sekwencji
(zastosowanie: do białek
składających się z pojedynczej domeny lub
homologicznych słabo zróżnicowanych)
• dopasowanie lokalne – uwzględnia
domenową naturę białek, szuka
subsekwencji (
zastosowanie: do białek
wielodomenowych, mRNA z sekwencją genomową
)
BLAST
Wykład Bioinformatyka
Wykład 4, 2008
21
Wykład Bioinformatyka
Wykład 4, 2008
22
CDN …..
…..na ćwiczeniach