Wykład Bioinformatyka
Bioinformatyka
Wykład 4.
E. Banachowicz
Zakład Biofizyki Molekularnej
IF UAM
http://www.amu.edu.pl/~ewas
Formaty danych - GenBank
Poco wprowadza się dane do komputerów?
1. żeby je pobrać Jð
2. żeby coś odkryć
Jeśli baza danych nie pozwala na wyszukanie potrzebnej
informacji, jest by bezużyteczna. (Nawet największa baza!)
Wykład 4, 2008 1
Wykład Bioinformatyka
Formaty danych - GenBank
1. dane muszą mieć jednoznaczną strukturę
i zdefiniowane powiÄ…zania
2. dane muszą być stabilne
Model danych w NCBI oparty jest na sekwencji DNA
(stabilność), i daje możliwość śledzenia informacji od literatury
do sekwencji.
Stabilność danych
literatura Full Text
OMIM
PubMed el. Journal
sekwencja struktura
DNA 3D
sekwencja
Mapy i
Taksonomia
białka
genomy
4 podstawowe dane
Wykład 4, 2008 2
Wykład Bioinformatyka
pliki ASCII
" większość programów do analizy sekwencji
nie akceptuje znaków spoza zestawu ASCII
(różna interpretacja, problemy z transferem)
" Poza sekwencją DNA lub białka (raw sequence)
odpowiedni format
" Kod DNA i białka ujednolicony został przez
NC-IUB (Nomenclature Committee of the International Union of
Biochemistry and Molecular Biology -
http://www.chem.qmul.ac.uk/iubmb/
Zasady/kwasy nukleinowe
- ujednolicony kod
NC IUP (1984)
AÄ…ðadenozyna M Ä…ðA C (amino)
CÄ…ðcytozyna S Ä…ðG C (strong)
GÄ…ðguanina W Ä…ðA T (weak)
TÄ…ð tymidyna B Ä…ðG T C
UÄ…ðurydyna D Ä…ðG A T
R Ä…ðG A (puryna) H Ä…ðA C T
Y Ä…ðT C (pyrymidyna) V Ä…ðG C A
K Ä…ðG T (keto) N Ä…ðA G C T (dowolna)
- Ä…ðgap of indeterminate length
Wykład 4, 2008 3
Wykład Bioinformatyka
Standardowy kod aminokwasów
A Ala alanina P Pro prolina
B Asx kw. asparaginowy/asparagina Q Gln glutamina
C Cys cysteina R Arg arginina
D Asp kw. asparaginowy S Ser seryna
E Glu kw. glutaminowy T Thr treonina
F Phe fenyloanina U selenocysteina
G Gly glicyna V Val walina
H His histydyna W Trp tryptofan
I Ile izoleucyna Y Tyr tyrozyna
K Lys lizyna Z Glx kw.glutaminowy/glutamina
L Leu leucyna X Xxx dowolny
M Met metionina * stop translacji
N Asn asparagina - gap of indeterminate length
Abstract Syntax Notation Sequence Format ASN.1
ASN.1 (skrót od Abstract Syntax Notation One
abstrakcyjna notacja składniowa numer jeden)
język opisu danych przejęty i rozwijany przez NCBI
Wykład 4, 2008 4
Wykład Bioinformatyka
Integracja danych z wielu różnych zródeł
" np. PubMed (np. wyszukiwanie według autorów)
LR Last Revision Date
MH MeSH Terms
MEDLINE Display
MHDA MeSH Date
OAB Other Abstract
OCI Other Copyright Information
Tag Name
OID Other ID
AB Abstract
ORI Original Report In
AD Affiliation
OT Other Term
AID Article Identifier
OTO Other Term Owner
AU Author
OWN Owner
CI Copyright Information
PG Pagination
CIN Comment In
PHST Publication History Status Date
CN Corporate Author
PL Place of Publication
CON Comment On PMID PubMed Unique Identifier
CRF Corrected and republished from PRIN Partial Retraction In
CRI Corrected and republished in PROF Partial Retraction Of
DA Date Created PS Personal Name as Subject
PST Publication Status
DCOM Date Completed
PT Publication Type
DEP Date of Electronic Publication
PUBM Publishing Model
DP Publication Date
RF Number of References
EDAT Entrez Date
RIN Retraction In
EFR Erratum For
RN EC/RN Number
EIN Erratum In
FAU Full Author Name
ROF Retraction Of
FIR Full Investigator RPF Republished From
FPS Full Personal Name as Subject RPI Republished In
GN General Note SB Subset
SFM Space Flight Mission
GR Grant Number
SI Secondary Source Identifier
GS Gene Symbol
SO Source
IP Issue
SPIN Summary For Patients In
IR Investigator
STAT Status Tag
IRAD Investigator Affiliation
TA Journal Title Abbreviation
IS ISSN
TI Title
JID NLM Unique ID
TT Transliterated Title
JT Full Journal Title
UIN Update In
LA Language
UOF Update Of
LID Location ID
VI Volume
Wykład 4, 2008 5
Wykład Bioinformatyka
cytowanie
streszczenie
brak streszczenia
dostępny w PMC
autorzy
dostępny pełen teskt
tytuł
nr stron
czasopismo
identyfikator data publikacji
Seq-id klasa obiektów
DDBJ/GenBank/EMBL
Podobna struktura i identyfikatory: A12345=A12345
PIR/ Swiss-Prot
Różne identyfikatory: A12345`"A12345
Wykład 4, 2008 6
Wykład Bioinformatyka
GenBank: http://www.ncbi.nlm.nih.gov/
klasyfikacja
nazwa lokusa
organizmu
(locus)
długość i typ
sekwencji
data
wprowadzenia
nazwa lokusa
klasyfikacja
(locus)
organizmu
długość i typ
sekwencji
data
wprowadzenia
Wykład 4, 2008 7
Wykład Bioinformatyka
GenBank: http://www.ncbi.nlm.nih.gov/
opis objektu
ACCESSION numer dostępu do oryginalnego
zródła
VERSION numer kolejnej wersji
KEYWORDS słowa kluczowe (cross reference)
SOURCE organizm, z którego pochodziło DNA
ORGANISM opis organizmu
REFERENCE bibliografia
GenBank: http://www.ncbi.nlm.nih.gov/
COMMENT np.funkcja biologiczna
FEATURES informacje o sekwencji przez
podanie położenia zasad lub przedziału położeń
sourece, misc_signal, mRNA, CDS,
intron, mutation
ORIGIN poczÄ…tek sekwencji
// koniec sekwencji
Wykład 4, 2008 8
Wykład Bioinformatyka
EMBL: http://www.ebi.ac.uk/embl/index.html/
European Molecular Biology Laboratory
WyglÄ…d strony w 2006
Wykład 4, 2008 9
Wykład Bioinformatyka
EMBL: http://www.ebi.ac.uk/embl/index.html/
European Molecular Biology Laboratory
ID numer identyfikacyjny w bazie danych
AC numer dostępowy do pierwotnej sekwencji
SV wersja
DT data wprowadzenia lub modyfikacji
DE opis
OS,OC organizm pochodzenia DNA
RN (RP, RA, RT, RL,& ) bibliografia
FH, FT informacje o sekwencji (FEATUREs)
SQ, // - poczÄ…tek i koniec sekwencji
Wykład 4, 2008 10
Wykład Bioinformatyka
Format sekwencji FASTA
>embl|DQ423612|DQ423612 Influenza A virus (A/Cygnus olor/Astrakhan/Ast05-2-
10/2005(H5N1)) polymerase basic protein 1 (PB1) gene, complete cds. ...
caaaccatttgaatggatgtcaatccgactttacttttcttgaaagtaccagtgcaaaat
gctataagtaccacattcccttatactggagaccctccatacagccatgggacagggaca
ggatacaccatggacacagtcaacagaacacaccaatattcagaaaaggggaagtggaca
acaaacacagagactggagcaccccaactcaacccgattgatggaccactacctgaggat
aatgagcccagtggttatgcacaaacagattgtgtattggaagcaatggctttccttgaa
gaatcccacccagggatctttgaaaactcgtgtcttgaaacgatggaaattgttcaacaa
acaagagtggataaactgacccaaggtcgtcagacctatgactggacattgaatagaaacolor/Astrakhan/Ast05-2-
>gi|89213215|gb|ABD64049.1| polymerase basic protein 1 [Influenza A virus (A/Cygnus
caaccggctgcaaccgctttggccaacactatagaaatcttcagatcgaacggtctaaca
10/2005(H5N1))]
gccaatgaatcgggacggctaatagatttcctcaaggatgtgatggaatcaatggataag
MDVNPTLLFLKVPVQNAISTTFPYTGDPPYSHGTGTGYTMDTVNRTHQYSEKGKWTTNTETGAPQLNPID
GPLPEDNEPSGYAQTDCVLEAMAFLEESHPGIFENSCLETMEIVQQTRVDKLTQGRQTYDWTLNRNQPAA
gaagaaatggagataacaacacacttccagagaaagagaagagtgagagacaacatgacc
TALANTIEIFRSNGLTANESGRLIDFLKDVMESMDKEEMEITTHFQRKRRVRDNMTKKMVTQRTIGKKKQ
aaaaagatggtcacacaaagaacaatagggaagaaaaagcaaaggctgaacaaaaagagc
RLNKKSYLIRALTLNTMTKDAERGKLKRRAIATPGMQIRGFVYFVETLARSICEKLEQSGLPVGGNEKKA
tacctgataagagcactgacactgaatacaatgacaaaagatgcagaaagaggcaaattg
KLANVVRKMMTNSQDTELSFTITGDNTKWNENQNPRMFLAMITYITRNQPEWFRNVLSIAPIMFSNKMAR
aagaggcgagcaattgcaacacccggaatgcaaatcagaggattcgtgtactttgttgaa
LGRGYMFESKSMKLRTQIPAEMLANIDLKYFNELTKKKIEKIRPLLIDGTASLSPGMMMGMFNMLSTVLG
acattagcgaggagtatctgtgagaaacttgagcaatctggactcccagttggagggaat
VSILNLGQKRYTKTTYWWDGLQSSDDFALIVNAPNHEGIQAGVDRFYRTCKLVGINMSKKKSYINRTGTF
gaaaagaaggctaaattggcaaacgtcgtgaggaagatgatgactaactcacaagatact
EFTSFFYRYGFVANFSMELPSFGVSGINESADMSIGVTVIKNNMINNDLGPATAQMALQLFIKDYRYTYR
CHRGDTQIQTRRSFELKKLWEQTRSKAGLLVSDGGPNLYNIRNLHIPEVCLKWELMDEDYQGRLCNPLNP
gaactctcctttacaattactggagacaatactaaatggaatgagaatcagaatcctagg
FVSHKEIESVNNAVVMPAHGPAKGMEYDAVATTHSWIPKRNRSILNTSQRGILEDEQMYQKCCNLFEKFF
PSSSYRRPVGISSMVEAMVSRARIDARIDFESGRIKKEEFAEIMKICSTIEELRRPK
> jednoliniowy opis
wszystkie linie tekstu nie powinny być dłuższe niż 80 znaków
Wykład 4, 2008 11
Wykład Bioinformatyka
NBRF/PIR (National Biomedical Research
Foundation/Protein Information Resource
http://www-nbrf.georgetown.edu/pirwww/dbinfo/
>P1;gi|89213215|gb|ABD64049_1|
gi|89213215|gb|ABD64049_1| 757 bases
MDVNPTLLFL KVPVQNAIST TFPYTGDPPY SHGTGTGYTM DTVNRTHQYS
EKGKWTTNTE TGAPQLNPID GPLPEDNEPS GYAQTDCVLE AMAFLEESHP
GIFENSCLET MEIVQQTRVD KLTQGRQTYD WTLNRNQPAA TALANTIEIF
RSNGLTANES GRLIDFLKDV MESMDKEEME ITTHFQRKRR VRDNMTKKMV
TQRTIGKKKQ RLNKKSYLIR ALTLNTMTKD AERGKLKRRA IATPGMQIRG
READSEQ konwersja formatów
http://www.ebi.ac.uk/cgi-bin/readseq.cgi
Wykład 4, 2008 12
Wykład Bioinformatyka
znane formaty sekwencji
ID Name Read Write Int'leaf Features Sequence Content-type Suffix
1 GenBank|gb yes yes -- yes yes biosequence/genbank .gb
2 EMBL|em yes yes -- yes yes biosequence/embl .embl
3 Pearson|Fasta|fa yes yes -- -- yes biosequence/fasta .fasta
4 GCG yes yes -- -- yes biosequence/gcg .gcg
5 MSF yes yes yes -- yes biosequence/msf .msf
6 Clustal yes yes yes -- yes biosequence/clustal .aln
7 NBRF yes yes -- -- yes biosequence/nbrf .nbrf
8 PIR|CODATA yes yes -- -- yes biosequence/codata .pir
9 ACEDB yes yes -- -- yes biosequence/acedb .ace
10 Phylip3.2 yes yes yes -- yes biosequence/phylip2 .phylip2
11 Phylip|Phylip4 yes yes yes -- yes biosequence/phylip .phylip
12 Plain|Raw yes yes -- -- yes biosequence/plain .seq
13 PAUP|NEXUS yes yes yes -- yes biosequence/nexus .nexus
14 XML yes yes -- yes yes biosequence/xml .xml
15 FlatFeat|FFF yes yes -- yes -- biosequence/fff .fff
16 GFF yes yes -- yes -- biosequence/gff .gff
17 BLAST yes -- yes -- yes biosequence/blast .blast
18 Pretty -- yes yes -- yes biosequence/pretty .pretty
19 SCF yes -- -- -- yes biosequence/scf .scf
20 DNAStrider yes yes -- -- yes biosequence/strider .strider
21 IG|Stanford yes yes -- -- yes biosequence/ig .ig
22 Fitch -- -- -- -- yes biosequence/fitch .fitch
23 ASN.1 -- -- -- -- yes biosequence/asn1 .asn
Anatomia danych SwissProt/TrEMBL
http://www.expasy.ch/
Wykład 4, 2008 13
Wykład Bioinformatyka
Wykład 4, 2008 14
Wykład Bioinformatyka
MeCP2
NCBI
" http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?d
b=protein&val=1708973
EMBL-EBI
" http://www.ebi.ac.uk/
PIR
" http://pir.georgetown.edu/cgi-bin/textsearch.pl
ReadSeq
" http://www.ebi.ac.uk/cgi-bin/readseq.cgi
PDB
Wykład 4, 2008 15
Wykład Bioinformatyka
plik PDB
plik PDB
Wykład 4, 2008 16
Wykład Bioinformatyka
plik PDB
plik PDB
Ser
Lys
Val
Wykład 4, 2008 17
Wykład Bioinformatyka
plik PDB
Identyfikacja sekwencji w BD
" Identyfikacja przez porównanie z innymi
sekwencjami
Zestawienia sekwencji = uliniowienie =
=porównanie = alignment
Wykład 4, 2008 18
Wykład Bioinformatyka
Porównywanie sekwencji
" Pierwsze pytanie biologa molekularnego,
kiedy odkryje nowÄ… sekwencjÄ™:
Czy w bazie sekwencji są już sekwencje podobne
do mojej?
Lð sekwencje sÄ… identyczne nic nowego& .
Jð sekwencja jest podobna (ma krewnych ) nowy czÅ‚onek
znanej rodziny
Jð sekwencja ma kilka podobnych regionów, motywów lub
domen można zaproponować funkję
Lð Nie ma znaczÄ…cego podobieÅ„stwa dużo pracy& ..
Porównywanie sekwencji
" Celem porównania białek jest między
innymi przypisanie informacji znanej dla
jednej czÄ…steczki drugiej czÄ…steczce
Wykład 4, 2008 19
Wykład Bioinformatyka
Pokrycie sekwencji
" dopasowanie globalne dopasowanie
wzdłuż całej sekwencji (zastosowanie: do białek
składających się z pojedynczej domeny lub
homologicznych słabo zróżnicowanych)
" dopasowanie lokalne uwzględnia
domenową naturę białek, szuka
subsekwencji (zastosowanie: do białek
wielodomenowych, mRNA z sekwencjÄ… genomowÄ…)
39
BLAST
Wykład 4, 2008 20
Wykład Bioinformatyka
Wykład 4, 2008 21
Wykład Bioinformatyka
CDN & ..
& ..na ćwiczeniach
Wykład 4, 2008 22
Wyszukiwarka
Podobne podstrony:
bioinf3Bioinformatics 2011 Zhang 2083 8bioinfoI wyklad03bioinf4Bioinformatics 2012 Vlachakis bioinformatics bts637(3)elementy bioinformatyki wyklad4Bioinformatyka wykładyBioinformatics 2011 Bakan 1575 7(1)Bioinformatyka skrypt3bioinf5bioinformatyczneBD lab1Bioinformatykabioinf2 sylabusybioinfoI wyklad04bioinf1bioinf2bioinformatyczneBD lab2więcej podobnych podstron