Bioinformatyka4

background image

Wykład Bioinformatyka

Wykład 4, 2008

1

Bioinformatyka

Wykład 4.

E. Banachowicz

Zakład Biofizyki Molekularnej

IF UAM

http://www.amu.edu.pl/~ewas

Formaty danych - GenBank

Poco wprowadza się dane do komputerów?
1. żeby je pobrać 
2. żeby coś odkryć

Jeśli baza danych nie pozwala na wyszukanie potrzebnej
informacji, jest by bezużyteczna. (Nawet największa baza!)

background image

Wykład Bioinformatyka

Wykład 4, 2008

2

Formaty danych - GenBank

1. dane muszą mieć jednoznaczną strukturę

i zdefiniowane powiązania

2. dane muszą być stabilne

Model danych w NCBI oparty jest na sekwencji DNA
(stabilność), i daje możliwość śledzenia informacji od literatury
do sekwencji.

Stabilność danych

sekwencja

DNA

literatura

PubMed

sekwencja

białka

struktura

3D

4 podstawowe dane

Full Text

el. Journal

OMIM

Mapy i

genomy

Taksonomia

background image

Wykład Bioinformatyka

Wykład 4, 2008

3

pliki ASCII

• większość programów do analizy sekwencji

nie akceptuje znaków spoza zestawu ASCII

(różna interpretacja, problemy z transferem)

• Poza sekwencją DNA lub białka (raw sequence) –

odpowiedni format

• Kod DNA i białka ujednolicony został przez

NC-IUB (

Nomenclature Committee of the International Union of

Biochemistry and Molecular Biology -

http://www.chem.qmul.ac.uk/iubmb/

Zasady/kwasy nukleinowe

- ujednolicony kod

A

 adenozyna

M  A C (amino)

C

 cytozyna

S  G C (strong)

G

 guanina

W  A T (weak)

T

 tymidyna

B  G T C

U

 urydyna

D  G A T

R  G A (puryna)

H  A C T

Y  T C (pyrymidyna)

V  G C A

K  G T (keto)

N  A G C T (dowolna)
- 

gap of indeterminate length

NC – IUP (1984)

background image

Wykład Bioinformatyka

Wykład 4, 2008

4

Standardowy kod aminokwasów

A Ala alanina

P

Pro prolina

B

Asx kw. asparaginowy/asparagina Q

Gln glutamina

C Cys cysteina

R

Arg arginina

D Asp kw. asparaginowy

S

Ser seryna

E Glu kw. glutaminowy

T

Thr treonina

F Phe fenyloanina

U

selenocysteina

G Gly glicyna

V Val

walina

H His histydyna

W Trp tryptofan

I Ile izoleucyna

Y Tyr tyrozyna

K Lys lizyna

Z

Glx kw.glutaminowy/glutamina

L Leu leucyna

X

Xxx dowolny

M Met metionina

* stop translacji

N Asn asparagina

- gap of indeterminate length

Abstract Syntax Notation Sequence Format ASN.1

ASN.1 (skrót od Abstract Syntax Notation One
abstrakcyjna notacja składniowa numer jeden)

język opisu danych przejęty i rozwijany przez NCBI

background image

Wykład Bioinformatyka

Wykład 4, 2008

5

Integracja danych z wielu różnych źródeł

• np. PubMed

(np. wyszukiwanie według autorów)

Tag

Name

AB

Abstract

AD

Affiliation

AID

Article Identifier

AU

Author

CI

Copyright Information

CIN

Comment In

CN

Corporate Author

CON

Comment On

CRF

Corrected and republished from

CRI

Corrected and republished in

DA

Date Created

DCOM

Date Completed

DEP

Date of Electronic Publication

DP

Publication Date

EDAT

Entrez Date

EFR

Erratum For

EIN

Erratum In

FAU

Full Author Name

FIR

Full Investigator

FPS

Full Personal Name as Subject

GN

General Note

GR

Grant Number

GS

Gene Symbol

IP

Issue

IR

Investigator

IRAD

Investigator Affiliation

IS

ISSN

JID

NLM Unique ID

JT

Full Journal Title

LA

Language

LID

Location ID

MEDLINE Display

LR

Last Revision Date

MH

MeSH Terms

MHDA

MeSH Date

OAB

Other Abstract

OCI

Other Copyright Information

OID

Other ID

ORI

Original Report In

OT

Other Term

OTO

Other Term Owner

OWN

Owner

PG

Pagination

PHST

Publication History Status Date

PL

Place of Publication

PMID

PubMed Unique Identifier

PRIN

Partial Retraction In

PROF

Partial Retraction Of

PS

Personal Name as Subject

PST

Publication Status

PT

Publication Type

PUBM

Publishing Model

RF

Number of References

RIN

Retraction In

RN

EC/RN Number

ROF

Retraction Of

RPF

Republished From

RPI

Republished In

SB

Subset

SFM

Space Flight Mission

SI

Secondary Source Identifier

SO

Source

SPIN

Summary For Patients In

STAT

Status Tag

TA

Journal Title Abbreviation

TI

Title

TT

Transliterated Title

UIN

Update In

UOF

Update Of

VI

Volume

background image

Wykład Bioinformatyka

Wykład 4, 2008

6

streszczenie

brak streszczenia

dostępny w PMC

dostępny pełen teskt

cytowanie

nr stron

autorzy

tytuł

identyfikator

czasopismo

data publikacji

DDBJ/GenBank/EMBL

Podobna struktura i identyfikatory: A12345=A12345

PIR/ Swiss-Prot

Różne identyfikatory: A12345≠A12345

Seq-id klasa obiektów

background image

Wykład Bioinformatyka

Wykład 4, 2008

7

GenBank:

http://www.ncbi.nlm.nih.gov/

nazwa lokusa
(locus)

długość i typ
sekwencji

klasyfikacja
organizmu

data
wprowadzenia

nazwa lokusa
(locus)

długość i typ
sekwencji

klasyfikacja
organizmu

data
wprowadzenia

background image

Wykład Bioinformatyka

Wykład 4, 2008

8

GenBank:

http://www.ncbi.nlm.nih.gov/

opis objektu

ACCESSION

numer dostępu do oryginalnego

źródła
VERSION numer kolejnej wersji
KEYWORDS

słowa kluczowe (cross reference)

SOURCE

organizm, z którego pochodziło DNA

ORGANISM opis organizmu
REFERENCE bibliografia

GenBank:

http://www.ncbi.nlm.nih.gov/

COMMENT np.funkcja biologiczna
FEATURES informacje o sekwencji przez

podanie położenia zasad lub przedziału położeń

sourece, misc_signal, mRNA, CDS,
intron, mutation

ORIGIN

początek sekwencji

//

koniec sekwencji

background image

Wykład Bioinformatyka

Wykład 4, 2008

9

EMBL:

http://www.ebi.ac.uk/embl/index.html/

European Molecular Biology Laboratory

Wygląd strony w 2006

background image

Wykład Bioinformatyka

Wykład 4, 2008

10

EMBL:

http://www.ebi.ac.uk/embl/index.html/

European Molecular Biology Laboratory

ID

numer identyfikacyjny w bazie danych

AC

numer dostępowy do pierwotnej sekwencji

SV

wersja

DT

data wprowadzenia lub modyfikacji

DE

opis

OS,OC

– organizm pochodzenia DNA

RN

(

RP

,

RA

,

RT

,

RL

,…) bibliografia

FH

,

FT

– informacje o sekwencji (FEATUREs)

SQ

,

//

- początek i koniec sekwencji

background image

Wykład Bioinformatyka

Wykład 4, 2008

11

Format sekwencji FASTA

>embl|DQ423612|DQ423612 Influenza A virus (A/Cygnus olor/Astrakhan/Ast05-2-
10/2005(H5N1)) polymerase basic protein 1 (PB1) gene, complete cds. ...
caaaccatttgaatggatgtcaatccgactttacttttcttgaaagtaccagtgcaaaat
gctataagtaccacattcccttatactggagaccctccatacagccatgggacagggaca
ggatacaccatggacacagtcaacagaacacaccaatattcagaaaaggggaagtggaca
acaaacacagagactggagcaccccaactcaacccgattgatggaccactacctgaggat
aatgagcccagtggttatgcacaaacagattgtgtattggaagcaatggctttccttgaa
gaatcccacccagggatctttgaaaactcgtgtcttgaaacgatggaaattgttcaacaa
acaagagtggataaactgacccaaggtcgtcagacctatgactggacattgaatagaaac
caaccggctgcaaccgctttggccaacactatagaaatcttcagatcgaacggtctaaca
gccaatgaatcgggacggctaatagatttcctcaaggatgtgatggaatcaatggataag
gaagaaatggagataacaacacacttccagagaaagagaagagtgagagacaacatgacc
aaaaagatggtcacacaaagaacaatagggaagaaaaagcaaaggctgaacaaaaagagc
tacctgataagagcactgacactgaatacaatgacaaaagatgcagaaagaggcaaattg
aagaggcgagcaattgcaacacccggaatgcaaatcagaggattcgtgtactttgttgaa
acattagcgaggagtatctgtgagaaacttgagcaatctggactcccagttggagggaat
gaaaagaaggctaaattggcaaacgtcgtgaggaagatgatgactaactcacaagatact
gaactctcctttacaattactggagacaatactaaatggaatgagaatcagaatcctagg

> jednoliniowy opis
wszystkie linie tekstu nie powinny być dłuższe niż 80 znaków

>gi|89213215|gb|ABD64049.1| polymerase basic protein 1 [Influenza A virus (A/Cygnus olor/Astrakhan/Ast05-2-
10/2005(H5N1))]
MDVNPTLLFLKVPVQNAISTTFPYTGDPPYSHGTGTGYTMDTVNRTHQYSEKGKWTTNTETGAPQLNPID
GPLPEDNEPSGYAQTDCVLEAMAFLEESHPGIFENSCLETMEIVQQTRVDKLTQGRQTYDWTLNRNQPAA
TALANTIEIFRSNGLTANESGRLIDFLKDVMESMDKEEMEITTHFQRKRRVRDNMTKKMVTQRTIGKKKQ
RLNKKSYLIRALTLNTMTKDAERGKLKRRAIATPGMQIRGFVYFVETLARSICEKLEQSGLPVGGNEKKA
KLANVVRKMMTNSQDTELSFTITGDNTKWNENQNPRMFLAMITYITRNQPEWFRNVLSIAPIMFSNKMAR
LGRGYMFESKSMKLRTQIPAEMLANIDLKYFNELTKKKIEKIRPLLIDGTASLSPGMMMGMFNMLSTVLG
VSILNLGQKRYTKTTYWWDGLQSSDDFALIVNAPNHEGIQAGVDRFYRTCKLVGINMSKKKSYINRTGTF
EFTSFFYRYGFVANFSMELPSFGVSGINESADMSIGVTVIKNNMINNDLGPATAQMALQLFIKDYRYTYR
CHRGDTQIQTRRSFELKKLWEQTRSKAGLLVSDGGPNLYNIRNLHIPEVCLKWELMDEDYQGRLCNPLNP
FVSHKEIESVNNAVVMPAHGPAKGMEYDAVATTHSWIPKRNRSILNTSQRGILEDEQMYQKCCNLFEKFF
PSSSYRRPVGISSMVEAMVSRARIDARIDFESGRIKKEEFAEIMKICSTIEELRRPK

background image

Wykład Bioinformatyka

Wykład 4, 2008

12

NBRF/PIR (National Biomedical Research

Foundation/Protein Information Resource

http://www-nbrf.georgetown.edu/pirwww/dbinfo/

>P1;gi|89213215|gb|ABD64049_1|
gi|89213215|gb|ABD64049_1| 757 bases

MDVNPTLLFL KVPVQNAIST TFPYTGDPPY SHGTGTGYTM DTVNRTHQYS
EKGKWTTNTE TGAPQLNPID GPLPEDNEPS GYAQTDCVLE AMAFLEESHP
GIFENSCLET MEIVQQTRVD KLTQGRQTYD WTLNRNQPAA TALANTIEIF
RSNGLTANES GRLIDFLKDV MESMDKEEME ITTHFQRKRR VRDNMTKKMV
TQRTIGKKKQ RLNKKSYLIR ALTLNTMTKD AERGKLKRRA IATPGMQIRG

READSEQ – konwersja formatów

http://www.ebi.ac.uk/cgi-bin/readseq.cgi

background image

Wykład Bioinformatyka

Wykład 4, 2008

13

ID

Name

Read

Write

Int'leaf

Features

Sequence

Content-type

Suffix

1

GenBank|gb

yes

yes

--

yes

yes

biosequence/genbank

.gb

2

EMBL|em

yes

yes

--

yes

yes

biosequence/embl

.embl

3

Pearson|Fasta|fa

yes

yes

--

--

yes

biosequence/fasta

.fasta

4

GCG

yes

yes

--

--

yes

biosequence/gcg

.gcg

5

MSF

yes

yes

yes

--

yes

biosequence/msf

.msf

6

Clustal

yes

yes

yes

--

yes

biosequence/clustal

.aln

7

NBRF

yes

yes

--

--

yes

biosequence/nbrf

.nbrf

8

PIR|CODATA

yes

yes

--

--

yes

biosequence/codata

.pir

9

ACEDB

yes

yes

--

--

yes

biosequence/acedb

.ace

10

Phylip3.2

yes

yes

yes

--

yes

biosequence/phylip2

.phylip2

11

Phylip|Phylip4

yes

yes

yes

--

yes

biosequence/phylip

.phylip

12

Plain|Raw

yes

yes

--

--

yes

biosequence/plain

.seq

13

PAUP|NEXUS

yes

yes

yes

--

yes

biosequence/nexus

.nexus

14

XML

yes

yes

--

yes

yes

biosequence/xml

.xml

15

FlatFeat|FFF

yes

yes

--

yes

--

biosequence/fff

.fff

16

GFF

yes

yes

--

yes

--

biosequence/gff

.gff

17

BLAST

yes

--

yes

--

yes

biosequence/blast

.blast

18

Pretty

--

yes

yes

--

yes

biosequence/pretty

.pretty

19

SCF

yes

--

--

--

yes

biosequence/scf

.scf

20

DNAStrider

yes

yes

--

--

yes

biosequence/strider

.strider

21

IG|Stanford

yes

yes

--

--

yes

biosequence/ig

.ig

22

Fitch

--

--

--

--

yes

biosequence/fitch

.fitch

23

ASN.1

--

--

--

--

yes

biosequence/asn1

.asn

znane formaty sekwencji

Anatomia danych SwissProt/TrEMBL

http://www.expasy.ch/

background image

Wykład Bioinformatyka

Wykład 4, 2008

14

background image

Wykład Bioinformatyka

Wykład 4, 2008

15

MeCP2

NCBI

http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?d
b=protein&val=1708973

EMBL-EBI

http://www.ebi.ac.uk/

PIR

http://pir.georgetown.edu/cgi-bin/textsearch.pl

ReadSeq

http://www.ebi.ac.uk/cgi-bin/readseq.cgi

PDB

background image

Wykład Bioinformatyka

Wykład 4, 2008

16

plik PDB

plik PDB

background image

Wykład Bioinformatyka

Wykład 4, 2008

17

plik PDB

plik PDB

Ser

Lys

Val

background image

Wykład Bioinformatyka

Wykład 4, 2008

18

plik PDB

Identyfikacja sekwencji w BD

• Identyfikacja przez porównanie z innymi

sekwencjami

Zestawienia sekwencji = uliniowienie =
=porównanie = alignment

background image

Wykład Bioinformatyka

Wykład 4, 2008

19

Porównywanie sekwencji

• Pierwsze pytanie biologa molekularnego,

kiedy odkryje nową sekwencję:

Czy w bazie sekwencji są już sekwencje podobne

do mojej?

sekwencje są identyczne –

nic nowego….

sekwencja jest podobna (ma „krewnych”)

– nowy członek

znanej rodziny

sekwencja ma kilka podobnych regionów, motywów lub

domen

– można zaproponować funkję

Nie ma znaczącego podobieństwa

– dużo pracy…..

Porównywanie sekwencji

• Celem porównania białek jest między

innymi przypisanie informacji znanej dla
jednej cząsteczki drugiej cząsteczce

background image

Wykład Bioinformatyka

Wykład 4, 2008

20

39

Pokrycie sekwencji

dopasowanie globalne – dopasowanie

wzdłuż całej sekwencji

(zastosowanie: do białek

składających się z pojedynczej domeny lub
homologicznych słabo zróżnicowanych)

dopasowanie lokalne – uwzględnia

domenową naturę białek, szuka
subsekwencji (

zastosowanie: do białek

wielodomenowych, mRNA z sekwencją genomową

)

BLAST

background image

Wykład Bioinformatyka

Wykład 4, 2008

21

background image

Wykład Bioinformatyka

Wykład 4, 2008

22

CDN …..

…..na ćwiczeniach


Wyszukiwarka

Podobne podstrony:
Bioinformatyka6
bioinformatyczneBD lab1
sss teoria, Biotech, BIOTECHNOLOGIA, Semestr V, Spec. Bioinf, SSS, Egzamin
bioinformatyka w13 2008 9 web
bioinformatyka w2 2008 web
cw1 Zadania, Biotech, BIOTECHNOLOGIA, Semestr V, Spec. Bioinf, SSS, LAB, Lab 2
bioinformatyka w9 2008 web
elementy bioinformatyki wyklad2
bioinformatyka Bioinf8
bioinformatyka w6 2008 web
bioinformatyka, Bioinf11, 1
Bioinformatyka wykład 1
16 bioinformatryka
bioinfo-pyt odp-1, BIOINFORMATYKA
Bioinformatyka wykład 3
bioinformatyka w11 2008 web
BIOINFORMATYKA, Nauka - różności, Fizyka medyczna, Biofizyka
bioinformatyka, Bioinf9, 1
bioinf3

więcej podobnych podstron