Model Organizacji danych

Gene

definitions…

1860s–1900s: Gene as a discrete unit of heredity

1910s: Gene as a distinct locus

1940s: Gene as a blueprint for a protein

1950s: Gene as a physical molecule

1960s: Gene as transcribed code

1970s–1980s: Gene as open reading frame (ORF)

sequence pattern

1990s–2000s: Annotated genomic entity, enumerated in

the databanks

1. A gene is a genomic sequence (DNA or RNA) directly encoding

functional

product

molecules, either

RNA or

protein.

2. In the case that there are several functional products sharing

overlapping

regions, one takes

the

union

all

overlapping

genomic

sequences

coding

for them.

3. This union must be coherent—i.e., done separately for final

protein and

RNA products—but

does

not require

that

all

products

necessarily

a common

subsequence.

The

gene

a union

genomic

sequences

encoding

a coherent

set of

potentially

overlapping

functional

products.

1951

Sanger

i Tuppy

–

rozwój technik sekwencjonowania białek

1965-78

Margaret

Dayhoff

i współpr. –

pierwsza baza danych o sekwencjach białek

Atlas of Protein Sequence and Structure

; pogrupowanie białek w rodziny i

nadrodziny

w oparciu o stopień

podobieństwa; stworzenie macierzy (tablic)

PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na
inny

Pierwsze bazy bia

kowe

1984

powstanie bazy danych PIR (Protein Information

Resource)

1979

Walter Goad

i współpr. z LANL –

stworzenie prototypu GenBank-u, bazy

danych sekwencji nukleotydowych

1982

upublicznienie danych w GenBank-u

Pierwsze bazy DNA

1980

powstanie obecnej bazy danych EMBL (European

Molecular

Biology

Laboratory) w Heidelbergu

1984

powstanie bazy danych DDBJ (DNA DataBank

Japan) w Mishima

1977

Maxam

i Gilbert oraz Sanger

i współpr. –

rozwój technik sekwencjonowania

kwasów nukleinowych; oprogramowanie (Staden)

Integracja baz

EMBL

EBI

Hinxton

PIR

USA

SwissProt

SIB

Szwajcaria

1987

International

Nucleotide

Sequence

Database

Collaboration

2002

UniProtR

–

International

Protein

Sequence

Database

GenBank

NCBI

Bethesda

USA

DDBJ

Mishima

Japonia

TrEMBL

EBI

Dalszy rozw

j baz

1986

Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria

1993

Cherry i Cartinhour

–

pierwsza baza genomowa: ACEDB (a Caenorhabditis

elegans

database)

1992

Założenie TIGR (The

Institute for Genomic

Research); Rockville; Maryland

1991

Adams i współpr. -

powstawanie bibliotek i baz cDNA

i ESTs (expressed

sequence

tags) –

duże znaczenie dla badania genomów, określania

ekspresji genów w różnych warunkach i tkankach

1988

Utworzenie NCBI (National

Center for Biotechnology

Information)

przy

NIH/NLM, USA

Rozw

j metod do analiz sekwencji

Powstanie i rozwój programów do analizy sekwencji:
GCG (Genetics

Computer

Group) -

lat 1980-tych

Powstanie i rozwój programów do uzyskiwania danych z baz:

ENTREZ (NCBI) -

1992

Algorytm do porównywania i sekwencji białkowych:
Needleman

i Wunsch

1970

Szybkie przeszukiwanie sekwencyjne baz danych:
FASTA –

1985

BLAST -

1990

Zasoby pierwotne i wtórne

Pierwotne bazy danych

GenBank/EMBL

/DDBJ

dbEST dbSTS dbSNP Trace

Wtórne bazy danych

Assembly Archive

CDD

EntrezGene

Genome Projects

HomoloGene

Map Viewer

RefSeq, SwissProt

UniSTS

August 30, 2008: RefSeq

Release

Organisms:

5.513

Proteins:

5.859.648

Genomic:

1.709.801

RNA:

1.576.253

Proteins:

5,859,648

Organisms: 5,513

Entrez

Wsp

praca mi

dzy bazami danych

EBI

GenBank

DDBJ

EMBL

EMBL

NIG

CIB

NCBI

•

Submissions

•

Updates

SRS

getentry

•

Submissions

•

Updates

•

Submissions

•

Updates

NIH

NLM

Sequence Retrieval System

Bia

kowe bazy danych

SWISS-PROT

Szwajcaria

RefSeq

Protein

(NCBI), USA

UniProt

= SwissProt + PIR + TrEMBL

Bia

kowe bazy danych

SWISS-PROT

Szwajcaria

RefSeq

Protein

(NCBI), USA

UniProt

= SwissProt + PIR + TrEMBL

Bia

kowe bazy danych

PDB

The

Protein Data Bank, USA

struktury

trójwymiarowe

kwasów nukleinowych i białek

Genomowe

bazy danych

TIGR -

The

Institute for Genomic

Research, USA

Genome

Browser

the

University

California

Santa Cruz (UCSC)

NCBI Genomic

Resources

USA

Ensembl Genome

Browser

(EBI & Sanger

Institute)

Problemy w bazach danych

zanieczyszczenie sekwencjami wektorów wykorzystywanymi do
klonowania, bakterii, rRNA, mtDNA

i innymi przypadkowymi sekwencjami

poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100
(dla raz przeczytanych sekwencji w bazach EST, HTG)

poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu
(frame-shift

error) -

5-10% sekwencji; błędnie przeczytane na białko

sekwencje genów podzielonych z powodu błędnego określenia eksonów

(10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji
intronów
występowanie w bazach sekwencji identycznych jako różnych rekordów –

> tworzenie baz

non-redundant

Problemy w bazach danych

przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej
sekwencji wykazującej homologię

do pierwszej sekwencji

sekwencja

funkcja

sekwencja

Funkcja 1

błędne adnotacje z ”trzeciej i czwartej ręki”

sekwencja

funkcja

sekwencja

Funkcja

sekwencja

funkcja

sekwencja

BRAK HOMOLOGII

funkcja

Document Outline