background image

Bioinformatyka 

Wykład 2 (14.X.2008)

 

I r. studiów magisterskich, biologia (SGGW)

Krzysztof Pawłowski

background image

…tydzień

 

temu…

„

Co to jest bioinformatyka

„

Sekwencjonowanie DNA

„

Sekwencjonowanie genomów – „historia”

background image

Wykład 2 –

 

spis treści

„

Metagenomika

„

„Gen” ???

„

Biologiczne bazy danych – historia

„

Biologiczne bazy danych 

– „najważniejsze”

„

Sekwencyjne bazy danych 

– formaty plików

background image

Rozwój technik sekwencjonowania

background image

Metagenomika

 

(„community

 

genomics”)

background image

Global

 

Ocean Sampling

22434045 sekwencji białkowych

PLoS

 

Biology, 2007

background image

Human

 

Microbiome

 

Project

Science, 2006

background image

Human

 

Microbiome

 

Project

PNAS, 2008

background image
background image

Gene

 

definitions…

„

1860s–1900s: Gene as a discrete unit of heredity

„

1910s: Gene as a distinct locus

„

1940s: Gene as a blueprint for a protein

„

1950s: Gene as a physical molecule

„

1960s: Gene as transcribed code

„

1970s–1980s: Gene as open reading frame (ORF) 

sequence pattern

„

1990s–2000s: Annotated genomic entity, enumerated in

the databanks

background image
background image

What

 

is

 

a gene, post-ENCODE? 

Gerstein

 

et al., Genome

 

Res. 2007 17: 669-681

background image

„

1. A gene is a genomic sequence (DNA or RNA) directly encoding

functional

 

product

 

molecules, either

 

RNA or

 

protein.

„

2. In the case that there are several functional products sharing

overlapping

 

regions, one takes

 

the

 

union

 

of

 

all

 

overlapping

genomic

 

sequences

 

coding

 

for them.

„

3. This union must be coherent—i.e., done separately for final

protein and

 

RNA products—but

 

does

 

not require

 

that

 

all

 

products

necessarily

 

share

 

a common

 

subsequence.

The

 

gene

 

is

 

a union

 

of

 

genomic

 

sequences

 

encoding

 

a coherent

 

set of

 

potentially

 

overlapping

 

functional

 

products.

background image

Model Organizacji danych

Poziom badań

Zasoby

background image

N=1078...

background image

1951

Sanger

 

i Tuppy

 

 

rozwój technik sekwencjonowania białek

1965-78 

Margaret

 

Dayhoff

 

i współpr. –

 

pierwsza baza danych o sekwencjach białek 

Atlas of Protein Sequence and Structure

; pogrupowanie białek w rodziny i 

nadrodziny

 

w oparciu o stopień

 

podobieństwa; stworzenie macierzy (tablic) 

PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na 
inny

Pierwsze bazy bia

Pierwsze bazy bia

ł

ł

kowe

kowe

1984

powstanie bazy danych PIR (Protein Information

 

Resource)

background image

1979

Walter Goad

 

i współpr. z LANL –

 

stworzenie prototypu GenBank-u, bazy 

danych sekwencji nukleotydowych

1982

upublicznienie danych w GenBank-u

Pierwsze bazy DNA

Pierwsze bazy DNA

1980

powstanie obecnej bazy danych EMBL (European

 

Molecular

 

Biology

 

Laboratory) w Heidelbergu

1984

powstanie bazy danych DDBJ (DNA DataBank

 

of

 

Japan) w Mishima

1977

Maxam

 

i Gilbert oraz Sanger

 

i współpr. –

 

rozwój technik sekwencjonowania 

kwasów nukleinowych; oprogramowanie (Staden)

background image

Integracja baz

Integracja baz

EMBL

EBI

Hinxton

UK

PIR

 

GU

USA

SwissProt

 

SIB

Szwajcaria

1987

International

International

 

Nucleotide

Nucleotide

 

Sequence

Sequence

 

Database

Database

 

Collaboration

Collaboration

2002

UniProtR

 

 

International

 

Protein 

Sequence

 

Database

GenBank

NCBI

Bethesda

USA

DDBJ

Mishima

Japonia

TrEMBL

EBI 

UK

background image

Dalszy rozw

Dalszy rozw

ó

ó

j baz

j baz

1986

Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria

1993

Cherry i Cartinhour

 

 

pierwsza baza genomowa: ACEDB (a Caenorhabditis 

elegans 

database)

1992

Założenie TIGR (The

 

Institute for Genomic

 

Research); Rockville; Maryland

1991

Adams i współpr. -

 

powstawanie bibliotek i baz cDNA

 

i ESTs (expressed

 

sequence

 

tags) –

 

duże znaczenie dla badania genomów, określania 

ekspresji genów w różnych warunkach i tkankach

1988

Utworzenie NCBI (National

 

Center for Biotechnology

 

Information)

 

przy

 

NIH/NLM, USA

background image

Rozw

Rozw

ó

ó

j metod do analiz sekwencji

j metod do analiz sekwencji

Powstanie i rozwój programów do analizy sekwencji:
GCG (Genetics

 

Computer

 

Group)  -

 

od

 

lat 1980-tych

Powstanie i rozwój programów do uzyskiwania danych z baz:

ENTREZ (NCBI) -

 

1992

Algorytm do porównywania i sekwencji białkowych:
Needleman

 

i Wunsch

 

-

 

1970

Szybkie przeszukiwanie sekwencyjne baz danych:
FASTA –

 

1985

BLAST -

 

1990

background image

Zasoby pierwotne i wtórne

„

Pierwotne bazy danych

„

GenBank/EMBL

/DDBJ

„

dbEST dbSTS dbSNP Trace

„

Wtórne bazy danych

„

Assembly Archive

„

CDD 

„

EntrezGene

„

Genome Projects

„

HomoloGene

„

Map Viewer

„

RefSeq, SwissProt

„

UniSTS

background image

Baza pierwotna

Baza wtórna

background image

August 30, 2008: RefSeq

 

Release

 

31

Organisms:

 

5.513

Proteins:

 

5.859.648 

Genomic:   

1.709.801

RNA:

 

1.576.253

Proteins:

5,859,648 

Organisms: 5,513 

background image

Entrez

Wsp

Wsp

ó

ó

ł

ł

praca mi

praca mi

ę

ę

dzy bazami danych

dzy bazami danych

EBI

GenBank

GenBank

DDBJ

DDBJ

EMBL

EMBL

EMBL

EMBL

NIG

NIG

CIB

NCBI

Submissions

Updates

SRS

getentry

Submissions

Updates

Submissions

Updates

NIH

NIH

NLM

NLM

Sequence Retrieval System

background image
background image

BIOINFORMATYKA 

BIOINFORMATYKA 

-

rozw

rozw

ó

ó

j

j

background image

BIOINFORMATYKA 

BIOINFORMATYKA 

-

rozw

rozw

ó

ó

j

j

background image

Bia

Bia

ł

ł

kowe bazy danych

kowe bazy danych

SWISS-PROT

Szwajcaria

RefSeq

 

Protein 

(NCBI), USA

UniProt

 

= SwissProt + PIR + TrEMBL

background image

Bia

Bia

ł

ł

kowe bazy danych

kowe bazy danych

SWISS-PROT

Szwajcaria

RefSeq

 

Protein 

(NCBI), USA

UniProt

 

= SwissProt + PIR + TrEMBL

background image

Bia

Bia

ł

ł

kowe bazy danych

kowe bazy danych

PDB

 

-

 

The

 

Protein Data Bank, USA

 

-

 

struktury

 

trójwymiarowe

 

kwasów nukleinowych i białek

background image

Genomowe

Genomowe

 

bazy danych

bazy danych

TIGR -

 

The

 

Institute for Genomic

 

Research, USA

Genome

 

Browser

 

at

 

the

 

University

 

of

 

California

 

Santa Cruz (UCSC)

NCBI Genomic

 

Resources

USA

Ensembl Genome

 

Browser

 

(EBI & Sanger

 

Institute)

background image

NCBI 

NCBI 

 

Home

Home

 

Page

Page

background image
background image

Problemy w bazach danych

Problemy w bazach danych

zanieczyszczenie sekwencjami wektorów wykorzystywanymi do 
klonowania, bakterii, rRNA, mtDNA

 

i innymi przypadkowymi sekwencjami

poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100 
(dla raz przeczytanych sekwencji w bazach EST, HTG)

poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu 
(frame-shift

 

error) -

 

5-10% sekwencji; błędnie przeczytane na białko 

sekwencje genów podzielonych z powodu błędnego określenia eksonów

 

(10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji 
intronów
występowanie w bazach sekwencji identycznych jako różnych rekordów –

 

> tworzenie baz 

non-redundant

background image

Problemy w bazach danych

Problemy w bazach danych

przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej 
sekwencji wykazującej homologię

 

do pierwszej sekwencji

sekwencja

 

A

funkcja

 

1

sekwencja

 

B

Funkcja 1

błędne adnotacje z ”trzeciej i czwartej ręki”

sekwencja

 

B

funkcja

 

1

sekwencja

 

C

Funkcja

 

1

sekwencja

 

C

funkcja

 

1

sekwencja

 

A

BRAK HOMOLOGII

funkcja

 

1

background image

UniProt, GenBank, RefSeq

background image

GenBank

 

i RefSeq


Document Outline