bioinformatyka w2 2008 web

background image

Bioinformatyka

Wykład 2 (14.X.2008)

I r. studiów magisterskich, biologia (SGGW)

Krzysztof Pawłowski

background image

…tydzień

temu…

„

Co to jest bioinformatyka

„

Sekwencjonowanie DNA

„

Sekwencjonowanie genomów – „historia”

background image

Wykład 2 –

spis treści

„

Metagenomika

„

„Gen” ???

„

Biologiczne bazy danych – historia

„

Biologiczne bazy danych

– „najważniejsze”

„

Sekwencyjne bazy danych

– formaty plików

background image

Rozwój technik sekwencjonowania

background image

Metagenomika

(„community

genomics”)

background image

Global

Ocean Sampling

22434045 sekwencji białkowych

PLoS

Biology, 2007

background image

Human

Microbiome

Project

Science, 2006

background image

Human

Microbiome

Project

PNAS, 2008

background image
background image

Gene

definitions…

„

1860s–1900s: Gene as a discrete unit of heredity

„

1910s: Gene as a distinct locus

„

1940s: Gene as a blueprint for a protein

„

1950s: Gene as a physical molecule

„

1960s: Gene as transcribed code

„

1970s–1980s: Gene as open reading frame (ORF)

sequence pattern

„

1990s–2000s: Annotated genomic entity, enumerated in

the databanks

background image
background image

What

is

a gene, post-ENCODE?

Gerstein

et al., Genome

Res. 2007 17: 669-681

background image

„

1. A gene is a genomic sequence (DNA or RNA) directly encoding

functional

product

molecules, either

RNA or

protein.

„

2. In the case that there are several functional products sharing

overlapping

regions, one takes

the

union

of

all

overlapping

genomic

sequences

coding

for them.

„

3. This union must be coherent—i.e., done separately for final

protein and

RNA products—but

does

not require

that

all

products

necessarily

share

a common

subsequence.

The

gene

is

a union

of

genomic

sequences

encoding

a coherent

set of

potentially

overlapping

functional

products.

background image

Model Organizacji danych

Poziom badań

Zasoby

background image

N=1078...

background image

1951

Sanger

i Tuppy

rozwój technik sekwencjonowania białek

1965-78

Margaret

Dayhoff

i współpr. –

pierwsza baza danych o sekwencjach białek

Atlas of Protein Sequence and Structure

; pogrupowanie białek w rodziny i

nadrodziny

w oparciu o stopień

podobieństwa; stworzenie macierzy (tablic)

PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na
inny

Pierwsze bazy bia

Pierwsze bazy bia

ł

ł

kowe

kowe

1984

powstanie bazy danych PIR (Protein Information

Resource)

background image

1979

Walter Goad

i współpr. z LANL –

stworzenie prototypu GenBank-u, bazy

danych sekwencji nukleotydowych

1982

upublicznienie danych w GenBank-u

Pierwsze bazy DNA

Pierwsze bazy DNA

1980

powstanie obecnej bazy danych EMBL (European

Molecular

Biology

Laboratory) w Heidelbergu

1984

powstanie bazy danych DDBJ (DNA DataBank

of

Japan) w Mishima

1977

Maxam

i Gilbert oraz Sanger

i współpr. –

rozwój technik sekwencjonowania

kwasów nukleinowych; oprogramowanie (Staden)

background image

Integracja baz

Integracja baz

EMBL

EBI

Hinxton

UK

PIR

GU

USA

SwissProt

SIB

Szwajcaria

1987

International

International

Nucleotide

Nucleotide

Sequence

Sequence

Database

Database

Collaboration

Collaboration

2002

UniProtR

International

Protein

Sequence

Database

GenBank

NCBI

Bethesda

USA

DDBJ

Mishima

Japonia

TrEMBL

EBI

UK

background image

Dalszy rozw

Dalszy rozw

ó

ó

j baz

j baz

1986

Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria

1993

Cherry i Cartinhour

pierwsza baza genomowa: ACEDB (a Caenorhabditis

elegans

database)

1992

Założenie TIGR (The

Institute for Genomic

Research); Rockville; Maryland

1991

Adams i współpr. -

powstawanie bibliotek i baz cDNA

i ESTs (expressed

sequence

tags) –

duże znaczenie dla badania genomów, określania

ekspresji genów w różnych warunkach i tkankach

1988

Utworzenie NCBI (National

Center for Biotechnology

Information)

przy

NIH/NLM, USA

background image

Rozw

Rozw

ó

ó

j metod do analiz sekwencji

j metod do analiz sekwencji

Powstanie i rozwój programów do analizy sekwencji:
GCG (Genetics

Computer

Group) -

od

lat 1980-tych

Powstanie i rozwój programów do uzyskiwania danych z baz:

ENTREZ (NCBI) -

1992

Algorytm do porównywania i sekwencji białkowych:
Needleman

i Wunsch

-

1970

Szybkie przeszukiwanie sekwencyjne baz danych:
FASTA –

1985

BLAST -

1990

background image

Zasoby pierwotne i wtórne

„

Pierwotne bazy danych

„

GenBank/EMBL

/DDBJ

„

dbEST dbSTS dbSNP Trace

„

Wtórne bazy danych

„

Assembly Archive

„

CDD

„

EntrezGene

„

Genome Projects

„

HomoloGene

„

Map Viewer

„

RefSeq, SwissProt

„

UniSTS

background image

Baza pierwotna

Baza wtórna

background image

August 30, 2008: RefSeq

Release

31

Organisms:

5.513

Proteins:

5.859.648

Genomic:

1.709.801

RNA:

1.576.253

Proteins:

5,859,648

Organisms: 5,513

background image

Entrez

Wsp

Wsp

ó

ó

ł

ł

praca mi

praca mi

ę

ę

dzy bazami danych

dzy bazami danych

EBI

GenBank

GenBank

DDBJ

DDBJ

EMBL

EMBL

EMBL

EMBL

NIG

NIG

CIB

NCBI

Submissions

Updates

SRS

getentry

Submissions

Updates

Submissions

Updates

NIH

NIH

NLM

NLM

Sequence Retrieval System

background image
background image

BIOINFORMATYKA

BIOINFORMATYKA

-

-

rozw

rozw

ó

ó

j

j

background image

BIOINFORMATYKA

BIOINFORMATYKA

-

-

rozw

rozw

ó

ó

j

j

background image

Bia

Bia

ł

ł

kowe bazy danych

kowe bazy danych

SWISS-PROT

,

Szwajcaria

RefSeq

Protein

(NCBI), USA

UniProt

= SwissProt + PIR + TrEMBL

background image

Bia

Bia

ł

ł

kowe bazy danych

kowe bazy danych

SWISS-PROT

,

Szwajcaria

RefSeq

Protein

(NCBI), USA

UniProt

= SwissProt + PIR + TrEMBL

background image

Bia

Bia

ł

ł

kowe bazy danych

kowe bazy danych

PDB

-

The

Protein Data Bank, USA

-

struktury

trójwymiarowe

kwasów nukleinowych i białek

background image

Genomowe

Genomowe

bazy danych

bazy danych

TIGR -

The

Institute for Genomic

Research, USA

Genome

Browser

at

the

University

of

California

Santa Cruz (UCSC)

NCBI Genomic

Resources

,

USA

Ensembl Genome

Browser

(EBI & Sanger

Institute)

background image

NCBI

NCBI

Home

Home

Page

Page

background image
background image

Problemy w bazach danych

Problemy w bazach danych

zanieczyszczenie sekwencjami wektorów wykorzystywanymi do
klonowania, bakterii, rRNA, mtDNA

i innymi przypadkowymi sekwencjami

poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100
(dla raz przeczytanych sekwencji w bazach EST, HTG)

poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu
(frame-shift

error) -

5-10% sekwencji; błędnie przeczytane na białko

sekwencje genów podzielonych z powodu błędnego określenia eksonów

(10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji
intronów
występowanie w bazach sekwencji identycznych jako różnych rekordów –

> tworzenie baz

non-redundant

background image

Problemy w bazach danych

Problemy w bazach danych

przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej
sekwencji wykazującej homologię

do pierwszej sekwencji

sekwencja

A

funkcja

1

sekwencja

B

Funkcja 1

błędne adnotacje z ”trzeciej i czwartej ręki”

sekwencja

B

funkcja

1

sekwencja

C

Funkcja

1

sekwencja

C

funkcja

1

sekwencja

A

BRAK HOMOLOGII

funkcja

1

background image

UniProt, GenBank, RefSeq

background image

GenBank

i RefSeq


Document Outline


Wyszukiwarka

Podobne podstrony:
bioinformatyka w13 2008 9 web
bioinformatyka w9 2008 web
bioinformatyka w6 2008 web
bioinformatyka w11 2008 web
bioinformatyka w4 2008 web
bioinformatyka w10 2008 web
bioinformatyka w12 2008 9 web
bioinformatyka w3 2008 web
bioinformatyka w7 2008 web
bioinformatyka w1 2008 web
bioinformatyka w8 2008 web
bioinformatyka w5 2008 web
bioinformatyka w13 2008 9 web
bioinformatyka w9 2008 web

więcej podobnych podstron