Bioinformatyka
Wykład 2 (14.X.2008)
I r. studiów magisterskich, biologia (SGGW)
Krzysztof Pawłowski
…tydzień
temu…
Co to jest bioinformatyka
Sekwencjonowanie DNA
Sekwencjonowanie genomów – „historia”
Wykład 2 –
spis treści
Metagenomika
„Gen” ???
Biologiczne bazy danych – historia
Biologiczne bazy danych
– „najważniejsze”
Sekwencyjne bazy danych
– formaty plików
Rozwój technik sekwencjonowania
Metagenomika
(„community
genomics”)
Global
Ocean Sampling
22434045 sekwencji białkowych
PLoS
Biology, 2007
Human
Microbiome
Project
Science, 2006
Human
Microbiome
Project
PNAS, 2008
Gene
definitions…
1860s–1900s: Gene as a discrete unit of heredity
1910s: Gene as a distinct locus
1940s: Gene as a blueprint for a protein
1950s: Gene as a physical molecule
1960s: Gene as transcribed code
1970s–1980s: Gene as open reading frame (ORF)
sequence pattern
1990s–2000s: Annotated genomic entity, enumerated in
the databanks
What
is
a gene, post-ENCODE?
Gerstein
et al., Genome
Res. 2007 17: 669-681
1. A gene is a genomic sequence (DNA or RNA) directly encoding
functional
product
molecules, either
RNA or
protein.
2. In the case that there are several functional products sharing
overlapping
regions, one takes
the
union
of
all
overlapping
genomic
sequences
coding
for them.
3. This union must be coherent—i.e., done separately for final
protein and
RNA products—but
does
not require
that
all
products
necessarily
share
a common
subsequence.
The
gene
is
a union
of
genomic
sequences
encoding
a coherent
set of
potentially
overlapping
functional
products.
Model Organizacji danych
Poziom badań
Zasoby
N=1078...
1951
Sanger
i Tuppy
–
rozwój technik sekwencjonowania białek
1965-78
Margaret
Dayhoff
i współpr. –
pierwsza baza danych o sekwencjach białek
Atlas of Protein Sequence and Structure
; pogrupowanie białek w rodziny i
nadrodziny
w oparciu o stopień
podobieństwa; stworzenie macierzy (tablic)
PAM zawierających prawdopodobieństwa zmian jednego aminokwasu na
inny
Pierwsze bazy bia
Pierwsze bazy bia
ł
ł
kowe
kowe
1984
powstanie bazy danych PIR (Protein Information
Resource)
1979
Walter Goad
i współpr. z LANL –
stworzenie prototypu GenBank-u, bazy
danych sekwencji nukleotydowych
1982
upublicznienie danych w GenBank-u
Pierwsze bazy DNA
Pierwsze bazy DNA
1980
powstanie obecnej bazy danych EMBL (European
Molecular
Biology
Laboratory) w Heidelbergu
1984
powstanie bazy danych DDBJ (DNA DataBank
of
Japan) w Mishima
1977
Maxam
i Gilbert oraz Sanger
i współpr. –
rozwój technik sekwencjonowania
kwasów nukleinowych; oprogramowanie (Staden)
Integracja baz
Integracja baz
EMBL
EBI
Hinxton
UK
PIR
GU
USA
SwissProt
SIB
Szwajcaria
1987
International
International
Nucleotide
Nucleotide
Sequence
Sequence
Database
Database
Collaboration
Collaboration
2002
UniProtR
–
International
Protein
Sequence
Database
GenBank
NCBI
Bethesda
USA
DDBJ
Mishima
Japonia
TrEMBL
EBI
UK
Dalszy rozw
Dalszy rozw
ó
ó
j baz
j baz
1986
Powstanie białkowej bazy danych SWISS-PROT; Szwajcaria
1993
Cherry i Cartinhour
–
pierwsza baza genomowa: ACEDB (a Caenorhabditis
elegans
database)
1992
Założenie TIGR (The
Institute for Genomic
Research); Rockville; Maryland
1991
Adams i współpr. -
powstawanie bibliotek i baz cDNA
i ESTs (expressed
sequence
tags) –
duże znaczenie dla badania genomów, określania
ekspresji genów w różnych warunkach i tkankach
1988
Utworzenie NCBI (National
Center for Biotechnology
Information)
przy
NIH/NLM, USA
Rozw
Rozw
ó
ó
j metod do analiz sekwencji
j metod do analiz sekwencji
Powstanie i rozwój programów do analizy sekwencji:
GCG (Genetics
Computer
Group) -
od
lat 1980-tych
Powstanie i rozwój programów do uzyskiwania danych z baz:
ENTREZ (NCBI) -
1992
Algorytm do porównywania i sekwencji białkowych:
Needleman
i Wunsch
-
1970
Szybkie przeszukiwanie sekwencyjne baz danych:
FASTA –
1985
BLAST -
1990
Zasoby pierwotne i wtórne
Pierwotne bazy danych
GenBank/EMBL
/DDBJ
dbEST dbSTS dbSNP Trace
Wtórne bazy danych
Assembly Archive
CDD
EntrezGene
Genome Projects
HomoloGene
Map Viewer
RefSeq, SwissProt
UniSTS
Baza pierwotna
Baza wtórna
August 30, 2008: RefSeq
Release
31
Organisms:
5.513
Proteins:
5.859.648
Genomic:
1.709.801
RNA:
1.576.253
Proteins:
5,859,648
Organisms: 5,513
Entrez
Wsp
Wsp
ó
ó
ł
ł
praca mi
praca mi
ę
ę
dzy bazami danych
dzy bazami danych
EBI
GenBank
GenBank
DDBJ
DDBJ
EMBL
EMBL
EMBL
EMBL
NIG
NIG
CIB
NCBI
•
Submissions
•
Updates
SRS
getentry
•
Submissions
•
Updates
•
Submissions
•
Updates
NIH
NIH
NLM
NLM
Sequence Retrieval System
BIOINFORMATYKA
BIOINFORMATYKA
-
-
rozw
rozw
ó
ó
j
j
BIOINFORMATYKA
BIOINFORMATYKA
-
-
rozw
rozw
ó
ó
j
j
Bia
Bia
ł
ł
kowe bazy danych
kowe bazy danych
SWISS-PROT
,
Szwajcaria
RefSeq
Protein
(NCBI), USA
UniProt
= SwissProt + PIR + TrEMBL
Bia
Bia
ł
ł
kowe bazy danych
kowe bazy danych
SWISS-PROT
,
Szwajcaria
RefSeq
Protein
(NCBI), USA
UniProt
= SwissProt + PIR + TrEMBL
Bia
Bia
ł
ł
kowe bazy danych
kowe bazy danych
PDB
-
The
Protein Data Bank, USA
-
struktury
trójwymiarowe
kwasów nukleinowych i białek
Genomowe
Genomowe
bazy danych
bazy danych
TIGR -
The
Institute for Genomic
Research, USA
Genome
Browser
at
the
University
of
California
Santa Cruz (UCSC)
NCBI Genomic
Resources
,
USA
Ensembl Genome
Browser
(EBI & Sanger
Institute)
NCBI
NCBI
–
–
Home
Home
Page
Page
Problemy w bazach danych
Problemy w bazach danych
zanieczyszczenie sekwencjami wektorów wykorzystywanymi do
klonowania, bakterii, rRNA, mtDNA
i innymi przypadkowymi sekwencjami
poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100
(dla raz przeczytanych sekwencji w bazach EST, HTG)
poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu
(frame-shift
error) -
5-10% sekwencji; błędnie przeczytane na białko
sekwencje genów podzielonych z powodu błędnego określenia eksonów
(10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji
intronów
występowanie w bazach sekwencji identycznych jako różnych rekordów –
> tworzenie baz
non-redundant
Problemy w bazach danych
Problemy w bazach danych
przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej
sekwencji wykazującej homologię
do pierwszej sekwencji
sekwencja
A
funkcja
1
sekwencja
B
Funkcja 1
błędne adnotacje z ”trzeciej i czwartej ręki”
sekwencja
B
funkcja
1
sekwencja
C
Funkcja
1
sekwencja
C
funkcja
1
sekwencja
A
BRAK HOMOLOGII
funkcja
1
UniProt, GenBank, RefSeq
GenBank
i RefSeq