Bioinformatyka
wykłady dla I r. studiów magisterskich, biologia
(SGGW)
2007/2008
Wykład 1, 4.X.2007
Krzysztof Pawłowski
Wykład 4.X.2007
Co to jest bioinformatyka?
Program wykładów
Sekwencjonowanie DNA
Sekwencjonowanie genomów
Rozwiązywanie problemów biologicznych metodami
obliczeniowymi
Solving biological problems by computational means
Some synonyms:
In silico biology
Biocomputing
Theoretical biology
Substantial overlaps:
Computational chemistry / cheminformatics
Systems biology
Structural biology
Theoretical biophysics
„
definicja”
bioinformatyki
/ biologii obliczeniowej
•
Objects: small
molecules, structural motifs and domains, proteins,
transcripts, genes, organelles, cells, tissues, organs, organisms
•
Objects’
attributes: sequences,
3-D structures, expression data, clinical
data, publications,….
Zakres zainteresowań
bioinformatyki
„oficjalne”
definicje NIH
Bioinformatics: approaches for expanding the
use of biological, medical, behavioral or health
data, including those to acquire, store, organize,
archive, analyze, or visualize such data.
Computational Biology: The development and
application of data-analytical and theoretical
methods, mathematical modeling and
computational simulation techniques to the study
of biological, behavioral, and social systems.
„bioinformatyka”
–
nowa dyscyplina?
Publikacje bioinformatyczne (PubMed)
1
10
100
1000
10000
1
9
89
1
9
90
1
9
91
1
9
92
1
9
93
1
9
94
1
9
95
1
9
96
1
9
97
1
9
98
1
9
99
2
0
00
2
0
01
2
0
02
2
0
03
2
0
04
2
0
05
2
0
06
2
0
07
2
0
08
2
0
09
bioinformatics[Text Word]
bioinformatics[MeSH Heading]
…ale pod innymi nazwami rozwijała się
przynajmniej od lat 1960-tych
Bioinformatyka w Google
17 500 000
47 300
241 000
1 160 000 1 140 000 1 730 000
126 000 000
27 700 000
bi
oin
fo
rm
at
ics
bi
oin
fo
rm
at
yk
a
bi
oin
fo
rm
at
ika
bi
oinf
or
m
at
ik
bi
oinf
or
ma
tic
a
bi
oinf
or
m
at
ique
bi
ology
bi
ologi
a
bio
informatyka
BIOINFORMATYKA
BIOINFORMATYKA
-
-
dziedzina interdyscyplinarna
dziedzina interdyscyplinarna
biologia (molekularna)
dane biologiczne
informatyka
narzędzia,metody
i obliczenia komputerowe
=
+
dane dotyczące kwasów
nukleinowych, białek,
lipidów, węglowodanów i
innych makrocząsteczek
nauki i techniki komputerowe,
teoria informacji, matematyka
stosowana, statystyka, teoria
prawdopodobieństwa
bio
informatyka
BIOINFORMATYKA
BIOINFORMATYKA
-
-
dziedzina interdyscyplinarna
dziedzina interdyscyplinarna
biologia (molekularna)
dane biologiczne
informatyka
narzędzia,metody
i obliczenia komputerowe
=
+
dane dotyczące kwasów
nukleinowych, białek,
lipidów, węglowodanów i
innych makrocząsteczek
nauki i techniki komputerowe,
teoria informacji, matematyka
stosowana, statystyka, teoria
prawdopodobieństwa
fizy
ka
i c
he
mi
a
BIOINFORMATYKA
BIOINFORMATYKA
-
-
cele
cele
Organizowanie
i zarządzanie
informacjami
o
makrocząsteczkach
i innych
danych
biologicznych
w formie
skomputeryzowanych
(cyfrowych) zapisów
-
baz
danych
Analiza
tych
danych
przy
pomocy
metod obliczeniowych,
rozwój metod
i algorytmów
DNA
BIOINFORMATYKA
BIOINFORMATYKA
-
-
poziomy analiz
poziomy analiz
mRNA
białka
interakcje
i metabolizm
genom
BIOINFORMATYKA
BIOINFORMATYKA
-
-
poziomy analiz
poziomy analiz
wszystkie
sekwencjie
DNA
zawarte
w organizmie, geny,
sekwencje regulatorowe
genomika
genomika
poziom
badań
przedmiot
badań
dziedzina
badań
poszukiwanie
sekwencji
kodujących, rozpoznawanie
eksonów
i intronów,
organizacja
genomów,
porównanie
sekwencji
tematy
badań
transkryptom
wszystkie
sekwencie
RNA
zawarte
w organizmie
transkryptomika
transkryptomika
analiza
ekspresji
genów
proteom
wszystkie
białka
zawarte
w
organizmie
proteomika
proteomika
porównanie
sekwencji,
identyfikacja
zachowanych
regionów, przewidywannie
struktury, oddziaływania
metabolom
wszystkie
procesy
metaboliczne
zachodzące
w organizmie,
metabolity
metabolomika
metabolomika
określanie
sieci i szlaków
metabolicznych, symulacje
Program wykładów
Genomy
Sekwencje biologiczne
Biologiczne bazy danych
Struktury makrocząsteczek biologicznych
Elementy biologii systemowej
Elementy epigenetyki
…dygresje w stronę biologii, fizyki, chemii
zaliczenie
Ćwiczenia:
lista obecności & kolokwium (a)
Wykład:
kolokwium (b)
Ocena: średnia z ocen z kolokwiów a i b,
jeśli obie oceny > 2
Literatura
Literatura
Literatura
Literatura
http://www.ncbi.nlm.nih.gov/books
Baxevanis, Ouelette
Sekwencjonowanie DNA
Sekwencjonowanie DNA
1977
Sanger
i współpr.
–
metoda terminacji
łańcucha, dideoksy
1987
Prober
i współpr.
–
znakowanie fluorescencyjne i zautomatyzowanie metody
analizator DNA (sekwenser)
ABI PRISM 3700
Hybrydyzacja ze starterem oligonukleotydowym
Synteza nowej nici DNA od końca startera przy pomocy:
polimerazy
Taq
Oczyszczanie fragmentów DNA:
wyciętych z klonów plazmidowych lub fagowych
zamplifikowanych
przez PCR
puli trifosforanów
deoksyrybonukleotydów
(dATP, dTTP, dGTP, dCTP)
puli trifosforanów
dideoksynukleotydów
(
dd
A
TP
,
dd
T
TP
,
dd
G
TP
,
dd
C
TP
)
znakowanych fluorescencyjnie i powodujących zakończenie syntezy nici
Denaturacja (pojedyncze nici)
G-C-A-T-
A
G-C-A-
T
G-C-
A
G
-
C
G
-
A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
T-C-A-
T-C-A-
T-C-A-
T-C-A-
T-C-A-
Elektroforeza kapilarna (sekwencje o długości do 1500 nukleotydów)
T-C-A-G-C-A-T-
A
T-C-A-G-C-A-
T
T-C-A-G-C-
A
T-C-A-G-
C
T-C-A-
G
0
5
10
15
20
25
G
C
A
T
A
T
C
GG
C
T
AA
TT
G
C
T
C
T
A
G
C
A
C
0
5
10
15
20
25
G
C
A
T
A
T
C
GG
C
T
AA
TT
G
C
T
C
T
A
G
C
A
C
Odczyt sekwencji
Etapy sekwencjonowania genom
Etapy sekwencjonowania genom
ó
ó
w
w
Wybór zachodzących pojedynczych klonów do sekwencjonowania
Oczyszczanie chromosomów
Pofragmentowanie metodą
sonikacji
na odcinki
o długości 100 kpz
(kbp) lub większe
Klonowanie fragmentów w wektorach (YAC, BAC)
Tworzenie mapy chromosomu
Subklonowanie
w mniejszych fragmentach
Human
Genome
Project
metoda tradycyjna
Tworzenie mapy subklonów
SEKWENCJONOWANIE
ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA
ATGCTCG
TCGATCTT
TTGATAGA
AGAGCTAC
TACAACGG
GGCTTGC
GCGGTAGC
AGCTTATA
Human
Genome
Project
metoda tradycyjna
Wybór i sekwencjonowanie
zachodzących subklonów
ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA
ATGCTCG
TTGATAGA
TACAACGG
GCGGTAGC
TCGATCTT
AGAGCTAC
GGCTTGC
AGCTTATA
SEKWENCJONOWANIE
Subklonowanie
w mniejszych fragmentach
Celera
Genomics
metoda ”shotgun”
Sekwencjonowanie wszystkich
subklonów
i tworzenie bazy
komputerowej
Komputerowy zapis sekwencji nukleotydowej
Komputerowy zapis sekwencji nukleotydowej
A
A
A
A
A
C
C
C
C
T
T
T
T
T
T
T
G
G
G
C
lub
A
G
lub
C
A
lub
G
M
S
P
C
G
T
A
C
G
T
M
T
A
S
T
A
T
A
G
T
A
C
T
P
C
Obr
Obr
ó
ó
bka sekwencji HTGS
bka sekwencji HTGS
Faza 0
Faza 1
Faza 2
Faza 3
contigs
1977
Sanger
i współpr. -
fag
ΦX 174 (5,4 tys. pz)
Sekwencjonowanie genom
Sekwencjonowanie genom
ó
ó
w
w
1995
Fleischmann
i współpr. -
Haemophilus influenzae
(1.8 mln
pz)
1981
Anderson i współpr. -
mtDNA
człowieka (17 tys. pz)
Fraser
i współpr. -
Mycoplasma genitalium
(0.6 mln
pz)
1997
Blattner
i współpr. –
Escherichia coli
(4.6 mln
pz)
Kunst i współpr. –
Bacillus subtilis
(4.2 mln
pz)
1996
1997
Goffeau
i współpr.
Saccharomyces
cerevisiae
(13 mln
pz)
Sekwencjonowanie genom
Sekwencjonowanie genom
ó
ó
w
w
1998
The
C. elegans
Sequencing
Consortium
Caenorhabditis
elegans
(100 mln
pz)
Human
Genome
Project
od 1990
Celera
Genomics
od 1998
VI 2000
ogłoszenie zakończenie prac nad wstępną
wersją
genomu ludzkiego; zsekwencjonowano:
85 %
99 %
Konferencja prasowa w Białym Domu w towarzystwie premiera Wielkiej Brytanii i
prezydenta USA. Zespoły HPG oraz Celery
postanowiły ze sobą
współpracować
w końcowej fazie badań
po okresie zażartej konkurencji.
Sekwencjonowanie genomu cz
Sekwencjonowanie genomu cz
ł
ł
owieka
owieka
Francis Collins
Craig
Venter
Human
Genome
Project
Celera
Genomics
II 2001
niezależna publikacja wyników w:
Venter
i współpracownicy
THE GENOME INTERNATIONAL
SEQUENCING CONSORTIUM
The
diploid sequence
of
an
individual
human
PLoS
Biol
(2007) 5:e24
Individualised
medicine?
Entries
Bases
Species
5910385 8975089696 Homo sapiens
3693368 4248000223 Mus musculus
440177 2845643085 Rattus
norvegicus
334184 684138071 Drosophila
melanogaster
364947 340669960 Arabidopsis
thaliana
73786 324515226 Oryza
sativa
(japonica
cultivar-group)
196469 220265073 Caenorhabditis
elegans
280958 200452421 Danio rerio
140766 196468644 Oryza
sativa
299860 195352078 Brassica
oleracea
189102 169109095 Tetraodon
nigroviridis
160484 161781732 Pan troglodytes
319238 148070112 Zea
mays
279229 128872165 Glycine
max
242987 128784744 Bos
taurus
219188 115991395 Xenopus
laevis
174573 112789672 Medicago
truncatula
205617 103041525 Triticum
aestivum
179025 99099713 Hordeum
vulgare
155282 95915175 Anopheles
gambiae
GenBank
GenBank
–
–
statystyka
statystyka
Grupa
liczba genomów
zsekwencjonowanych
Archaea
45
Bacteria
521
Eucaryota
25
Liczba całkowicie zsekwencjonowanych
genomów bakteryjnych
Kompletnie
Kompletnie
zsekwencjonowane
zsekwencjonowane
genomy
genomy
Eucaryota:
Drosophila melanogaster
Saccharomyces cerevisiae
Schizosaccharomyces pombe
Candida glabratha
Encephalitozoon cuniculi GB-M1….
Caenorhabditis elegans
Entamoeba histolytica
Plasmodium falciparum
Trypanosoma cruzi
….
Homo sapiens
Mus musculus
Arabidopsis thaliana
Oryza sativa
Oltmansiellopsis viridis
Ostreococcus lucimarinus
KRĘGOWCE (2)
ROŚLINY (4)
OWADY (1)
GRZYBY (10)
PIERWOTNIAKI
(6)
NICIENIE (1)
Za tydzień…
gen – definicja?
biologiczne bazy danych