Bioinformatyka
wykłady dla I r. studiów magisterskich,
biologia (SGGW)
2007/2008
Krzysztof Pawłowski
Wykład 4.X.2007
Co to jest bioinformatyka?
Program wykładów
Sekwencjonowanie DNA
Sekwencjonowanie genomów
Rozwiązywanie problemów biologicznych metodami
obliczeniowymi
Solving biological problems by computational means
Some synonyms:
In silico biology
Biocomputing
Theoretical biology
Substantial overlaps:
Computational chemistry / cheminformatics
Systems biology
Structural biology
Theoretical biophysics
„
definicja”
bioinformatyki / biologii obliczeniowej
•
Objects: small
molecules, structural motifs and domains, proteins,
transcripts, genes, organelles, cells, tissues, organs, organisms
•
Objects’
attributes: sequences,
3-D structures, expression data, clinical
data, publications,….
Zakres zainteresowań
bioinformatyki
„oficjalne”
definicje NIH
Bioinformatics: approaches for expanding the
use of biological, medical, behavioral or health
data, including those to acquire, store, organize,
archive, analyze, or visualize such data.
Computational Biology: The development and
application of data-analytical and theoretical
methods, mathematical modeling and
computational simulation techniques to the study
of biological, behavioral, and social systems.
Bioinformatics
(wikipedia)
Bioinformatics and computational biology
involve the use or development of
techniques, including applied
mathematics, informatics, statistics,
computer science, artificial intelligence,
chemistry, and biochemistry to solve
biological problems, usually on the
molecular level.
Bioinformatics
(wikipedia, contd.)
The primary goal of bioinformatics is to increase our
understanding of biological processes. What sets it apart
from other approaches, however, is its focus on
developing and applying computationally intensive
techniques (e.g., data mining, and machine learning
algorithms) to achieve this goal. Major research efforts in
the field include sequence alignment, gene finding,
genome assembly, protein structure alignment, protein
structure prediction, prediction of gene expression and
protein-protein interactions, and the modeling of
evolution.
Bioinformatyka (wikipedia)
Bioinformatyka to dyscyplina zajmująca
się stosowaniem narzędzi
matematycznych i informatycznych do
rozwiązywania problemów z nauk
biologicznych. Z bioinformatyką
powiązane są: genomika, proteomika,
metabolomika i transkryptomika.
„bioinformatyka”
–
nowa dyscyplina?
Publikacje bioinformatyczne (PubMed)
1
10
100
1000
10000
19
89
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
20
08
20
09
bioinformatics[Text Word]
bioinformatics[MeSH Heading]
…ale pod innymi nazwami rozwijała się
przynajmniej od lat 60.
Bioinformatyka w Google
17 500 000
47 300
241 000
1 160 000 1 140 000 1 730 000
126 000 000
27 700 000
bi
oin
fo
rm
at
ics
bi
oin
fo
rm
at
yk
a
bi
oin
fo
rm
at
ika
bi
oinf
or
m
at
ik
bi
oinf
or
ma
tic
a
bi
oinf
or
m
at
ique
bi
ology
bi
ologi
a
bio
informatyka
BIOINFORMATYKA
BIOINFORMATYKA
-
-
dziedzina interdyscyplinarna
dziedzina interdyscyplinarna
biologia (molekularna)
dane biologiczne
informatyka
narzędzia,metody
i obliczenia komputerowe
=
+
dane dotyczące kwasów
nukleinowych, białek,
lipidów, węglowodanów i
innych makrocząsteczek
nauki i techniki komputerowe,
teoria informacji, matematyka
stosowana, statystyka, teoria
prawdopodobieństwa
fizy
ka
i c
he
mi
a
BIOINFORMATYKA
BIOINFORMATYKA
-
-
cele
cele
Organizowanie
i zarządzanie
informacjami
o
makrocząsteczkach
i innych
danych
biologicznych
w formie
skomputeryzowanych
(cyfrowych) zapisów
-
baz
danych
Analiza
tych
danych
za
pomocą
metod obliczeniowych,
rozwój metod
i algorytmów
DNA
BIOINFORMATYKA
BIOINFORMATYKA
-
-
poziomy analiz
poziomy analiz
mRNA
białka
interakcje
i metabolizm
genom
BIOINFORMATYKA
BIOINFORMATYKA
-
-
poziomy analiz
poziomy analiz
wszystkie
sekwencje
DNA
zawarte
w organizmie, geny,
sekwencje regulatorowe
genomika
genomika
poziom
badań
przedmiot
badań
dziedzina
badań
poszukiwanie
sekwencji
kodujących, rozpoznawanie
eksonów
i intronów,
organizacja
genomów,
porównanie
sekwencji
tematy
badań
transkryptom
wszystkie
sekwencje RNA
zawarte
w organizmie
transkryptomika
transkryptomika
analiza
ekspresji
genów
proteom
wszystkie
białka
zawarte
w
organizmie
proteomika
proteomika
porównanie
sekwencji,
identyfikacja
zachowanych
regionów, przewidywannie
struktury, oddziaływania
metabolom
wszystkie
procesy
metaboliczne
zachodzące
w organizmie,
metabolity
metabolomika
metabolomika
określanie
sieci i szlaków
metabolicznych, symulacje
Program wykładów
Genomy
Sekwencje biologiczne
Biologiczne bazy danych
Struktury makrocząsteczek biologicznych
Elementy biologii systemowej
Elementy epigenetyki
…dygresje w stronę biologii, fizyki, chemii
zaliczenie
Ćwiczenia:
lista obecności & kolokwium (a)
Wykład:
kolokwium (b)
Ocena: średnia z ocen z kolokwiów a i b,
jeśli obie oceny > 2
Literatura
Literatura
Literatura
Literatura
http://www.ncbi.nlm.nih.gov/books
Baxevanis, Ouelette
Sekwencjonowanie DNA
Sekwencjonowanie DNA
1977
Sanger
i współpr.
–
metoda terminacji
łańcucha, dideoksy
1987
Prober
i współpr.
–
znakowanie fluorescencyjne i zautomatyzowanie metody
analizator DNA (sekwenser)
ABI PRISM 3700
Hybrydyzacja ze starterem oligonukleotydowym
Synteza nowej nici DNA od końca startera za pomocą:
polimerazy
Taq
Oczyszczanie fragmentów DNA:
wyciętych z klonów plazmidowych lub fagowych
zamplifikowanych
przez PCR
puli trifosforanów
deoksyrybonukleotydów
(dATP, dTTP, dGTP, dCTP)
puli trifosforanów
dideoksynukleotydów
(
dd
A
TP
,
dd
T
TP
,
dd
G
TP
,
dd
C
TP
)
znakowanych fluorescencyjnie i powodujących zakończenie syntezy nici
Denaturacja (pojedyncze nici)
G-C-A-T-
A
G-C-A-
T
G-C-
A
G
-
C
G
-
A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
-A-G-T-C-G-T-A-T
T-C-A-
T-C-A-
T-C-A-
T-C-A-
T-C-A-
Elektroforeza kapilarna (sekwencje o długości do 1500 nukleotydów)
T-C-A-G-C-A-T-
A
T-C-A-G-C-A-
T
T-C-A-G-C-
A
T-C-A-G-
C
T-C-A-
G
0
5
10
15
20
25
G
C
A
T
A
T
C
GG
C
T
AA
TT
G
C
T
C
T
A
G
C
A
C
0
5
10
15
20
25
G
C
A
T
A
T
C
GG
C
T
AA
TT
G
C
T
C
T
A
G
C
A
C
Odczyt sekwencji
Etapy sekwencjonowania genom
Etapy sekwencjonowania genom
ó
ó
w
w
Wybór zachodzących pojedynczych klonów do sekwencjonowania
Oczyszczanie chromosomów
Pofragmentowanie metodą
sonikacji
na odcinki
o długości 100 kpz
(kbp) lub większe
Klonowanie fragmentów w wektorach (YAC, BAC)
Tworzenie mapy chromosomu
Subklonowanie
w mniejszych fragmentach
Human
Genome
Project
metoda tradycyjna
Tworzenie mapy subklonów
SEKWENCJONOWANIE
ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA
ATGCTCG
TCGATCTT
TTGATAGA
AGAGCTAC
TACAACGG
GGCTTGC
GCGGTAGC
AGCTTATA
Human
Genome
Project
metoda tradycyjna
Wybór i sekwencjonowanie
zachodzących subklonów
ATGCTCGATCTTGATAGAGCTACAACGGCTTGCGGTAGCTTATA
ATGCTCG
TTGATAGA
TACAACGG
GCGGTAGC
TCGATCTT
AGAGCTAC
GGCTTGC
AGCTTATA
SEKWENCJONOWANIE
Subklonowanie
w mniejszych fragmentach
Celera
Genomics
metoda ”shotgun”
Sekwencjonowanie wszystkich
subklonów
i tworzenie bazy
komputerowej
Komputerowy zapis sekwencji nukleotydowej
Komputerowy zapis sekwencji nukleotydowej
A
A
A
A
A
C
C
C
C
T
T
T
T
T
T
T
G
G
G
C
lub
A
G
lub
C
A
lub
G
M
S
P
C
G
T
A
C
G
T
M
T
A
S
T
A
T
A
G
T
A
C
T
P
C
Obr
Obr
ó
ó
bka sekwencji HTGS
bka sekwencji HTGS
Faza 0
Faza 1
Faza 2
Faza 3
contigs
1977
Sanger
i współpr. -
fag
ΦX 174 (5,4 tys. pz)
Sekwencjonowanie genom
Sekwencjonowanie genom
ó
ó
w
w
1995
Fleischmann
i współpr. -
Haemophilus influenzae
(1.8 mln
pz)
1981
Anderson i współpr. -
mtDNA
człowieka (17 tys. pz)
Fraser
i współpr. -
Mycoplasma genitalium
(0.6 mln
pz)
1997
Blattner
i współpr. –
Escherichia coli
(4.6 mln
pz)
Kunst i współpr. –
Bacillus subtilis
(4.2 mln
pz)
1996
1997
Goffeau
i współpr.
Saccharomyces
cerevisiae
(13 mln
pz)
Sekwencjonowanie genom
Sekwencjonowanie genom
ó
ó
w
w
1998
The
C. elegans
Sequencing
Consortium
Caenorhabditis
elegans
(100 mln
pz)
Human
Genome
Project
od 1990
Celera
Genomics
od 1998
VI 2000
OIgłoszenie
zakończenie prac nad wstępną
wersją
genomu ludzkiego; zsekwencjonowano:
85 %
99 %
Konferencja prasowa w Białym Domu w towarzystwie premiera Wielkiej Brytanii i
prezydenta USA. Zespoły HPG oraz Celery
postanowiły ze sobą
współpracować
w końcowej fazie badań
po okresie zażartej konkurencji.
Sekwencjonowanie genomu cz
Sekwencjonowanie genomu cz
ł
ł
owieka
owieka
Francis Collins
Craig
Venter
Human
Genome
Project
Celera
Genomics
II 2001
niezależna publikacja wyników w:
Venter
i współpracownicy
THE GENOME INTERNATIONAL
SEQUENCING CONSORTIUM
GenBank
GenBank
–
–
statystyka
statystyka
Grupa
liczba genomów
zsekwencjonowanych
(6.10.2008)
Archaea
52
Bacteria
706
Eucaryota
22
Kompletnie
Kompletnie
zsekwencjonowane
zsekwencjonowane
genomy
genomy
Eucaryota:
Drosophila melanogaster
Saccharomyces cerevisiae
Schizosaccharomyces pombe
Candida glabratha
Encephalitozoon cuniculi GB-M1….
Caenorhabditis elegans
Entamoeba histolytica
Plasmodium falciparum
Trypanosoma cruzi
….
Homo sapiens
Mus musculus
Arabidopsis thaliana
Oryza sativa
KRĘGOWCE (2)
ROŚLINY (2)
OWADY (1)
GRZYBY (10)
PIERWOTNIAKI
(6)
NICIENIE (1)
„Prywatne”
genomy
James Watson
(2008)
Craig
Venter
(2007)
12 genomów z rodzaju Drosophila
2007
Pyrosequencing
454
Pyrosequencing. The strand
synthesis reaction is carried out in
the absence of
dideoxynucleotides. Each dNTP
is
added individually, along with a
nucleotidase
enzyme that
degrades the dNTP
if it is not
incorporated into the strand being
synthesized. Incorporation of a
nucleotide is detected by a flash of
chemiluminescence
induced by the
pyrophosphate released from the
dNTP. The order in which
nucleotides are added to the
growing strand can therefore be
followed
Sekwencjonowanie na
mikromacierzach
A possible way of using chip technology in DNA sequencing. The chip carries an array of every possible 8-mer oligonucleotide. The DNA to be
sequenced is labeled with a fluorescent marker and applied to the chip, and the positions of hybridizing oligonucleotides
determined by confocal
microscopy. Each hybridizing oligonucleotide
represents an 8-nucleotide sequence motif that is present in the probe DNA. The sequence of the
probe DNA can therefore be deduced from the overlaps between the
sequences of these hybridizing oligonucleotides.