2009-01-22
1
Bioinformatyka –
wykład 13
20.I.2009
biologia systemów
biologiczne dane wielowymiarowe
Krzysztof Pawłowski
Krzysztof_Pawlowski@sggw.pl
2009-01-22
2
Plan wykładu
•
Biologia systemów
•
Bazy danych ekspresji genów
•
Analiza danych ekspresji genów, sieci
zależności
•
Symulacje ścieżek sygnalizacyjnych
•
Pan-genomy
2009-01-22
3
Systems
biology
•
field of study, particularly, the study of
the interactions between the components
of biological
systems
•
paradigm
:
"Systems biology...is about putting together
rather than taking apart, integration rather
than reduction”
2009-01-22
4
Systems
biology
–
since
1993?
2009-01-22
5
Terminologia
wielkoskalowe analizy biologiczne =
high-throughput biology =
„omics” (genomics, proteomics,
metabonomics, ...)
2009-01-22
6
Typowe zastosowania analiz
wielkoskalowych
•
Poszukiwanie molekularnych
cech charakterystycznych
zjawisk i procesów biologicznych,
np. biomarkerów
diagnostycznych
•
Poszukiwanie molekularnych
mechanizmów zjawisk i procesów
biologicznych, np. możliwych
scenariuszy terapeutycznych
2009-01-22
7
Gdzie lepiej widać
biologię?
2009-01-22
8
Gdzie lepiej widać
biologię?
2009-01-22
9
Plan wykładu
•
Biologia systemów
•
Bazy danych ekspresji genów
•
Analiza danych ekspresji genów, sieci
zależności
•
Symulacje ścieżek sygnalizacyjnych
•
Pan-genomy
2009-01-22
10
próbki
zdrowi
chorzy
Ekspresja genów –
to nie tylko dane liczbowe
w przestrzeni genów można określić
wiele metryk
geny
2009-01-22
11
próbki
geny
zdrowi
chorzy
dane demograficzne, kliniczne, historia chorób,
styl życia
Ekspresja genów –
to nie tylko dane liczbowe
z każdą
próbką
związane mogą
być
setki parametrów,
liczbowych i jakościowych
2009-01-22
12
Bioinformatyka
wielkoskalowa
High-throughput
bioinformatics
2009-01-22
13
Bioinformatyka wielkoskalowa
High-throughput bioinformatics
2009-01-22
14
interpretacja: od list genów
o zmienionej ekspresji
do „zrozumienia”
biologii
•
Analiza skupień
(clustering)
•
Analiza wzbogacenia zbiorów genów
(gene
set enrichment
analysis)
•
Mapowanie danych ekspresji na sieci zależności
biologicznych
2009-01-22
15
Przykłady metod analizy danych ekspresji
•
Analiza skupień
(clustering)
–
Poszukiwanie grup genów o podobnych profilach
ekspresji
2009-01-22
16
interpretacja: od list genów
o zmienionej ekspresji
do „zrozumienia”
biologii
•
Analiza wzbogacenia zbiorów genów
(gene
set enrichment
analysis)
–
poszukiwanie cech, w które pewne grupy genów,
np. skupienia (klastry), są
„wzbogacone”
–
np. anotacji funkcjonalnych
–
statystyczna analiza anotacji
2009-01-22
17
interpretacja: od list genów
o zmienionej ekspresji
do „zrozumienia”
biologii
•
Mapowanie danych ekspresji na sieci zależności
biologicznych
–
wyszukiwanie „podsieci”
(subnetworks) złożonych
z genów o charakterystycznej ekspresji
2009-01-22
18
Question:
What is the underlying
biology, pathology, physiology
etc associated with this list of
entities?
What is it telling me?
A software tool that
enables the user to
rapidly extract biological
information from
biological entity lists
Biomedical Entity
Relationship
System
Biomedical Entity
Relationship System
Gene
Expression
Proteomic
Metabonomic
Significant Biological
Entity List:
•
Gene List
•
Protein List
•
Metabolite List
Genetic
Biological
environment
of the list.
Literature
Canonical pathways
associated with the
list
A map of the
relationships within the
literature focusing on
gene/protein,
metabolite, drug,
disease, biological
process concepts and
their relationships
Diseases, Biological processes
associated with the list
2009-01-22
19
Nowe odkrycia –
„novelty”
•
Trend.
•
Czy tworzymy więcej nowości?
•
Czy mamy modę
na chwalenie się
rzekomą
nowością?
•
Czy analizy wielkoskalowe
prowadzą
do
odkrywania nowości?
2009-01-22
20
Czy „omika”
prowadzi do nowości?
temat 1
oraz
temat 2
Liczba
artykułów
% „omiki
„omika”
-
116821
100%
„omika”
„nowe”
geny
1591
1,4%
„omika”
geny
docelowe
dla leków
596
0,5%
Kwerenda w Medline
2000-2007,
tytuły i streszczenia
2009-01-22
21
Sposoby i powody
unikania nowości
•
Wczesne analizy wielkoskalowe
miały charakter
„proof-of-concept”
–
kontroli technicznej metody
•
Niewiara w dokładność
metod wielkoskalowych
•
Skupienie uwagi na znanych genach
i scenariuszach –
powody praktyczne
(łatwiejsze zastosowania)
•
Bioinformatyka daje szansę
na pełniejsze
wykorzystanie danych wielkoskalowych
2009-01-22
22
Sposoby i powody
unikania nowości
•
Przykład: Crystal
et al. Skupienie uwagi na
znanych genach i scenariuszach. Przeanalizowali
44 geny
spośród 22000 o zmierzonej ekspresji
Am J Respir
Cell Mol Biol. (2003) 29):331-43
2009-01-22
23
Biologia systemów
•
Gene-centric
approach
vs gene-set
(pathway) approach
•
”differentially expressed pathways”
instead
of “differentially expressed genes”
2009-01-22
24
Plan wykładu
•
Biologia systemów
•
Bazy danych ekspresji genów
•
Analiza danych ekspresji genów, sieci
zależności
•
Symulacje ścieżek sygnalizacyjnych
•
Pan-genomy
2009-01-22
25
We want to inhibit a signalling
pathway: receptor protein to
biological effect. Simple?
2009-01-22
26
Not so simple…. Sets of differential equations used
2009-01-22
27
Symulacje ścieżek
sygnalizacyjnych
Lauffenburger
et al. (2008),
Interleukin-7 receptor
signaling
network
2009-01-22
28
2009-01-22
29
2009-01-22
30
Plan wykładu
•
Biologia systemów
•
Bazy danych ekspresji genów
•
Analiza danych ekspresji genów, sieci
zależności
•
Symulacje ścieżek sygnalizacyjnych
•
Pan-genomy
2009-01-22
31
pan-genome
The microbial
pan-genome, Medini
et al.
(2005)
•
how genomics can describe a bacterial species?
•
in some species,
new genes are discovered even after sequencing
the genomes of several strains
•
mathematical
modeling predicts that new genes will be discovered
even after sequencing hundreds of genomes per species.
•
a bacterial species can be described by its pan-genome,
–
a ‘core genome’
containing genes present in all strains,
–
a ’dispensable genome’
containing genes present in two or more strains
–
genes unique to single strains
•
pan-genome of a bacterial species might be orders of magnitude
larger than any single genome
2009-01-22
32
Geny wspólne –
różne gatunki z rodzaju Streptococcus
2009-01-22
33
pan-genome
core
genome
Trzy gatunki z rodzaju Streptococcus
2009-01-22
34
What future brings…?
–
growing apprehension of “multidimensionality”
in biology
–
combining
„macroscopic”
(e.g. clinical)
science
and molecular
biology:
“global”
and molecular phenotype
–
comparative
genomics, community
genomics
–
functional
network analysis,
simulation
of pathways -
enzymatic, signalling, regulatory
–
whole cell simulations, and beyond
–
automated
text mining
–
integration, integration, integration, …….