2013-04-14
1
Bioinformatyka: interdyscyplinarna dziedzina wykorzystująca technologie
informatyczne do pozyskiwania, przechowywania i rozpowszechniania
danych dotyczących makrocząsteczek biologicznych oraz manipulowania
tymi danymi.
1
rozwój metod obliczeniowych umożliwiających badania nad strukturą, funkcją oraz ewolucją białek,
genów i całych genomów
rozwój metod umożliwiających gromadzenie, zarządzanie i analizę informacji biologicznej
[1] Luscombe NM, Greenbaum D, Gerstein M. Methods Inf Med. 2001;40(4):346-58.
Elementy bioinformatyki
Wprowadzenie do baz danych
2013-04-14
2
Bioinformatyka ≠ Biologia obliczeniowa
[1] NIH working definition of bioinformatics and computational biology, July 17, 2000
Badanie, rozwój oraz zastosowanie podejścia i
narzędzi obliczeniowych mające na celu
rozpowszechnianie danych biologicznych,
medycznych, behawioralnych lub zdrowotnych,
w tym pozyskiwanie, przechowywanie,
organizowanie, archiwizowanie, analizę a także
wizualizację tych danych.
Rozwój i zastosowanie metod teoretycznych,
statystycznych, modeli matematycznych i
symulacyjnych technik obliczeniowych do
badania układów biologicznych,
behawioralnych i społecznych.
Elementy bioinformatyki
Wprowadzenie do baz danych
Trochę historii:
• 1965 – sekwencje białek wykorzystane do konstrukcji drzewa filogenetycznego –
narodziny ewolucji molekularnej
• 1965 – pierwsze wydanie książki „Atlas of Protein Sequence and Structure”
• 1969 – powstaje software umożliwiający gromadzenie danych o strukturze białek
• 1970 – pierwszy algorytm do porównywania sekwencji (Needleman i Wunsch)
• 1971 – powstaje baza PDB – zawiera 7 struktur
• 1982 – powstają pierwsze nukleotydowe bazy danych (GenBank oraz EMBL)
• 1984 – pierwsza baza sekwencji białek PSD PIR
• 1990 - 2003 – Human Genom Project
Elementy bioinformatyki
Wprowadzenie do baz danych
2013-04-14
3
Matematyka
Statystyka
Proteomika i genomika
Genetyka
Biologia molekularna
Ewolucja molekularna
Elementy bioinformatyki
Wprowadzenie do baz danych
Informatyka
Bioinformatyka
Elementy bioinformatyki
Wprowadzenie do baz danych
Dlaczego powstała bioinformatyka i co chce osiągnąć
Centralny dogmat biologii molekularnej
Przepływ informacji genetycznej w układach biologicznych: DNA→RNA→białko
1,2
"DNA makes RNA makes protein."
3
Sekwencjonowanie DNA stało się łatwe
Archiwizacja, katalogowanie, udostępnianie informacji biologicznej
Analiza sekwencji, przewidywanie struktury, funkcji, pokrewieństwa
Rozwój metod i oprogramowania
Metody masowego sekwencjonowania i analiza ekspresji genów
[1] F. Crick, On Protein Synthesis, Symp. Soc. Exp. Biol. XII, 1958, 139-163
[2] F. Crick, Central dogma of molecular biology, Nature, 1970, 227, 561–3
[3] M. Nirenberg, Deciphering the Genetic Code, Office of NIH History: http://history.nih.gov/exhibits/nirenberg/index.htm, data dostępu: 27.02.13
2013-04-14
4
Elementy bioinformatyki
Wprowadzenie do baz danych
Gromadzone dane:
Sekwencje makrocząsteczek biologicznych
• sekwencje nukleotydowe (geny, genomy, DNA, RNA)
• sekwencje białkowe
Struktury białek oraz kwasów nukleinowych
• Informacje towarzyszące: autorzy, literatura, szczegóły eksperymentalne
Adnotacje
Dane literaturowe
Elementy bioinformatyki
Wprowadzenie do baz danych
Wzrost ilości danych w bazach
http://www.ncbi.nlm.nih.gov/genbank/genbankstats-2008/
http://www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=total&seqid=100
2013-04-14
5
Podstawowe zadania bioinformatyki:
• Pobieranie, katalogowanie, archiwizowanie oraz udostępnianie informacji
biologicznej.
• Analiza sekwencji nukleotydowych oraz białkowych
• Badanie ewolucyjnych zależności między sekwencjami
• Analiza ekspresji genów, genotypowanie
• Przewidywanie oraz katalogowanie funkcji białek i genów
• Porównywanie, klasyfikacja oraz przewidywanie struktury białek (kwasu
nukleinowego)
• Tworzenie metod umożliwiających, porównywanie i przewidywanie struktury i
funkcji na podstawie sekwencji
• Automatyczne dokowanie
Elementy bioinformatyki
Wprowadzenie do baz danych
Typy biologicznych baz danych
Bazy pierwszorzędowe:
oryginalna informacja pochodząca z eksperymentów, odpowiednio uporządkowana
lecz w żaden sposób niezmodyfikowana (np. GenBank)
Bazy drugorzędowe (pochodne): informacja przetworzona
• automatycznie (np. tłumaczenie sekwencji nukleotydowej na białkową np.
GenPept)
• przez specjalistów – przetworzona informacja jest wówczas najczęściej
wzbogacona o analizę i opis wraz z odnośnikami (np. CDD)
Bazy specjalistyczne (np. Brenda, MEROPS)
Elementy bioinformatyki
Wprowadzenie do baz danych
2013-04-14
6
Typy biologicznych baz danych
Nukleotydowe (GenBank, EMBL, DDBJ)
Białkowe (GenPept, UniProt)
Strukturalne (PDB)
Literaturowe (PubMed)
Specjalistyczne (np. Brenda, MEROPS, OMIM)
Elementy bioinformatyki
Wprowadzenie do baz danych
International Nucleotide Sequence Database Collaboration
W latach 90’ ubiegłego stulecia trzy międzynarodowe instytucje podjęły współpracę
mającą na celu zapewnienia powszechnego i darmowego dostępu do zgromadzonej
informacji na temat sekwencji nukleotydowych.
Należą do nich:
NCBI - National Center for Biotechnology Information, stanowiąca część National Library of Medicine (NLM)
EMBL - European Molecular Biology Laboratory, w skład którego wchodzi European Bioinformatics Institute (EBI)
DDBJ - DNA Data Bank of Japan, który jest częścią National Institute of Genetics (NIG)
Elementy bioinformatyki
Wprowadzenie do baz danych
2013-04-14
7
International Nucleotide Sequence Database Collaboration
Elementy bioinformatyki
Wprowadzenie do baz danych
http://www.ddbj.nig.ac.jp/
Każda z wymienionych organizacji umożliwia dostęp do całej dostępnej informacji o sekwencjach nukleotydowych jak
również zdeponowanie sekwencji w bazie. Bazy utworzone przez kolaborujące instytucje udostępniają całą
informację dodaną do którejkolwiek z nich korzystając z jednolitego formatu danych.
• GenBank (NCBI)
• EMBL-Bank
• DDBJ
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy pierwszorzędowe
http://www.ncbi.nlm.nih.gov/nucleotide/
2013-04-14
8
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy pierwszorzędowe
http://www.ncbi.nlm.nih.gov/sites/gquery
ENTREZ – system umożliwiający zintegrowany dostęp do zasobów NCBI
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy pierwszorzędowe
http://www.ebi.ac.uk/Databases/
EMBL-EBI Database – zapewnia dostęp do zasobów zgromadzonych w European Bioinformatics Institute
2013-04-14
9
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy pierwszorzędowe
http://www.rcsb.org/pdb/home/home.do
PDB – baza danych gromadząca informacje o strukturze białek i kwasów nukleinowych
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy drugorzędowe
http://www.ncbi.nlm.nih.gov/refseq/
RefSeq – baza danych gromadząca nieredundantne informacje o sekwencjach biologicznych
2013-04-14
10
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy drugorzędowe
http://www.uniprot.org/
UniProt – baza danych gromadząca informacje o sekwencjach białkowych wzbogacona opisem i adnotacjami
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy drugorzędowe
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
Conserved Domain Database – stanowi źródło adnotacji dotyczących funkcjonalnych fragmentów białek
2013-04-14
11
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://www.brenda-enzymes.info/
BRENDA – system informacji na temat enzymów
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://merops.sanger.ac.uk/index.shtml
MEROPS – baza danych enzymów proteolitycznych i ich inhibitorów
2013-04-14
12
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://www.genome.jp/kegg/pathway.html
KEGG PATHWAY – kolekcja szlaków metabolicznych
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://www.imtech.res.in/raghava/antigendb/index.html
AntigenDB – baza danych antygenów
2013-04-14
13
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://atlasgeneticsoncology.org/index.html
Atlas of Genetics and Cytogenetics in Oncology and Haematology – gromadzi informacje o
genach, cytogenetyce i klinicznych podstawach nowotworów
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://www.ncbi.nlm.nih.gov/omim
Online Mendelian Inheritance in Man (OMIM) – baza danych chorób uwarunkowanych genetycznie u człowieka
2013-04-14
14
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://www.ncbi.nlm.nih.gov/pubmed
PubMed – literaturowa baza danych obejmująca artykuły z medycyny oraz nauk biologicznych
Elementy bioinformatyki
Wprowadzenie do baz danych
Bazy specjalistyczne
http://expasy.org
ExPASy – portal umożliwiający dostęp do wielu baz danych i narzędzi bioinformatycznych
2013-04-14
15
Literatura:
1. P. G. Higgs, T. K. Attwood, Bioinformatyka i ewolucja molekularna, Wydawnictwo
Naukowe PWN, Warszawa, 2011
2. J. Xiong, Podstawy bioinformatyki, Wydawnictwa Uniwersytetu Warszawskiego,
Warszawa, 2009
3. A. D. Baxevanis, B. F. Ouellette, Bioinformatyka, Wydawnictwo Naukowe, PWN,
Warszawa, 2004
• Literatura uzupełniająca:
J. M. Berg, L. Stryer, J. L. Tymoczko, Biochemia, Wydawnictwo Naukowe, PWN wyd. 4 i późn.
Elementy bioinformatyki
Wprowadzenie do baz danych