Wraz ze wzrostem dostępnych dla badaczy danych o sekwencjach i strukturach, bioinformatyka zaczyna odgrywać coraz ważniejszą rolę w badaniach podstawowych problemów biomedycznych. Zadaniem biologii komputerowej jest pomoc w wykrywaniu nowych genów i modelowaniu molekularnym, ukierunkowanej mutagenezie i w innego typu eksperymentach, które mogą ujawnić nieznane dotąd zależności w strukturze i funkcji genów i białek.
Bioinformatyczne bazy danych to zbiory danych przechowujące w jednolity i wydajny sposób dane z szerokiego spektrum obszarów biologii i biochemii. Ich niezwykle ważną cechą jest fakt, iż zawarte w nich informacje są szeroko dostępne dla społeczności naukowej.
Ogólna klasyfikacja:
- ze względu na organizm, dla którego tworzy się kolekcję danych (człowiek, kręgowce, bezkręgowce, rośliny, grzyby, bakterie, wirusy, bakteriofagi).
- ze względu na źródło pochodzenia danych (pierwotne, wtórne)
Bazy pierwotne służą przechowywaniu wyników badań i eksperymentów jak np. sekwencje DNA, RNA, struktur przestrzennych białek itp. Zadaniem baz wtórnych jest gromadzenie i udostępnianie wyników analiz zawartości baz pierwotnych a są to np. wzorce sekwencji, relacje ewolucyjne itp.
- ze względu na informacje zgromadzone w bazie:
- bazy danych nukleotydów,
- bazy danych genomów,
- bazy danych mikromacierzowych,
- białkowe bazy danych,
- literaturowe bazy danych,
- taksonomiczne bazy danych.
Bazy nukleotydów przechowują sekwencje genomów w postaci liter A, T, G, C (w odniesieniu do DNA) oraz A, U, G, C (w odniesieniu do RNA) zarówno w celu katalogowania jak również na potrzeby wyszukiwania podobieństw pomiędzy sekwencjami. Proces ten realizowany jest przy pomocy zaawansowanych narzędzi informatycznych takich jak FASTA lub BLAST, pracujących na ciągach sekwencji.
Bazy genomów przechowują dane o kompletnych genomach danego organizmu lub grupy organizmów (najpopularniejsze to baza genomu myszy, szczura, muszki owocowej, bacterii e.coli, mikroorganizmów archaea). Informacje zawarte w tych bazach służą przede wszystkim zdobywaniu informacji jakie elementy genomowe są zawarte w badanym regionie, ustalaniu porządku zdefiniowanych elementów genomowych na danym regionie genomu oraz określaniu pozycji danego elementu na chromosomie. Pomocne narzędzia w tym zakresie to przede wszystkim zaawansowane systemy wyszukiwawcze takie jak ENTREZ oraz aplikacje BLAST2 oraz e-PCR.
Białkowe bazy danych - Najbardziej znane bazy zawierające informacje o białkach to UniProt oraz NCBI Proteins. Wartą uwagi wyspecjalizowaną bazą jest też baza Enzyme, która przechowuje dodatkowe dane potrzebne do pełnego opisu enzymów czy też baza KinetPro, w ramach której podobne białka grupowane są w rodziny (ProSite, Pfam, ProClass). W grupie baz zawierających informacje o białkach ogromne znaczenie mają bazy danych struktur białkowych przechowujące współrzędne atomów cząsteczek białka (najczęściej są to współrzędne kartezjańskie x, y, z).
Taksonomiczne bazy danych -Przechowują informacje o klasyfikacji organizmów biologicznych do odpowiednich jednostek klasyfikacji. Budowane jest hierarchiczne drzewo klasyfikacji organizmów, którego poziomy determinują przynależność rozpatrywanego organizmu do odpowiedniego królestwa, typu, gromady, rzędu, rodziny, rodzaju lub gatunku. Najbardziej znaną bazą tego typu jest należąca do organizacji NCBI Taksonomy Database. Oprócz tej bazy na uwagę zasługują również baza NEWT należąca do European Bioinformatic Institute (EBI).
Literaturowe bazy danych - Rolą literaturowych baz danych jest gromadzenie informacji o odwołaniach literaturowych i streszczeniach publikacji naukowych. Bazy takie ja Medline oraz PubMed dają szeroki pogląd na trendy prowadzonych badań naukowych oraz umożliwiają scalanie informacji zdobytych przez różnie ośrodki naukowe w zakresie prowadzonych badań.
Bazy danych mikromacierzowych gromadzą dane pochodzące z eksperymentów mikromacierzowych bazujących na sekwencjach nukleotydów. Dzięki tym danym możliwe jest uzyskanie informacji o tym, które geny ulegają ekspresji w określonych komórkach organizmu w ściśle określonym czasie i warunkach. Innymi słowy, możliwe jest m.in. porównywanie ekspresji genów z DNA komórki zdrowej i nowotworowej a największą bazą tego typu jest ArayExpress. Popularnymi narządziami do analizy mikromacierzy jest BioConductor oraz dChip.