plik


ÿþRozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 RozdziaB 11 Bioinformatyczne bazy danych  rola, miejsce i klasyfikacja Streszczenie. Bioinformatyka jest dziedzin nauki, która w ostatnim okresie bardzo intensywnie si rozwija. Ekspansja badaD w dziedzinie biologii i bio- chemii molekularnej generuje bardzo wiele informacji, któr nale|y prze- chowywa w specjalnie do tego przeznaczonych bazach danych, w celu ich dalszej analizy. W dziedzinie baz danych bioinformatycznych autorzy podej- muj prób uszeregowania wiedzy zwizanej z gromadzeniem i przetwarza- niem danych o charakterze biologicznym. W rozdziale przedstawiono podsta- wowe informacje dotyczce bioinformatyki. GBówn uwag po[wicono bio- informatycznym bazom danych  ich klasyfikacji, przeznaczeniu i sposobom dostpu. 1 Wstp Komórka organizmu jest podstawowym elementem w ka|dym |ywym organizmie. Wszystkie instrukcje potrzebne do kierowania aktywno[ci komórki s zapisane w BaDcu- chu DNA. Rozpoczcie w 1990 roku przez U.S. Department of Energy and the National Institutes of Health w USA prac pod nazw Human Genome Project (HGP) [1] nad poznaniem kompletnego zbioru ludzkiego DNA (genomu) wprowadziBo now er w dziedzinie nauk biologicznych  er genomu [1]. DoprowadziBa ona w krótkim czasie do eksplozji informacji biologicznej na skutek zastosowania zaawansowanych metod badaD nad biologi molekularn i genomik. Z jednej strony, tradycyjne badania, prowadzone dotd w laboratoriach eksperymentalnych, zyskaBy wsparcie ze strony pot|nych maszyn liczcych, co zwikszyBo mo|liwo[ci poznawcze. Z drugiej strony, powstaBa du|a liczba organizacji paDstwowych, instytutów uniwersyteckich oraz laboratoriów badawczych zajmujcych si poznaniem tajemniczych sBów zapisanych przy pomocy alfabetu zBo|onego z czterech nukleotydów  molekuB adeniny (A), tyminy (T), guaniny (G), cytozyny (C). W efekcie zaanga|owania komputerów do analizy badaD laboratoryjnych i powszechnego, w skali [wiatowej, zainteresowania tematem, nastpiB gwaBtowny wzrost liczby posiada- nych danych, które nale|aBo zinterpretowa. Ogromnym wyzwaniem dla ludzi zajmuj- cych si biologi molekularn staBo si zatem znalezienie sensu w bogactwie danych bd- cych efektem projektów sekwencjonowania genomów. Wszelkie starania w tej dziedzinie zapocztkowaBy istnienie nowego pola prowadzonych badaD  bioinformatyki. Dariusz Mrozek, Bo|ena MaBysiak: Politechnika Zlska, Instytut Informatyki, ul. Akademicka 16, 44-100 Gliwice, Polska email:{Dariusz.Mrozek, Bozena.Malysiak}@polsl.pl (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 D. Mrozek, B. MaBysiak Bioinformatyka jest multidyscyplinarn dziedzin nauki, którego zasadniczym celem jest odkrycie bogactwa biologicznej informacji ukrytej w masie danych i otrzymania ja[niejszego wgldu w fundamenty biologiczne organizmu [2], [3], [4], [5], [6]. Bioinfor- matyka polega zatem na zastosowaniu technik informatycznych w interpretacji rezultatów badaD biologicznych i biochemicznych. Istniej trzy centralne procesy biologiczne, wokóB których bioinformatyka si rozwija [7] (rys. 1): - Sekwencja nukleotydów w DNA determinuje sekwencj aminokwasów w biaBku. Ka|de biaBko ma jedyn w swoim rodzaju, wBa[ciw sobie sekwencj aminokwasów, która jest zdeterminowana genetycznie. Sekwencja nukleotydów w DNA, czsteczce dziedziczno[ci, okre[la komplementarn sekwencj nukleotydów w RNA (w proce- sie transkrypcji), która z kolei determinuje sekwencj aminokwasów w biaBku (w procesie translacji) [8], [9]. - Sekwencja aminokwasów wpBywa na struktur biaBka. Analiza zale|no[ci midzy sekwencj aminokwasów a struktur przestrzenn biaBka pozwoliBa naukowcom usta- li pewne reguBy rzdzce faBdowaniem si BaDcuchów biaBkowych, a wic przyjmo- wania ustalonych ksztaBtów tzw. struktury drugorzdowej np. helisy ± lub harmonijki ² [10]. - Struktura biaBka jest zwizana z peBnion przez nie funkcj w organizmie. Analiza struktury przestrzennej biaBek pozwala m.in. klasyfikowa biaBka w grupy funkcjo- nalne i rodziny oraz przewidywa na tej podstawie potencjalne funkcje nowo odkry- tych molekuB biaBkowych. OdksztaBcenia strukturalne biaBka na skutek pewnych czynników zewntrznych, takich jak np. temperatura otoczenia lub jego kwasowo[, mog równie| wpBywa na aktywno[ biaBka w komórce oraz zdolno[ do peBnienia swojej funkcji biologicznej. Sekwencja Struktura Funkcja Sekwencja aminokwasów przestrzenna i aktywno[ DNA biaBka biaBka biaBka Rys. 1. Determinacja informacji biologicznej na kolejnych poziomach, poczynajc od cz- steczki dziedziczno[ci  DNA, koDczc na funkcji i aktywno[ci biaBka w komórce organiz- mu Jednym z wyzwaD, jakiemu musi sprosta bioinformatyka, jest wBa[ciwy sposób przecho- wywania danych umo|liwiajc ich wydajne przetwarzanie i analiz. Z tego powodu, pow- staBy ogromne repozytoria, których celem staBo si gromadzenie danych pochodzcych bez- po[rednio z badaD biochemików lub biologów molekularnych oraz danych bdcych rezul- tatem prowadzonych analiz. Bioinformatyczne (biologiczne) bazy danych to zbiory danych przechowujce w jed- nolity i wydajny sposób dane z szerokiego spektrum obszarów biologii i biochemii. Ich niezwykle wa|n cech jest fakt, i| zawarte w nich informacje s szeroko dostpne dla spoBeczno[ci naukowej [6], w wikszo[ci przypadków za darmo. Z punktu widzenia me- dycznego przeszukiwanie i interpretacja danych pochodzcych z badaD biologów i bioche- mików otwiera ogromne wrota wiedzy, która mo|e zosta wykorzystana przede wszystkim w leczeniu chorób, z jakimi do tej pory wspóBczesny czBowiek nie jest w stanie sobie pora- dzi. Biologiczne bazy danych stanowi doskonaBe zródBo informacji dla spoBeczno[ci naukowej, w tym: lekarzy, biologów, biochemików, farmaceutów, weterynarzy, in|ynierów |ywno[ci, energetyki i ochrony [rodowiska. Kolekcjonowanie danych o charakterze biologicznym rozpoczBo nowy rozdziaB w dziedzinie baz danych, które dotd wykorzysty- wane byBy gBównie jako systemy wspomagajce prac przedsibiorstw produkcyjnych, handlowych i usBugowych. Charakter tych danych wymaga zastosowania specjalistycznych 108 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 Bioinformatyczne bazy danych  rola, miejsce i klasyfikacja metod przetwarzania i analizy, które powinny speBnia podstawowe kryteria wydajno[ci. Nale|y mie [wiadomo[, |e dane o charakterze biologicznym byBy kolekcjonowane ju| znacznie wcze[niej ni| rozpoczto projekt HGP. PrzykBadem mog by dane o strukturach biaBek pochodzce z badaD krystalografii rentgenowskiej przechowywane w bazie Protein Data Bank (PDB) [11] ju| w latach siedemdziesitych. Jednak|e to sekwencjonowanie ge- nomów w projekcie HGP pocignBo za sob sprz|ony rozwój istniejcych gaBzi nauk biologicznych - wyrazny postp zanotowaBy takie gaBzie jak: proteomika, transkryptomika, metabolomika czy biotechnologia. Przetwarzanie danych z baz biologicznych stanowi tak|e podstaw rozwoju nowych gaBzi naukowych, które pojawiBy si w efekcie projektu HGP np. genomiki, in|ynierii genetycznej, czy wybranych gaBzi nanotechnologii. 2 PodziaB bioinformatycznych baz danych Informacje skBadowane w bioinformatycznych bazach danych mog na ró|nym poziomie opisu charakteryzowa te wybrane organizmy, które z wielorakich wzgldów znalazBy si w krgu zainteresowaD naukowców. Klasyfikacj bioinformatycznych baz danych mo|na zatem przeprowadzi na ró|nych pBaszczyznach: - ze wzgldu na zródBo pochodzenia danych, - ze wzgldu na organizm, dla którego tworzy si kolekcj danych, - ze wzgldu na rodzaj przechowywanej informacji lub inaczej, poziom opisu moleku- larnego. Dwie pierwsze kategorie, wraz z odpowiednimi przykBadami baz, bd tematem tego rozdziaBu. Trzeci sposób klasyfikacji baz ze wzgldu na jego du| rozpito[ zostaB opisany szerzej w rozdziale  Bioinformatyczne bazy danych  poziomy opisu funkcjonowania orga- ni|mów tego wydania. 2.1 Klasyfikacja baz ze wzgldu na zródBo pochodzenia danych Biorc pod uwag prowadzone badania eksperymentalne i symulacyjne oraz nastpujce po nich interpretacje otrzymanych wyników mo|na klasyfikowa bazy ze wzgldu na zródBo pochodzenia danych. Zgodnie z tym kryterium bioinformatyczne bazy danych mo|na podzieli na: 1) pierwotne (ang. primary)  przechowuj dane bdce bezpo[rednio wynikiem prowa- dzonych badaD bdz eksperymentów przez specjalistów z danej dziedziny; s to zaz- wyczaj dane o: sekwencjach DNA i RNA, sekwencjach aminokwasów biaBek i enzy- mów, strukturach przestrzennych biaBek, enzymów, kompleksów molekularnych i in- nych czstek biologicznych biorcych udziaB w reakcjach wewntrzkomórkowych; 2) wtórne (ang. secondary) lub wyprowadzone (ang. derived)  przechowuj rezultaty analiz podstawowych zBó| danych; mog to by np. bazy sekwencji aminokwasów jako efektu translacji sekwencji DNA z baz sekwencji nukleotydowych, bazy domen funkcjonalnych, wzorców sekwencji lub motywów (charakterystycznych fragmen- tów) , relacji ewolucyjnych i wiele innych. Dodatkowo, wraz z informacj wBa[ciw, przechowywana jest du|a ilo[ informacji opiso- wej pozwalajca zorientowa si u|ytkownikom z jakim rodzajem informacji maj do czy- nienia; s m.in. to wszelkiego rodzaju komentarze, noty, adnotacje, klasyfikacje funkcji biaBka, przynale|no[ organizmu do rodziny i gatunku (zródBo biaBka), wyodrbnione cechy dodatkowe, fragmenty o okre[lonym znaczeniu biologicznym. 109 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 D. Mrozek, B. MaBysiak Nale|y zauwa|y, |e interpretacja informacji z pierwotnych lub wtórnych zBó| danych mo|e przyczyni si do odkrycia ciekawych wBasno[ci lub aspektów, które do tej pory byBy traktowane tylko marginalnie. To z kolei mo|e pocign rozwój badaD nad now wBasno[- ci i generacj nowej informacji. Powoduje to powielenie poziomów wtórno[ci i zamyka pewien cykl: problem  badania  dane  rozwizania  problem (rys. 2). Cykl ten zreszt jest zgodny z prawidBami nauki, które mówi, i| odpowiedz na jedno pytanie generuje lawin kolejnych pytaD. Problemy naukowe prowadz do budowy nowych modeli, metod formalnych opisu, algorytmów i narzdzi, dziki którym prowadzone s badania. Badania z wykorzystaniem bioinformatyki generuj rezultaty, które odpowiednio skomentowane i opisane (w biologii zawsze istotne jest w jakich warunkach przeprowadzono badania) zostaj zdeponowane w bazach danych. Je[li prowadzono badania laboratoryjne, to dane te najcz[ciej maj charakter pierwotny. W pierwszej fazie, dane mog by przechowywane na lokalnych serwerach laboratorium, a nastpnie mog by zdeponowane (w caBo[ci lub tylko ich cz[) w publicznych centrach danych. Analiza danych mo|e prowadzi do uzys- kania ciekawych odpowiedzi i rozwizaD postawionych problemów, na bazie których nau- kowa ciekawo[ sformuBuje nowe tezy i problemy badawcze, doprowadzi do budowy no- wych narzdzi i gromadzenia nowych informacji. Analiza danych mo|e te| przyczyni si do aktualizacji danych ju| istniejcych  std, m.in. bior si ró|ne wersje wpisów w cen- tralnych, publicznych, bioinformatycznych bazach danych. Rys. 2. Cykl prowadzenia badaD i powielania informacji w bioinformatycznych bazach danych Trzeba mie równie| [wiadomo[, |e maBe bBdy na najni|szym poziomie mog sta si przyczyn du|ych nieporozumieD naukowych przy przenoszeniu pomyBek na kolejne poziomy. Z tej wBa[nie przyczyny deponowane w publicznych, bioinformatycznych bazach danych informacje, np. sekwencje aminokwasów biaBkowych czy struktury biaBek, podle- gaj dodatkowym procesom rewizji przez specjalistów z danej dziedziny. Procesy te nie s jednak w stanie wykry wszystkich nieprawidBowo[ci, dlatego za zdeponowan w bazie jednostk odpowiedzialny jest przede wszystkim jej autor. 2.2 Klasyfikacja baz ze wzgldu na gatunek organizm Badania naukowców koncentruj si zwykle na pewnym wybranym organizmie lub grupie organizmów danego gatunku, rodziny lub klasy powodujc generacj co raz to nowszych danych opisujcych organizm lub grup. PowstaBy zatem bazy dedykowane dla danego organizmu lub grupy. Bazy danych tego typu przechowuj najcz[ciej kompletne zestawy cech lub zestawy wybranych cech opisujcych okre[lony organizm lub gatunek. Zestaw 110 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 Bioinformatyczne bazy danych  rola, miejsce i klasyfikacja przechowywanych cech, a co za tym idzie  poziom opisu, mo|e by bardzo ró|ny, na przykBad mo|e to by kompletny genom organizmu, wyodrbnione geny, odkryte lub przewidziane sekwencje biaBkowe, zbadane szlaki metaboliczne i in. Istnieje zatem wiele baz opisujcych wybrane cechy takich gatunków jak (podziaB nie odzwierciedla klasyfikacji biologicznej organizmów): - czBowiek (ang. human, Bac. homo sapiens), np.: atlas genów czBowieka GENATLAS [12] paryskiego Universite Rene Descartes zawierajcy informacje o ludzkim geno- typie i fenotypie; baza HUNT for Human Novel Transcripts [13] przechowujca kompletne sekwencje cDNA oraz adnotacje opisowe pochodzce z analizy tych sek- wencji, a tak|e dane o przewidywanych strukturach biaBek; baza Human Protein Atlas [14] przechowujca informacje o ekspresji i lokalizacji biaBek w ró|nych tkan- kach organizmu czBowieka a tak|e w komórkach rakowych; - krgowce (ang. vertebrates), np.: zintegrowany system baz Mouse Genome Informa- tics (MGI) [15] przechowujcy informacje biologiczne dotyczce myszy m.in. sek- wencje DNA i RNA w Mouse Genome Sequence (MGS), charakterystyk genów w Mouse Genome Database (MGD), charakterystyki rozwoju ró|nego typu nowo- tworów u myszy laboratoryjnych w Mouse Tumor Biology (MTB) Database; bazy Rat Genome Database (RGD) [16] sBu|ce jako repozytorium danych genetycznych (ang. genetic) i genomowych (ang. genome) dla szczurów; bazy danych genetycz- nych ArkDB [17] zawierce dane molekularne dotyczce m.in. [wiD, kotów, koni, krów, drobiu, ryb i in.; - insekty (ang. insects), np. baza FlyBase [19] zawierajca dane molekularne i genety- czne dotyczce muszki owocowej (Bac. drosophila); fragment systemu baz Ensembl  Mosquito Ensembl [20] dotyczcy danych genetycznych moskitów Anopheles gam- biae; - bezkrgowce (ang. invertebrates), np.: baza dictyBase [21] bdca scentralizowanym zródBem informacji genetycznej, molekularnej i literaturowej o pierwotniakach Dicty- ostelium; baza WormBase [22] zawierajca dane o sekwencjach DNA i sekwencjach biaBkowych organizmu wielokomórkowego Caenorhabditis elegans1 - dane o sek- wencjach DNA pochodz m.in. z banku genów GenBank [23]; baza ToxoDB [24] z danymi genetycznymi dotyczcymi paso|ytów Toxoplasma gondii; i in. - ro[liny (ang. plants), np.: bazy danych genomów i map genetycznych Plant Genome Databases of the National Agricultural Library  Agricultural Genome Information System (NAL-AGIS) [25] dla ró|nych organizmów ro[linnych, takich jak: ry|, ró|a, fasola, baweBna, soja, zbo|a i in.; niektóre sekcje baz danych TIGR [26] (m.in. Arabi- dopsis thaliana2 Genome Database) dotyczce ro[lin, zawierajce dane o chromoso- mach, sekwencjach DNA i otrzymanych w wyniku predykcji sekwencjach biaBko- wych; baza danych sekwencji DNA dla ro[lin kawy CoffeeDNA [27]; - grzyby (ang. fungi), przy czym najwicej zródeB danych powstaBo dla dro|d|y (Bac. Saccharomyces) na skutek szeroko zakrojonych badaD nad tym organizmem np.: Fu- ngal Genome Databases [28] w MIPS (Munich Information Center for Protein Se- quences) przechowujca genomy grzybów, sekwencje biaBkowe i dodatkowe adnota- cje; baza biaBek transmembranowych (przenikajcych bBon komórkow) dro|d|y Yeast Transport Protein Database (YTPdb) [29]; i in., ale równie| dla innych grzy- bów, np. baza informacji genetycznej i biaBkowej dla kropidlaka Aspergillus fumiga- 1 Caenorhabditis elegans wolno|yjcy nicieD, o dBugo[ci ok. 1 mm wystpujcy w glebach klimatu umiarkowanego, u|ywany jako modelowy organizm we wspóBczesnej genetyce i biologii [18]. 2 Rzodkiewnik pospolity (Arabidopsis thaliana) - chwast 111 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 D. Mrozek, B. MaBysiak tus TIGR Database [30] czy ple[niawki (Bac. Candida albicans) Candida Genome Database [31]; - bakterie (ang. bacteria), np.: baza danych ECDC [32] bdca kolekcj danych biologicznych na temat bakterii E.coli3; wBa[ciwe sekcje bazy danych SwissProt [33] przechowujce informacje o sekwencjach biaBkowych bakterii; sie baz danych udos- tpniona przez japoDski portal WFCC-MIRCEN World Data Centre for Microorga- nisms (WDCM) [34] dajcy peBny przegld informacji o charakterze molekularnym i genetycznym na temat bakterii i innych mikroorganizmów; oraz wiele innych repo- zytoriów danych dedykowanych dla ró|nych rodzajów bakterii; - mikroorganizmy typu archaea4, np.: baza danych genomów DOGAN [35] japoDskie- go National Institute of Technology and Evaluation dla organizmu Aeropyrum pernix oraz innych organizmów tej grupy; podsekcja francuskiej bazy danych sekwencji DNA i biaBkowych Pyrococcus abyssi genome database (Genoscope) [36] dotyczca organizmów Pyrococcus abyssi; japoDska baza genów i sekwencji biaBkowych ARCHAIC (ARCHAebacterial Information Collection) [37]; i in.; - wirusy i bakteriofagi (ang. viruses and phages), np. europejska baza European Hepa- titis C Virus database (euHCVdb) [38] zorientowana na opis sekwencji DNA i biaB- kowych, struktury i funkcji biologicznych wirusa HCV (który powoduje wirusowe zapalenie wtroby typu C); dane o sekwencjach DNA wirusa s ekstrahowane do euHCVdb z banku genów EMBL5 Nucleotide [39] (faktycznie, s to te same dane co w GenBank [23]); zbiór baz danych HIV Databases [40] w Los Alamos National Laboratory zawierajcy komplet danych biologicznych dotyczcych wirusa HIV; baza danych sekwencji nukleotydowych i struktur pikornawirusów6 [41] i in.; a) b) Rys. 3. Wybrane organizmy w powikszeniu: a) paBeczka okr|nicy E.coli, b) wirus HCV (zródBo obrazów: [7]) 3 PaBeczka okr|nicy (Escherichia coli), bakteria wchodzca w skBad fizjologicznej flory bakteryjnej jelita grubego czBowieka oraz zwierzt staBocieplnych, speBnia po|yteczn rol, uczestniczc w roz- kBadzie pokarmu, a tak|e przyczyniajc si do produkcji witamin z grupy B, C oraz K. Mo|e mie jednak szkodliwe dziaBanie kiedy przedostaje si z jelita do innych narzdów lub kiedy organizm za- ra|a si jednym ze szkodliwych szczepów bakterii  szczególnie niebezpieczny jest szczep oznaczony jako E.coli O157:H7. 4 Archea to mikroorganizmy (nie bakterie), które |yj w skrajnie niekorzystnych warunkach. 5 European Molecular Biology Laboratory (http://www.embl.org/)  Europejskie Laboratorium Biolo- gii Molekularnej z siedzib w Heidelberg, Niemcy; jego cz[ci jest European Bioinformatics Institu- te, Cambridge, UK 6 Pikornawirusy, wirusy z rodziny Picornaviridae, maBe wirusy zawierajce RNA jako materiaB genet.; patogenne dla ssaków (niektóre tak|e dla czBowieka), namna|aj si gB. w przewodzie pokarmowym i w ukBadzie oddechowym; nale| do nich rodzaje: Poliovirus, Coxsackievirus, Echovirus, Picornavi- rus, Enterovirus i in. (zródBo: Encyklopedia PWN) 112 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 Bioinformatyczne bazy danych  rola, miejsce i klasyfikacja Mo|na tak|e wyró|ni bazy danych ukierunkowane na okre[lone podjednostki komórkowe ró|nych organizmów, np. takie podjednostki jak: mitochondria7 i chloroplasty8 (ang. mito- chondrion and chloroplast), np. kanadyjska baza GOBASE  The Organelle Genome Data- base [42], w której skBadowane s sekwencje nukleotydów, sekwencje biaBkowe, dopasowa- nia wielu sekwencji, struktury drugorzdowe biaBek i RNA, mapy genomowe oraz ró|nego rodzaju obrazy; cz[ informacji w bazie GOBASE jest ekstrahowana z bazy sekwencji DNA i RNA  GenBank [23]; baza sekwencji DNA mitochondrialnego mitBASE [43]. 3 Systemy zintegrowanego dostpu do bioinformatycznych baz danych Du|a liczba zródeB danych o charakterze biologicznym sprawia, |e ich przeszukiwanie mo|e by bardzo trudnym zadaniem, zwBaszcza dla pocztkujcych  poszukiwaczy infor- macji biochemicznej. Spraw dodatkowo komplikuje fakt, |e istnieje wiele baz specjalizu- jcych si tylko w wybranym opisie pewnych zjawisk na poziomie molekularnym, np. nie- zale|ne bazy zbierajce informacje o sekwencjach aminokwasów, strukturach biaBek i in- nych wBa[ciwo[ciach biomolekuB. Wszystko to powoduje, |e z Batwo[ci mo|na si zgubi w [wiecie bioinformatycznych baz danych. Problem ten w du|ej mierze minimalizuj sie- ciowe (internetowe) systemy scentralizowanego dostpu do bioinformatycznych baz da- nych, które koncentruj dane: opisujce ró|ne organizmy, dotyczce ró|nych poziomów opisu biaBek i innych czstek, pochodzce bezpo[rednio z badaD laboratoryjnych lub wy- prowadzone na podstawie istniejcych ju| danych. Systemy tego typu udostpniaj ogrom- ne zbiory danych, najcz[ciej nieodpBatnie, a tak|e zestaw narzdzi umo|liwiajcych wy- szukiwanie interesujcej informacji. Udostpnione narzdzia implementuj najnowsze me- tody w zakresie przetwarzania danych biologicznych. Na pewnym etapie, przetwarzanie da- nych z wykorzystaniem przegldarek internetowych mo|e okaza si du|ym ogranicze- niem, jednak|e jest to bardzo dobre miejsce, aby rozpocz swoj przygod z bioinformaty- k i ogromem informacji jej dotyczcych. PrzykBadem systemu scentralizowanego dostpu do bioinformatycznych baz danych mo|e by serwis European Bioinformatics Institute EBI (rys. 4), który grupuje dane z ponad 150 rozproszonych baz danych [7]. Udostpnia on ponadto odpowiednie narzdzia wyszukiwania informacji w ró|nych bazach danych, m.in. narzdzia SRS (Sequence Retrieval System) dla danych sekwencyjnych i SRS3D [44] dla danych strukturalnych. U|ytkownik mo|e wybra, z któr baz danych chce wspóBpraco- wa  bazy pogrupowane s zgodnie z klasyfikacj ze wzgldu na poziom opisu molekular- nego, np. bazy sekwencji nukleotydowych, bazy sekwencji aminokwasów, natomiast podsekcje ka|dej z baz przydzielone s dla ró|nych organizmów/gatunków zgodnie z po- dziaBem organizmów podobnym do przedstawionego w podrozdziale 2.2. Podobne przeznaczenie ma system Entrez [45] amerykaDskiej organizacji NCBI. Entrez jest opartym na wyszukiwaniu tekstowym systemem dostpu do informacji biologicznej. PodziaB baz danych jest podobny jak w przypadku systemu EBI. Oba systemy udostpniaj wBasne bazy danych biologicznych, jak równie| bazy stowarzyszone, pierwotnie rozwijane przez inne organizacje. Ka|dy z systemów udostpnia tak|e narzdzia umo|liwiajce deponowanie danych pochodzcych z przeprowadzonych badaD oraz narzdzia aproksymacyjnego wy- szukiwania informacji, takie jak np. BLAST [46]. 7 Mitochondrium to organella (jednostka) komórki eukariotycznej, w której zachodz procesy bdce gBównym zródBem energii (ATP) dla komórki, w szczególno[ci proces fosforylacji oksydacyjnej [18]. 8 Chloroplast to otoczona podwójn bBon biaBkowo-lipidow organella komórkowa ro[lin i eukario- tycznych glonów, w której zachodzi proces fotosyntezy [18]. 113 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 D. Mrozek, B. MaBysiak Rys. 4. System zintegrowanego dostpu do bioinformatycznych baz danych European Bio- informatics Institute (EBI, http://www.ebi.ac.uk/services/) 4 Podsumowanie Bioinformatyka jest dziedzin nauki, która wspomaga naukowców w przetwarzaniu ogromnej ilo[ci danych pochodzcych z eksperymentów i badaD biologicznych. Dane o charakterze biologicznym s przechowywane w specjalnie do tego celu stworzonych bioinformatycznych bazach danych. W rozdziale przedstawiono dwa sposoby klasyfikacji bioinformatycznych baz danych: ze wzgldu na zródBo pochodzenia danych oraz ze wzgldu na gatunek/organizm, którego dane s gromadzone. W prezentowanych zestawieniach podano kilka wybranych baz danych dla odpowiedniego gatunku/organizmu. Nale|y jednak pamita, |e takich baz jest bardzo wiele. Nie sposób wymieni wszystkich, a i potencjalna lista takich baz szybko zdezaktualizowaBaby si, bowiem codziennie przybywa nowych obszarów badaD i grup badawczych zajmujcych si wybran dziedzin lub gatunkiem. Bardzo wiele z baz danych zorientowanych na okre[lony gatunek wymienia swoje dane z centralnymi repozytoriami, takimi jak: bank genów GenBank, czy bank sekwencji biaBkowych EMBL Uniprot/SwissProt [47]. Dane te s nastpnie poddawane analizie prowadzonej przez grupy fachowców specjalizujcych si w okre[lonym gatunku. Otrzymane na podstawie analiz dane s skBadowane w lokalnych bazach danego zespoBu badawczego i mog by udostpniane publicznie poprzez portale internetowe prowadzone przez te zespoBy. Otrzymane dane mog by równie| deponowane w centralnych repozyto- riach (o ile wcze[niej przejd odpowiedni proces walidacji i rewizji) i udostpnione za po[rednictwem systemów scentralizowanego dostpu, takich jak: EBI SRS czy NCBI Entrez. 114 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 Bioinformatyczne bazy danych  rola, miejsce i klasyfikacja Literatura 1. U.S. Department of Health and Human Services, U.S. Department of Energy, Understanding our genetic inheritance - the U.S. Human Genome Project. DOE/ER-0452P. NIH Publication No. 90-1590. 2. Higgins D. (ed.), Taylor W. (ed.), Bioinformatics: Sequence, Structure and Databanks  A Prac- tical Approach, Oxford University Press, 2000. 3. Lesk A.M., Introduction to Bioinformatics, Oxford University Press, 2002. 4. Mount D.W., Bioinformatics: Sequence and Genome Analysis, Cold Spring Harbor Laboratory Press, 2001. 5. Attwood T.K., Parry- Smith D.J., Introduction to Bioinformatics, Prentice Hall, 1999. 6. Baxevanis A.D., Ouellette B.F.F.: Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins. John Wiley & Sons, Inc. 2001. 7. Ouzounis Ch., Goldman N., Rice P., Lopez R., Bioinformatics Educational Resource of the European Bioinformatics Institute (EBI), http://www.ebi.ac.uk/ 8. Dickerson R.E., Geis I.: The structure and action of proteins. 2nd ed. Benjamin/Cummings, Redwood City, Calif.Concise, 1981. 9. Murray R.K., Daryl K.G., Mayes P.A., Rodwell V.W.: Biochemia Harpera. Wydawnictwo Lekarskie PZWL, Warszawa 1995. 10. Richardson J.S., Richardson D.C., Tweedy N.B., Gernert K.M., Quinn T.P. et al.: Looking at proteins: representations, folding, packing and design. Biophys.J., 63:1186-ð-1220, 1992. 11. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N. and Bourne P.E.: The Protein Data Bank. Nucleic Acids Res., 28, 235 242, 2000. 12. Frezal J.: Genatlas database, genes and development defects. C. R. Acad. Sci. III, 321, 805 817, 1998. 13. Salamov A.A., Nishikawa T. and Swindells M. B.: Assessing protein coding region integrity in cDNA sequencing projects. Bioinformatics 14(5):384-90, 1998. 14. Agaton C., Uhlen M., Hober S.: Genome-based proteomics. Electrophoresis 25(9):1280-8, 2004. 15. Blake J.A., Richardson J.E., Davisson M.T., Eppig J.T. and the Mouse Genome Informatics Group: The Mouse Genome Database (MGD). A comprehensive public resource of genetic, phenotypic and genomic data. Nucleic Acids Res., 25: 85-91, 1997. 16. Twigger S., Lu J., Shimoyama M., Chen D., et al.: Rat Genome Database (RGD): mapping disease onto the genome. Nucleic Acids Res. 30(1):125-8, 2002. 17. Hu J., Mungall C., Law A., Papworth R., et al.: The ARKdb: genome databases for farmed and other animals. Nucleic Acids Res., 29(1):106-10, 2001. 18. Wikipedia - Wolna Encyklopedia, http://pl.wikipedia.org/ 19. Ashburner M., Drysdale R.: FlyBase  the Drosophila genetic database. Development. 120(7):2077-9, 1994. 20. Curwen V., Eyras E., Andrews T.D., Clarke L., Mongin E., Searle S.M., Clamp M..: The Ensembl automatic gene annotation system. Genome Res.14(5):942-50, 2004. 21. Kreppel L., Fey P., Gaudet P., Just E., Kibbe W.A., Chisholm R.L., Kimmel A.R.: dictyBase: a new Dictyostelium discoideum genome database. Nucleic Acids Res., 32 (Database issue): D332-3, 2004. 22. Stein L., Sternberg P., Durbin R., Thierry-Mieg J., Spieth J.: WormBase: network access to the genome and biology of Caenorhabditis elegans. Nucleic Acids Res., 29(1):82-6, 2001. 23. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler D.L.: GenBank: update. Nu- cleic Acids Res., 32 (Database issue):D23-6, 2004. 24. Kissinger J.C., Gajria B., Li L., Paulsen I.T., Roos D.S.: ToxoDB: accessing the Toxoplasma gondii genome. Nucleic Acids Res., 31(1):234-6, 2003. 25. McCarthy S.: USDA's Plant Genome Research Program. Bull Med Libr Assoc. 81(3):278-81, 1993. 26. Ouyang S., Buell C.R..: The TIGR Plant Repeat Databases: a collective resource for the identification of repetitive sequences in plants. Nucleic Acids Res., 32(Database issue): D360-3, 2004. 115 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl RozdziaB monografii: 'Bazy Danych: Struktury, Algorytmy, Metody', Kozielski S., MaBysiak B., Kasprowski P., Mrozek D. (red.), WKA 2006 D. Mrozek, B. MaBysiak 27. Rathinavelu R.: Insights on CoffeeDNA: a Database of Coffee Genomics, publikacja internetowa International Centre for Science and High Technology i United Nations Industrial Development Organization. http://www.ics.trieste.it/ 28. Mewes H.W., Albermann K., Heumann K., Liebl S., Pfeiffer F.: MIPS: a database for protein se- quences, homology data and yeast genome information. Nucleic Acids Res., 25(1):28-30, 1997. 29. André B.: An overview of membrane transport proteins in Saccharomyces cerevisiae. Yeast 11, 1575-1611, 1995. 30. Nierman W.C., May G., Kim H.S., Anderson M.J., Chen D., Denning D.W.: What the Aspergill- us genomes have told us. Med Mycol., 43 Suppl 1:S3-5, 2005. 31. Arnaud M.B., Costanzo M.C., Skrzypek M.S., Binkley G., Lane C., Miyasato S.R., Sherlock G.: The Candida Genome Database (CGD), a community resource for Candida albicans gene and protein information. Nucleic Acids Res., 33(Database issue):D358-63, 2005. 32. Kroeger M. and Wahl R.: Compilation of DNA sequences of Escherichia coli K12; description of the interactive databases ECD and ECDC (update 1996) Nucleic Acids Res., 25: 39-42, 1997. 33. Bairoch A., Apweiler R.: The SWISS-PROT protein sequence data bank and its new supplement TREMBL. Nucleic Acids Res., 24(1):21-5, 1996. 34. Komagata K.: Microbial resource centers in Japan and Asia. In S. Sugawara, and S. Miyazaki (ed.), Microbial resource centers in the 21st century: new paradigms. WFCC-MIRCEN World Data Centre for Microorganisms, Shizuoka, Japan, 1999. 35. Kawarabayasi Y., Hino Y., Horikawa H., Yamazaki S., Haikawa Y., Jinno K., et al.: Complete genome sequence of an aerobic hyper-thermophilic crenarchaeon, Aeropyrum pernix K1. DNA Res., 6(2):83-101, 145-52, 1999. 36. Cohen G., Barbe V., Flament D., Galperin M., et al.: An integrated analysis of the genome of the hyperthermophilic archaeon Pyrococcus abyssi. Mol Microbiol., 47:1495-512, 2003. 37. Higuchi S., Kawashima T., Suzuki M.: Comparison of pathways for amino acid biosynthesis in archaebacteria using their genomic DNA sequences. Proc. Japan Acad., 75B, 241-245, 1999. 38. Combet C., Penin F., Geourjon C., Deleage G.: HCVDB: hepatitis C virus sequences database. Appl Bioinformatics, 3(4):237-40, 2004. 39. Stoesser G., Sterk P., Tuli M.A., Stoehr P.J., Cameron G.N..: The EMBL Nucleotide Sequence Database. Nucleic Acids Res. 25(1):7-14, 1997. 40. Myers G., Josephs S.F., Rabson A.B., Smith T.F.: Human Retroviruses and AIDS 1987: A Compilation and Analysis of Nucleic Acid and Amino Acid Sequences. Eds. Theoretical Biology and Biophysics Group, Los Alamos National Laboratory, Los Alamos, NM, 1987. 41. King A.M.Q., Brown F., Christian P., et al.: Picornaviridae. In "Virus Taxonomy: The Classification and Nomenclature of Viruses. The Seventh Report of the International Committee on Taxonomy of Viruses". Eds. Van Regenmortel, M.H.V., et al., Academic Press, San Diego, pp. 657-673. 42. Korab-Laskowska M., Rioux P., Brossard N., Littlejohn T.G., Gray M.W., Lang B.F., Burger G.: The Organelle Genome Database Project (GOBASE). Nucleic Acids Res., 26(1):138-44, 1998. 43. Attimonelli M., Altamura N., Benne R., Boyen C., et al. : MitBASE: a comprehensive and integrated mitochondrial DNA database. Nucleic Acids Res., 27(1):128-33, 1999. 44. O'Donoghue S.I., Meyer J.E., Schafferhans A., Fries K.: The SRS 3D module: integrating structures, sequences and features. Bioinformatics, 20(15):2476-8, 2004. 45. Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A.: Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141-62, 1996. 46. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J.: Basic local alignment search tool. J Mol Biol, 215:403-10, 1990. 47. Apweiler R., Bairoch A., Wu C.H., Barker W.C., et al.: UniProt: the Universal Protein knowledgebase. Nucleic Acids Res. 32(Database issue):D115-9, 2004. 116 (c) Copyright by Politechnika Zlska, Instytut Informatyki, Gliwice 2006 www.bdas.pl

Wyszukiwarka

Podobne podstrony:
bioinf3
Bioinformatics 2011 Zhang 2083 8
bioinfoI wyklad03
bioinf4
Bioinformatics 2012 Vlachakis bioinformatics bts637(3)
elementy bioinformatyki wyklad4
Bioinformatyka4
Bioinformatyka wykłady
Bioinformatics 2011 Bakan 1575 7(1)
Bioinformatyka skrypt3
bioinf5
bioinformatyczneBD lab1
bioinf2 sylabusy
bioinfoI wyklad04
bioinf1
bioinf2
bioinformatyczneBD lab2

więcej podobnych podstron