Bioinformatyka - wykład 2
Biologia „high-throughput”
Tradycyjnie uprawiana biologia
– Praca małych zespołów nad specjalistycznym zagadnieniem
– Dobrze zdefiniowany eksperyment, aby odpowiedzieć na precyzyjne pytanie
Nowa biologia „high-throughput” (dużej przepustowości/wydajności)
– Duże międzynarodowe zespoły używające najnowsze technologii przy definicji projektu
– Społeczności naukowej przekazywane są surowe dane bez stawiania hipotezy im towarzyszącej
Aktualne nagromadzenie ilości informacji (szacunkowo r. 2010/2011)
200 mln. sekwencji nukleotydowych
300 mld. nukleotydów
>130 tys. gatunków
5000 trwających przedsięwzięć badań genomów, w tym 1500 zsekwencjonowanych( 1 tys. – mld. nukleotydów/genom)
15,5 mln. sekwencji białkowych (~300 aminokwasów/sekwencję)
67,5 tys. struktur przestrzennych białek (ok.1500 atomów/strukturę)
>15 mln. cytowań w literaturze nauk
Dlaczego biomolekularne bazy danych?
Wykładniczy wzrost ilości danych
Dane (sekwencje DNA, RNA, białkowe, analizy żelowe 2D, struktury 3D, ...) nie są już publikowane w „tradycyjny” sposób lecz wprowadzane do baz danych
Jedno z podstawowych narzędzi badań biologicznych
Czym jest baza danych?
Baza danych to kolekcja danych
– posiadających strukturę (rekord, pole, ...)
– dających się przeszukiwać (indeksowanych)
– systematycznie aktualizowanych
– z odsyłaczami do innych baz (referencje skrośne)
Wyposażona w narzędzia programowe niezbędne do przeszukiwania, aktualizowania, usuwania, dodawania, ...informacji
Kategorie biologicznych baz danych
Sekwencje nukleotydowe (b. pierwotne) (INSDC, ...)
Genomy (OMIM, ...)
Mutacje/polimorfizm (HMGD, ...)
Sekwencje białkowe (b. pierwotne) (Swiss-Prot, ...)
Białka domeny/rodziny (InterPro, ...)
Proteomowe (m.in. elektroforeza 2D, spektrometria masowa) (Maize-2DPAGE, ...)
Struktury 3D (PDB)
Metabolizm/Szlaki (Brenda, KEGG, ...)
Bibliografia (Medline, ...)
Biologia molekularna przepływ informacji genetycznej
replikacja
DNA
RNA
Białko
Przepływ informacji genetycznej
Podstawowy dogmat biologii molekularnej
i odstępstwa od niego
Bazy DNA
DNA
↓
RNA
↓
Białko (sekwencja)
↓
Białko (struktura 3D)
DNA i RNA (GenBank ENA (d. EMBL) DDJB i bazy genomowe)
GenBank/ENA/DDJB INSDC – 3 bazy danych sekwencji DNA
International Nucleotide Sequence Database Collaboration inicjatywa zapoczątkowana w 1988 r. (http://www.insdc.org/)
– GenBank (NCBI, USA) http://www.ncbi.nlm.nih.gov/Genbank/
– ENA (d. EMBL) – European Nucleotide Archive (d. European
Molecular Biology Laboratory) (EBI, Europa) http://www.ebi.ac.uk/ena/
– DDBJ – DNA Data Bank of Japan (Mishima, Japonia)
http://www.ddbj.nig.ac.jp/
BAZY PIERWOTNE (bezpośrednie wyniki eksperymentów)
Wzajemnie uzgadniane
Informacje identyczne, ale prezentowane w nieco innych formatach
Rodzaj archiwum „po wsze czasy” uzyskanych w badaniach sekwencji nukleotydowych
Zawierają błędy! mogące się powielać
Budowa rekordu GenBank: Bazy napełniają i aktualizują ludzie
Nagłówek z deskryptorami całego rekordu
– LOCUS – nazwa, długość, typ cząst., kod sekcji
– DEFINITION – nazwa rodzajowa i gatunkowa, ...
– ACCESSION – klucz identyfikujący w bazie
– REFERENCE (co najmniej 1)
– ...
FEATURES - tabela cech z kwalifikatorami– adnotacje rekordu
– source (adnotacja obligatoryjna)
/organism= nazwa rodzajowa i gatunek (kwalif. obligatoryjny)
/db_xref= odsyłacz do innej bazy, np.. taksonomicznej
...
– CDS (sposób odtworzenia sekwencji aa z sekwencji nukleotydowej, najważniejsza cecha)
/translation= wynikowy produkt białkowy
/db_xref= odsyłacz do innej bazy np. białkowej
Sekwencja nukleotydowa (ORIGIN, CONTIG)
Przykład X02158 (Human gene for erythropoietin)
Wprowadzanie sekwencji DNA do baz ENA/GenBank/DDJB
Każdy badacz może wprowadzić sekwencję z odpowiednimi adnotacjami, w szczególności kodowaną sekwencją białkową (CDS)
Sekwencja w jednej bazie -> w pozostałych
Tylko sekwencje pochodzące z eksperymentu
Wprowadzanie via Internet
Aktualizacja rekordu należy do badacza, który wprowadził rekord
Aktualnie ok. 200 mln. sekwencji
Druga generacja baz sekwencjinukleotydowych:
bazy „Gene-centric”
– Zebrane w jednym miejscu wszystkie informacje o sekwencji związanej z określonym genem np. RefSeq
bazy „Genome-centric”
– Informacje o sekwencjach genomowych, funkcjach biochemicznych, …np. Ensembl
Bazy sekwencji białkowych UniProtKB:Swiss-Prot + TrEMBL
TrEMBL (Translated ENA (EMBL)) – sekwencje białkowe
– automatycznie (komputerowo) generowana
– zawiera wszystkie CDS tj. kodowane sekwencje białkowe (translacje) z bazy ENA (EMBL) niewłączone do Swiss-Prot
– jakość informacji zależna od jakości sekwencji nukleotydowej ENA
– suplement do Swiss-Prot
Swiss-Prot - baza danych sekwencji białkowych
– bardzo wysoka jakość adnotacji manualnych (opis funkcji białka, struktura domenowa, modyfikacje post-translacyjne, warianty, ... )
– odsyłacze do innych baz (skrośne)
– brak redundancji
Razem tworzą bazę UniProtKB (UniProtKnowledgebase) wszystkich (GenBank/ENA/DDBJ) znanych sekwencji białkowych.
Budowa rekordu bazy Swiss-Prot
Numer dostępu (Primary accession number), wszystkie nazwy białka
Biologiczne pochodzenie w powiązaniu z bazami taksonomicznymi
Wszystkie nazwy białka (i nazwa jego genu)
Komentarze – podsumowanie wiedzy o białku
Cechy – opis istotnych cech sekwencji (domeny, warianty ,PTM, ...)
Sekwencja z opisem wariantów i izoform
Bibliografia
Odsyłacze do baz z informacjami powiązanymi
Przykład: P01588, Erytropoetyna
Wprowadzanie sekwencji białkowej do bazy UniProtKB:
TrEMBL -> Swiss-Prot
– Sprawdzenie i analiza sekwencji narzędziami bioinformatycznymi
– Analiza informacji literaturowych
– Zewnętrzni eksperci
– Wyjście sekwencji z TrEMBL do Swiss-Prot jest nieodwracalne
Aktualnie (maj 2011):
– SwissProt 550 tys. sekwencji z 12 tys. gatunów
– TrEMBL 15 mln. sekwencji z ~359 tys. gatunków
Druga ważna baza sekwencji białkowych: NCBI-nr: Swiss-Prot + GenePept(≈TrEMBL) + RefSeq + PDB
Białko struktura 3D: Badanie denaturacji i renaturacji rybonukleazy. Wniosek: Sekwencja białkowa (struktura 1D) zawiera informację determinującą jego unikatowąj strukturę przestrzenną.Nagroda Nobla w 1972 r.
Protein Data Bank: Jedyna baza struktur przestrzennych białek
Zawiera współrzędne przestrzenne atomów makrocząsteczek, które zmierzono metodami:
– rentgenograficznymi (kryształy)
– NMR (roztwory)
– mikroskopii elektronowej
Zawiera struktury białek (ok. 90%, pozostałe to DNA, RNA, cukry, wirusy, kompleksy białko/DNA, …)
Zintegrowane wygodne narzędzia do wizualizacji (np. Jmol, Webmol, KiNG, …)
Istotna dla modelowania struktury nowych białek
Prowadzona przez RCSB - Research Collaboratory for Structural Bioinformatics (wcześniej w Brookhaven National Laboratories)
Jest „mirror” w Polsce w ICM UW
MMDB (Molecular Modeling Database) oparta na danych PDB
Budowa rekordu bazy Protein Data Bank:
Nagłówek - ogólny opis struktury –HEADER, TITLE, COMPND, SOURCE, JRNL, REMARK, DBREF (odsyłacze do innych baz danych) ... – Identyfikator PDB ID, unikatowy, alfanumeryczny 4-znakowy
sekwencja jawna (struktura chemiczna) –SEQRES, SSBOND, ...
tzw. sekwencja ukryta tj. lokalizacja przestrzenna (x,y,z) poszczególnych atomów ATOM, CONECT, ...
Przykład: 1BUY, Erytropoetyna
Wprowadzanie struktury białkowej do bazy Protein Data Bank:
Każdy badacz może wprowadzić strukturę trzeciorzędową do bazy
Kontrola poprawności danych przestrzennych
Struktura winna być wynikiem konkretnego eksperymentu
Odrzucanie (na ogół) struktur trzeciorzędowych będących wynikiem modelowania obliczeniowego struktury pierwszorzędowej
Aktualnie, p. odsyłacz
Bazy genomowe:
MIM/OMIM – Online Mendelian Inheritance in Man
– katalog genów człowieka i zaburzeń genetycznych
– Podsumowanie informacji literaturowych,odsyłacze do publikacji i informacji o sekwencjach
Bazy rodzin/domen białek
Białka posiadają strukturę domenową, średnio 3 domeny/białko
Domeny konserwatywny fragment sekwencji i struktury
Bazy – PROSITE,– ProDom,- PRINTS,– Pfam,– SMART
Bazy metaboliczne:
Zawierają informacje opisujące enzymy, reakcje biochemiczne i ścieżki metaboliczne
BRENDA
– nazwy enzymów, symbole EC, katalizowane reakcje, dane fizykochemiczne
– doskonałe narzędzie do przygotowania eksperymentu biochemicznego
KEEG m.in. szlaki metaboliczne
Bazy biliograficzne:
Medline – publikacje biomedyczne (>18 mln., 20 tys. czasopism, od 1860 r.)
AGRICOLA – publikacje dot. rolnictwa
PubMed – dostęp do MEDLINE i innych czasopism dot. nauk o życiu
ISI Web of Knowledge– prawie wszystko (baza komercyjna)
Dziesięć ważnych baz *
GenBank/DDJB/EMBL www.ncbi.nlm.nih.gov Sekwencje nukleotydowe
Ensembl www.ensembl.org Genomy
PubMed www.ncbi.nlm.nih.gov Odnośniki literaturowe
NR www.ncbi.nlm.nih.gov Sekwencje białkowe
UniProtKB www.uniprot.org Sekwencje białkowe
InterPro www.ebi.ac.uk Domeny białkowe
OMIM http://www.ncbi.nlm.nih.gov Schorzenia genetyczne
Enzymes www.expasy.org Enzymy
PDB www.rcsb.org/pdb/ Struktury 3D białek
KEGG www.genome.ad.jp Szlaki metaboliczne
* wg „Bioinformatics for dummies”