Bioinformatyka wykład ocx

Bioinformatyka - wykład 2

Biologia „high-throughput”

Tradycyjnie uprawiana biologia

– Praca małych zespołów nad specjalistycznym zagadnieniem

– Dobrze zdefiniowany eksperyment, aby odpowiedzieć na precyzyjne pytanie

Nowa biologia „high-throughput” (dużej przepustowości/wydajności)

– Duże międzynarodowe zespoły używające najnowsze technologii przy definicji projektu

– Społeczności naukowej przekazywane są surowe dane bez stawiania hipotezy im towarzyszącej

Aktualne nagromadzenie ilości informacji (szacunkowo r. 2010/2011)

Dlaczego biomolekularne bazy danych?

Czym jest baza danych?

– posiadających strukturę (rekord, pole, ...)

– dających się przeszukiwać (indeksowanych)

– systematycznie aktualizowanych

– z odsyłaczami do innych baz (referencje skrośne)

Kategorie biologicznych baz danych

Biologia molekularna przepływ informacji genetycznej

replikacja

DNA

RNA

Białko

Przepływ informacji genetycznej

Podstawowy dogmat biologii molekularnej

i odstępstwa od niego

Bazy DNA

DNA

RNA

Białko (sekwencja)

Białko (struktura 3D)

DNA i RNA (GenBank ENA (d. EMBL) DDJB i bazy genomowe)

GenBank/ENA/DDJB INSDC – 3 bazy danych sekwencji DNA

International Nucleotide Sequence Database Collaboration inicjatywa zapoczątkowana w 1988 r. (http://www.insdc.org/)

– GenBank (NCBI, USA) http://www.ncbi.nlm.nih.gov/Genbank/

– ENA (d. EMBL) – European Nucleotide Archive (d. European

Molecular Biology Laboratory) (EBI, Europa) http://www.ebi.ac.uk/ena/

– DDBJ – DNA Data Bank of Japan (Mishima, Japonia)

http://www.ddbj.nig.ac.jp/

BAZY PIERWOTNE (bezpośrednie wyniki eksperymentów)

Budowa rekordu GenBank: Bazy napełniają i aktualizują ludzie

Nagłówek z deskryptorami całego rekordu

– LOCUS – nazwa, długość, typ cząst., kod sekcji

– DEFINITION – nazwa rodzajowa i gatunkowa, ...

– ACCESSION – klucz identyfikujący w bazie

– REFERENCE (co najmniej 1)

– ...

FEATURES - tabela cech z kwalifikatorami– adnotacje rekordu

– source (adnotacja obligatoryjna)

/organism= nazwa rodzajowa i gatunek (kwalif. obligatoryjny)

/db_xref= odsyłacz do innej bazy, np.. taksonomicznej

...

– CDS (sposób odtworzenia sekwencji aa z sekwencji nukleotydowej, najważniejsza cecha)

/translation= wynikowy produkt białkowy

/db_xref= odsyłacz do innej bazy np. białkowej

Sekwencja nukleotydowa (ORIGIN, CONTIG)

Przykład X02158 (Human gene for erythropoietin)

Wprowadzanie sekwencji DNA do baz ENA/GenBank/DDJB

Druga generacja baz sekwencjinukleotydowych:

bazy „Gene-centric”

– Zebrane w jednym miejscu wszystkie informacje o sekwencji związanej z określonym genem np. RefSeq

bazy „Genome-centric”

– Informacje o sekwencjach genomowych, funkcjach biochemicznych, …np. Ensembl

Bazy sekwencji białkowych UniProtKB:Swiss-Prot + TrEMBL

TrEMBL (Translated ENA (EMBL)) – sekwencje białkowe

– automatycznie (komputerowo) generowana

– zawiera wszystkie CDS tj. kodowane sekwencje białkowe (translacje) z bazy ENA (EMBL) niewłączone do Swiss-Prot

– jakość informacji zależna od jakości sekwencji nukleotydowej ENA

– suplement do Swiss-Prot

Swiss-Prot - baza danych sekwencji białkowych

– bardzo wysoka jakość adnotacji manualnych (opis funkcji białka, struktura domenowa, modyfikacje post-translacyjne, warianty, ... )

– odsyłacze do innych baz (skrośne)

– brak redundancji

Razem tworzą bazę UniProtKB (UniProtKnowledgebase) wszystkich (GenBank/ENA/DDBJ) znanych sekwencji białkowych.

Budowa rekordu bazy Swiss-Prot

Wprowadzanie sekwencji białkowej do bazy UniProtKB:

TrEMBL -> Swiss-Prot

– Sprawdzenie i analiza sekwencji narzędziami bioinformatycznymi

– Analiza informacji literaturowych

– Zewnętrzni eksperci

– Wyjście sekwencji z TrEMBL do Swiss-Prot jest nieodwracalne

Aktualnie (maj 2011):

– SwissProt 550 tys. sekwencji z 12 tys. gatunów

– TrEMBL 15 mln. sekwencji z ~359 tys. gatunków

Druga ważna baza sekwencji białkowych: NCBI-nr: Swiss-Prot + GenePept(≈TrEMBL) + RefSeq + PDB

Białko struktura 3D: Badanie denaturacji i renaturacji rybonukleazy. Wniosek: Sekwencja białkowa (struktura 1D) zawiera informację determinującą jego unikatowąj strukturę przestrzenną.Nagroda Nobla w 1972 r.

Protein Data Bank: Jedyna baza struktur przestrzennych białek

Zawiera współrzędne przestrzenne atomów makrocząsteczek, które zmierzono metodami:

– rentgenograficznymi (kryształy)

– NMR (roztwory)

– mikroskopii elektronowej

Zawiera struktury białek (ok. 90%, pozostałe to DNA, RNA, cukry, wirusy, kompleksy białko/DNA, …)

Budowa rekordu bazy Protein Data Bank:

Wprowadzanie struktury białkowej do bazy Protein Data Bank:

Bazy genomowe:

MIM/OMIM – Online Mendelian Inheritance in Man

– katalog genów człowieka i zaburzeń genetycznych

– Podsumowanie informacji literaturowych,odsyłacze do publikacji i informacji o sekwencjach

Bazy rodzin/domen białek

Białka posiadają strukturę domenową, średnio 3 domeny/białko

Domeny konserwatywny fragment sekwencji i struktury

Bazy – PROSITE,– ProDom,- PRINTS,– Pfam,– SMART

Bazy metaboliczne:

Zawierają informacje opisujące enzymy, reakcje biochemiczne i ścieżki metaboliczne

BRENDA

– nazwy enzymów, symbole EC, katalizowane reakcje, dane fizykochemiczne

– doskonałe narzędzie do przygotowania eksperymentu biochemicznego

KEEG m.in. szlaki metaboliczne

Bazy biliograficzne:

Medline – publikacje biomedyczne (>18 mln., 20 tys. czasopism, od 1860 r.)

AGRICOLA – publikacje dot. rolnictwa

PubMed – dostęp do MEDLINE i innych czasopism dot. nauk o życiu

ISI Web of Knowledge– prawie wszystko (baza komercyjna)

Dziesięć ważnych baz *

* wg „Bioinformatics for dummies”


Wyszukiwarka

Podobne podstrony:
elementy bioinformatyki wyklad2
Bioinformatyka wykład 1
Bioinformatyka wykład 3
elementy bioinformatyki wyklad4
bioinformatyka wyklad #6
bioinformatyka wyklad #3
Bioinformatyka wykłady
bioinfoI wyklad01
elementy bioinformatyki wyklad3
bioinfoI wyklad03
bioinfoI wyklad02
Bioinformatyka wyklad #4
elementy bioinformatyki wyklad1
Bioinformatyka wykładMocx
bioinformatyka wyklad #2
Bioinformatyka wykład 5
bioinfoI wyklad04
elementy bioinformatyki wyklad2

więcej podobnych podstron