2013-04-14
1
Baza danych
zbiór informacji
zapisanych w formie cyfrowej
uporządkowanych zgodnie z określonymi regułami
dostępnych z wykorzystaniem specjalistycznego oprogramowania
Elementy bioinformatyki
Biologiczne bazy danych
2013-04-14
2
Baza danych
Elementy bioinformatyki
Biologiczne bazy danych
Program
Zbór danych i co dalej?
Modele baz danych
•
Bazy proste:
•
kartotekowe
•
hierarchiczne
•
Bazy złożone:
•
relacyjne
•
obiektowe
•
relacyjno-obiektowe
•
Inne:
Sieciowe, temporalne, konceptualne bazy danych
Elementy bioinformatyki
Biologiczne bazy danych
2013-04-14
3
Relacyjne bazy danych
Elementy bioinformatyki
Biologiczne bazy danych
Studenci
Id_Studenda Imię
Rok
S1
Jaś
3
S2
Małgosia
3
S3
Jola
2
Kursy
Id_Kursu
Nazwa
Id_prowadzącego
K1
Biochemia
P2
K2
Mikrobiologia
P1
Prowadzący
Id_prowadzącego
Imię
Wydział
P1
Dr A
W3
P2
Dr B
W3
Uczestnicy
Id_uczestnika
Id_Kursu
Id_Studenda
1
K2
S2
2
K2
S3
3
K1
S1
4
K1
S2
Wyszukiwanie w bazach danych:
Elementy bioinformatyki
Biologiczne bazy danych
Identyfikatory:
CAS (Chemical Abstracts Service) Registry Number – numeryczny identyfikator dla substancji chemicznej (ale również
polimerów, stopów, mieszanin czy sekwencji biologicznych)
InChI (IUPAC International Chemical Identifier) – tekstowy identyfikator substancji chemicznych
EC number (Enzyme Commission number ) – numeryczny identyfikato enzymów
Identyfikatory w bazach danych: np. nr PDB, gi, AN
•Właściwości substancji : e.g. Molecular weight, IUPAC name
•Indeksy artykułów i książek
•ISBN (International Standard Book Number) – Międzynarodowy Znormalizowany Numer Książki; 13-cyfrowy, niepowtarzalny
identyfikator książki
•ISSN (International Standard Serial Number) - Międzynarodowy Znormalizowany Numer Wydawnictwa Ciągłego, 8-cyfrowy,
niepowtarzalny identyfikator wydawnictw ciągłych (tradycyjnych oraz elektronicznych)
•MeSH (Medical Subject Headings) - controlled vocabulary used for indexing articles
•DOI (digital object identifier) - cyfrowy identyfikator dokumentu elektronicznego
2013-04-14
4
Wyszukiwanie proste:
Operatory logiczne:
AND, OR, NOT — wpisujemy wielkimi litrami; czytane są od lewej do prawej, zmiana kolejności możliwa
jest przez zastosowanie nawiasów
myoglobin AND human
Elementy bioinformatyki
Biologiczne bazy danych
myoglobin AND hemoglobin AND human
Elementy bioinformatyki
Biologiczne bazy danych
myoglobin OR hemoglobin AND human
2013-04-14
5
Wyszukiwanie proste:
• Autorzy: nazwisko i pierwsza litera imienia (bez kropek), np. johnson p
• Istnieje możliwość stosowania * na końcu wyrażenia
• Identyfikatory:
• Accession number (AN) — unikalny, niezmienny numer przypisany do określonego rekordu
Sequence identification numbers:
• GI (GenInfo Identifier) — identyfikator sekwencji
• Version — reprezentuje pojedynczą sekwencję; format numeru: accession.version
• EC (Enzyme Commission Number) — klasyfikator enzymu
Elementy bioinformatyki
Biologiczne bazy danych
Deskryptory (kwalifikatory):
Elementy bioinformatyki
Biologiczne bazy danych
http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.html#Search_Fields_and_Qualifiers
Szukane pole
Opis
Symbol
Wszystkie pola
Wyszukiwanie we wszystkich polach bazy
[ALL]
Słowa kluczowe
Pole zawierające zestaw terminów kluczowych (każda baza ma własny słownik
słów kluczowych). Niedostępne w bazie Structure.
[KYWD]
Tytuł rekordu
Wyszukiwanie w linii tytułowej rekordu bazy danych (definicji). Informacja tam
zawarta jest starannie wybrana tak, aby zawierała najważniejsze dane
biologiczne sekwencji. Standardowo zawiera nazwę organizmu, nazwę
produktu, symbol genu oraz informację czy rekord zawiera kompletną
sekwencję czy fragment.
[TITL]
Accession
Zawiera unikalny numer identyfikujący rekord przypisany do rekordów z
sekwencjami nukleotydowymi, białkowymi, genomami, strukturami.
[ACCN]
Nazwa genu
Systematyczne oraz zwyczajowe nazwy genów.
[GENE]
Nazwa białka
Systematyczna nazwa białka (np. enzymu). Uwaga: nazwy zwyczajowe lub mniej
popularne synonimy mogą być pominięte
[PROT]
Organizm
Taksonomiczna lub zwyczajowa nazwa organizmu
[ORGN]
2013-04-14
6
Deskryptory (kwalifikatory):
myoglobin[TITL] OR hemoglobin[TITL] AND human[ORGN]
Elementy bioinformatyki
Biologiczne bazy danych
http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.html#Search_Fields_and_Qualifiers
myoglobin[PROT] OR hemoglobin[PROT] AND human[ORGN]
Deskryptory (kwalifikatory):
Elementy bioinformatyki
Biologiczne bazy danych
http://www.ncbi.nlm.nih.gov/books/NBK3827/#pubmedhelp.Search_Field_Descrip
http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.html#Search_Fields_and_Qualifiers
Szukane pole
Opis
Symbol
Identyfikator
publikacji w bazie
PubMed
Unikalny identyfikator publikacji w bazie PubMed.
[PMID]
Autor
Wyszukiwanie według nazwisk i inicjałów autorów
publikacji (format: „marley jf”).
[AU]
Czasopismo
Skrócony tytuł periodyku w którym pojawiła się
publikacja (bez kropek, np. „J Biol Chem”). Zamiast
tytułu można podać nr ISSN.
[TA]
Nr woluminu
Numer woluminu czasopisma, w którym ukazała się
publikacja.
[VI]
Nr wydania
Numer czasopisma (Issue) w którym pojawiła się
publikacja opisująca dany rekord.
[IP]
Identyfikator
publikacji
Numer dostarczony przez wydawcę np. DOI.
[AID]
Wyszukiwanie wg publikacji źródłowych
Zakres dostępności pól deskryptorów
2013-04-14
7
Wyszukiwanie proste:
Zakresy:
• AJ010595:AJ010600 [ACCN] — zakres dla Accession number (nie można podać zakresu dla GI)
• 003300:004500 [Molecular Weight] — zakres dla masy molekularnej
• 2000:5000 [SLEN] — zakres dla długości sekwencji
• 2:200 [SLEN] — wyszukuje sekwencje krótsze niż 150
• 450000:99999999 [SLEN] — wyszukuje sekwencje dłuższe od 325000
• 2000/01/02:2000/30/06 [DP] — zakres dla daty publikacji
Złożone zapytania:
Składnia: term [fild] OPERATOR term [fild] OPERATOR term [fild] itd.
np. 002002:002009 [Molecular Weight] AND human [Organism]
Elementy bioinformatyki
Biologiczne bazy danych
Wyszukiwanie zaawansowane:
• Limits —ograniczenie zakresu poszukiwań do pojedynczego pola(np. : autor, organizm) wprowadzenie
ograniczeń czasowych przeszukiwania (data publikacji, data modyfikacji) i inne. Nie wszystkie opcje
przeszukiwania dostępne są w każdej bazie.
• Advanced/Index — umożliwia wyświetlenie alfabetycznej listy wyrażeń które możemy wybrać przy
przeszukiwaniu bazy (różni się dla różnych baz).
• Advanced/History — zachowuje zapytania zadawane przez użytkownika (dla każdej bazy osobno).
Umożliwia łączenie kilku poleceń w celu zawężenia poszukiwań. Zapytania przechowywane są przez 8h
od momentu ostatniego ich przywołania.
• Send to/Clipboard — możliwość zapisu wybranych rekordów (limit do 500), oraz zachowania ich na
dysku w wybranym formacie. Wyniki tracone są po 8h bezczynności.
• Details — opcja przedstawia strategię poszukiwań w postaci przetłumaczonej przez program ENTREZ, tu
też można znaleźć ewentualne błędy w składni oraz je modyfikować.
Elementy bioinformatyki
Biologiczne bazy danych
2013-04-14
8
Elementy bioinformatyki
Biologiczne bazy danych
Wyszukiwanie - ENTREZ
Elementy bioinformatyki
Biologiczne bazy danych
Wyszukiwanie - ENTREZ
2013-04-14
9
Elementy bioinformatyki
Biologiczne bazy danych
Wyszukiwanie - ENTREZ
Elementy bioinformatyki
Biologiczne bazy danych
Gromadzone dane:
Sekwencje makrocząsteczek biologicznych
• sekwencje nukleotydowe (geny, genomy, DNA, RNA)
• sekwencje białkowe
Struktury białek oraz kwasów nukleinowych
• Informacje towarzyszące: autorzy, literatura, szczegóły eksperymentalne
Adnotacje (towarzyszące bazom pierwszorzędowym, bądź jako podstawa baz
drugorzędowych)
Dane literaturowe
2013-04-14
10
Elementy bioinformatyki
Biologiczne bazy danych
Cechy sekwencji:
• Pochodzenie – organizm
• Cechy:
• sekwencja genu, mRNA, cDNA, tRNA, CDS (sekwencja kodująca), syntetyczna
• polimorfizm
• modyfikacje
• Elementy strukturalne
• exon, intron, struktura drugorzędowa białka
• Elementy funkcjonalne
• miejsca aktywne, miejsca modyfikacji białka, kodony: start, stop
Elementy bioinformatyki
Biologiczne bazy danych
Wartość naukowa sekwencji:
• Większość sekwencji białkowych pochodzi z automatycznego przepisywania z baz nukleotydowych.
• Do sekwencji genów pochodzących z sekwencjonowania całych genomów adnotacje dodawane są
najczęściej w oparciu o homologię ze znanymi sekwencjami.
• Najcenniejsza informacja pochodzi z rzetelnych badań eksperymentalnych.
• Sekwencje o nieznanej funkcji oraz struktury o niskiej rozdzielczości mają niewielką wartość
poznawczą.
• Adnotacje tworzone w oparciu o homologię mogą generować błędy, które automatycznie
przepisywane na kolejne sekwencje są utrwalane.
• Przewidywanie struktury i funkcji opiera się o metody obliczeniowe często bazujące na algorytmach
heurystycznych.
2013-04-14
11
Elementy bioinformatyki
Biologiczne bazy danych
Działy GenBank:
LP
Skrót
Zakres
1
PRI
primate sequences
2
ROD
rodent sequences
3
MAM
other mammalian sequences
4
VRT
other vertebrate sequences
5
INV
invertebrate sequences
6
PLN
plant, fungal, and algal sequences
7
BCT
bacterial sequences
8
VRL
viral sequences
9
PHG
bacteriophage sequences
10
SYN
synthetic sequences
11
UNA
unannotated sequences
12
EST
EST sequences (expressed sequence tags)
13
PAT
patent sequences
14
STS
STS sequences (sequence tagged sites)
15
GSS
GSS sequences (genome survey sequences)
16
HTG
sequences (high-throughput genomic seq.)
17
HTC
unfinished high-throughput cDNA sequencing
18
ENV
environmental sampling sequences
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#GenBankDivisionB
Elementy bioinformatyki
Biologiczne bazy danych
Format danych bazy GenBank
2013-04-14
12
Elementy bioinformatyki
Biologiczne bazy danych
Format danych bazy GenBank
Elementy bioinformatyki
Biologiczne bazy danych
Format danych bazy GenBank
2013-04-14
13
Elementy bioinformatyki
Biologiczne bazy danych
Format danych bazy GenBank
Elementy bioinformatyki
Biologiczne bazy danych
Format FASTA: uniwersalnie stosowany w bioinformatyce format zapisu sekwencji nukleotydowych
oraz białkowych. Pierwsza linia rozpoczynająca się znakiem „>” ma charakter opisu, od następnej linii
rozpoczyna się sekwencja w notacji jednoliterowej.
Format danych bazy GenBank
2013-04-14
14
Elementy bioinformatyki
Biologiczne bazy danych
Format danych bazy GenBank
Sekwencje genu mogą być
składane z kilku fragmentów
Graficzna reprezentacja rekordu
w bazie GenBank
Elementy bioinformatyki
Biologiczne bazy danych
Adnotacje:
Informacja dodana do sekwencji biologicznej służąca wyodrębnieniu, zdefiniowaniu lub
interpretacji cech sekwencji.
Adnotacje Genów:
Część procesu analizy genów i genomów
Lokalizacja genu
Charakterystyka genu
2013-04-14
15
Elementy bioinformatyki
Biologiczne bazy danych