elementy bioinformatyki wyklad2

background image

2013-04-14

1

Baza danych

zbiór informacji

zapisanych w formie cyfrowej

uporządkowanych zgodnie z określonymi regułami

dostępnych z wykorzystaniem specjalistycznego oprogramowania

Elementy bioinformatyki

Biologiczne bazy danych

background image

2013-04-14

2

Baza danych

Elementy bioinformatyki

Biologiczne bazy danych

Program

Zbór danych i co dalej?

Modele baz danych

Bazy proste:

kartotekowe

hierarchiczne

Bazy złożone:

relacyjne

obiektowe

relacyjno-obiektowe

Inne:

Sieciowe, temporalne, konceptualne bazy danych

Elementy bioinformatyki

Biologiczne bazy danych

background image

2013-04-14

3

Relacyjne bazy danych

Elementy bioinformatyki

Biologiczne bazy danych

Studenci

Id_Studenda Imię

Rok

S1

Jaś

3

S2

Małgosia

3

S3

Jola

2

Kursy

Id_Kursu

Nazwa

Id_prowadzącego

K1

Biochemia

P2

K2

Mikrobiologia

P1

Prowadzący

Id_prowadzącego

Imię

Wydział

P1

Dr A

W3

P2

Dr B

W3

Uczestnicy

Id_uczestnika

Id_Kursu

Id_Studenda

1

K2

S2

2

K2

S3

3

K1

S1

4

K1

S2

Wyszukiwanie w bazach danych:

Elementy bioinformatyki

Biologiczne bazy danych

Identyfikatory:

CAS (Chemical Abstracts Service) Registry Number – numeryczny identyfikator dla substancji chemicznej (ale również

polimerów, stopów, mieszanin czy sekwencji biologicznych)
InChI (IUPAC International Chemical Identifier) – tekstowy identyfikator substancji chemicznych
EC number (Enzyme Commission number ) – numeryczny identyfikato enzymów
Identyfikatory w bazach danych: np. nr PDB, gi, AN

•Właściwości substancji : e.g. Molecular weight, IUPAC name

•Indeksy artykułów i książek

ISBN (International Standard Book Number) – Międzynarodowy Znormalizowany Numer Książki; 13-cyfrowy, niepowtarzalny

identyfikator książki
ISSN (International Standard Serial Number) - Międzynarodowy Znormalizowany Numer Wydawnictwa Ciągłego, 8-cyfrowy,

niepowtarzalny identyfikator wydawnictw ciągłych (tradycyjnych oraz elektronicznych)
MeSH (Medical Subject Headings) - controlled vocabulary used for indexing articles
DOI (digital object identifier) - cyfrowy identyfikator dokumentu elektronicznego

background image

2013-04-14

4

Wyszukiwanie proste:

Operatory logiczne:
AND, OR, NOT — wpisujemy wielkimi litrami; czytane są od lewej do prawej, zmiana kolejności możliwa
jest przez zastosowanie nawiasów

myoglobin AND human

Elementy bioinformatyki

Biologiczne bazy danych

myoglobin AND hemoglobin AND human

Elementy bioinformatyki

Biologiczne bazy danych

myoglobin OR hemoglobin AND human

background image

2013-04-14

5

Wyszukiwanie proste:

Autorzy: nazwisko i pierwsza litera imienia (bez kropek), np. johnson p
Istnieje możliwość stosowania * na końcu wyrażenia
Identyfikatory:

Accession number (AN) — unikalny, niezmienny numer przypisany do określonego rekordu

Sequence identification numbers:
GI (GenInfo Identifier) — identyfikator sekwencji
Version — reprezentuje pojedynczą sekwencję; format numeru: accession.version

EC (Enzyme Commission Number) — klasyfikator enzymu

Elementy bioinformatyki

Biologiczne bazy danych

Deskryptory (kwalifikatory):

Elementy bioinformatyki

Biologiczne bazy danych

http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.html#Search_Fields_and_Qualifiers

Szukane pole

Opis

Symbol

Wszystkie pola

Wyszukiwanie we wszystkich polach bazy

[ALL]

Słowa kluczowe

Pole zawierające zestaw terminów kluczowych (każda baza ma własny słownik
słów kluczowych). Niedostępne w bazie Structure.

[KYWD]

Tytuł rekordu

Wyszukiwanie w linii tytułowej rekordu bazy danych (definicji). Informacja tam
zawarta jest starannie wybrana tak, aby zawierała najważniejsze dane
biologiczne sekwencji. Standardowo zawiera nazwę organizmu, nazwę
produktu, symbol genu oraz informację czy rekord zawiera kompletną
sekwencję czy fragment.

[TITL]

Accession

Zawiera unikalny numer identyfikujący rekord przypisany do rekordów z
sekwencjami nukleotydowymi, białkowymi, genomami, strukturami.

[ACCN]

Nazwa genu

Systematyczne oraz zwyczajowe nazwy genów.

[GENE]

Nazwa białka

Systematyczna nazwa białka (np. enzymu). Uwaga: nazwy zwyczajowe lub mniej
popularne synonimy mogą być pominięte

[PROT]

Organizm

Taksonomiczna lub zwyczajowa nazwa organizmu

[ORGN]

background image

2013-04-14

6

Deskryptory (kwalifikatory):

myoglobin[TITL] OR hemoglobin[TITL] AND human[ORGN]

Elementy bioinformatyki

Biologiczne bazy danych

http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.html#Search_Fields_and_Qualifiers

myoglobin[PROT] OR hemoglobin[PROT] AND human[ORGN]

Deskryptory (kwalifikatory):

Elementy bioinformatyki

Biologiczne bazy danych

http://www.ncbi.nlm.nih.gov/books/NBK3827/#pubmedhelp.Search_Field_Descrip
http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.html#Search_Fields_and_Qualifiers

Szukane pole

Opis

Symbol

Identyfikator
publikacji w bazie
PubMed

Unikalny identyfikator publikacji w bazie PubMed.

[PMID]

Autor

Wyszukiwanie według nazwisk i inicjałów autorów
publikacji (format: „marley jf”).

[AU]

Czasopismo

Skrócony tytuł periodyku w którym pojawiła się
publikacja (bez kropek, np. „J Biol Chem”). Zamiast
tytułu można podać nr ISSN.

[TA]

Nr woluminu

Numer woluminu czasopisma, w którym ukazała się
publikacja.

[VI]

Nr wydania

Numer czasopisma (Issue) w którym pojawiła się
publikacja opisująca dany rekord.

[IP]

Identyfikator
publikacji

Numer dostarczony przez wydawcę np. DOI.

[AID]

Wyszukiwanie wg publikacji źródłowych

Zakres dostępności pól deskryptorów

background image

2013-04-14

7

Wyszukiwanie proste:

Zakresy:
AJ010595:AJ010600 [ACCN] — zakres dla Accession number (nie można podać zakresu dla GI)
003300:004500 [Molecular Weight] — zakres dla masy molekularnej
2000:5000 [SLEN] — zakres dla długości sekwencji

2:200 [SLEN] — wyszukuje sekwencje krótsze niż 150
450000:99999999 [SLEN] — wyszukuje sekwencje dłuższe od 325000

2000/01/02:2000/30/06 [DP] — zakres dla daty publikacji

Złożone zapytania:

Składnia: term [fild] OPERATOR term [fild] OPERATOR term [fild] itd.
np. 002002:002009 [Molecular Weight] AND human [Organism]

Elementy bioinformatyki

Biologiczne bazy danych

Wyszukiwanie zaawansowane:

Limits —ograniczenie zakresu poszukiwań do pojedynczego pola(np. : autor, organizm) wprowadzenie

ograniczeń czasowych przeszukiwania (data publikacji, data modyfikacji) i inne. Nie wszystkie opcje
przeszukiwania dostępne są w każdej bazie.

Advanced/Index — umożliwia wyświetlenie alfabetycznej listy wyrażeń które możemy wybrać przy

przeszukiwaniu bazy (różni się dla różnych baz).

Advanced/History — zachowuje zapytania zadawane przez użytkownika (dla każdej bazy osobno).

Umożliwia łączenie kilku poleceń w celu zawężenia poszukiwań. Zapytania przechowywane są przez 8h
od momentu ostatniego ich przywołania.

Send to/Clipboard — możliwość zapisu wybranych rekordów (limit do 500), oraz zachowania ich na

dysku w wybranym formacie. Wyniki tracone są po 8h bezczynności.

Details — opcja przedstawia strategię poszukiwań w postaci przetłumaczonej przez program ENTREZ, tu

też można znaleźć ewentualne błędy w składni oraz je modyfikować.

Elementy bioinformatyki

Biologiczne bazy danych

background image

2013-04-14

8

Elementy bioinformatyki

Biologiczne bazy danych

Wyszukiwanie - ENTREZ

Elementy bioinformatyki

Biologiczne bazy danych

Wyszukiwanie - ENTREZ

background image

2013-04-14

9

Elementy bioinformatyki

Biologiczne bazy danych

Wyszukiwanie - ENTREZ

Elementy bioinformatyki

Biologiczne bazy danych

Gromadzone dane:

Sekwencje makrocząsteczek biologicznych

sekwencje nukleotydowe (geny, genomy, DNA, RNA)
sekwencje białkowe

Struktury białek oraz kwasów nukleinowych

Informacje towarzyszące: autorzy, literatura, szczegóły eksperymentalne

Adnotacje (towarzyszące bazom pierwszorzędowym, bądź jako podstawa baz

drugorzędowych)

Dane literaturowe

background image

2013-04-14

10

Elementy bioinformatyki

Biologiczne bazy danych

Cechy sekwencji:

Pochodzenie – organizm
Cechy:

sekwencja genu, mRNA, cDNA, tRNA, CDS (sekwencja kodująca), syntetyczna
polimorfizm
modyfikacje

Elementy strukturalne

exon, intron, struktura drugorzędowa białka

Elementy funkcjonalne

miejsca aktywne, miejsca modyfikacji białka, kodony: start, stop

Elementy bioinformatyki

Biologiczne bazy danych

Wartość naukowa sekwencji:

Większość sekwencji białkowych pochodzi z automatycznego przepisywania z baz nukleotydowych.
Do sekwencji genów pochodzących z sekwencjonowania całych genomów adnotacje dodawane są

najczęściej w oparciu o homologię ze znanymi sekwencjami.

Najcenniejsza informacja pochodzi z rzetelnych badań eksperymentalnych.
Sekwencje o nieznanej funkcji oraz struktury o niskiej rozdzielczości mają niewielką wartość

poznawczą.

Adnotacje tworzone w oparciu o homologię mogą generować błędy, które automatycznie

przepisywane na kolejne sekwencje są utrwalane.

Przewidywanie struktury i funkcji opiera się o metody obliczeniowe często bazujące na algorytmach

heurystycznych.

background image

2013-04-14

11

Elementy bioinformatyki

Biologiczne bazy danych

Działy GenBank:

LP

Skrót

Zakres

1

PRI

primate sequences

2

ROD

rodent sequences

3

MAM

other mammalian sequences

4

VRT

other vertebrate sequences

5

INV

invertebrate sequences

6

PLN

plant, fungal, and algal sequences

7

BCT

bacterial sequences

8

VRL

viral sequences

9

PHG

bacteriophage sequences

10

SYN

synthetic sequences

11

UNA

unannotated sequences

12

EST

EST sequences (expressed sequence tags)

13

PAT

patent sequences

14

STS

STS sequences (sequence tagged sites)

15

GSS

GSS sequences (genome survey sequences)

16

HTG

sequences (high-throughput genomic seq.)

17

HTC

unfinished high-throughput cDNA sequencing

18

ENV

environmental sampling sequences

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#GenBankDivisionB

Elementy bioinformatyki

Biologiczne bazy danych

Format danych bazy GenBank

background image

2013-04-14

12

Elementy bioinformatyki

Biologiczne bazy danych

Format danych bazy GenBank

Elementy bioinformatyki

Biologiczne bazy danych

Format danych bazy GenBank

background image

2013-04-14

13

Elementy bioinformatyki

Biologiczne bazy danych

Format danych bazy GenBank

Elementy bioinformatyki

Biologiczne bazy danych

Format FASTA: uniwersalnie stosowany w bioinformatyce format zapisu sekwencji nukleotydowych
oraz białkowych. Pierwsza linia rozpoczynająca się znakiem „>” ma charakter opisu, od następnej linii
rozpoczyna się sekwencja w notacji jednoliterowej.

Format danych bazy GenBank

background image

2013-04-14

14

Elementy bioinformatyki

Biologiczne bazy danych

Format danych bazy GenBank

Sekwencje genu mogą być

składane z kilku fragmentów

Graficzna reprezentacja rekordu
w bazie GenBank

Elementy bioinformatyki

Biologiczne bazy danych

Adnotacje:

Informacja dodana do sekwencji biologicznej służąca wyodrębnieniu, zdefiniowaniu lub
interpretacji cech sekwencji.

Adnotacje Genów:

Część procesu analizy genów i genomów

Lokalizacja genu
Charakterystyka genu

background image

2013-04-14

15

Elementy bioinformatyki

Biologiczne bazy danych


Wyszukiwarka

Podobne podstrony:
elementy bioinformatyki wyklad4
elementy bioinformatyki wyklad3
elementy bioinformatyki wyklad1
ELEMENTY SEKSUOLOGII wykłady
Elementy Filozofii Wykład 1  10 2013
bhp z elementami ergonomii wyklad 9 10 2010
Elementy Ekonomi Wykład 1  10 2013
Bioinformatyka wykład 1
Elementy Ekonomi Wykład 2  10 2013, Wykład 3 10 2013, Wykład 4  11 2013
Bioinformatyka wykład 3
Elementy psychiatrii, wykład
bioinformatyka wyklad #6
bioinformatyka wyklad #3
Bioinformatyka wykłady
bioinfoI wyklad01
elementy ekonomii - wykład 4 (24.11.2007 r.), WSB, elementy ekonomi
elementy ekonomii - wykład 1 (27.10.2007 r.), WSB, elementy ekonomi

więcej podobnych podstron