Bioinformatyka Wykład II Marcin Gołębiewski Ph.D. Zakład Biotechnologii Wydział Biologii i Nauk o Ziemi Uniwersytet Mikołaja Kopernika 2 marca 2010 Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Wstęp Zasoby informacji na temat organizmów i procesów w nich zachodzących można podzielić na kilka kategorii: Sekwencje nukleotydowe i białkowe Map genetycznych i fizycznych Struktury białek i innych biomolekół Literatura Informacje o ekspresji genów Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji: gdzie i jakie Trzy główne ośrodki gromadzenia danych sekwencyjnych to NCBI (National Center of Biological Information) w USA (www.ncbi.nlm.nih.gov) DDBJ (DNA Data Bank of Japan) w Japonii (www.ddbj.nig.ac.jp) EMBL (European Molecular Biology Laboratory) w Europie (www.embl.org) Prowadzą one zsynchronizowane bazy sekwencji nukleotydowych (DNA i RNA), odpowiednio GenBank, DDBJ i EMBL-Bank oraz białkowych (GenPept, DDBJ CDSDB i TrEMBL). Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji: format Aby informacje o sekwencjach genomów i białek gromadzone w bazach danych były użyteczne, dane muszą być przechowywane w odpowiedniej formie, łatwej do przetwarzania komputerowego, a jednocześnie do czytelnej prezentacji ludzkiemu użytkownikowi. Wymaga to określenia odpowiedniego modelu danych, czyli formalnego sposobu ich opisu. Informacje jakie należy uwzględnić to m. in.: pozycja systematyczna organizmu z którego pochodzi sekwencja rodzaj cząsteczki (DNA, RNA, białko) rodzaj sekwencji (genomowa, plazmidowa, sztucznie stworzony wektor) autor (autorzy) unikalny numer sekwencji (tzw. accession number) odnośniki do publikacji na temat sekwencji Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji: format Ponieważ najczęściej nie wyciągamy z bazy rekordów gdzie jakieś pola mają określoną wartość, tylko takie, gdzie pole sekwencja ma zawartość podobną do sekwencji którą przeszukujemy (query sequence), standardowy model relacyjnej bazy danych nie jest w tym przypadku najodpowiedniejszy. Przeszukiwanie olbrzymich baz wymaga użycia algorytmów heurystycznych, takich jak zaimplementowane w programach BLAST. Programy te mają różne wymagania co do formatu bazy danych. Np. BLAST wymaga odpowiedniego przygotowania bazy (sformatowania jej programem formatdb). Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji: format Najczęściej w bazach danych rekordy są przechowywane w plikach binarnych, w przypadku baz sekwencji korzysta się raczej z formatu tekstowego (plain text, inaczej flat file). Poszczególne rekordy są wyróżnionymi częściami jednego, dużego pliku tekstowego. Dane w takim pliku są opisywane przy użyciu języka ASN.1 (Abstract Syntax Notation 1), a następnie program umożliwiający dostęp do bazy (interface) interpretuje odpowiedni rekord i wyświetla go w wybranym, czytelnym dla człowieka, formacie. Może to być np. Fasta (inaczej format Pearson a) lub GenBank (Pept w przypadku białek), pozostałe dostępne formaty (ASN.1, html, xml itp.) są dużo mniej zwarte i trudniej interpretowalne, bądz przekazują niewiele informacji (GI list, brief). Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji: format Przykład rekordu z bazy GenPept w formacie GenPept: LOCUS NP_775029 216 aa linear BCT 06-JAN-2005 DEFINITION TraX [Citrobacter freundii]. ACCESSION NP_775029 VERSION NP_775029.1 GI:27383499 DBSOURCE REFSEQ: accession NC_004464.2 KEYWORDS . SOURCE Citrobacter freundii ORGANISM Citrobacter freundii Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Citrobacter. REFERENCE 1 (residues 1 to 216) AUTHORS Golebiewski,M., Zienkiewicz,M., Adamczyk,M., Kern-Zdanowicz,I. and Ceglowski,P. TITLE Complete nucleotide sequence of highly transmissible plasmid pCTX-M3 JOURNAL Unpublished REFERENCE 2 (residues 1 to 216) AUTHORS . CONSRTM NCBI Genome Project TITLE Direct Submission JOURNAL Submitted (27-DEC-2002) National Center for Biotechnology Information, NIH, Bethesda, MD 20894, USA REFERENCE 3 (residues 1 to 216) AUTHORS Golebiewski,M. TITLE Direct Submission Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji: format Przykład rekordu z bazy GenPept w formacie GenPept cd.: JOURNAL Submitted (18-OCT-2002) Department of Microbial Biochemistry, Institute of Biochemistry and Biophysics PAS, Pawinskiego 5A, Warsaw 02-106, Poland COMMENT PROVISIONAL REFSEQ: This record has not yet been subject to final NCBI review. The reference sequence was derived from AAN87693. Method: conceptual translation. FEATURES Location/Qualifiers source 1..216 /organism="Citrobacter freundii" /db_xref="taxon:546" /plasmid="pCTX-M3" Protein 1..216 /product="TraX" /calculated_mol_wt=23970 CDS 1..216 /gene="traX" /locus_tag="pCTX-M3_070" /coded_by="NC_004464.2:50797..51447" /note="similar to plasmid ColIb-P9 TraX in GenBank Accession Number AB021078" /citation=[PUBMED 10423535] /transl_table=11 /db_xref="GeneID:1055568" ORIGIN 1 mtdenktgdk dtaksgklkk gldvvtgvnd lpegkakrti yyitgisdiy fiiasvkqtf 61 sllfqrasfv kkqiknldgp pvdsdanqpf aevmkrsnrp vselldkasl ykkywlccff 121 alvlillflt sgyarlllng spnmsllrat ltcgvlfaag iftfikaltc efmgwqlrnq 181 ahsdaeqgtl ryflndggvr ntfnfsqagq ergphe // Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji: format Ten sam rekord w formacie fasta: >gi|27383499|ref|NP_775029.1| TraX [Citrobacter freundii] MTDENKTGDKDTAKSGKLKKGLDVVTGVNDLPEGKAKRTIYYITGISDIYFIIASVKQTFSLLFQRASFV KKQIKNLDGPPVDSDANQPFAEVMKRSNRPVSELLDKASLYKKYWLCCFFALVLILLFLTSGYARLLLNG SPNMSLLRATLTCGVLFAAGIFTFIKALTCEFMGWQLRNQAHSDAEQGTLRYFLNDGGVRNTFNFSQAGQ ERGPHE Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji - numery dostępu Każda sekwencja w bazie danych ma unikalny tzw. numer dostępu (accession number). W przypadku bazy nukleotydowej (GenBank) numer ten ma postać XXnnnnnn.n, gdzie X oznacza dowolną literę, a n dowolną cyfrę, natomiast w przypadku baz białkowych accession ma format XXXnnnnn.n. Cyfra po kropce oznacza numer wersji sekwencji - jeżeli sekwencja jest zmieniana przez autorów (np. poprawiana, czy coś jest dodawane do opisu) numer wersji zwiększa się o jeden. W bazie mogą więc znajdować się różne wersje tej samej sekwencji o tym samym accession, różniące się tylko numerem wersji. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji - numery dostępu Każda sekwencja zarówno w bazie białkowej, jak i nukleotydowej ma przypisany globalny identyfikator (global identifier - GI) - ośmiocyfrową liczbę która jest absolutnie unikalna, nie tylko w obrębie danej bazy, ale we wszystkich innych bazach sekwencyjnych. Jest on również wewnętrznym identyfikatorem w NCBI. Tak więc, dwie wersje tej samej sekwencji mają różne numery GI. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji - RefSeq Istnieje trzeci rodzaj identyfikatorów sekwencji tzw. RefSeq Id (Reference Sequence Id). Mają one format NX nnnnnn.n, gdzie X=C dla chromosomów, X=M dla transkryptów (mRNA), X=T dla sztucznych wektorów i X=P dla białek. Rekordy RefSeq są danymi odniesienia dla systemu anotacji funkcjonalnej, badania ekspresji genów, polimorfizmów itp. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy map genetycznych i fizycznych - gdzie i jakie Bardzo duża kolekcja wszystkich typów map zgromadzona jest w NCBI, w sekcji Genome (www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome). Dostęp do tych informacji realizowany jest poprzez aplikację MapView (na stronie Genome link Map Viewer po prawej stronie). NCBI zintegrowało dużo map różnego typu (fizycznych i genetycznych), umożliwiając przedstawienie wybranych w formie graficznej. W bazie znajdują się mapy sprzężeń, hybryd poradiacyjnych, cytogenetyczne i fizyczne: STS i EST. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Mapy genetyczne i fizyczne - po co mapować? Mapy genomów pozwalają na klonowanie interesujących nas odcinków genomu, co w przypadku eukaryontów wymaga zlokalizowania genu na jednym z chromosomów, a następnie w jego obrębie. Mapy fizyczne, w szczególności mapy klonów ze zlokalizowanymi markerami bardzo upraszczają tę procedurę. Mapowanie genomu jest także pomocne w sekwencjonowaniu genomów. Mapa fizyczna oparta na bibliotece klonów ułożonych w contigi (nakładających się), pozwala na złożenie sekwencji całego chromosomu z sekwencji poszczególnych klonów. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Mapy genetyczne Mapy genetyczne (mapy sprzężeń - Genetic Linkage (GL) Maps) gromadzą informacje o ułożeniu markerów genetycznych na chromosomach i ich względnej odległości. Opierają się one na zróżnicowaniu częstości rekombinacji między markerami w zależności od ich fizycznej odległości na chromosomie. Markery między którymi rekombinacja zachodzi rzadko są określane jako sprzężone i na ogół leżą blisko siebie na tym samym chromosomie, natomiast takie, między którymi rekombinacja jest częsta są niesprzężone i prawdopodobnie leżą daleko od siebie, bądz też na różnych chromosomach Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Mapy genetyczne Odległości na mapach genetycznych wyrażane są w centymorganach (cM) - 1 cM to taka odległość przy której prawdopodobieństwo rekombinacji między markerami wynosi 0.01. Ponieważ częstości rekombinacji nie są jednakowe wzdłóż całego chromosomu, odległości wyrażone w centymorganach nie muszą dawać się (i najczęściej nie dają się) przeliczyć na odległości fizyczne. Mapy GL są mapami o niskiej rozdzielczości - najlepsze mają ok. 2 cM, co odpowiada jednemu markerowi na ok. 1-5 Mbp (średnio, w zależności od chromosomu). Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Mapy hybryd poradiacyjnych Mapy hybryd poradiacyjnych (Radiation Hybrid (RH) Maps) są zbliżone do map sprzężeń - również są oparte na częstości kosegregacji markerów, z tym, że przerwanie ciągłości chromosomów wywołane jest letalną dawką promieniowania, a nie crossing-over. Odległości na mapach RH wyraża sięw jednostkach cR (centirays - centypromienie ), analogicznie do centymorganów, jeden cR oznacza odległość przy której prawdopodobieństwo pęknięcia chromosomu między dwoma markerami wynosi 0.01. Mapy RH charakteryzują się wyższą rozdzielczością niż mapy sprzężeń, przy czym rozdzielczość zależy od dawki promieniowania użytej przy konstrukcji hybryd. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Mapy cytogenetyczne Mapy cytogenetyczne tworzy się przy pomocy techniki FISH (Fluorescent In Situ Hybridization), hybrydyzując sondy o znanej sekwencji do chromosomów i jednocześnie wybarwiając chromosomy w celu uwidocznienia prążków. Pozwala to na ustalenie (z niską rozdzielczością) kolejności markerów na chromosomie i przypisanie ich do prążków. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Mapy fizyczne Mapy fizyczne jednoznacznie określają kolejność markerów, które zawsze mają znaną sekwencję, na chromosomie. Najprostszymi rodzajami map fizycznych są mapy restrykcyjne i mapy STS (Sequence Tagged Sites). Pierwsze tworzy się trawiąc DNA genomowe różnymi kombinacjami enzymów restrykcyjnych i ustalając potem kolejność miejsc cięcia (co daje również odległości między miejscami cięcia). Mapy STS dają informację o kolejności markerów. Ich konstrukcja polega na zlokalizowaniu fragmentów PCR w bibliotece klonów o dużych insertach. Następnie na podstawie nakładania się markerów w poszczególnych klonach ustala się kolejność klonów i markerów. Rozdzielczość mapy STS zależy od rozmiarów insertów w bibliotece i liczby stosowanych markerów. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Mapy fizyczne Mapy fizyczne mogą być kombinacją map restrykcyjnych i STS z innymi, np. mogą mieć nałożone informacje o EST (Expressed Sequence Tag), czy innych markerach zlokalizowanych różnymi metodami. Takie mapy nazywamy zintegrowanymi. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy struktur Bazy struktur gromadzą informację o przestrzennej budowie makromolekuł (białek i kwasów nukleinowych). Najważniejszymi bazami są: PDB (Protein Data Bank) prowadzona przez RCSB (www.rcsb.org/pdb/) MMDB (Molecular Modelling Data Base) oparta na PDB i prowadzona przez NCBI (sekcja Structures na stronie www.ncbi.nlm.nih.org/gquery/gquery.fcgi) Dane w MMDB są dużo bardziej sformalizowaną i łatwiejszą do obróbki komputerowej wersją struktur z PDB. W MMDB znajdują się wyłącznie struktury określone eksperymentalnie, natomiast w PDB są również modele teoretyczne. Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy struktur - format danych Dane w PDB opisywane są w specyficznym formacie składającym się z: 1. nagłówka (header) HEADER Receptor Protein 18-Apr-05 2BR7 COMPND Crystal Structure Of Acetylcholine-Binding Protein (Achbp) COMPND 2 From Aplysia Californica In Complex With Hepes SOURCE ORGANISM_SCIENTIFIC: Aplysia californica; ORGANISM_COMMON: SOURCE 2 California sea hare AUTHOR P.H.N.Celie, I.E.Kasheverov, D.Y.Mordvintsev, R.C.Hogg, P. AUTHOR 2 Van Nierop, R.Van Elk, S.E.Van Rossum-Fikkert, M.N.Zhmak, D AUTHOR 3 .Bertrand, V.Tsetlin, T.K.Sixma & A.B.Smit REMARK 00 NCBI PDB FORMAT VERSION 5.0 Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy struktur - format danych 2. specyfikacji sekwencji SEQRES 1 A 217 GLN ALA ASN LEU MET ARG LEU LYS SER ASP LEU PHE ASN SEQRES 2 A 217 ARG SER PRO MET TYR PRO GLY PRO THR LYS ASP ASP PRO SEQRES 3 A 217 LEU THR VAL THR LEU GLY PHE THR LEU GLN ASP ILE VAL SEQRES 4 A 217 LYS VAL ASP SER SER THR ASN GLU VAL ASP LEU VAL TYR SEQRES 5 A 217 TYR GLU GLN GLN ARG TRP LYS LEU ASN SER LEU MET TRP SEQRES 6 A 217 ASP PRO ASN GLU TYR GLY ASN ILE THR ASP PHE ARG THR SEQRES 7 A 217 SER ALA ALA ASP ILE TRP THR PRO ASP ILE THR ALA TYR SEQRES 8 A 217 SER SER THR ARG PRO VAL GLN VAL LEU SER PRO GLN ILE SEQRES 9 A 217 ALA VAL VAL THR HIS ASP GLY SER VAL MET PHE ILE PRO SEQRES 10 A 217 ALA GLN ARG LEU SER PHE MET CYS ASP PRO THR GLY VAL SEQRES 11 A 217 ASP SER GLU GLU GLY VAL THR CYS ALA VAL LYS PHE GLY SEQRES 12 A 217 SER TRP VAL TYR SER GLY PHE GLU ILE ASP LEU LYS THR SEQRES 13 A 217 ASP THR ASP GLN VAL ASP LEU SER SER TYR TYR ALA SER SEQRES 14 A 217 SER LYS TYR GLU ILE LEU SER ALA THR GLN THR ARG GLN SEQRES 15 A 217 VAL GLN HIS TYR SER CYS CYS PRO GLU PRO TYR ILE ASP ... Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy struktur - format danych 3. specyfikacji struktury II-rzędowej HELIX 1 hel ASN A 3 PHE A 12 HELIX 2 hel ASN B 3 PHE B 12 HELIX 3 hel ASN C 3 PHE C 12 HELIX 4 hel LEU D 4 LEU D 11 HELIX 5 hel LEU E 4 PHE E 12 SHEET 1 str PRO A 26 LEU A 60 SHEET 2 str THR A 74 ALA A 80 SHEET 3 str ASP A 87 SER A 92 SHEET 4 str VAL A 97 SER A 101 SHEET 5 str GLN A 103 HIS A 109 SHEET 6 str GLY A 111 CYS A 125 SHEET 7 str GLY A 135 TRP A 145 SHEET 8 str GLU A 151 THR A 156 SHEET 9 str TYR A 172 HIS A 185 SHEET 10 str PRO A 192 GLU A 204 ... Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy struktur - format danych 4. współrzędnych poszczególnych atomów ATOM 1 C GLN A 1 -114.958 -17.239 -78.414 1.00 62.95 C ATOM 2 CA GLN A 1 -115.670 -17.241 -77.028 1.00 63.68 C ATOM 3 CB GLN A 1 -116.332 -15.895 -76.721 1.00 63.88 C ATOM 4 CD GLN A 1 -118.418 -14.440 -76.959 1.00 64.96 C ATOM 5 CG GLN A 1 -117.737 -15.757 -77.318 1.00 64.84 C ATOM 6 N GLN A 1 -114.789 -17.634 -75.901 1.00 63.52 N ATOM 7 NE2 GLN A 1 -119.049 -13.815 -77.956 1.00 65.69 N ATOM 8 O GLN A 1 -113.795 -16.823 -78.540 1.00 62.60 O ATOM 9 OE1 GLN A 1 -118.381 -13.996 -75.793 1.00 66.99 O ... ATOM 1634 NH1 ARG A 205 -85.670 -7.627 -41.822 1.00 51.33 N ATOM 1635 NH2 ARG A 205 -87.657 -6.914 -40.905 1.00 49.90 N ATOM 1636 O ARG A 205 -81.061 -4.340 -39.441 1.00 40.99 O TER Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy sekwencji - format danych 5. położeniu atomów rozpuszczalnika HETATM 8181 N1 EPE 1 6 -71.394 -15.135 -72.832 1.00 44.23 N HETATM 8182 C2 EPE 1 6 -72.218 -14.089 -73.449 1.00 43.40 C HETATM 8183 C3 EPE 1 6 -73.213 -14.758 -74.388 1.00 40.95 C HETATM 8184 N4 EPE 1 6 -72.339 -15.566 -75.205 1.00 39.37 N HETATM 8185 C5 EPE 1 6 -71.793 -16.754 -74.585 1.00 40.37 C HETATM 8186 C6 EPE 1 6 -70.746 -16.191 -73.623 1.00 41.85 C HETATM 8187 C7 EPE 1 6 -72.002 -15.116 -76.551 1.00 38.49 C HETATM 8188 C8 EPE 1 6 -71.705 -16.340 -77.391 1.00 38.43 C HETATM 8189 O8 EPE 1 6 -72.818 -16.654 -78.233 1.00 39.70 O ... HETATM 8287 O HOH 9 56 -81.113 -20.218 -60.272 1.00 19.44 O HETATM 8288 O HOH 9 57 -89.338 -23.955 -61.992 1.00 31.41 O HETATM 8289 O HOH 9 58 -72.770 -9.052 -72.334 1.00 29.98 O Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy struktur - format danych 6. informacji o wiązaniach CONECT 999 1088 CONECT 1491 1497 CONECT 2635 2724 CONECT 3127 3133 CONECT 4271 4360 CONECT 4763 4769 CONECT 5907 5996 ... CONECT 8236 8237 CONECT 8237 8238 CONECT 8237 8239 CONECT 8237 8240 END Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy literatury Główną bazą danych literaturowych dla nauk biologicznych jest PubMed (dawniej Medline), prowadzona przez NCBI i dostępna do przeszukiwania pod adresem www.ncbi.nlm.nih.gov/gquery/gquery.fcgi. Rekordy w tej bazie zawierają: tytuł publikacji autora (-ów) i jego (ich) afiliację dane o czasopiśmie w którym ukazała się publikacja datę publikacji unikalny identyfikator PMID (PubMed ID) abstrakt (jeżeli jest dostępny) Bardzo wygodną cechą PubMed jest zamieszczenie linków do artykułów związanych z właśnie przeglądanym (link Related Articles ). Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II Bazy informacji o ekspresji genów GEO Profiles - profile ekspresji i obfitości (molecular abundance). GEO Datasets - informacje o eksperymentach dostarczających danych do bazy GEO Profiles Marcin Gołębiewski Ph.D. Bioinformatyka Wykład II