Bioinformatyka - wykład 1
Czym jest Bioinformatyka?
Bioinformatyka to zastosowanie technologii informacyjnych do biologii
Bioinformatyka to obliczeniowy dział biologii molekularnej
Analiza sekwencji i struktury genów i białek
Analiza ogromnego zbioru informacji dotyczącego makrocząsteczek biologicznych
Bionformatyka - definicja
Definicja (robocza) przyjęta przez NIH17.07.2000 (http://www.bisti.nih.gov/docs/CompuBioDef.pdf ) Bioinformatics Definition Committee:
Bioinformatyka: badanie, rozwój lub stosowanie narzędzi obliczeniowych i metod zwiększających wykorzystanie danych biologicznych, medycznych behawioralnych i zdrowotnych, wliczając te służące do zbierania, magazynowanie, organizowania, archiwizowania, analizy i wizualizacji tych danych
Biologia obliczeniowa (ang. Computational Biology): rozwój i stosowanie metod analizy danych, metod teoretycznych, modelowania matematycznego i techniki symulacji obliczeniowej do badania systemów biologicznych, behawioralnych i społecznych.
Każde zastosowanie nauk komputerowych do biologii np.: analiza sekwencji, analiza obrazu, modelowanie populacji, …
Analiza danych pochodzącychz „wielkoskalowych” projektów biologicznych genomy, proteomy, transkryptomy, metabolomy.
Terminologia
Genom – materiał genetyczny zawarty w podstawowym(haploidalnym) zespole chromosomów.
Transkryptom jest to zestaw cząsteczek mRNA lub ogólniej transkryptów obecny w określonym momencie w komórce, grupie komórek lub organizmie. Transkryptom w
przeciwieństwie do genomu jest tworem bardzo dynamicznym.
Proteom (z ang. protein component of the genome) - zestaw białek występujących w organizmie, tkance, komórce lub przedziale komórkowym. W przeciwieństwie do genomów, proteomy nieustannie zmieniają się w odpowiedzi na różne czynniki.
„Wielkoskalowe” projekty biologiczne -przykłady
Sekwencjonowanie kompletnego genomu, Próbkowanie transkryptomu (EST)
Równoczesna analiza ekspresji tysięcy genów (mikromacierze DNA, SAGE), Próbkowanie proteomu, Modelowanie metabolizmu, Symulacje,Bioróżnorodność
Rola bioinformatyki
Sterowanie i zarządzanie danymi, Analiza surowych danych, statystyczne opracowanie i zgłębianie danych, Przechowywanie i dostęp do baz danych, Analiza wyników w kontekście biologicznym.
Bioinformatyka zastosowania (przykładowe)
Analiza sekwencji DNA (składanie sekwencji, anotacja, wyszukiwanie sekwencji kodujących, regulatorowych i repetytywnych, motywów, markerów, itd.)
Analiza sekwencji genomów (porównywanie genomów, wyszukiwanie genów odpowiedzialnych za choroby genetyczne)
Analiza relacji ewolucyjnych pomiędzy zbiorami sekwencji (filogenetyka)
Analiza ekspresji genów (mikromacierze)
Katalogowanie funkcji genów/białek, ustalanie dróg metabolicznych
Analiza sekwencji białka (porównywanie sekwencji, wyszukiwanie domen
i motywów, przewidywanie funkcji i lokalizacji w komórce)
Wyszukiwanie informacji w bazach publikacji
Przewidywanie funkcji na podstawie sekwencji,
Przewidywanie właściwości fizyko-chemicznych na podstawie sekwencji,
przewidywanie porównawcze struktury drugo- i trzeciorzędowej białka,
badanie oddziaływań białko-białko, białko-DNA, białko-ligand, itd. (dokowanie wirtualne, projektowanie leków)
interpretacja danych eksperymentalnych (CD (ang. circular dichroism), krystalografia X-ray, DLS (ang. dynamic lightscattering), NMR (ang. nuclear magnetic resonance), itd.)
in vivo, in vitro, in silico
Tradycyjne badania biologiczne przed erą bioinformatyki:
in vivo tj. eksperyment w organiźmie
in vitro (łac. w szkle) tj. eksperyment w sztucznym środowisku
Bioinformatyka to biologia in silico (łac. w krzemie) tj. eksperyment w krzemie, z którego wykonane są mikroprocesory komputerów.
„Pierwsza informacja”
1. Sekwencja aminokwasowa (białkowa)
2. Sekwencja nukleotydowa (DNA, RNA)
Sekwencja białkowa
Białka są utworzone z aminokwasów połączonych wiązaniami peptydowymi. Sekwencje białkowe zwyczajowo są zapisywane „w kierunku” od N-końca do C-końca. Przeciętna „długość białka” w organizmie człowieka to ok. 400 aminokwasów. „Długość najdłuższego” białka tytyny (łączy włókna miozynowe z linią Z w sarkomerze mięśni poprzecznie prążkowanych) to ok. 30,000 aminokwasów, m.cz. 3-4,2 MDa (gen człowieka zawiera 363 eksony i koduje 34.350 aa).
Struktura białka
Białka posiadają dobrze określoną strukturę 3D (trójwymiarową).Dzisiaj już wiadomo, że nie jest to zawsze prawda !!!!! Hydrofobowe aminokwasy znajdują się w rdzeniu cząsteczki białka. Hydrofilowe aminokwasy znajdują się na powierzchni cząsteczki białka. Kendrew i Perutz w 1958r nagroda Nobla za krystalograficznie poznanie struktury białek hemowych (mioglobina).
DNA – Kwas Deoxyrybonukleinowy. Genomy i geny zbudowane są z DNA. DNA jest podstawowym materiałem zapewniającym dziedziczenie. J. Watson i F. Crick 1953r., nagroda Nobla w 1962 r. Sekwencje DNA tworzą 4 nukleotydy opartena zasadach azotowych:
Adenina A (puryna)
Guanina G (puryna)
Cytozyna C (pirimidyna)
Tymina T (pirymidyna)
w RNA Tyminę (T) zastępuje Uracyl (U)
Sekwencje DNA mogą być bardzo długie. Chromosomy człowieka zawierają setki milionów nukleotydów.
Dwuniciowy DNA. Sekwencje DNA zawsze mają dwie nici. Nici są komplementarne i mają przeciwną orientację. Umownie dla wygody zapisujemy nić tylko w kierunku 5’ -> 3’.Programy przeszukujące bazy danych, poszukujące geny, …na ogół automatycznie uwzględniają oba kierunki (choć nie zawsze!).
Sekwencja palindromowa DNA - cel większości enzymów restrykcyjnych, miejsca wiązania białek regulatorowych.
Sekwencje RNA: RNA zbudowane jest z 4 nukleotydów:
A, G, C, U
U to Uracyl
RNA nie zawiera Tyminy (T), Uracyl zastępuje Tyminę w RNA, RNA jest jednoniciowy. Występuje w postaciach: mRNA, tRNA, siRNA (ang. small RNA), miRNA (ang. micro RNA).
Drugorzędowe struktury RNA:
RNA może tworzyć struktury drugorzędowe. Struktura tworzona jest przy pomocy pojedynczej nici RNA. Struktury drugorzędowe złożone są ze spinek, ramion, pętli, wybrzuszeń, …
Jak długa jest sekwencja ?
Rozmiar białka jest wyrażany w liczbie aminokwasów lub w Daltonach
115 Daltonów ~ 1 aminokwas
Długości sekwencji DNA i RNA są wyrażane w:
parach zasad (ang. base-pairs) (bp)
Kbp lub Kb: 1 tysiąc par zasad (1.000 bp)
Mbp lub Mb: 1 milion par zasad (1.000.000 bp)
Gbp lub Gb: 1 miliard par zasad (1x109 bp)
Poniższe terminy mają to samo znaczenie przy określaniu długości
sekwencji:
zasada (ang. base) (b)
para zasad (ang. base-pair) (bp)
nukleotyd (nt)
pozycje, nukleotydy, reszty
Genomy w liczbach:
Rozmiar
wirusy: 103 to 105 nt
bakterie: 105 to 107 nt
drożdże: 1.35 x 107 nt
ssaki: 108 to 1010 nt
rośliny: 1010 to 1011 nt
Liczba genów
wirusy: 3 to 100
bakterie: ~ 1000
drożdże: ~ 7000
ssaki: ~ 30.000
rośliny: 30.000-50.000?
Najbardziej upakowany zwierzęcy genom (2011 r.)Daphnia pulex
genom ok. 200 mln. nt
geny ok. 31 tys. (w tym 1/3 bez odpowiednika u innych zwierząt)
Genom człowieka:
Rozmiar: 3 x 109 nt haploidalnego genomu, 25% to sekwencje wysoce powtarzalne,
25-30% to umiarkowanie powtarzalne sekwencje. Rozmiar genu: od 900 do >2.000.000 nt (w tym introny). Proporcja genomu kodującego białka: 5-7%. Liczba genów: ok. 22,5 tys. Liczba chromosomów: 22 autosomalne,1 chromosom płciowy. Rozmiar chromosomu: 5 x 107 do 5 x 108 zasad.
Kod genetyczny (standardowy)
DNA jest transkrybowane do RNA z użyciem komplementarnych nukleotydów. RNA podlega translacji na sekwencję aminokwasową z użyciem kodu genetycznego:
UCU UAU GCG UAA
SER-TYR-ALA-STOP
Sześć ramek odczytu sekw. DNA (1-3)
Ramki odczytu sekwencji DNA
Tylko jedna z sześciu ramek (poza nielicznymi wyjątkami) jest wykorzystywana w danym regionie kodującym DNA. Kodujący obszar sekwencji pozbawiony kodonów STOP nazywamy otwartą ramką odczytu (ang. ORF = Open Reading Frame). Obszar ten potencjalnie może ulec translacji na białko. ORF nie jest tożsamy z genem!
Bioinformatyka – zastosowania:
Jak większość badaczy wykorzystuje bioinformatykę?
wyszukiwanie informacji naukowych w bazach bibliograficznych (Medline, Web of Knowledge, …)
pobieranie potrzebnych sekwencji białkowych lub nukleotydowych
przeszukiwanie baz danych algorytmem BLAST
dopasowanie wielu sekwencji algorytmem ClustalW
np. PubMed, zawiera prawie wszystkie najnowsze informacje dot. biologii molekularnej, jest bezpłatny, jest publicznie dostępny, jest łatwo i precyzyjnie „przeszukiwalny”.
np. Swiss-Prot: zawiera wszystkie białka o znanej funkcji, rekord podsumowuje wszystko co o białku wiadomo, jest bezpłatny, jest publicznie dostępny.
np. GenBank: zawiera wszystkie ważne dla nauki sekwencje nukleotydowe, jakie kiedykolwiek badacze publicznie udostępnili (sekwencje kodujące, niekodujące, obszary regulatorowe, …),jest bezpłatny, jest publicznie dostępny
np. BLAST: porównuje badaną sekwencję (aa, nt) ze wszystkimi w wybranej bazie, znajduje najbardziej podobne, podaje statystyczną ocenę podobieństwa sekwencji.
np. ClustalW: Tworzy dopasowanie wielosekwencyjne (ang. Multi Sequence Alignment) sekwencji aa lub nt, które m.in.
odnajduje cechy wspólne sekwencji
odnajduje pozycje ewolucyjnie konserwatywne
jest podstawą tworzenia drzew filogenetycznych
jest podstawą przewidywania struktury przestrzennej cząsteczki białka.
Bioinformatyka pozwala na zdobywanie realnej wiedzy przez wykonanie wirtualnych eksperymentów (in-silico)