Wykład 1
Bioinformatyka - to dyscyplina zajmująca się stosowaniem narzędzi matematycznych i informatycznych do rozwiązywania problemów z nauk biologicznych. Z bioinformatyką powiązane są: genomika, proteomika, metabolomikai transkryptomika
Cele bioinformatyki
Organizowanie i zarządzanie informacjami o makrocząsteczkach i innych danych biologicznych w formie skomputeryzowanych (cyfrowych) zapisów - baz danych
Analiza tych danych za pomocą metod obliczeniowych, rozwój metod i algorytmów
Etapy sekwencjonowania genom genomów
Oczyszczanie chromosomów
Pofragmentowanie metodą sonikacji na odcinki o długości 100 kpz (kbp) lub większe
Klonowanie fragmentów w wektorach (YAC, BAC)
Tworzenie mapy chromosomu
Wybór zachodzących pojedynczych klonów do sekwencjonowania
Kompletnie zsekwencjonowane genomy
Drosophila melanogaster
Saccharomyces cerevisiae
Schizosaccharomyces pombe
Candida glabratha
Encephalitozoon cuniculiGB-M1….
Caenorhabditis elegans
Entamoeba histolytica
Plasmodium falciparum
Trypanosoma cruzi….
Homo sapiens
Mus musculus
Arabidopsis thaliana
Oryza sativa
KRĘGOWCE (2)
ROŚLINY (2)
OWADY (1)
GRZYBY (10)
PIERWOTNIAKI (6)
NICIENIE (1)
Wykład 2
The gene is a union of genomic sequences encoding a coherent set of potentially overlapping functional products.
A gene is a genomic sequence(DNA orRNA) directly encoding functional product molecules, either RNA or protein.
In the case that there are severa functional products sharing overlapping regions, one takes the union of all overlapping genomic sequences coding for them.
This union must be coherent—i.e., done separately for final protein and RNA products—but does not require that all products necessarily share a common subsequence.
Zasoby pierwotne i wtórne
1) Pierwotne bazy danych
GenBank/EMBL/DDBJ
dbESTdbSTSdbSNPTrace
2) Wtórne bazy danych
AssemblyArchive
CDD
EntrezGene
GenomeProjects
HomoloGene
Map Viewer
RefSeq, SwissProt
UniSTS
Problemy w bazach danych
zanieczyszczenie sekwencjami wektorów wykorzystywanymi do klonowania, bakterii, rRNA, mtDNA i innymi przypadkowymi sekwencjami
poziom błędu sekwencji nukleotydowych: 1/10 000 (bardzo dobry), 1/100 (dla raz przeczytanych sekwencji w bazach EST, HTG)
poziom błędu sekwencji aminokwasowych: przesunięcie ramki odczytu (frame-shift error) - 5-10% sekwencji; błędnie przeczytane na białko sekwencje genów podzielonych z powodu błędnego określenia eksonów (10-15%): utrata niektórych eksonów, przetłumaczenie sekwencji intronów
występowanie w bazach sekwencji identycznych jako różnych rekordów - > tworzenie baz non-redundant
przypisanie funkcji charakterystycznej dla jednej sekwencji do drugiej sekwencji wykazującej homologię do pierwszej sekwencji
błędne adnotacje z ”trzeciej i czwartej ręki”
Wykład 3
GENOMIKA. MAPOWANIE GENOMÓW MAPY GENOMICZNE
Genomika strukturalna
1) Mapowanie genomu:
Mapy genetyczne
Mapy fizyczne
2) Sekwencjonowanie
Genomika porównawcza
Ewolucja genomów
Ewolucja genów
Genomika funkcjonalna
Transkryptom
Regulacja tranckrypcji
Proteom
Mapa genetyczna / Mapa fizyczna
Mapy genetyczna
powstają w oparciu o analizę częstości rekombinacji między badanymi markerami
pokazują rozmieszczenie markerów na chromosomie oraz odległości genetyczne między nimi
jednostka:
1cM = 1% rekombinacji (1 crossing - over na 100 mejoz)
u ludzi to ok.0,7 - 1 Mb
Mapy fizyczna
powstają poprzez bezpośrednią lokalizację, technikami biologii molekularnej, badanej sekwencji DNA w genomie
jednostka:
pary zasad - pz (ang. bp, kbp)
Jeżeli markery A i B są na tym samym chromosomie, częstość rekombinacji jest > 0 i < 0.5
Jeżeli markery A i B są na różnych chromosomach, częstość rekombinacji jest = 0.5.
Marker genetyczny - polimorficzna sekwencja DNA (specyficzna) z jednego miejsca na chromosomie, używana do mapowania genetycznego, może być związana z fenotypem.
Jest to podstawowe narzędzie genetyka
klasa I (markery fenotypowe)
są to geny kodujące cechy jakościowe organizmu np. antygeny erytrocytarne, antygeny głównego układu zgodności tkankowej (Major Histocompatibility Complex - MHC).
markery tej klasy indentyfikowane są metodami serologicznymi lub metodami elektroforetycznymi.
klasa II (markery DNA)
są to sekwencje DNA, niekoniecznie kodujące, np. RFLP, SSLP, SNP
markery takie jako markery genetycze muszą mieć przynajmniej dwie alleliczne formy.
markery tego typu identyfikowane są przy użyciu technik analizy molekularnej
Markery DNA
RFLPs (Restriction Fragment Lenght Polymorphisms)
Minisatelity
Mikrosatelity
SNPs (Single Nucleotide Polymorphisms)
RFLPs (Restriction Fragment Lenght Polymorphisms)
polimorfizm długości fragmentów restrykcyjnych
Wady markerów RFLP:
- tylko dwie formy alleliczne
- dużo miejsc cięcia w dużych genomach
SLPs (Simple Sequence Length Polymorphisms)
polimorfizm długości prostych sekwencji
- minisatelity
- mikrosatelity
VNTRs (Variable Number of Tandem Repeats)
zmienna liczba powtórzeń tandemowych
sekwencje zawierające zmienną liczbę tandemowych powtórzeń motywu (11 - 60 pz)
z reguły występują przy końcach chromosomów - telomerach
liczba powtórzeń motywu: 2 do 1000, w zależności od ilości powtórzeń dany fragment DNA ma charakterystyczną długość (polimorfizm długości widoczny podczas elektroforezy)
VNTR może być badane metodą PCR wraz z elektroforezą, połączoną z hybrydyzacją z wyznakowaną sondą. Liczba powtórzeń decyduje o długości fragmentu, co z kolei wpływa na szybkości jego przemieszczania się podczas elektroforezy.
w danym locus VNTR występuje znaczna zmienność osobnicza
STRs (Short Tandem Repeats)
krótkie sekwencje powtórzone tandemowo
sekwencje zawierające zmienną liczbę tandemowych powtórzeń kilkunukleotydowego motywu (1 - 4 pz)
motyw równomiernie rozmieszczony w genomie
liczba powtórzeń motywu minisatelitarnego: 10 do 50 i w zależności od ilości powtórzeń dany fragment DNA ma charakterystyczną długość (polimorfizm długości widoczny podczas elektroforezy)
często motyw taki może być regularnie przerywany inną sekwencją.
ulokowane są zazwyczaj w intronach (czasami również w eksonach [egzonach] w postaci mniejszej liczby powtórzeń).
Zalety:
duża zmienność
często tworzą
multi-locus patterns charakterystyczne dla danego osobnika
Wady:
nie nadają się do dokładnego mapowania z powodu ich nielosowego rozkładu w genomie
Analiza SNP umożliwia wykrycie polimorfizmu pojedynczego nukleotydu w obrębie badanej sekwencji. Klasycznie polega to na amplifikacji określonego fragmentu genomu w reakcji PCR i sekwencjonowaniu uzyskanego produktu.
Zaletą tej techniki jest wysoka wydajność identyfikacji polimorfizmu w obrębie badanej sekwencji, wadą jest wysoki koszt analizy
Analiza sprzężeń
zaburzenia w analizach sprzężeń:
gorące miejsca rekombinacji
podwójny crossing - over
Mapowanie fizyczne
Mapa Cytogenetyczna (chromosome bands) - rozróżnialne zabarwione fragmenty chromosomów (mikroskop optyczny)
Mbps
Mapowanie danych ekspresji na sieci zależności biologicznychwyszukiwanie „podsieci” (subnetworks) złożonych z genów o charakterystycznej ekspresji
Restriction mapping - kolejność i odległości pomiędzy punktami trawienia enzymami DNA. 100s kbp
Fluorescence in situ hybridisation - hybrydyzacja fluorescencyjnych sond do chromosomów 100s kbp
STS sequence mapping - kolejność unikalnych w genomie markerów DNA (STS) 100 kbp
Sequence “map” - całkowicie zsekwencjonowany chromosom 1bp.
Wykład 4
EWOLUCJA GENOMÓW
Własności kodu genetycznego
trójkowy
niezachodzący
bezprzecinkowy
jednoznaczny
kolinearny
uniwersalny
zdegenerowany
Ewolucja genomów w wyniku:
mutacji
duplikacji genów
rearanżacji genów
utraty genów
rearanżacji chromosomalne
duplikacji genomów
poziomego transferu genów
Transpozony - to moduły DNA zdolne do przenoszenia się z jednego miejsca genomu w inne, na zasadzie transpozycji; transpozycja jest rekombinajcą nieuprawnioną, bowiem nie wymaga komplementarności, czyli odcinek transpozonu nie musi być komplementarny w stosunku do fragmentu DNA w który zostanie wstawiony
Wykład 5
Dopasowanie sekwencji Sequence alignment
Uliniawianie sekwencji - to sposób porównywania sekwencji pierwszorzędowej DNA, RNA bądź białek w celu identyfikacji regionów podobnych, które mogą być wynikiem funkcjonalnych, strukturalnych bądź ewolucyjnych związków pomiędzy sekwencjami. Uliniowione sekwencje rezyduów nukleotydów bądź aminokwasów zwykle są przedstawiane jako wiersze macierzy Pomiędzy znaki wstawiane są przerwy w taki sposób, aby zapewnić jak największą zgodność porównywanych sekwencji.
Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych, strukturalnych lub funkcjonalnych (procedura oraz jej efekt).
dwie sekwencje - pairwise alignment
wiele sekwencji - multiple sequence alignment
Podobieństwo porównywanych sekwencji (similarity) może świadczyć o:
podobnej funkcji sekwencji
podobnej strukturze białek
wspólnej historii ewolucyjnej sekwencji
Podobieństwo porównywanych sekwencji (similarity) może wynikać z:
homologii - pochodzeniu sekwencji (homologicznych) od wspólnego przodka; sekwencje mogą, ale nie muszą pełnić te same funkcje
konwergencji - podobne motywy, które wyewoluowały w obu sekwencjach (analogicznych) niezależnie; np. chymotrypsyna i subtylizyna - różna struktura 3D, ale podobne centrum aktywne (histydyna, seryna, kwas asparaginowy)
Różnice między sekwencjami świadczą o mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka
Porównywanie sekwencji jest bardzo pomocne w:
poszukiwaniu oraz określaniu funkcji i struktury (białek) dla nowych sekwencji
określaniu powiązań filogenetycznych między sekwencjami - homologii między sekwencjami oraz w analizach ewolucyjnych
Dopasowanie par sekwencji:
Macierz punktów - dot matrix, dotplot
Programowanie dynamiczne (DP)
Metody słów (k - tuple methods) - szybkie metody stosowane przy przeszukiwaniu baz danych sekwencji z wykorzystaniem programów FASTA i BLAST
dopasowanie wielu sekwencji
Dot matrix - zastosowanie
identyfikacja regionów podobnych lub identycznych
porównywanie sekwencji o strukturze wielodomenowej
rozpoznawanie dużych insercji i delecji
rozpoznawanie regionów powtórzonych i duplikacji
rozpoznawanie rearanżacji
rozpoznawanie regionów o słabo zróżnicowanym składzie
analiza sekwencji i struktury RNA
Wykład 6
Programowanie dynamiczne - porównuje każdą parę znaków dwóch sekwencji i tworzy dopasowanie
Uwzględnia wszystkie możliwe przyrównania uwzględniając:
dopasowania (matches),
niedopasowania (mismatches),
przerwy (gaps).
Przerwy są wstawiane, aby uzyskać wzrost liczby dopasowań w innych miejscach.
Przyjmuje pewien system punktacji (scoring system)
Rozpatruje wszystkie możliwości
Stara się uzyskać maksymalną liczbę dopasowań między identycznymi lub podobnymi znakami
Znajduje optymalne dopasowanie (może istnieć więcej niż jedno takie dopasowanie)
Czas obliczeń proporcjonalny do iloczynu długości sekwencji
Przyjęty system punktacji:
- dopasowanie (match): +1
- niedopasowanie (mismatch): -1
- przerwa (gap): -1
AGA--TTGATACCCA
AGACATTAA---CTA
Programowanie dynamiczne uwzględnia każdą dodawaną parę znaków i z powrotem przelicza optymalne dopasowanie
sekwencja 1: GATACTA
sekwencja 2: G A T T A C C A
Dopasowanie globalne - przyrównuje sekwencje na całej długości; wykorzystuje tak dużo znaków, jak to jest tylko możliwe.
Dopasowanie lokalne - przyrównuje fragmenty sekwencji, które wykazują największe podobieństwo; poszukuje najlepiej pasujących regionów; znajduje regiony konserwowane. Gdy obliczana wartość punktacji w macierzy jest mniejsza od zera, to wartość ta jest ustawiana na zero, a dopasowanie ulega zakończeniu do tego miejsca i rozpoczynany jest nowe` dopasowanie od nowego miejsca
Prosty system punktacji:
match: +1 +1
mismatch: -1 0
gap: -1 -1
Zaawansowany system punktacji (nadawanie różnych wag dla niedopasowań i przerw w zależnosci od ich długości):
Macierze podstawień aminokwasów (PAM, BLOSUM)
Macierze podstawień nukleotydów
System punktacji dla przerw: gap penalties, affine gap penalty
sekwencje DNA
Match = +1
Mismatch = -3
Gap penalty = -5
Gap extension penalty = -2
sekwencje białkowe - Macierz Blossum62
Gap open penalty = -11
Gap extension = -1
Czy punktacja dopasowanie jest znacząco większa od punktacji oczekiwanej dla dopasowania losowych sekwencji o tej samej długości i składzie?
3 > Z - brak homologii
3 < Z < 6 - istnieje homologia
Z > 6 - silna homologia
Tworzenie metodą Monte Carlo losowych(-ej) sekwencji (o tej samej długości i składzie co rzeczywiste).
Przyrównanie losowych(-ej) sekwencji (powtórzenie 100-1000 razy) przy tych samych parametrach.
Określenie rozkładu punktacji, średniej i odchylenie standardowego (SD).
Wyliczenie Z-score: Z = (scoreobs - scoreran )/SDran
Rozkład „score-ów” nie jest normalny i dlatego nie można przekształcić Z-score na prawdopodobieństwo.
Istotność dopasowania
Dla dopasowań lokalnych rozkład maksymalnych „scorów” dopasowania dla sekwencji losowych przyjmuje rozkład wartości ekstremalnych (extreme values distribution)
Określenie E-value - Oczekiwana liczba przypadkowych dopasowań z punktacją większą niż obserwowana; Oczekiwana (wg rozkładu prawdopodobieństwa) liczba dopasowań z punktacją równą przynajmniej S
Bit score - znormalizowana punktacja uwzględniająca warunki jego naliczania i przyjęte systemy punktacji (parametry lambda i K)
Jeżeli spodziewamy się znaleźć przynajmniej 3 dopasowania o punktacji >= S, to prawdopodobieństwo tego że znajdziemy co najmniej jedno wynosi 0,95. Programy z grupy BLAST posługują się wartością E zamiast bezpośrednim prawdopodobieństwem ze względu na łatwiejsze rozróżnienie
Dopaspwanie wielu sekwencji
Określanie powiązań filogenetycznych między sekwencjami
Poszukiwanie odległych homologów
Poszukiwanie wspólnych, konserwowanych wzorów, motywów i domen w sekwencjach, odpowiedzialnych za odpowiednie funkcje biochemiczne lub strukturę przestrzenną.
Grupowanie białek w rodziny o wspólnej funkcji biochemicznej lub historii ewolucyjnej. Identyfikowanie członków rodzin białek.
Identyfikowanie zachodzących fragmentów sekwencji powstałych w wyniku losowego sekwencjonowania genomów i ułatwienie ich składania w jedną całą sekwencję.
Najbardziej wiarygodny dla sekwencji o podobnej długości i posiadających zachowanie regiony.
Metody
Programowanie dynamiczne (PD) - zbyt skomplikowane dla wielu sekwencji; stosowany dla niewielu krótkich sekwencji
program MSA (dopasowanie globalne)
Metody aproksymacyjne
Progresywne dopasowanie globalne (hierarchiczne)
programy: CLUSTALW, CLUSTALX
Metody iteracyjne
programy: MultAlin, PRRP, DIALIGN, SAGA (algorytm genetyczny)
Metody iteracyjne - wielokrotnie przeprowadzają dopasowania podgrup sekwencji, a następnie wykonują przyrównanie tych podgrup w dopasowanie globalne wszystkich sekwencji. Podgrupy są wybierane ze względu na ułożenie na drzewie filogenetycznym lub losowo.
Wykład 7
FILOGENETYKA
Cel - rekonstrukcja historii ewolucji wszystkich organizmów.
Klasyczne podejście - historia ewolucji jest odtwarzana na podstawie porównań cech morfologicznych i fizjologicznych badanych organizmów.
zadaniem filogenetyki molekularnej jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami
Podstawowe założenia w filogenetyce molekularnej
podobne gatunki s są genetycznie spokrewnione
sekwencje przodka mutują w sekwencje potomków
wyrazem analiz filogenetycznych są drzewa filogenetyczne
Węzeł - reprezentuje jednostkę taksonomiczną (populację, organizm, gen). Może przedstawiać współcześnie istniejący takson, jak i jego przodkaze
Gałąź - obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi.
Długość gałęzi - zazwyczaj reprezentuje liczbę zmian, które się zdarzyły w danej linii ewolucyjnej.
Korzeń - wspólny przodek dla wszystkich taksonów.
Liść - reprezentuje aktualnie analizowaną jednostkę taksonomiczną.
Mechanizmy ewolucji
mutacje w genach.
mutacje są rozprzestrzeniane w populacji poprzez dryf genetyczny lub/i selekcję naturalną
Duplikacja i rekombinacja genów.
Metoda maksymalnej parsymonii - MP
Drzewko filogenetyczne skonstruowane metodą MP to takie, które wymaga najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych sekwencjach
Miejsce „informatywne” dla sekwencji nukleotydowych to takie, w którym obserwuje się przynajmniej dwa różne nukleotydy i są one prezentowane przynajmniej w dwóch sekwencjach
Metoda maksymalnej wiarygodności - Maksimum likelihood (ML)
Drzewko filogenetyczne skonstruowane metodą ML to takie, które z największym prawdopodobieńswtem odtwarza obserwowane dane
Hipoteza zegara molekularnego (MC)
Opiera się na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej jest w przybliżeniu stałe
Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął od momentu gdy oba gatunki miały wspólnego przodka.
JEDNOSTKA PAM (Percent Accepted Mutation) - odległości między sekwencjami. ercent ccepted utation miara odleg ci ewolucyjnej mi dzy sekwencjami
1 PAM - którego, porównywanych odpowiada takiemu czasowi ewolucyjnemu, podczas kt rego, w por wnywanych sekwencjach,
zmianie ulegnie 1 aminokwas na 100 (ok. 1 mln lat)
Macierz PAM - porównanie identyczności białek powiązaniach selekcję porównanie blisko spokrewnionych sekwencji białek (ponad 85% identyczności) o znanych powiązaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcję
Uwzględnia mutabilności poszczególnych aminokwasów
Wady
Podstawienia aminokwasów zachodzą niezależnie od siebie. W rzeczywistości zmiany w różnych regionach sekwencji są ze sobą skorelowane
Te samo tempo podstawień w różnych regionach sekwencji. W rzeczywistości różne regiony wykazują różny stopień konserwatywności i ewoluują z różną prędkością.
Częstość poszczególnych podstawień nie zmieniają się w czasie. W rzeczywistości częstości podstawie mogą się zmieniać w czasie.
Macierz BLOSUM - (BLOcks Substitution Matrix)
Utworzona przez porównanie około 2000 zachowanych bloków (regionów sekwencji) w ponad 500 rodzinach białek o różnej odległości ewolucyjnej. Bloki są regionami sekwencji odpowiedzialnymi za podobną funkcję biochemiczną lub strukturalną
Macierze dla różnych odległości ewolucyjnych zostały wyliczone z porównania sekwencji odpowiednio odległych:
BLOSUM30 - bloki sekwencji o co najmniej 30% identyczności reszt aminokwasowych
BLOSUM62 - bloki sekwencji o co najmniej 62% identyczności reszt aminokwasowych
BLOSUM80 - bloki sekwencji o co najmniej 80% identyczności reszt aminokwasowych
UPMGA - Unweighted Pair Group Method with Arithmetic Mean
Wykład 8
Wykres Ramanchandarna
Modyfikacje posttranslacyjne
Cięcia łańcucha białkowego (proteoliza)
Glikozylacja
Modyfikacje końców (acetylacja, ...)
Modyfikacje łańcuchów bocznych (wiązania dwusiarczkowe, fosforylacja, ...)
Wiązanie kofaktorów, jonów
Białka transmembranowe
Kanały jonowe
Transportery
Receptory (7TM, RTK, …)
Proteazy
Regiony nieuporządkowane - disordered regions
trudna definicja
trudne do przewidzenia
nie zawsze tożsame z pętlami
nie zawsze tożsame z regionami o niskiej specyficzności
ważne biologicznie
sprzężenie zwijania białka i wiązania
duże znaczenie praktyczne
Regiony nieuporządkowane - gdzie?
pętle / zwoje
”gorące pętle” (wg czynników temperatury ze struktur krystalograficznych)
obszary o brakujących współrzędnych (w strukturach krystalograficznych i NMR)
przewidywanie - np. sieci neuronowe
Wykład 9
Dopasowanie (alignment) strukturalne - struktura 3D domeny jednego białka jest nakładana na strukturę domeny drugiego białka tak, aby średnia odległość między odpowiednimi atomami struktur była możliwie jak najmniejsza;
Podobieństwo strukturalne mogą wykazywać białka, które nie wykazują podobieństwa sekwencji.
Podobieństwo strukturalne może, ale nie musi świadczyć o związkach ewolucyjnych.
Podobieństwo strukturalne może, ale nie musi świadczyć o podobieństwie funkcji
Porównanie struktur - programy
VAST - Vector alignment Search Tool; dopasowanie wektorowe; wektory opisujące struktury drugorzędowe
DALI - Distance Alignment Tool; dopasowanie macierzy odległości
FATCAT - Flexible Alignment allowing Twists
LGA - lokalna i globalna optymalizacja RMSD (longest continuous segments & global distance test)
Wykład 10
NMR - magnetyczny rezonans jądrowy; oddziaływania momentów magnetycznych jąder atomowych z zewnętrznym polem magnetycznym wykorzystuje się protony, C13, N15
krystalografia promieni X
- najwięcej rozwiązanych struktur
- krystalizacja!
NMR
-białka w roztworze, ale ograniczenia wielkości białek, kosztowne znakowanie izotopowe
Mikroskopia elektronowa
-duże struktury, np. kompleksy, zwykle z użyciem struktur krystalografia elementów
krystalografia neutronowa - protony są widoczne
Oddziaływania van der Waalsa
Oddziaływanie elektrostatyczne dipol-dipol (uśrednione)
Oddziaływanie indukcyjne (dipol-dipol indukowany)
Oddziaływanie dyspersyjne (dipol indukowany - dipol indukowany)
Wykład 13
Analiza skupień (clustering) - poszukiwanie grup genów o podobnych profilach ekspresji
Analiza wzbogacenia zbiorów genów (gene set enrichment analysis) - poszukiwanie cech, w które pewne grupy genów, np. skupienia (klastry), są „wzbogacone” - np. anotacji funkcjonalnych