Podstawy i zastosowania
bioinformatyki
Marek Kudła
Sekwencje
• Nukleotydowe
– 4 nukleotydy 4 = 2^2 2 bity informacji
• Aminokwasowe
– 20 aminokwasów 2^4 < 20 < 2^5
< 5 bitów informacji
Widzimy zatem, że przy translacji zachodzi
de facto utrata informacji
Kodon – 3 nt = 6 bitów -> aminokwas <5
bitów
Podobieństwo
• Sekwencje nukleotydowe
– Zawartość identycznych pozycji między dwoma
sekwencjami - % identyczności
– Długość porównywanych sekwencji
– Czy identyczne pozycje są zgrupowane, czy też
rozproszone w alignmencie
• Sekwencje białkowe
Wszystkie powyższe, plus:
– Podobieństwo pod względem właściwości
fizykochemicznych lub kodonów, którymi są
kodowane
– Reszty na konserwatywnych pozycjach –
przewidzianych domenach, miejscach
katalitycznych.
Alignment
• Pairwise alignment – ścisłe rozwiązanie
możliwe
ATTCAGCTCCATGC
|||| ||| || ||
ATTC
G
GCT
A
CA
-
GC
• MSA - multiple sequence alingment
A
TT
CA
GCT
-
CCA
T
GC
A
TT
CG
GCT
-
CCA
-
GC
T
TT
GA
GCT
T
CCA
T
GC
Macierz podstawień
•PAM
•BLOSSUM
Algorytmy tworzenia
alignmentów i wyszukiwania
sekwencji
• Needleman-Wuensch `70
• Smith-Waterman `70
• dotplot
• BLAST `90
• SSAHA
• BLAT
• FASTA
NEEDLEMAN
WUENSCH
Nic . : |
Needleman-Wuensch a Smith-
Waterman
wyjściowo
||||||:|||.||||:|||
||
||||||:|||.||||:|||
||
|..|
:.:.
.|
Smith-Waterman
Alignment
lokalny
Needleman-
Wuensch
Alignment globalny
BLAST
Dotplots
Sekwencja
1
Sekwencja
2
ATTCA-GCT
CCATGCT
CCATGC
A
T
T
C
A
G
C
T
C
C
A
T
G
C
T
Sekwencja z domenami powtórzonymi – to samo białko na obu
osiach
Drosophila melanogaster SLIT
Domeny konserwowane ewolucyjnie
Sekwencja na osi horyzontalnej to ludzki antygen powierzchniowy
MS2. Sekwencja na osi pionowej to adamalizyna II –
metaloproteaza z jadu Crotalus adamanteus. Obie sekwencje
posiadają domenę cynkowej proteazy.
Wykrywanie egzonów i intronów
Sekwencja na osi horyzontalnej – sekwencja nukleotydowa
kalmoduliny z Apergillus nidulans translowana w trzech ramkach
odczytu. Na osi pionowej – sekwencja białkowa tegoż białka.
Regiony niskiej złożoności