Bioinformatyka, wykład 5 (4.XI.2008)
krzysztof_pawlowski@sggw.pl
Dopasowanie sekwencji
Dopasowanie sekwencji
Sequence
Sequence
alignment
alignment
terminologia
terminologia
z
z
alignment
alignment
33000
33000
z
z
dopasowanie sekwencji
dopasowanie sekwencji
119
119
z
z
uliniowienie
uliniowienie
sekwencji
sekwencji
82
82
–
–
uliniowianie
uliniowianie
sekwencji
sekwencji
125
125
–
–
uliniawianie
uliniawianie
6
6
–
–
uliniowanie
uliniowanie
3
3
z
z
elajment
elajment
2
2
Uliniowianie
Uliniowianie
Z
Z
Wikipedii
Wikipedii
z
W bioinformatyce, uliniawianie sekwencji to
sposób porównywania sekwencji
pierwszorzędowej DNA, RNA bądź białek w celu
identyfikacji regionów podobnych, które mogą
być wynikiem funkcjonalnych, strukturalnych
bądź ewolucyjnych związków pomiędzy
sekwencjami.
Uliniowione sekwencje rezyduów
nukleotydów bądź aminokwasów zwykle są
przedstawiane jako wiersze macierzy Pomiędzy
znaki wstawiane są przerwy w taki sposób, aby
zapewnić jak największą zgodność
porównywanych sekwencji. ...
dopasowanie (
dopasowanie (
alignment
alignment
)
)
Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu
zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych,
strukturalnych lub funkcjonalnych (procedura oraz jej efekt).
dwie sekwencje -
pairwise
alignment
wiele sekwencji -
multiple
sequence
alignment
AGA
--
TT
G
A
TAC
C
C
A
AGA
CA
TT
A
A
---
C
T
A
AGATTGATACCCA
AGACATTAACTA
match
mismatch
gap
Edgar Allan
Edgar Allan
Poe
Poe
,
,
The
The
Raven
Raven
Dopasowanie sekwencji
Dopasowanie sekwencji
-
-
znaczenie
znaczenie
Podobieństwo
porównywanych
sekwencji
(similarity) może
świadczyć
o:
podobnej
funkcji
sekwencji
podobnej
strukturze
białek
wspólnej
historii
ewolucyjnej
sekwencji
Podobieństwo
porównywanych
sekwencji
(similarity) może
wynikać
z:
homologii
-
pochodzeniu
sekwencji
(homologicznych) od
wspólnego
przodka;
sekwencje
mogą, ale nie
muszą
pełnić
te same
funkcje
konwergencji
-
podobne
motywy, które
wyewoluowały w obu
sekwencjach
(analogicznych) niezależnie; np. chymotrypsyna
i subtylizyna
-
różna
struktura
3D, ale podobne
centrum
aktywne
(histydyna, seryna, kwas
asparaginowy)
{... Problem rozróżnienia odległej homologii a analogii }
regiony zachowane = znaczenie funkcjonalne
regiony zachowane = znaczenie funkcjonalne
*
Mouse
IVGG
YNCEENSV
PYQ
VSLNS-----GY
HFCG
G
S
LI
NE
QWVVS
AGHC
YK-------
S
RIQV
Crayfish
IVGG
TDAVLGEF
PYQ
LSFQETFLGFSF
HFCG
A
S
IY
NE
NYAIT
AGHC
VYGDDYENP
S
GLQI
*
Mouse RL
GE
HNIE
V
L
EG
NEQF
I
NAA
KII
R
H
PQY
D
RKT
L
N
NDI
M
L
I
KLS
SRAVI
N
AR
V
ST
I
S
LP
TA
Crayfish VA
GE
LDMS
V
N
EG
SEQT
I
TVS
KII
L
H
ENF
D
YDL
L
D
NDI
S
L
L
KLS
GSLTF
N
NN
V
AP
I
A
LP
AQ
Mouse PPATGTKCLIS
GWG
N
T
A
S
S
G
ADY
PD
E
LQ
CLDA
P
VL
S
Q
A
K
C
EAS
Y
PG-K
I
TSN
M
F
C
V
G
FL
E
Crayfish GHTATGNVIVT
GWG
-
T
T
S
E
G
GNT
PD
V
LQ
KVTV
P
LV
S
D
A
E
C
RDD
Y
GADE
I
FDS
M
I
C
A
G
VP
E
*
Mouse
GGKDSCQGDSGGP
VVCNG----Q
L
Q
G
V
VSW
GD
GCA
QKNK
PGVYT
KVYNY
V
K
WIK
NTIAAN
Crayfish
GGKDSCQGDSGGP
LAASDTGSTY
L
A
G
I
VSW
GY
GCA
RPGY
PGVYT
EVSYH
V
D
WIK
ANAV--
S-S
S-S
S-S
sekwencje
trypsyny
Mus musculus
i Astracus astracus
AGA
CA
TT
G
AC
C
A
różnice
między
sekwencjami
świadczą
o mutacjach, które
zaszły po
rozdzieleniu
się
sekwencji
od
wspólnego
przodka
AGA
CA
TT
A
A
---
C
T
A
AGA
--
TT
G
A
TAC
C
C
A
-CA
delecja
G->A
C->T
substytucje
AGA
--
TT
G
A
TAC
C
C
A
AGA
CA
TT
A
A
---
C
T
A
insercja
+TAC
TAC
dopasowanie
dopasowanie
-
-
zastosowanie
zastosowanie
Porównywanie sekwencji jest bardzo pomocne w:
poszukiwaniu oraz określaniu funkcji i struktury (białek)
dla nowych sekwencji
określaniu powiązań
filogenetycznych między sekwencjami
-
homologii między sekwencjami oraz w analizach
ewolucyjnych
dopasowanie
dopasowanie
-
-
metody
metody
dopasowanie wielu sekwencji
Macierz
punktów
-
dot matrix, dotplot
Programowanie
dynamiczne
(DP)
Metody
słów
(k -
tuple
methods)
-
szybkie
metody
stosowane
przy
przeszukiwaniu
baz
danych
sekwencji
z wykorzystaniem
programów
FASTA i BLAST
dopasowanie par sekwencji:
Dot
Dot
matrix
matrix
M
T
S
I
E
L
Q
W
T
R
E
V
A
W
M
•
T
•
•
S
•
I
•
E
•
•
Q
•
W
•
•
T
•
•
R
•
Q
•
V
•
MTSIE
L
QWTR
E
V
AW
MTSIE
-
QWTR
Q
V
--
Dot
Dot
matrix
matrix
–
–
por
por
ó
ó
wnanie sekwencji samej z sob
wnanie sekwencji samej z sob
ą
ą
Dot
Dot
matrix
matrix
–
–
por
por
ó
ó
wnanie dw
wnanie dw
ó
ó
ch podobnych sekwencji
ch podobnych sekwencji
Dot
Dot
matrix
matrix
-
-
metody wstawiania punkt
metody wstawiania punkt
ó
ó
w
w
Dla identycznych
zasad
lub
reszt
aminokwasowych
(symboli)
W oparciu
o macierz
punktacji
(PAM, BLOSUM), gdy
symbole
wykazują
podobieństwo
większe
niż
pewna
wartość
punktacji (score)
Nadawanie
różnych
kolorów lub odcieni
szarości
w zależności
od
stopnia
podobieństwa
symboli
Gdy
liczba
podobnych
symboli
w danym
oknie
przekracza
pewną
wartość
Dot
Dot
matrix
matrix
-
-
metody wstawiania punkt
metody wstawiania punkt
ó
ó
w
w
AC
T
GC
T
A
G
ATC
GT
A
G
CTG
AT
A
AT
GAC
C
G
AC
A
GC
A
A
C
ATC
TG
A
A
CTG
GC
A
GC
GAC
G
G
12/20
sekwencje
DNA
sekwencje
białek
15
2-3
15
10
2
5
wielkość
okna
liczba
identycznych
symboli
sekwencje
odległe
rodzaj
sekwencji
Dot
Dot
matrix
matrix
-
-
zastosowanie
zastosowanie
identyfikacja
regionów
podobnych
lub
identycznych
porównywanie
sekwencji
o strukturze
wielodomenowej
rozpoznawanie
dużych
insercji
i delecji
rozpoznawanie
regionów
powtórzonych
i duplikacji
rozpoznawanie
rearanżacji
rozpoznawanie
regionów
o słabo
zróżnicowanym
składzie
analiza
sekwencji
i struktury
RNA
Dot
Dot
matrix
matrix
–
–
insercja
insercja
lub
lub
delecja
delecja
ATGCTAGA
CATCGG
ATATTCGACA
ATGCTAGA
------
ATATTCGACA
ATGCTAGA
CATCGG
ATATTCGACA
A
T
G
C
T
A
G
A
A
T
A
T
T
C
G
A
C
A
XXX
Dot
Dot
matrix
matrix
–
–
duplikacja tandemowa
duplikacja tandemowa
ATGCT
GTATAAA
GCATATTC
A
T
G
C
T
G
T
A
T
A
A
A
G
T
A
T
A
A
A
G
C
A
T
A
T
T
C
Dot
Dot
matrix
matrix
–
–
duplikacja tandemowa w tej samej sekwencji
duplikacja tandemowa w tej samej sekwencji
ATGT
GTATAAGTATAA
AGCATAT
A
T
G
T
G
T
A
T
A
A
G
T
A
T
A
A
A
G
C
A
T
A
T
Dot
Dot
matrix
matrix
–
–
inwersja
inwersja
ATGCTAGACA
TCGGATA
TTCGACA
A
T
G
C
T
A
G
A
C
A
A
T
A
G
G
C
T
T
T
C
G
A
C
A
Dot
Dot
matrix
matrix
–
–
przy
przy
łą
łą
czenie regionu
czenie regionu
ATGCTAG
ACATCGGATATTCGAC
T
G
C
G
A
T
A
G
T
C
G
G
A
A
A
T
G
C
A
T
G
C
T
A
G
Dot
Dot
matrix
matrix
–
–
region o licznych powt
region o licznych powt
ó
ó
rzeniach
rzeniach
Dot
Dot
matrix
matrix
-
-
zastosowanie
zastosowanie
czynnik
krzepnięcia
XII
(F12)
F2 E F1 E
K
Catalytic
tkankowy
aktywator
plazminogenu
(PLAT)
F1 E
K
Catalytic
K
F1 F2
E
K
Catalytic
powtórzenia
fibronektynowe
domena
podobna
do EGF
domena
“kringle”
aktywność
katalityczna
proteaz
serynowych
Dot
Dot
matrix
matrix
-
-
zastosowanie
zastosowanie
tkankowy
aktywator
p
lazminogenu
(PL
A
T)
czynnik
krzepnięcia
XII (F12)
F1
F2 E
K
Catalytic
E
F1
K
Catalytic
E
K