background image

Bioinformatyka, wykład 5 (4.XI.2008)

 

krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji

Dopasowanie sekwencji 

Sequence

Sequence 

alignment

alignment

background image

terminologia

terminologia

z

z

alignment

alignment

33000

33000

z

z

dopasowanie sekwencji

dopasowanie sekwencji

119

119

z

z

uliniowienie

uliniowienie

sekwencji

sekwencji

82

82

 

uliniowianie

uliniowianie

 

sekwencji

sekwencji

 

125

125

 

uliniawianie

uliniawianie

 

6

6

 

uliniowanie

uliniowanie

 

3

3

z

z

elajment

elajment

2

2

background image

Uliniowianie

Uliniowianie 

Wikipedii

Wikipedii

z

W bioinformatyce, uliniawianie sekwencji to 

sposób porównywania sekwencji 

pierwszorzędowej DNA, RNA bądź białek w celu 

identyfikacji regionów podobnych, które mogą

być wynikiem funkcjonalnych, strukturalnych 

bądź ewolucyjnych związków pomiędzy 

sekwencjami. 

Uliniowione sekwencje rezyduów

nukleotydów bądź aminokwasów zwykle są

przedstawiane jako wiersze macierzy Pomiędzy 

znaki wstawiane są przerwy w taki sposób, aby 

zapewnić jak największą zgodność

porównywanych sekwencji. ...

background image

dopasowanie  (

dopasowanie  (

alignment

alignment

Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu 

zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych, 

strukturalnych lub funkcjonalnych (procedura oraz jej efekt). 

dwie sekwencje -

 

pairwise

 

alignment

wiele sekwencji -

 

multiple

 

sequence

 

alignment

AGA

--

TT

G

A

TAC

C

C

A

AGA

CA

TT

A

A

---

C

T

A

AGATTGATACCCA

AGACATTAACTA

match

mismatch

gap

background image

Edgar Allan 

Edgar Allan 

Poe

Poe

The

The 

Raven

Raven

background image

Dopasowanie sekwencji 

Dopasowanie sekwencji 

-

-

 

znaczenie

znaczenie

Podobieństwo

 

porównywanych

 

sekwencji

 

(similarity) może

 

świadczyć

 

o:

podobnej

 

funkcji

 

sekwencji

podobnej

 

strukturze

 

białek

wspólnej

 

historii

 

ewolucyjnej

 

sekwencji

Podobieństwo

 

porównywanych

 

sekwencji

 

(similarity) może

 

wynikać

 

z:

homologii

 

-

 

pochodzeniu

 

sekwencji

 

(homologicznych) od

 

wspólnego

 

przodka; 

sekwencje

 

mogą, ale nie

 

muszą

 

pełnić

 

te same

 

funkcje

konwergencji

 

-

 

podobne

 

motywy, które

 

wyewoluowały w obu

 

sekwencjach

 

(analogicznych) niezależnie; np. chymotrypsyna

 

i subtylizyna

 

-

 

różna

 

struktura

 

3D, ale podobne

 

centrum

 

aktywne

 

(histydyna, seryna, kwas

 

asparaginowy)

{... Problem rozróżnienia odległej homologii a analogii }

background image

regiony zachowane = znaczenie funkcjonalne

regiony zachowane = znaczenie funkcjonalne

*

Mouse    

IVGG

YNCEENSV

PYQ

VSLNS-----GY

HFCG

G

S

LI

NE

QWVVS

AGHC

YK-------

S

RIQV

Crayfish 

IVGG

TDAVLGEF

PYQ

LSFQETFLGFSF

HFCG

A

S

IY

NE

NYAIT

AGHC

VYGDDYENP

S

GLQI

*

Mouse    RL

GE

HNIE

V

L

EG

NEQF

I

NAA

KII

R

H

PQY

D

RKT

L

N

NDI

M

L

I

KLS

SRAVI

N

AR

V

ST

I

S

LP

TA

Crayfish VA

GE

LDMS

V

N

EG

SEQT

I

TVS

KII

L

H

ENF

D

YDL

L

D

NDI

S

L

L

KLS

GSLTF

N

NN

V

AP

I

A

LP

AQ

Mouse    PPATGTKCLIS

GWG

N

T

A

S

S

G

ADY

PD

E

LQ

CLDA

P

VL

S

Q

A

K

C

EAS

Y

PG-K

I

TSN

M

F

C

V

G

FL

E

Crayfish GHTATGNVIVT

GWG

-

T

T

S

E

G

GNT

PD

V

LQ

KVTV

P

LV

S

D

A

E

C

RDD

Y

GADE

I

FDS

M

I

C

A

G

VP

E

*

Mouse    

GGKDSCQGDSGGP

VVCNG----Q

L

Q

G

V

VSW

GD

GCA

QKNK

PGVYT

KVYNY

V

K

WIK

NTIAAN

Crayfish 

GGKDSCQGDSGGP

LAASDTGSTY

L

A

G

I

VSW

GY

GCA

RPGY

PGVYT

EVSYH

V

D

WIK

ANAV--

S-S

S-S

S-S

sekwencje

 

trypsyny

 

Mus musculus 

Astracus astracus

background image

AGA

CA

TT

G

AC

C

A

różnice

 

między

 

sekwencjami

 

świadczą

 

o mutacjach, które

 

zaszły po

 

rozdzieleniu

 

się

 

sekwencji

 

od

 

wspólnego

 

przodka

AGA

CA

TT

A

A

---

C

T

A

AGA

--

TT

G

A

TAC

C

C

A

-CA

delecja

G->A

C->T

substytucje

AGA

--

TT

G

A

TAC

C

C

A

AGA

CA

TT

A

A

---

C

T

A

insercja

+TAC

TAC

background image

dopasowanie 

dopasowanie 

-

-

 

zastosowanie

zastosowanie

Porównywanie sekwencji jest bardzo pomocne w:

poszukiwaniu oraz określaniu funkcji i struktury (białek) 
dla nowych sekwencji

określaniu powiązań

 

filogenetycznych między sekwencjami 

-

 

homologii między sekwencjami oraz w analizach 

ewolucyjnych

background image

dopasowanie 

dopasowanie 

-

-

 

metody

metody

dopasowanie wielu sekwencji

Macierz

 

punktów

 

-

 

dot matrix, dotplot

Programowanie

 

dynamiczne

 

(DP)

Metody

 

słów

 

(k -

 

tuple

 

methods)

 

-

 

szybkie

 

metody

 

stosowane

 

przy

 

przeszukiwaniu

 

baz

 

danych

 

sekwencji

 

z wykorzystaniem

 

programów

 

FASTA i BLAST 

dopasowanie par sekwencji:

background image

Dot

Dot

 

matrix

matrix

M

T

S

I

E

L

Q

W

T

R

E

V

A

W

M

T

S

I

E

Q

W

T

R

Q

V

MTSIE

L

QWTR

E

V

AW

MTSIE

-

QWTR

Q

V

--

background image

Dot

Dot

 

matrix

matrix

 

 

por

por

ó

ó

wnanie sekwencji samej z sob

wnanie sekwencji samej z sob

ą

ą

background image

Dot

Dot

 

matrix

matrix

 

 

por

por

ó

ó

wnanie dw

wnanie dw

ó

ó

ch podobnych sekwencji

ch podobnych sekwencji

background image

Dot

Dot

 

matrix

matrix

 

-

-

 

metody wstawiania punkt

metody wstawiania punkt

ó

ó

w

w

Dla identycznych

 

zasad

 

lub

 

reszt

 

aminokwasowych

 

(symboli)

W oparciu

 

o macierz

 

punktacji

 

(PAM, BLOSUM), gdy

 

symbole

 

wykazują

 

podobieństwo

 

większe

 

niż

 

pewna

 

wartość

 

punktacji (score)

Nadawanie

 

różnych

 

kolorów lub odcieni

 

szarości

 

w zależności

 

od

 

stopnia

 

podobieństwa

 

symboli

Gdy

 

liczba

 

podobnych

 

symboli

 

w danym

 

oknie

 

przekracza

 

pewną

 

wartość

background image

Dot

Dot

 

matrix

matrix

 

-

-

 

metody wstawiania punkt

metody wstawiania punkt

ó

ó

w

w

AC

T

GC

T

A

G

ATC

GT

A

G

CTG

AT

A

AT

GAC

C

G

AC

A

GC

A

A

C

ATC

TG

A

A

CTG

GC

A

GC

GAC

G

G

12/20

sekwencje

 

DNA

sekwencje

 

białek

15

2-3

15

10

2

5

wielkość

okna

liczba

identycznych

symboli

sekwencje

 

odległe

rodzaj

 

sekwencji

background image

Dot

Dot

 

matrix

matrix

 

-

-

 

zastosowanie

zastosowanie

identyfikacja

 

regionów

 

podobnych

 

lub

 

identycznych

porównywanie

 

sekwencji

 

o strukturze

 

wielodomenowej

rozpoznawanie

 

dużych

 

insercji

 

i delecji

rozpoznawanie

 

regionów

 

powtórzonych

 

i duplikacji

rozpoznawanie

 

rearanżacji

rozpoznawanie

 

regionów

 

o słabo

 

zróżnicowanym

 

składzie

analiza

 

sekwencji

 

i struktury

 

RNA

background image

Dot

Dot

 

matrix

matrix

 

 

insercja

insercja

 

lub 

lub 

delecja

delecja

ATGCTAGA

CATCGG

ATATTCGACA

ATGCTAGA

------

ATATTCGACA

ATGCTAGA

CATCGG

ATATTCGACA

A
T
G
C
T
A
G
A
A
T
A
T
T
C
G
A
C
A

XXX

background image

Dot

Dot

 

matrix

matrix

 

 

duplikacja tandemowa

duplikacja tandemowa

ATGCT

GTATAAA

GCATATTC

A

T

G

C

T

G

T

A

T

A

A

A

G

T

A

T

A

A

A

G

C

A

T

A

T

T

C

background image

Dot

Dot

 

matrix

matrix

 

 

duplikacja tandemowa  w tej samej sekwencji

duplikacja tandemowa  w tej samej sekwencji

ATGT

GTATAAGTATAA

AGCATAT

A

T

G

T

G

T

A

T

A

A

G

T

A

T

A

A

A

G

C

A

T

A

T

background image

Dot

Dot

 

matrix

matrix

 

 

inwersja 

inwersja 

ATGCTAGACA

TCGGATA

TTCGACA

A

T

G

C

T

A

G

A

C

A

A

T

A

G

G

C

T

T

T

C

G

A

C

A

background image

Dot

Dot

 

matrix

matrix

 

 

przy

przy

łą

łą

czenie regionu 

czenie regionu 

ATGCTAG

ACATCGGATATTCGAC

T

G

C

G

A

T

A

G

T

C

G

G

A

A

A

T

G

C

A

T

G

C

T

A

G

background image

Dot

Dot

 

matrix

matrix

 

 

region o licznych powt

region o licznych powt

ó

ó

rzeniach

rzeniach

background image

Dot

Dot

 

matrix

matrix

 

-

-

 

zastosowanie

zastosowanie

czynnik

 

krzepnięcia

 

XII 

(F12)

F2 E F1 E

K

Catalytic

tkankowy

 

aktywator

 

plazminogenu

 

(PLAT)

F1 E

K

Catalytic

K

F1 F2

E

K

Catalytic

powtórzenia

 

fibronektynowe

domena

 

podobna

 

do EGF

domena

 

“kringle”

aktywność

 

katalityczna

 

proteaz

 

serynowych

background image

Dot

Dot

 

matrix

matrix

 

-

-

 

zastosowanie

zastosowanie

tkankowy

aktywator

p

lazminogenu

(PL

A

T)

czynnik

 

krzepnięcia

 

XII  (F12)

F1

F2 E

K

Catalytic

E

F1

K

Catalytic

E

K


Document Outline