bioinformatyka w5 2008 web

background image

Bioinformatyka, wykład 5 (4.XI.2008)

krzysztof_pawlowski@sggw.pl

Dopasowanie sekwencji

Dopasowanie sekwencji

Sequence

Sequence

alignment

alignment

background image

terminologia

terminologia

z

z

alignment

alignment

33000

33000

z

z

dopasowanie sekwencji

dopasowanie sekwencji

119

119

z

z

uliniowienie

uliniowienie

sekwencji

sekwencji

82

82

uliniowianie

uliniowianie

sekwencji

sekwencji

125

125

uliniawianie

uliniawianie

6

6

uliniowanie

uliniowanie

3

3

z

z

elajment

elajment

2

2

background image

Uliniowianie

Uliniowianie

Z

Z

Wikipedii

Wikipedii

z

W bioinformatyce, uliniawianie sekwencji to

sposób porównywania sekwencji

pierwszorzędowej DNA, RNA bądź białek w celu

identyfikacji regionów podobnych, które mogą

być wynikiem funkcjonalnych, strukturalnych

bądź ewolucyjnych związków pomiędzy

sekwencjami.

Uliniowione sekwencje rezyduów

nukleotydów bądź aminokwasów zwykle są

przedstawiane jako wiersze macierzy Pomiędzy

znaki wstawiane są przerwy w taki sposób, aby

zapewnić jak największą zgodność

porównywanych sekwencji. ...

background image

dopasowanie (

dopasowanie (

alignment

alignment

)

)

Ułożenie dwóch sekwencji biopolimerów (DNA, RNA lub białka) w celu

zidentyfikowania regionów podobieństwa istotnego ze względów ewolucyjnych,

strukturalnych lub funkcjonalnych (procedura oraz jej efekt).

dwie sekwencje -

pairwise

alignment

wiele sekwencji -

multiple

sequence

alignment

AGA

--

TT

G

A

TAC

C

C

A

AGA

CA

TT

A

A

---

C

T

A

AGATTGATACCCA

AGACATTAACTA

match

mismatch

gap

background image

Edgar Allan

Edgar Allan

Poe

Poe

,

,

The

The

Raven

Raven

background image

Dopasowanie sekwencji

Dopasowanie sekwencji

-

-

znaczenie

znaczenie

Podobieństwo

porównywanych

sekwencji

(similarity) może

świadczyć

o:

podobnej

funkcji

sekwencji

podobnej

strukturze

białek

wspólnej

historii

ewolucyjnej

sekwencji

Podobieństwo

porównywanych

sekwencji

(similarity) może

wynikać

z:

homologii

-

pochodzeniu

sekwencji

(homologicznych) od

wspólnego

przodka;

sekwencje

mogą, ale nie

muszą

pełnić

te same

funkcje

konwergencji

-

podobne

motywy, które

wyewoluowały w obu

sekwencjach

(analogicznych) niezależnie; np. chymotrypsyna

i subtylizyna

-

różna

struktura

3D, ale podobne

centrum

aktywne

(histydyna, seryna, kwas

asparaginowy)

{... Problem rozróżnienia odległej homologii a analogii }

background image

regiony zachowane = znaczenie funkcjonalne

regiony zachowane = znaczenie funkcjonalne

*

Mouse

IVGG

YNCEENSV

PYQ

VSLNS-----GY

HFCG

G

S

LI

NE

QWVVS

AGHC

YK-------

S

RIQV

Crayfish

IVGG

TDAVLGEF

PYQ

LSFQETFLGFSF

HFCG

A

S

IY

NE

NYAIT

AGHC

VYGDDYENP

S

GLQI

*

Mouse RL

GE

HNIE

V

L

EG

NEQF

I

NAA

KII

R

H

PQY

D

RKT

L

N

NDI

M

L

I

KLS

SRAVI

N

AR

V

ST

I

S

LP

TA

Crayfish VA

GE

LDMS

V

N

EG

SEQT

I

TVS

KII

L

H

ENF

D

YDL

L

D

NDI

S

L

L

KLS

GSLTF

N

NN

V

AP

I

A

LP

AQ

Mouse PPATGTKCLIS

GWG

N

T

A

S

S

G

ADY

PD

E

LQ

CLDA

P

VL

S

Q

A

K

C

EAS

Y

PG-K

I

TSN

M

F

C

V

G

FL

E

Crayfish GHTATGNVIVT

GWG

-

T

T

S

E

G

GNT

PD

V

LQ

KVTV

P

LV

S

D

A

E

C

RDD

Y

GADE

I

FDS

M

I

C

A

G

VP

E

*

Mouse

GGKDSCQGDSGGP

VVCNG----Q

L

Q

G

V

VSW

GD

GCA

QKNK

PGVYT

KVYNY

V

K

WIK

NTIAAN

Crayfish

GGKDSCQGDSGGP

LAASDTGSTY

L

A

G

I

VSW

GY

GCA

RPGY

PGVYT

EVSYH

V

D

WIK

ANAV--

S-S

S-S

S-S

sekwencje

trypsyny

Mus musculus

i Astracus astracus

background image

AGA

CA

TT

G

AC

C

A

różnice

między

sekwencjami

świadczą

o mutacjach, które

zaszły po

rozdzieleniu

się

sekwencji

od

wspólnego

przodka

AGA

CA

TT

A

A

---

C

T

A

AGA

--

TT

G

A

TAC

C

C

A

-CA

delecja

G->A

C->T

substytucje

AGA

--

TT

G

A

TAC

C

C

A

AGA

CA

TT

A

A

---

C

T

A

insercja

+TAC

TAC

background image

dopasowanie

dopasowanie

-

-

zastosowanie

zastosowanie

Porównywanie sekwencji jest bardzo pomocne w:

poszukiwaniu oraz określaniu funkcji i struktury (białek)
dla nowych sekwencji

określaniu powiązań

filogenetycznych między sekwencjami

-

homologii między sekwencjami oraz w analizach

ewolucyjnych

background image

dopasowanie

dopasowanie

-

-

metody

metody

dopasowanie wielu sekwencji

Macierz

punktów

-

dot matrix, dotplot

Programowanie

dynamiczne

(DP)

Metody

słów

(k -

tuple

methods)

-

szybkie

metody

stosowane

przy

przeszukiwaniu

baz

danych

sekwencji

z wykorzystaniem

programów

FASTA i BLAST

dopasowanie par sekwencji:

background image

Dot

Dot

matrix

matrix

M

T

S

I

E

L

Q

W

T

R

E

V

A

W

M

T

S

I

E

Q

W

T

R

Q

V

MTSIE

L

QWTR

E

V

AW

MTSIE

-

QWTR

Q

V

--

background image

Dot

Dot

matrix

matrix

por

por

ó

ó

wnanie sekwencji samej z sob

wnanie sekwencji samej z sob

ą

ą

background image

Dot

Dot

matrix

matrix

por

por

ó

ó

wnanie dw

wnanie dw

ó

ó

ch podobnych sekwencji

ch podobnych sekwencji

background image

Dot

Dot

matrix

matrix

-

-

metody wstawiania punkt

metody wstawiania punkt

ó

ó

w

w

Dla identycznych

zasad

lub

reszt

aminokwasowych

(symboli)

W oparciu

o macierz

punktacji

(PAM, BLOSUM), gdy

symbole

wykazują

podobieństwo

większe

niż

pewna

wartość

punktacji (score)

Nadawanie

różnych

kolorów lub odcieni

szarości

w zależności

od

stopnia

podobieństwa

symboli

Gdy

liczba

podobnych

symboli

w danym

oknie

przekracza

pewną

wartość

background image

Dot

Dot

matrix

matrix

-

-

metody wstawiania punkt

metody wstawiania punkt

ó

ó

w

w

AC

T

GC

T

A

G

ATC

GT

A

G

CTG

AT

A

AT

GAC

C

G

AC

A

GC

A

A

C

ATC

TG

A

A

CTG

GC

A

GC

GAC

G

G

12/20

sekwencje

DNA

sekwencje

białek

15

2-3

15

10

2

5

wielkość

okna

liczba

identycznych

symboli

sekwencje

odległe

rodzaj

sekwencji

background image

Dot

Dot

matrix

matrix

-

-

zastosowanie

zastosowanie

identyfikacja

regionów

podobnych

lub

identycznych

porównywanie

sekwencji

o strukturze

wielodomenowej

rozpoznawanie

dużych

insercji

i delecji

rozpoznawanie

regionów

powtórzonych

i duplikacji

rozpoznawanie

rearanżacji

rozpoznawanie

regionów

o słabo

zróżnicowanym

składzie

analiza

sekwencji

i struktury

RNA

background image

Dot

Dot

matrix

matrix

insercja

insercja

lub

lub

delecja

delecja

ATGCTAGA

CATCGG

ATATTCGACA

ATGCTAGA

------

ATATTCGACA

ATGCTAGA

CATCGG

ATATTCGACA

A
T
G
C
T
A
G
A
A
T
A
T
T
C
G
A
C
A

XXX

background image

Dot

Dot

matrix

matrix

duplikacja tandemowa

duplikacja tandemowa

ATGCT

GTATAAA

GCATATTC

A

T

G

C

T

G

T

A

T

A

A

A

G

T

A

T

A

A

A

G

C

A

T

A

T

T

C

background image

Dot

Dot

matrix

matrix

duplikacja tandemowa w tej samej sekwencji

duplikacja tandemowa w tej samej sekwencji

ATGT

GTATAAGTATAA

AGCATAT

A

T

G

T

G

T

A

T

A

A

G

T

A

T

A

A

A

G

C

A

T

A

T

background image

Dot

Dot

matrix

matrix

inwersja

inwersja

ATGCTAGACA

TCGGATA

TTCGACA

A

T

G

C

T

A

G

A

C

A

A

T

A

G

G

C

T

T

T

C

G

A

C

A

background image

Dot

Dot

matrix

matrix

przy

przy

łą

łą

czenie regionu

czenie regionu

ATGCTAG

ACATCGGATATTCGAC

T

G

C

G

A

T

A

G

T

C

G

G

A

A

A

T

G

C

A

T

G

C

T

A

G

background image

Dot

Dot

matrix

matrix

region o licznych powt

region o licznych powt

ó

ó

rzeniach

rzeniach

background image

Dot

Dot

matrix

matrix

-

-

zastosowanie

zastosowanie

czynnik

krzepnięcia

XII

(F12)

F2 E F1 E

K

Catalytic

tkankowy

aktywator

plazminogenu

(PLAT)

F1 E

K

Catalytic

K

F1 F2

E

K

Catalytic

powtórzenia

fibronektynowe

domena

podobna

do EGF

domena

“kringle”

aktywność

katalityczna

proteaz

serynowych

background image

Dot

Dot

matrix

matrix

-

-

zastosowanie

zastosowanie

tkankowy

aktywator

p

lazminogenu

(PL

A

T)

czynnik

krzepnięcia

XII (F12)

F1

F2 E

K

Catalytic

E

F1

K

Catalytic

E

K


Document Outline


Wyszukiwarka

Podobne podstrony:
bioinformatyka w13 2008 9 web
bioinformatyka w2 2008 web
bioinformatyka w9 2008 web
bioinformatyka w6 2008 web
bioinformatyka w11 2008 web
bioinformatyka w4 2008 web
bioinformatyka w10 2008 web
bioinformatyka w12 2008 9 web
bioinformatyka w3 2008 web
bioinformatyka w7 2008 web
bioinformatyka w1 2008 web
bioinformatyka w8 2008 web
bioinformatyka w13 2008 9 web
bioinformatyka w2 2008 web
bioinformatyka w9 2008 web

więcej podobnych podstron