bioinfoI wyklad03

Bioinformatyka

Wykład III

Marcin Gołębiewski Ph.D.

Zakład Biotechnologii

Wydział Biologii i Nauk o Ziemi

Uniwersytet Mikołaja Kopernika

8 marca 2010

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Wstęp

Po co przeszukiwać bazy sekwencji?

Jak to robić?

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Alignment - dopasowanie sekwencji

Niech A będzie alfabetem (np. A = {A, T, G, C} dla sekwencji
nukleotydowej) z którego pochodzą symbole w dwóch zbiorach X i
Y o licznościach odpowiednio n i m (i = 0, 1 . . . n, x

∈ A i

j = 0, 1 . . . m, y

∈ A).

Zbiory te nazywamy sekwencjami.
Alignment’em sekwencji X i Y nazywamy uporządkowany
zbiór par P

= (x

, y

), takich, że ∀l i

> i

l −1

∧ j

> j

l −1

i = 0 1 2 3 4 g

5 (g=2)

x = A T G C A - - A
y = A - G C A T T A
j = 0 g 1 2 3 4 5 6 (g=1)

= (x

, y

), (x

, y

), (x

, y

), (x

, y

), (x

, y

)

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Rodzaje alignmentów

Alignmenty dzielimy na dwie klasy:

globalne - dopasowane są całe sekwencje, niezależnie od
różnicy długości,

lokalne - dopasowane są najlepiej pasujące segmenty sekwencji.

Z przyczyn “obliczeniowych” wyróżniamy:

alignmenty dwóch sekwencji (krótko: alignmenty),
alignmenty wielu sekwencji (multiple alignments - więcej niż
trzech).

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Ocena (score) alignmentu

Odróżnianie alignmentów “lepszych” od “gorszych” wymaga
jakiejś mierzalnej wartości.

Liczbę, która mówi o “dobroci” alignmentu nazywamy score -
oceną.

Score zależy od:

Liczby par dopasowanych (np. AA),

liczby par niedopasowanych (np. AG),

wartości liczbowych przypisanych różnym parom w macierzy
wagowej,

liczby i długości przerw,

przyjętego sposobu liczenia kar za przerwy i ich wartości.

Matematycznie score jest sumą score wszystkich par symboli
w alignmencie i kar za przerwy.

Aligment o najwyższym możliwym score (dla danych
sekwencji, macierzy wagowej i kar za przerwy) nazywamy
alignmentem optymalnym.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Macierz wagowa

Macierz wagowa to tablica w której wszystkim możliwym
parom symboli z danego alfabetu przypisano jakieś wartości
liczbowe.

Macierze wagowe mają prostą interpretację probabilistyczną -
im większy jest score przypisany danej parze symboli, tym
większe prawdopodobieństwo napotkania takiej pary w
“dobrych” alignment’ach i odwrotnie, im score jest mniejszy,
tym częściej parę można napotkać w przypadkowych
alignment’ach.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Kary za przerwy

Najczęściej stosuje się dwa rodzaje funkcji ważącej przerwy:

liniowe - GP(g ) = dg

afiniczne - GP(g ) = d + (g − 1)e

W modelu afinicznym d oznacza karę za otwarcie przerwy,
natomiast e karę za jej przedłużenie.

Ponieważ prawdopodobieństwo powstania przerwy o długości
n nie jest na ogół równe

(insercje bądź delecje mogą

zachodzić blokami), bardziej realistyczny jest model
afiniczny, który wprowadza mniejszą karę za przedłużenie już
otwartej przerwy.

Z tego powodu jest on szerzej stosowany, niż model liniowy.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Macierze wagowa - przykład

Macierz wagowa BLOSUM62 (Henikoff i Henikoff, 1992),
skonstruowana na podstawie częstości par w bazie BLOCKS
(Henikoff i Henikoff 1991).

A R N D C Q E G H I L KM F P S TW Y V

-2-1-2 -1-1-1 0 -2-1-2-1-1-3 -1 1 0 -3-2 0

R-2

-1-2 -4 1 0-3 0-4-3 3-2-3 -3-1-1 -3-1-3

N-1-1

2 -2 0 0 0 1-3-4 0-2-4 -2 1 0 -4-2-3

D-2-2 2

-4 0 2-1 -1-4-4-1-4-5 -1 0-1 -5-3-4

C-1-4-2-4

-3-3-3 -3-2-2-3-2-2 -4-1-1 -5-3-1

Q-1 1 0 0 -3

2-2 1-3-2 2 0-4 -1 0-1 -1-1-3

E-1 0 0 2 -3 2

-3 0-4-3 1-2-3 -1-1-1 -3-2-3

G 0-3 0-1 -3-2-3

-2-4-4-2-3-4 -2 0-2 -3-3-4

H-2 0 1-1 -3 1 0-2

-4-3 0-1-1 -2-1-2 -3 2-4

I-1-4-3-4 -2-3-4-4 -4

2-3 2 0 -3-3-1 -3-1 4

L-2-3-4-4 -2-2-3-4 -3 2

-3 3 1 -4-3-1 -2-1 1

K-1 3 0-1 -3 2 1-2 0-3-3

-2-4 -1 0-1 -3-2-3

M-1-2-2-4 -2 0-2-3 -1 2 3-2

0 -3-2-1 -1 0 1

F-3-3-4-5 -2-4-3-4 -1 0 1-4 0

-4-3-2 1 4-1

P-1-3-2-1 -4-1-1-2 -2-3-4-1-3-4

-1-1 -4-3-3

S 1-1 1 0 -1 0-1 0 -1-3-3 0-2-3 -1

2 -4-2-2

T 0-1 0-1 -1-1-1-2 -2-1-1-1-1-2 -1 2

-3-2 0

W-3-3-4-5 -5-1-3-3 -3-3-2-3-1 1 -4-4-3

2-3

Y-2-1-2-3 -3-1-2-3 2-1-1-2 0 4 -3-2-2 2

-1

V 0-3-3-4 -1-3-3-4 -4 4 1-3 1-1 -3-2 0 -3-1

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Konstrukcja alignmentu optymalnego

Istnieją algorytmy umożliwiające obliczenie alignmentu
optymalnego dowolnych dwóch sekwencji.

Alignment globalny oblicza się zgodnie z algorytmem
Needleman’a-Wunscha.

Aligment lokalny konstruuje się przy pomocy algorytmu
Smith-Watermana.

Algorytmy te stosują technikę programowania dynamicznego -
podziału dużego problemu na mniejsze, łatwe do rozwiązania i
składania z tych prodproblemów całości rozwiązania.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Przeszukiwanie baz sekwencji

Przeszukiwanie baz sekwencji polega na

dopasowaniu sekwencji kwerendowej do każdej sekwencji w
bazie (po kolei),

stwierdzeniu, które dopasowania są wynikiem przypadku
(losowe), a które są efektem wspólnego pochodzenia i
podobieństwa struktury (statystycznie istotne).

Do konstrukcji dopasowań można wykorzystać dowolny
algorytm, jednak te oparte na programowaniu dynamicznym
są zbyt wolne.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Statystyczna istotność dopasowania

Statystyczna istotność dopasowania jest miarą “sensowności
alignmentu”.

Dokładniej, mówi ona, jak prawdopodobne jest znalezienie w
losowej bazie sekwencji, której alignment z sekwencją
kwerendową będzie miał score większy lub równy score
aktualnego dopasowania.

Losowa baza sekwencji, to baza o wielkości takiej, jak
faktycznie przeszukiwana, w której pozamieniano litery, nie
zmieniając przy tym składu bazy - czyli ich częstości
występowania.

Jak widać, o istotności dopasowania można mówić wyłącznie
w kontekście przeszukiwania bazy sekwencji.

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Miary statystycznej istotności dopasowania

Istnieją dwie miary statystycznej istotności alignmentu:

E-value - oczekiwana liczba losowych sekwencji, których
alignmenty z sekwencją kwerendową będą miały score wyższy
lub równy score ocenianego dopasowania.

P-value - prawdopodobieństwo, że istnieje przynajmniej jedna
losowa sekwencja, której alignment z sekwencją kwerendową
będzie miał score większy bądź równy score ocenianego
alignmentu.

E-value i p-value są ze sobą związane, dla wartości mniejszych
od 0.01 E (S ) ' P(S ).

Statystycznie istotne będą dopasowania, dla których e-value i
p-value będą dużo mniejsze od 1.

Standardowo uznaje się za próg istotności wartość 0.01

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Marcin Gołębiewski Ph.D.

Bioinformatyka Wykład III

Wyszukiwarka

Podobne podstrony:
elementy bioinformatyki wyklad2
Bioinformatyka wykład 1
Bioinformatyka wykład 3
elementy bioinformatyki wyklad4
bioinformatyka wyklad #6
bioinformatyka wyklad #3
Bioinformatyka wykłady
bioinfoI wyklad01
elementy bioinformatyki wyklad3
bioinfoI wyklad02
Bioinformatyka wyklad #4
elementy bioinformatyki wyklad1
Bioinformatyka wykładMocx
bioinformatyka wyklad #2
Bioinformatyka wykład 5
bioinfoI wyklad04
Bioinformatyka wykład ocx
elementy bioinformatyki wyklad2

więcej podobnych podstron