Witold Rudnicki
ICM UW
Modelowanie molekularne w
projektowaniu leków
Wykład IX
Modelowanie struktury białka na
podstawie homologii
Witold Rudnicki
ICM UW
Przewidywanie struktury białek
Przewidywanie struktury białek
na podstawie sekwencji
na podstawie sekwencji
Krzysztof Ginalski
Krzysztof Ginalski
ICM UW
ICM UW
Witold Rudnicki
ICM UW
Witold Rudnicki
ICM UW
VREVCSEQAETGPCRAMISR
WYFDVTEGKCAPFFYGGCGG
NRNNFDTEEYCMAVCGSA
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
Sekwencje a struktury
białek
• sekwencje białkowe
– banki sekwencji (SWISS-PROT, PIR, PRF)
– ok. 1.300.000 poznanych sekwencji (NR)
• sekwencje DNA
– banki sekwencji (GenBank, EMBL, DDBJ)
– poznane genomy (wirusy, bakterie (ok. 80),
S. cerevisiae, A. thaliana, C. elegans, D.
Melanogaster, H. Sapiens)
– kilkaset genomów w trakcie
sekwencjonowania
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
Sekwencje a struktury białek
• ok. 18.000 znanych struktur białkowych (PDB)
– krystalografia lub NMR
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
Sekwencje a struktury białek
• niewielki procent białek ma poznaną strukturę 3D
• znajomość struktury konieczna dla zrozumienia
działania białka na poziomie molekularnym
1 RPDFCLEPPY 10 11
TGPCKARIIR 20 21
YFYNAKAGLC 30 31
QTFVYGGCRA 40 41
KRNNFKSAED 50 51
CMRTCGGA 58
FUNKCJA
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
Teoretyczne metody
przewidywania struktury białek
• modelowanie w oparciu o homologię
• metody identyfikacji foldu
– obecnie ok. 700 foldów (SCOP)
– przeciąganie sekwencji przez struktury
(threading)
– zaawansowane metody sekwencyjne,
metody hybrydowe
• metody ab initio
– zwijanie na siatkach
– składanie z krótkich fragmentów
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
Modelowanie w oparciu o
homologię
• podobne sekwencje
podobna struktura
– rdzeń białka (a-helisy, b-wstęgi) – niemal
identyczny
– różnice w pętlach – różna długość i konformacja
2I1B A -----PVRSLN-CT
L
R
D
S-QQK
SL
VMSGPYE
L
2ILA NVKYNFMRIIKYEFI
L
N
D
A-LNQ
S
IIRANAQY
L
1BFG ---------- DP-KR
L
YCKNGGFF
L
RIHPDGRV
2I1B K
A
LH
L
QGQDMEQQ-
V
V
F
S
M
SFVQGEESND
KI
P
V
2ILA T
A
AA
L
H--NLDEA-
VKF
D
M
G
A
YKSSA---
KI
T
V
1BFG D GVRE----KSDPHI
K
LQLQ
A
EER------GV
V
2I1B A
L
GLKEK
NLYL
SCVLKDDKPT
L
Q
L
ESVDPKNY
P
2ILA I
L
RISKTQ
LY
VTAQD--E
D
QPV
LL
KEMPE--I
P
1BFG S IKGVSA
N
R
YL
AMKE---
D
GR
LL
ASKS------
2I1B
K
KKM--
E
KRFV
F
NKIEI-
NNK
LE
F
E
S
AQF
PNWY
2ILA
K
TITGS
E
TNLL
FF
WETH-GT
KN
Y
F
T
S
VAH
PN
LF
1BFG ---V--TDECF
FF
ERLES
NN
Y
N
TYR
S
RKYTS
WY
2I1B
I
S
T
S
Q
AENMP
V
F
LG
--
G
TK
G
GQD
ITDF
TMQFVS
2ILA
IATKQ
D--YW
V
C
L
A--
GG
--PPS
ITDF
QILE--
1BFG V
A
L
K
RT--GQYK
LG
SKT
G
P
G
Q-KAIL
F
LPMSA-
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
Etapy modelowania
Wybór
struktury
wzorca
Ustawienie
sekwencji białka
modelowanego
względem
wzorca
Relaksacja
struktury
(MM, MD)
Sprawdzenie
poprawności
modelu
Budowa
wstępne
go
modelu
Wybór
konformacji
łańcuchów
bocznych
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
Prawidłowe uliniowienie sekwencji badanej z
wzorcem jest warunkiem koniecznym
prawidłowego przewidywania struktury białka.
Jeżeli uliniowienie jest nieprawidłowe, lub wyrany
wzorzec jest niewłaściwy to model zawsze będzie
nieprawidłowy.
Procedury optymalizacji nie są w stanie poprawić
grubych błędów wynikających ze złego uliniowienia
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
Ograniczenia w modelowaniu opartym o homologię
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
Ograniczenia w modelowaniu opartym o homologię
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
Ograniczenia w modelowaniu opartym o homologię
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
CASP
C
ritical
A
ssessment of Techniques
for Protein
S
tructure
P
rediction
• ogólnoświatowy eksperyment weryfikacji
metod teoretycznych
– co 2 lata (wiosna-jesień)
– podanych kilkadziesiąt sekwencji białek, których
struktury są na ukończeniu
• kategorie
– CM - comparative modeling (modelowanie
homologiczne)
– FR - fold recognition (rozpoznanie foldu)
– NF - new folds (nowe foldy)
– przewidywanie struktury drugorzędowej
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
CM Comparative Modeling
CM (targets manually assessed by Anna Tramontano)
CM Total Z-Scores Above 1.0 for CASP5 All Targets Listed Above:
CM Rank Group Z-Score Ngood Npred NgNW NpNW Group-name
CM ------------------------------------------------
CM 1 G020 47.17 24.50 38.50 25 39 Bujnicki-Janusz
CM 2 G453 46.55 27.00 42.00 27 42 Ginalski
CM 3 G517 42.82 25.50 39.50 26 40 GeneSilico
CM 4 G110 36.03 24.00 35.00 24 35 Honig
CM 5 G006 31.23 19.00 40.00 19 40 BIOINFO.PL
FR Fold Recognition (targets manually assessed by Nick Grishin) FR
Total Z-Scores Above 1.0 for CASP5 All Targets Listed Above: FR
Rank Group Z-Score Ngood Npred NgNW NpNW Group-name
FR ---------------------------------------------------
FR 1 G453 24.26 9.00 12.00 9 12 Ginalski
FR 2 G010 21.64 7.00 12.00 7 12 Skolnick-Kolinski
FR 3 G002 19.55 8.00 12.50 9 14 Baker
FR 4 G006 16.88 6.00 10.00 6 10 BIOINFO.PL
FR 5 G349 15.25 7.00 7.00 7 7 Shortle
FR 6 G029 14.56 6.50 11.50 7 13 BAKER-ROBETTA
Witold Rudnicki
ICM UW
NF New Folds (targets manually assessed by Rob Russell)
NF Total Z-Scores Above 1.0 for CASP5 All Targets Listed Above: NF
Rank Group Z-Score Ngood Npred NgNW NpNW Group-name
NF ----------------------------------------------------------
NF 1 G002 25.72 9.33 12.50 47 63 Baker
NF 2 G349 17.57 8.25 10.00 14 17 Shortle
NF 3 G132 13.46 5.00 10.00 5 10 I-sites/Bystroff
NF 4 G010 11.78 5.69 11.51 29 59 Skolnick-Kolinski
NF 5 G001 11.31 5.53 11.33 20 38 Sam-T02-human
NF 6 G016 10.50 6.70 9.30 26 36 Levitt
NF 7 G068 10.39 5.40 7.00 27 35 Jones-NewFold
AL All Models (targets assessed by one of the three assessors)
AL Rank Group Z-Score Ngood Npred NgNW NpNW Group-name
AL -------------------------------------------------------
AL 1 G453 75.94 38.50 64.50 39 65 Ginalski
AL 2 G020 59.00 33.00 50.50 35 53 Bujnicki-Janusz
AL 3 G002 57.76 25.33 48.88 80 127 Baker
AL 4 G010 57.59 25.79 49.89 58 116 Skolnick-Kolinski
AL 5 G517 55.07 32.25 59.00 36 65 GeneSilico
AL 6 G006 52.74 28.00 61.00 28 62 BIOINFO.PL
AL 7 G110 42.82 27.00 45.00 27 47 Honig
Witold Rudnicki
ICM UW
CASP – przykładowe białka
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
T0155 (33%)
Probable dihydroneopterin aldolase
Probable dihydroneopterin aldolase
M.
M.
tuberculosis
tuberculosis
RMSD 0.78Å
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
T0195 (18%)
target
model
Hypothetical esterase in
Hypothetical esterase in
SMC3-MRPL8
SMC3-MRPL8
intergenic region
intergenic region
;
;
S. cerevisiae
S. cerevisiae
Fold: Alpha/beta-hydrolases (c.69)
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
T0134_2 (12%)
model
target
D
D
elta-adaptin appendage domain
elta-adaptin appendage domain
H. sapiens
H. sapiens
Fold: Clathrin adaptor appendage domain (d.105)
RMSD 1.8Å
©
©
Krzysztof Ginalski ICM UW
Krzysztof Ginalski ICM UW
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/
Witold Rudnicki
ICM UW
©
©
Janusz Bujnicki,
Janusz Bujnicki,
http://www.genesilico.pl/
http://www.genesilico.pl/