18 G. Fic, G. Nowak
wygenerowanego klucza od zastosowanego programu-generatora - zbiór podstruktur reprezentowanych w kluczu struktury jest charakterystyczny dla określonego generatora.
Ten problem nie występuje w Hashed Fingerprints, które są tworzone w wyniku wygenerowania zbioru wszystkich możliwych dla danej cząsteczki podstruktur: dwu-, trzy-, cztero-,..., n-atomowych. Tutaj oczywiście brak jest wcześniej zdefiniowanego zbioru podstruktur, zaś zbiory generowanych przez komputer podstruktur są bardzo liczne. Przykładowo, dla 4-atomowej cząsteczki fosgenu zostanie wygenerowanych 7 podstruktur: jedna 4-atomowa, trzy 3-atomowe i trzy 2-atomowe.
Do określania podobieństwa struktur chemicznych wykorzystuje się różne jego miary [11]. Jedna z nich to Tanimoto_similarity, zdefiniowana:
gdzie:
Tanimoto _ similarity =-
a + b + c
c jest liczbą wspólnych podstruktur dla dwóch porównywanych struktur A i B (odpowiadające sobie pozycje Fingerprints mają wartości l),aibsą liczbami podstruktur (jedynek) występujących wyłącznie odpowiednio w cząsteczce A oraz cząsteczce B. Tanimoto_similarity przyjmuje wartości od 0 (brak podobieństwa) do 1 (identyczne struktury). Inna miara podobieństwa to Euclidean_distance (ED), zdefiniowany:
gdzie:
а, oraz bi są wartościami i-tych elementów Fingerprints dla dwóch porównywanych struktur A i B. Inaczej: wartość ED jest pierwiastkiem kwadratowym z liczby tych pozycji Fingerprints cząsteczek A i B, które posiadają przeciwne wartości (1,0 lub 0,1). Im większa wartość ED tym mniejsze podobieństwo struktur.
Najczęściej w wyszukiwarkach struktur chemicznych zaimplementowana jest miara Tanimoto_similarity, ze zdefiniowaną przez użytkownika minimalną (maksymalną) wartością (w %, np. 70 oznacza, że kwerendę wyszukiwawczą będą spełniać tylko te struktury, dla których wartość Tanimoto_similarity, obliczona w odniesieniu do struktury zdefiniowanej w kwerendzie, jest nie mniejsza niż 0.7).
BIBLIOGRAFIA
1. G. Fic, G. Nowak, Przemysł Chemiczny 82 (2003) 1331.
2. B. Dębska, G. Fic (Eds.), Information Systems in Chemistry - 2. Oficyna Wydawnicza Politechniki Rzeszowskiej, Rzeszów 2004.
3. G. Fic, G. Nowak, Przemysł Chemiczny 85 (2006) 587.
4. B.Guzowska-Świder, Wiadomości Chemiczne, 60 (2006) 609.
5. B. Dębska, Fic G. (Eds.), Information Systems in Chemistry - 3. Oficyna Wydawnicza Politechniki Rzeszowskiej, Rzeszów 2006.
б. Entrez, the Life Sciences Search Engine, http://www.ncbi.nlm.nih.gov/sites/gquery
7. Biochemical Pathways Database (BioPath), http://www.molecular-networks.com/biopath/
8. ChemIDplus Advanced, http://chem.sis.nlm.nih.gov/chemidplus/
9. D. Weininger, J. Chem. Inf. Comput. Sci. 28 (1988) 31,29 (1989) 97, http://www.daylight.com/smiles.
10. SMARTS, http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html
11. Fingerprints - Screening and Similarity, http://www.daylight.com/dayhtml/doc/theory/theory.fmger.html.