' Uc/enie się: gromadzenie wiedzy, rozumiemeinterpretacja, porównywanie, m.
integracja, socjalizacja,
Jest 10 bardzo otólnc snoirzeiiie na wys/ukiwanie informacji, udvż wvmieninn»
nic prognoza, transformacja (Marchionini 2006, s. 42)
• Badanie, akumulacja, analiza, wykluczcnie/negacja, synteza, ocena, odkrycie, p|ai|i
łowy temat.
Gdy zajmujemy się wyszukiwaniem danych z punktu widzenia procesów fechnolo gicznycb. zachodzących w systemie komputerowym, zawsze musimy mieć na uwadze iC|, efektywność Dlatego nic można pomijać faktu, że komputery większość czasu pr/cznrt. czonego na wyszukiwanie zużywają oczekując na dostęp do pamięci masowych. Wynj^ z (ego. że każda minimalizacja częstości dostępu do danych dyskowych powoduje znacz, ne przyśpieszenie procesu wyszukiwania.
W celu ograniczenia potrzeby dostępu do dysku powstało kilka podstawowych technik wyszukiwawczych. Należą do nich: wyszukiwanie sekwencyjne, pliki inwersyjne (od. wToconc) i obiekty typu tablic mieszania lub haszowania (liash lables).
Wyszukiwanie sekwencyjne (pelnotekstowe) rozpoczyna się na początku tekstu, na. stępnie tekst jest odczytywany znak po znaku w poszukiwaniu zadanych wartości (ciągu znaków) i kończy się na końcu tekstu. Wynika z tego, że przetwarzany jest cały plik. Peine skanow anie tekstu jest czasochłonne, ale można go zastosować do wyszukiwania nawet pojedynczych ciągów znaków. Często stosuje się go do wyszukiwania przy użyciu „wy. rażeń regularnych", które są ograniczonymi rozszerzeniami ciągów. Najprostszą formą wyrażeń regularnych są tak zwane wieloznaczni^ (wildcord), którymi mogą być różne znaki, w zależności od rodzaju wieloznacznika.
Procedury wyszukiwania ciągów znaków wykorzystywane są w edytorach tekstu lub podczas przeglądania dokumentów tekstowych, w przeszukiwaniach baz danych oraz w pracy z danymi na poziomie systemu operacyjnego (na przykład przy wyszukiwaniu plików, procesów), Bardziej zaawansowane programy pozwalają na stosowanie wyrażeń regularnych, korzystających ze znacznie szerszego zbioru metaznaków o większych możliwościach od zwykłych wieloznaczników.
Wszystkie algorytmy wyszukiwania sekwencyjnego mają pewne cechy wspólne. Podczas ich wykonywania nie ma potrzeby zapewnienia dodatkowego miejsca na dysku, oprócz tego, które zajmuje sam przeszukiwany plik (wymagana jest przestrzeń pamięci wielkości zapytania, a nie pliku). Przeszukiwane pliki mogą znajdować się w postaci, w jakiej zostały wykonane, nie ma potrzeby prowadzenia żadnych prac przygotowawczych. Wyszukiwanie może się odbywać według złożonych wyrażeń, nie tylko ciągów.
Czas pracy wszystkich algorytmów wyszukiwania sekwencyjnego jest proporcjonalny do długości przeszukiwanego zasobu. Jeżeli przeszukiwany plik podwoi swoją objętość,
" Wieloznacznil: zwany jest leź symbolem miski, znakiem globalnym, melaznakiem, symbolem wieloznacznym lub znakiem wieloznacznym. Wyróżnia się zwykle dwa podstawowe rodzaje: wieloznacznik lokalny (?), zastępujący pojedyncze wystąpienie znaku i wieloznacznik ogólny (*), zastępujmy dowolną liczbę znaków.
iiltfifli* P°,rwl ^va "V Dlitcgfl wyirukiwtnic ukie mo/ni w*snm ^ ^flW0 niedużych zasobów, me zdije więc egzaminu w przypadku tekstowych do ,,<’sUl1|i zawierających miliardy znaków. W ukich przypadkach Mowwanc są techniki y /jijjjodwrócone(Inwlfdfilet), Możnajc porównaćdoindeksuw k i#: dc-ż.acc wyszukiwaniu wybierane »ą z /awhu i odpowiednio mftowane Ina przybiły fUęiycznic), dzięki czemu s;j znacznie s/ybciej dostępne do i-dwukania Czynność lilad •*' jn(jcVsowaniem. mogą wykonywać ludzie (głównie bibliotekarze i pracownicy ,ę, z-'va^L |u|, może ona być wykonywana automatycznie Podc/aa automafyczncfp im infof,T,a Jjjj dokumentów elektronicznych tekst „cięty" jest ni poszczególne słowa. które ^e- zond sil d° oddzielnego pliku wraz z adresem miejsca, w którym słowo znajduje Pr/Cn° |iku pierwotnym, Słowa są następnie sortowane alfabetycznie, co znacznie przy-
jiCza wyszukiwanie-
^ i ii odwrócone są techniką obecnie powszechnie stosowaną dla wielkich baz danych . a innych sposobów przeszukiwania giga- i terabajtowych baz danych z szybkością iffl,ł (j0 przyjęcia. Podczas indeksowania tekstów kodowanych, na przykład w XMI. i,ioZ 0j|jwość określenia przez, system funkcji każdej części indeksowanego pliku. Mają jfS* !^jr)a|c ia|iZe swoje wady. Nic ma możliwości wyszukiwania według dowolnego wy-° nia Zazwyczaj systemy z plikami odwróconymi mogą wyszukiwać tylko w opar-początek słowa. Jeżeli chcemy mieć możliwość wyszukiwani według końca słów. C* jc początku, należy stworzyć dodatkowy plik odwrócony, posortowany według końców * oczywiście plik odwrócony (lub pliki) muszą być wykonane zanim wyszukiwanie 5 ic jjyj przeprowadzone, co może być długotrwałym procesem Po każdej zmianie pli-
danych modyfikacji wymaga także plik odwrócony. Pliki odwrócone zajmują dużo miejsca, od 25% aż do 200% więcej niż same pliki danych. Ich rozmiary można /mniej* sZyć stosując tzw. stop-listy. Ze względu na coraz niższe koszty pamięci operacyjnych I zcwnętrznych, ilość dodatkowo zajmowanej pamięci przestaje być problemem.
Inną formą wyszukiwania, która nie wymaga przeszukiwania sekwencyjnego całego 2a$obu danych, jest technika stosowania tablic mieszania (hasli) lub kodowania mieszanego- Dla danego słowa obliczane jest jego miejsce występowania w pliku. Gdyby w danym języku każda litera występowała z taką samą częstotliwością, można by stwierdzić. żc słowa zaczynające się na literę M powinny być w połowie pliku odwróconego. W rzeczywistości tak nie jest. Rozwiązaniem jest obliczenie funkcji hash dla każdego słowa. Funkcja ta podobna jest do generatora liczb losowych: jest próbą utworzenia wartości, których każda możliwa wartość funkcji występuje z podobnym prawdopodobieństwem. Zawsze dla tego samego słowa funkcja wygeneruje ten sam kod.
Ponieważ zadaniem algorytmu mieszania jest rozmieszczenie słów możliwie przypadkowo. słowa podobne, na przykład o tym samym rdzeniu, a różniące się tylko przyrostkiem, mogą znaleźć się daleko od siebie. Oznacza to, że nie nadaje się on do poszukiwania podobnych słów, co często jest potrzebne w zastosowaniach serwisów GBC. Podobnie jak dla plików odwróconych, niezbędne jest wcześniejsze przygotowanie odpowiedniego pliku i jego stale modyfikacje.
Oprócz przedstawionych, stosowane są także inne techniki zapewnienia szybkiego dostępu do zasobów baz danych przez właściwą organizację plików, takie jak drzewa lub pliki sygnaturowe. Nie mają one jednak większego zastosowania w zakresie masowych danych tekstowych.
Obecnie stosowane są odrębne mechanizmy wyszukiwania informacji dla poszczególnych mediów i zastosowań. Metody wyszukiwania zapisów dźwięku w jednym serwisie GBC są trudne do zastosowania w innym, a jeszcze mniej przydatne do wyszukiwania nagrań wideo czy obiektów graficznych. Zapisy dźwięków mogą być opisywane tekstowo lub za pomocą innych dźwięków; grafika, w tym trójwymiarowa, może być również
157