316
THADDEUS LIPIŃSKI
— „Notes and Queries”,
— „Blackwood’s Edinburgh Magazine”,
— „The Builder”.
Owe sześć tytułów reprezentuje dużą rozmaitość krojów czcionek, rozmiarów stron, formatów i zawartości artykułów. Dostępne są ciągi roczników za dwadzieścia lat, co daje źródło 110000 obrazów. Baza jest dostępna pod adresem: http://www.bodley.ox.ac.uk/ilej
ZAGADNIENIA SKANOWANIA
Czasopisma wybrane do ILEJ nie są objęte prawami autorskimi, zatem problematyka praw autorskich nie dotyczy ich skanowania i rozpowszechniania.
Projekt ILEJ koncentrował się na niedestrukcyjnym, nie-archiwalnym skanowaniu zarówno z wersji papierowej jak i z mikrofilmu. Oryginalne pliki TIFF były skalowane, a powstałe z nich pliki GIF — konwertowane do skali szarości. Polepszało to czytelność obrazów.
Tym niemniej, skanowaniu czasopism towarzyszyły problemy:
- zbyt mocna oprawa sprawiała, że po otwarciu roczników strony były pofalowane, co powodowało cienie, ciemniejsze w powstałych rowkach papieru,
— krzywizna stron zwiększała dodatkowo zacienienie,
— tekst przebijał z odwrotnej strony,
- strony miały przebarwienia.
Problemy te są rezultatem decyzji o zachowaniu oryginalnych dokumentów. Rozebranie roczników I zeskanowanie ich przy pomocy odpowiedniego skanera płaskiego mogłoby rozwiązać wiele z tych kłopotów. Standardowe oprogramowanie OCR miało problemy z odczytaniem archaicznych czcionek (takich jak długie S, które oddawane było jako F) oraz fragmentów w języku innym niż angielski, np. łacina lub greka.
tt
WYSZUKIWANIE ROZPROSZONE (ROZMYTE)
utrosj ai
Oryginalny projekt zapewniał „przybliżone dopasowanie” OCR. Zastosowanie go wymagało osobnego serwera, nazwanego Excalibur. Algorytmy wyszukiwania rozmytego rekompensują brak korekty w tekście, który powstał dzięki optycznemu rozpoznawaniu tekstu. Jeśli nie udaje się znaleźć poszukiwanego słowa dokładnie tak jak ono brzmi, wyszukiwanie rozproszone do pewnego stopnia pozwolić może na wyszukanie trafień częściowych. Na przykład, wyszukując słowo „Poznań”, możemy znaleźć „Poznań", .Poz—an" lub nawet „pomidor”. Wyszukiwanie rozproszone wydatnie zwiększa s/.um informacyjny w rezultatach.