2011 03 29 57 46

2011 03 29 57 46



316


THADDEUS LIPIŃSKI


—    „Notes and Queries”,

—    „Blackwood’s Edinburgh Magazine”,

—    „The Builder”.

Owe sześć tytułów reprezentuje dużą rozmaitość krojów czcionek, rozmiarów stron, formatów i zawartości artykułów. Dostępne są ciągi roczników za dwadzieścia lat, co daje źródło 110000 obrazów. Baza jest dostępna pod adresem: http://www.bodley.ox.ac.uk/ilej


ZAGADNIENIA SKANOWANIA



Czasopisma wybrane do ILEJ nie są objęte prawami autorskimi, zatem problematyka praw autorskich nie dotyczy ich skanowania i rozpowszechniania.

Projekt ILEJ koncentrował się na niedestrukcyjnym, nie-archiwalnym skanowaniu zarówno z wersji papierowej jak i z mikrofilmu. Oryginalne pliki TIFF były skalowane, a powstałe z nich pliki GIF — konwertowane do skali szarości. Polepszało to czytelność obrazów.

Tym niemniej, skanowaniu czasopism towarzyszyły problemy:

-    zbyt mocna oprawa sprawiała, że po otwarciu roczników strony były pofalowane, co powodowało cienie, ciemniejsze w powstałych rowkach papieru,

—    krzywizna stron zwiększała dodatkowo zacienienie,

—    tekst przebijał z odwrotnej strony,

-    strony miały przebarwienia.

Problemy te są rezultatem decyzji o zachowaniu oryginalnych dokumentów. Rozebranie roczników I zeskanowanie ich przy pomocy odpowiedniego skanera płaskiego mogłoby rozwiązać wiele z tych kłopotów. Standardowe oprogramowanie OCR miało problemy z odczytaniem archaicznych czcionek (takich jak długie S, które oddawane było jako F) oraz fragmentów w języku innym niż angielski, np. łacina lub greka.


md


o*


jfip


tt


WYSZUKIWANIE ROZPROSZONE (ROZMYTE)


utrosj ai


Oryginalny projekt zapewniał „przybliżone dopasowanie” OCR. Zastosowanie go wymagało osobnego serwera, nazwanego Excalibur. Algorytmy wyszukiwania rozmytego rekompensują brak korekty w tekście, który powstał dzięki optycznemu rozpoznawaniu tekstu. Jeśli nie udaje się znaleźć poszukiwanego słowa dokładnie tak jak ono brzmi, wyszukiwanie rozproszone do pewnego stopnia pozwolić może na wyszukanie trafień częściowych. Na przykład, wyszukując słowo „Poznań”, możemy znaleźć „Poznań", .Poz—an" lub nawet „pomidor”. Wyszukiwanie rozproszone wydatnie zwiększa s/.um informacyjny w rezultatach.


UTRZYMYWANIE ARCHIWUM


Według oryginalnego zamierzenia archiwum udostępniało obrazy i tekst OCR nu terenie Wielkiej Brytanii. Strona domowa, baza SGML oraz obrazy dwóch czasopism pr/e*



Wyszukiwarka

Podobne podstrony:
2011 03 29 57 52 Wtki T tfja i dostęp do starych gazet i czasopism 317 f ^Tuwie byty na serwerze gł
2011 03 29 57 38 1 §8i« K
2011 03 29 48 58 Uczestnicy Konferencji przedkładają niniejszy Apel... "Ministrowi Kultury i D
2011 03 29 48 50 APEL o kompleksowy program ochrony narodowego zasobu bibliotecznego Przechowy
2011 03 03 29 30 EPIDEMIOLOGIA • Jest przede wszystkim nauką opisową I zajmuje się badaniem poszcze
2011 03 03 32 57 KORZENIE WSPÓŁCZESNEJ EPIDEMIOLOGII Nacisk na metody naukowo, pomiary i badani# hi
2011 03 03 43 46 •Lanclzl (lekarz papieża Klemensa VII) opracował przepisy sanitarne zapobiegające

więcej podobnych podstron