Régi újságokban megjelent táblázatok számítógépes feldolgozása

Radnai Márton

A digitalizálás immár a könyvtárakat is elérte: a megváltozott könyvtárhasználati szokások és az egyre jobb minőségű OCR (optikai karakterfelismerő) szoftverek hatására egyre több régi könyv és újság digitalizálása történik meg, ezáltal segítve a kutatók munkáját.

Két évvel ezelőtt feleségemmel úgy döntöttünk, hogy megkezdjük az 1864 és 1948 között működött Budapesti Áru- és Értéktőzsde árfolyamainak feldolgozását annak érdekében, hogy az árfolyam- és egyéb adatok elemezhetővé váljanak a gazdaságtörténészek és a pénzügyi közgazdászok számára. Mivel az árfolyamok jellemzően táblázatos formában jelentek meg, ezért szükség volt ezen adatok tömeges digitalizálására.

A táblázatok feldolgozása az OCR szoftverek számára nehéz feladat, mivel itt nemcsak a szöveg helyes elolvasására van szükség, hanem arra is, hogy a táblázat egyes soraiban és oszlopaiban található számok és szövegek kapcsolódjanak egymáshoz, tehát strukturált formában legyenek elérhetőek. Bár a piacvezető OCR szoftvereknek vannak táblázatfelismerő funkcióik, de ezek a gyakorlatban nem elég jók, kézzel javítani kell őket, így tömeges használatra alkalmatlanok. Projektünk során ezért olyan szoftverkomponenseket fejlesztettünk ki, amik kiegészítik az OCR szoftvereket.

Előadásomban ezeket a fejlesztéseket, az eddig digitalizált tartalmakat és a projekt során átélt sikereket és kudarcokat mutatom be.

Képek