Premeňte obrázky na editovateľný text / 5. časť
Spracovanie bežných dokumentov s textom nebude pre mnohých veľký problém. Koniec koncov ani náročnejšie dokumenty, hlavne tie štruktúrované s tabuľkou, nie sú zložité. Oplatí sa im však venovať dostatočnú pozornosť. Nástroje na prácu s tabuľkami sú súčasťou programu a pri troške trpezlivosti dosiahnete lepšie výsledky pri finálnom dokumente.
Postup je rovnaký, najprv treba otvoriť dokument na rozpoznanie alebo ho naskenovať. V aktuálnom príklade sme zvolili postup konverzie z PDF do iného formátu. V rámci novej úlohy otvoríte požadovaný dokument PDF a po jeho rozpoznaní zistíte na základe modrých ohraničení, ktoré časti program zaregistroval ako tabuľky. V modrých oblastiach sú zvýraznené aj čiary riadkov a stĺpcov. Umiestnením kurzora do tejto oblasti sa nad tabuľkou zobrazí plávajúci panel na dodatočné úpravy.
Ak program nerozpozná správne stĺpce alebo tabuľky, napríklad vynechá niektoré oblasti, ktoré by mohli byť samostatnými bunkami, ľahko ich pridáte. Tlačidlá na pridávanie stĺpcov a riadkov sú samostatné a fungujú podobne ako pri kreslení vlastnej tabuľky v programe Microsoft Word. Stáva sa totiž, že oblasť môže obsahovať obrázky, ktoré vo výsledku nechcete; vďaka líniám môžete pri výslednom formátovaní textu tieto prvky oddeliť. Nemusí ísť nevyhnutne o veľké obrázky, môžu to byť aj grafické odrážky vnorené do tabuľky. Pravá časť analytického zobrazenia už obsahuje výsledné formátovanie. Môžete označiť tabuľku a skopírovať ju aj s formátovaním do iného programu. Výsledok však nebude vždy presne zodpovedať vašim predstavám, preto sme venovali pozornosť nákresu tabuľky. Ak v nej, naopak, uvidíte čiary, ktoré tam v zásade nemusia byť, odstránite ich tlačidlom umiestneným na plávajúcom paneli.
Úprava tabuľky s plávajúcim panelom po prvom rozpoznaní dokumentu
Tipy pri skenovaní
FineReader umožňuje naskenované alebo odfotené predlohy upraviť, no ak budete dodržiavať pár základných pravidiel, zvýšite rýchlosť spracovania a mieru správneho rozpoznania. Základom je mať správne nastavený jas, aby písmo nebolo príliš bledé a jeho okraje sa nestrácali. Vysoký jas spoznáte podľa toho, že fonty po skenovaní nemajú celistvú štruktúru a sú trhané. Nízky jas zase spôsobuje, že fonty sa „zlievajú" a písmená nie sú jasne oddelené prázdnym miestom. Ďalšia záležitosť je rozlíšenie v dpi. Netreba to s hodnotou dpi preháňať, obvykle postačí maximálne 600 dpi.
Problémy môžu nastať pri skenovaní s hodnotou 200 dpi a písme menšom ako 10 bodov. Ak máte väčšie písmo, rozlíšenie 300 dpi postačí. V mnohých prípadoch však bude dokument kombinovaný a veľkosti fontov budú rôzne. Pri mimoriadne zložitých dokumentoch, napríklad propagačných letákoch, kde sa striedajú veľkosti písma a miešajú s grafikou, pokojne zvýšte rozlíšenie aj na viac ako 600 dpi, ak to skener umožňuje. To však bude mať za následok spomalenie rozpoznávacieho procesu a mierne predĺženie spracovania dokumentu.