2. Technologie digitalizace dokumentů
1. Úvod
2. Co je to vůbec digitalizace?
3. Prostředky digitalizace
4. Základní pojmy
5. Výběr optimálního skeneru
6. OCR - Optical Character Recognition
7. ICR - Intelligent Character Recognition
8. OMR - Optical Mark Recognition
9. OBR – Optical Bradle Recognition
10. Voiting – kombinace modulů
11. Doporučení
3. Úvod do problematiky
• Stávající ERP systém
• Digitalizace faktur,
objednávek, … pro
příslušný ERP systém
• Vzhledem k potřebám
naší firmy zaměření
pouze na digitalizaci
papírových
dokumentů
4. Co je to digitalizace?
• Převedení dokumentů do
digitální formy
• Digitální dokument není
náhradou originálu
– je jenom novým
dokumentem, vytvořeným
za účelem zjednodušení
správy a tím pádem
snížením nákladů na ni
vynaložených.
5. „Definice“ digitalizace
Žádná přesná pochopitelně neexistuje
Takže uvádím podle mého názoru
nejvýstižnější :
„Digitalizace je převod vybraných měřitelných
fyzikálních veličin digitalizovaného objektu do
numerických hodnot, jejich kódování a uložení
za účelem pozdějšího vygenerování jiných
fyzikálních veličin s cílem umožnit pozdějšímu
uživateli fyziologické vjemy nahrazující přímé
vnímaní originálu.“
http://www.ikaros.cz/node/450
6. Prostředky digitalizace
• Mezi hardware, který využijeme při digitalizaci dokumentů v naší
firmě rozhodně patří skener. Ten se využije v metodě zvané
skenování, které umožňuje převod textu a obrazu do digitální
podoby.Tento výraz pochází z anglického slova scan, což se dá
přeložit jako „pečlivě prohlížet“.
7. Skenery – základní přehled 1
• Ruční – podobný žehličce
• Tužkový skener – snímání řádků, čárových kódů
• Plochý skener – často se nazývá taktéž jako
stolní skener
• Stolní s podavačem (s ADF)
• Stolní bez podavače (bez ADF)
» Pozn.: ADF-Automatic Document Feeder
8. Skenery – základní přehled 2
• Rotační skener ,bubnový
skener
– Finančně velice náročné,
vhodné pro
profesionální využití
• 3Dskener
– V praxi pro digitalizaci
vzácných rukopisů,
taktéž finančně náročné
• Digitální fotoaparát
– Není sice klasický
skener, ale dá se tak
použít
9. Skenování z hlediska pojmů 1
• Rozlišení - Určuje jak kvalitní bude nasnímaný obraz
– základní jednotkou je dpi (dots-per-inch, česky
bod na palec) Skenery dnes běžně dokáží
naskenovat předlohu od 100 do 9600 dpi. Pro
běžnou kvalitu vystačíme s rozlišením do 600
dpi.
– S větší hustotou sítě pixelů roste kvalita
nasnímaného obrazu v počítači
10. Skenování z hlediska pojmů 2
• Barevná hloubka
– v minulosti se skenery dělily na černobílé a
barevné. Dnes se již ve většině případů
setkáváme pouze s barevnými. To ale
neznamená, že tato zařízení neumějí snímat
černobíle. Každý skener má nastavitelnou
barevnou hloubku, tedy počet barev, které
dokáže rozlišit a převést do počítače.
11. Způsoby skenování*
• Black&White • Grayscale • Color
• Binary • 8-bit gray • 24-bit or 32-bit
• Monochrome • 256-level gray • True color
• Single bit
*http://www.dicomgroup.com/
12. Skenování z hlediska pojmů 3
• Komprese
– Uplatňuje se u ní metoda ztráty informací nebo
převodu na matematický algoritmus
» bezztrátová komprese - po neskenování je digitální
obraz identický s předlohou (GIF, PNG)
» ztrátová komprese - dochází u ní ke ztrátě informací,
přesto je výkonnější než bezztrátová, protože se vypouští
barvy, které jsou tzv. podprahové (JPG, TIFF)
13. Velikost obrazu v závislosti na
počtu barev
Pozn.: S počtem barev logicky roste počet bitů
14. Skenování z hlediska pojmů 4
• Prahování (Thresholding)
– funkce, která upravuje jasové či barevné složky pixelů obrazu
podle určitého předpisu.
– Jednoduše určuje převod jednotlivých pixelů na bílou a černou
barvu
• Dynamické prahování (VRS – VirtualReScan)
– slouží ke zlepšení kvality skenovaných dokumentů
– průběžně kontroluje a nastavuje správné vyrovnání, jas, kontrast a
čirost zobrazení
15. Prahování (Thresholding)*
Úroveň prahování 95
Úroveň prahování 75
Úroveň prahování 55
Úroveň prahování 35
Úroveň prahování 15
Úroveň 15 Úroveň 35 Úroveň 55 Úroveň 75 Úroveň 95
*http://www.dicomgroup.com/
16. Dynamické prahování*
8-bit grayscale Black and white Black and white
bez VRS VRS
dynamické prahování
*http://www.dicomgroup.com/
17. Skenování z hlediska pojmů 5
• Výstupní formáty
– při skenování je možné zvolit výstupní formát
na výběr je celá paleta formátů, které dělíme:
○ grafické (např. BMP, TIFF, GIFF, JPG,..)
○ textové (např. TXT, RTF,PDF,..)
Nutno rozhodnout, které z těchto, povětšinou jistě
textových formátů využít v závislosti na
dokumentu
18. Výběr vhodného skeneru
• Volba skeneru s optimálními
vlastnostmi musí vycházet
z objemů zpracovávané
dokumentace, rozměrů, typu a
kvality papíru.
• Kritéria
– Objem dokumentace
– Rozměr předlohy
– Hmotnost papíru
– Simplexní/duplexní skenování
– Rozlišení
19. OCR - Optical Character Recognition
• Převod strojově psaného
textu do elektronické podoby
(databáze symbolů)
• Optické rozpoznávání znaků
• Program je schopný se učit na
základě výsledků
• Spellchecker – kontrola a
doplňování slov
• V případě kvalitních
podkladů velká úspora času –
v opačném případě velká
chybovost
20. ICR - Intelligent Character Recognition
• „Rozšíření OCR“
• Pro inteligentní rozpoznávání
ručně psaného písma –
„handwriting recognition“
• Převádí ho na alfanumerické
znaky
• Ke zdokonalování dochází
v průběhu zpracování,
schopen naučit se nový
rukopis, což výrazně
zjednodušuje práci
• Nevýhodou je vysoká
chybovost
21. OMR - Optical Mark Recognition
•Technologie pro rozpoznávání zaškrtávacích
značek na dokumentech
•V předpřipravených šablonách zaškrtávací pole
•Je nutné přesné rozložení daného dokumentu
•Používá se v dotaznících, testech, sázenkách,…
•Vhodné využití v souvislosti s OCR
- pomocí čárového kódu automaticky
nastavit indexaci
22. OBR – Optical Braille Recognition
• Informace zapsaná Braillovým písmem z
krátkého dopisu i kompletní knihy může být
takto snadno přenesena do počítače, a to
dokonce i když vůbec neznáte Braillovo
písmo
23. Voiting – kombinace jednotlivých
softwarových modulů
• Umožňuje kombinovat pro
rozpoznávání textu více
rozpoznávacích modulů,
spolu s definováním
různých pravidel a
rozhodovacích algoritmů
• Výsledkem je výrazně
vyšší kvalita
rozpoznávání.
• Výrazně šetří čas při
opravách dokumentů.
24. Doporučení
• Vzhledem ke složitosti
tématu doporučuji nechat
si udělat studii dokumentů
autorizovanou firmou a
dle výsledků interně
implementovat jejich
doporučení
• Z hlediska efektivity se
toto jeví jako nejlepší
řešení
25. Použité zdroje:
• Literatura:
• PECINOVSKÝ, Josef. Skenery a skenování. 2. aktualiz. vyd. Praha: Grada, 2003. Snadno a rychle. ISBN 80-247-0544-3.
• HÁLA, Tomáš - MATOUŠEK, Michal. Skenery: praktický průvodce uživatele. 1. vyd. Praha: Computer Press, 1999.
DTP&grafika. Rychle a jistě. ISBN 80-7226-217-3.
• Internet:
• http://web.ff.cuni.cz/%7Ejedlickp/kurzy/multimedia1_2/multimedia5_2002/index.htm
• http://www.lupa.cz/clanky/digitalizace-knihoven-je-beh-na-dlouhou-trat
• http://www.inkam.cz/
• http://www.efcon.cz/EFCON_WEB/efcon.nsf/czech/digitalizace.htm
• http://digit.nkp.cz/knihcin/ookf/digit.htm
• http://www.systemonline.cz/clanky/archivace-dat-iii-dil.htm
• http://www.scanservice.cz/
• http://www.oikt.czu.cz/?r=118
• http://www.dicomgroup.com/
• http://medard.soc.cas.cz/digidat/obraz_OCR.htm
• http://www.systemonline.cz/
• www.businessworld.cz/
Editor's Notes
Úvodní strana
Osnova části prezentace: Technologie digitalizace dokumentů
Vzhledem k našemu novému ERP systému a našim současným potřebám, které se týkají především převodu dokumentů do digitální formy, se v tématu technologie digitalizace dokumentů zaměřím pouze na dokumenty typu – faktury, objednávky, dodací listy, apod. , tedy digitalizaci klasických papírových dokumentů, protože technologie pro digitalizaci magnetických audio či video pásků se zde jeví vzhledem k tématu jako zbytečná, proto ji zde zmiňovat vůbec nebudu.
O digitalizaci se mluví velice často a všem nám je asi jasné, že jde o převedení čehokoli, například textu do digitální formy. Projdeme-li trochu co již bylo o digitalizaci řečeno a napsáno zjistíme, že tento základ je obsažen vždy, ale obvykle je tím automaticky myšleno o něco více a tyto další významy se již různí. Optimistický přístup hovořil dokonce o zmrazení času a neměnné náhradě originálu. Myslím, že toto je pouze zbožné přání a jenom efektivní využívání digitalizace skutečně ukáže, jak to ve skutečnosti s digitalizací je. Je třeba si totiž uvědomit, že digitální dokument není náhradou originálu, je jenom novým dokumentem, vytvořeným za účelem zjednodušení správy a tím pádem snížením nákladů na ni vynaložených.
Jelikož neexistuje žádná přesná definice, tak zde uvádím tu, která se mi jeví jako nejvýstižnější: „ Digitalizace je převod vybraných měřitelných fyzikálních veličin digitalizovaného objektu do numerických hodnot, jejich kódování a uložení za účelem pozdějšího vygenerování jiných fyzikálních veličin s cílem umožnit pozdějšímu uživateli fyziologické vjemy nahrazující přímé vnímaní originálu.“
Co potřebujeme k digitalizaci? Obecně lze říci, že tak jako pro většinu procesů v IT, tak i pro proces digitalizace potřebujeme především Hardware a Software. Mezi hardware, který využijeme při digitalizaci dokumentů v naší firmě rozhodně patří skener. Ten se využije v metodě zvané skenování, které umožňuje převod textu a obrazu do digitální podoby.Tento výraz pochází z anglického slova scan, což se dá přeložit jako „pečlivě prohlížet“.
Co se týče druhů skenerů, rozlišujeme tyto základní skupiny: • Ruční skener – dnes již spíše muzejní exponát, podobný žehličce. Na jeho principech ovšem funguje tzv.. tužkový skener , který se dnes samozřejmě v dokonalejší verzi používá jako snímač čárových kódů. • Plochý skener – někdy se setkáváme s názvem stolní skener. Je to typický skener, který všichni dobře známe. Jde o zařízení ve tvaru kvádru se skleněnou plochou, kam se pokládá předloha. Pod sklem je umístěn světelný zdroj, který osvětluje předlohu, od níž se světlo odráží přes soustavu zrcadel na CCD (Charge Coupled Device) snímač. Čím je místo tmavší, tím méně světla odráží. Podle toho snímač pozná o jakou barvu jde a zapíše ji do elektronické podoby. Plocha stolního skeneru bývá omezena na formát A4. Existují však také zařízení pro snímání větších formátů (velkoformátové skenery). Ploché skenery jsou dnes díky své ceně nejrozšířenější a nacházejí široké uplatnění na pracovištích i v domácnostech. Stolní skenery rozlišujeme podle toho zda mají, či nemají podavač na stolní s podavačem (zásobníkem) a stolní bez podavače , někdy se využívá tzv..skupina produkčních skenerů (Desktop, Workgroup a Production ) 85% všech prodaných skenerů je z prvních dvou kategorií. Pozn.: Všechny obsahují automatický podavač dokumentů (ADF-Automatic Document Feeder)
• Rotační skener – Někdy také nazývaný jako bubnový. Tento skener využívá elektronku zvanou fotonásobič, která výrazně zvyšuje intenzitu elektrického signálu a následně ji převádí do elektronické podoby. Předloha se připevní na rotující válec a fotonásobič čte postupně jeden řádek po druhém. Výsledkem je velmi kvalitní výstup. Rotační skenery jsou finančně náročné a slouží pouze k profesionálnímu použití. • 3D skenery, digitální fotoaparáty - Velmi drahé, ale kvalitní zařízení, které snímá předlohy shora. Slouží zejména ke skenování knih. V praxi mohou být 3D skenery využity k digitalizaci vzácných dokumentů a rukopisů, se kterými nelze z důvodu možného poškození příliš často manipulovat. Co se týče digitálních fotoaparátů, tak o skener v tom pravém slova smyslu se sice nejedná, ale mohou být využity podobně jako 3D skenery, ovšem jejich výstup je výrazně ovlivněn prostředím.
Rozlišení - Určuje jak kvalitní bude nasnímaný obraz. Skener rozdělí obraz na síť tzv. pixelů (picture element, v češtině se někdy používá výraz obrazový bod). Pixel představuje nejmenší a dále nedělitelnou jednotku, která nese jednu barvu. S větší hustotou sítě pixelů roste kvalita nasnímaného obrazu v počítači. Rozlišení lze tedy definovat jako jako počet obrazových bodů na délkovou jednotku. Základní jednotkou je dpi (dots-per-inch, česky bod na palec) Skenery dnes běžně dokáží naskenovat předlohu od 100 do 9600 dpi. Pro běžnou kvalitu vystačíme s rozlišením do 600 dpi.
Barevná hloubka - V minulosti se skenery dělily na černobílé a barevné. Dnes se již ve většině případů setkáváme pouze s barevnými. To ale neznamená, že tato zařízení neumějí snímat černobíle. Každý skener má nastavitelnou barevnou hloubku, tedy počet barev, které dokáže rozlišit a převést do počítače.
Porovnání jednotlivých způsobů skenování – pro lepší přehlednost.
Komprese - Při skenování je možné zmenšit velikost výsledného digitálního obrazového souboru pomocí tzv. komprese. Uplatňuje se u ní metoda ztráty informací nebo převodu na matematický algoritmus. Podle toho také kompresi dělíme na dvě skupiny: a) bezztrátová komprese - nedochází u ní ke ztrátě informací. Po neskenování je digitální obraz identický s předlohou. U bezztrátové komprese se obraz převádí na matematický vzorec. Ve skutečnosti to funguje tak, že se okolní barvy dopočítávají. Zobrazování takových obrázků však může zejména na pomalejších počítačích trvat déle (v dnešní době velmi rychlých počítačů tato vlastnost postupně ztrácí na významu). Užívá se u formátů GIF a PNG. b) ztrátová komprese - dochází u ní ke ztrátě informací, přesto je výkonnější než bezztrátová. Vypouští se barvy, které jsou tzv. podprahové (lidské oko je není schopné rozeznat) nebo téměř totožné. Obrázek tak vypadá na první pohled naprosto stejně jako předloha. Důležité je, že rozsah ztrátové komprese může uživatel nastavit sám. Užívá se u formátů JPG a TIFF.
Tabulka velikosti obrazu v závislosti na počtu barev.
Prahování (Thresholding) – funkce, která upravuje jasové či barevné složky pixelů obrazu podle určitého předpisu. Jednoduše určuje převod jednotlivých pixelů na bílou a černou barvu. (VRS – VirtualReScan) Technologie VRS slouží ke zlepšení kvality skenovaných dokumentů. VRS průběžně kontroluje a nastavuje správné vyrovnání, jas, kontrast a čirost zobrazení. VRS provádí kontrolu skenovaného dokumentu tak, aby se do aplikace dostal v co nejlepší možné kvalitě zobrazení. VRS taktéž sjednocuje uživatelské rozhraní pro různé typy skenerů. (Odpadá nutnost předpřipravených profilů skenování)
Pro názorné pochopení prahování.
Pro lepší pochopení dynamického prahování – názorná ukázka.
Výstupní formáty -Při skenování je možné zvolit výstupní formát. Na výběr je celá paleta formátů, které dělíme na grafické (např. BMP, TIFF, GIFF, JPG,..) a textové (např. TXT, RTF,PDF,..) Nutno rozhodnout, které z těchto, povětšinou jistě textových formátů využít v závislosti na dokumentu.
Volba skeneru s optimálními vlastnostmi musí vycházet z objemů zpracovávané dokumentace, rozměrů, typu a kvality papíru. • Objem dokumentace – nejlépe s ADF. Pro pravidelné každodenní zpracování dokumentace se obvykle využívají skenery se střední až vysokou zatížitelností – tzn. Skupina Workgroup nebo produktion. • Rozměru předlohy - Některé skenery umožňují přizpůsobit rozměr zásobníku formátu snímané předlohy, některé umožňují snímání pouze běžných formátů. Pro snímání dokumentů velmi malého nebo naopak velkého formátu se často využívají skenery s plochým ložem (tzv."Flat Bed") – ačkoliv umožňují zpracování dokumentů s netypickým formátem, oproti skenerům s automatickým podavačem vyžadují obsluhu, která musí dokumenty vkládat a vyjímat a prodlužuje se tak dobu snímání. • Hmotnost papíru - Předloha může být vytištěna na papíru různého typu lišícího se hmotností. Některé typy papíru (průklepový papír, ale naopak i papír kartonového typu) mají v případě nepřesného nastavení tloušťky papíru tendenci vstupovat do skeneru po dvojicích (tzv. doublefeed).Některé skenery bývají vybaveny automatickou kontrolou, která těmto problémům zamezí. • Simplexní/Duplexní snímání - Duplexní skenery snímají obě strany listu předlohy, pro snímání dokumentů na listech s potištěnou jednou stranou postačí simplexní skener. V praxi se vyskytují kombinace obou typů dokumentů, proto je třeba, aby použitý skener umožňoval přepínání mezi simplexním a duplexním režimem nebo aby skenovaní softwarová aplikace umožňovala jednoduše prázdné stránky odmazávat. • Rozlišení - Pro digitalizaci hůře čitelné předlohy nebo dokumentů obsahujících velké množství detailů se většinou požívají vyšší rozlišení (300 dpi u černobílého, 150 – 200 dpi u barevného skenování). Snadno čitelné dokumenty nebo dokumenty s nízkým podílem detailů je možno snímat i při menším rozlišení (200 dpi u černobílého, 100 – 150 dpi u barevného skenování). Nutno brát v potaz hledisko času a kapacitu databáze.
Jedná se o technologii pro převod strojově psaného textu do elektronické podoby. Tato technologie umožňuje rychlý a levný způsob převodu velkého množství dokumentů. Funguje tak, že v prvním kroku rozdělí dokument podle naskenované předlohy do jednotlivých řádků. Dále rozděluje jednotlivá slova na řádku podle mezer mezi slovy. V další fázi rozděluje ve slovech jednotlivá písmena. V případě použití neproporciálního písma se jedná o relativně jednoduchou operaci. Problém nastává v případě použití písma proporciálního, kde každý znak má jinou šířku. Ještě obtížněji se převádí text, který je špatně čitelný např. poškozený papír, ze kterého se skenuje, písmena se navzájem dotýkají apod. Nakonec se jednotlivá písmena identifikují a to pomocí určitých charakteristik (čáry, mezery, uzly, úhly, atd.). Tomuto přístupu se říká topologická analýza. Dnes programy OCR procházejí textem několikrát a v posledních průchodech používají tzv. spellchecker, který daná slova kontroluje a popřípadě i doplňuje. Ještě přesnější převod zajišťují metody, kde se OCR software sám učí z již rozpoznaných písmen. Mezi výhody patří určitě úspora času, mezi nevýhody možnost velké chybovosti v případě špatně připravené, skenované předlohy.
„ Rozšíření“ OCR .Technologie pro inteligentní rozpoznávání ručně psaného písma –„handwriting recognition“ (čísla a velká písmena psaná hůlkovým písmem) a převedení na alfanumerické znaky (vytěžování). Ke zdokonalování dochází v průběhu zpracování, schopen naučit se nový rukopis, což zjednodušuje práci – snadné přizpůsobení, předdefinování určitých symbolů. Nevýhodou je vyšší chybovost – čili nutnost více času stráveného kontrolou dokumentu.
Technologie pro rozpoznávání zaškrtávacích značek na dokumentech, zejména dotaznících. V předpřipravených šablonách zaškrtávací pole,… (např. testy, čtečky čárových kódů,…) Zde je nutné přesné rozložení daného dokumentu – používají se pouze přípustné znaky. Velice vhodné využití v souvislosti s OCR, kde si můžeme velice zjednodušit zpracování faktur, objednávek – a pomocí čárového kódu automaticky nastavit indexaci.
Jenom pro doplňění. Informace zapsaná Braillovým písmem z krátkého dopisu i kompletní knihy může být takto snadno přenesena do počítače, dokonce i když vůbec neznáte Braillovo písmo.
Technologie, která umožňuje kombinovat pro rozpoznávání textu více rozpoznávacích modulů, spolu s definováním různých pravidel a rozhodovacích algoritmů. Výsledkem je výrazně vyšší kvalita rozpoznávání. Nutná zkušenost s dokumenty, sada nejčastěji vyskytujících se znaků. Výrazně šetří čas při opravách dokumentů.
Vzhledem ke složitosti účelné digitalizace jako takové, bych doporučil nechat si zpracovat studii, kde by byly porovnávány dokumenty, a jejich jednotlivé vlastnosti, které potřebujeme pro náš ERP systém digitalizovat a podle typu jednotlivých dokumentů si nechat doporučit řešení. (Jednalo by se o detailní analýzu dokumentů, s kterými přijdeme do styku a je pro nás účelné je digitalizovat.) Toto řešení bych doporučoval implementovat prostřednictvím vlastních zdrojů, čímž se vyhneme nákladům na případný outsorcing těchto služeb. Náklady vynaložené na studii v tomto případě poslouží jako záruka funkčnosti požadovaného systému a vyhneme se tak velkým problémům, které by mohly nastat při interním řešení.
Seznam použitých zdrojů v části prezentace: Technologie digitalizace dokumentů