SlideShare a Scribd company logo
1 of 25
Technologie digitalizace
     dokumentů




               Miroslav Pekárek (xpekm09@vse.cz)
Technologie digitalizace dokumentů

 1.    Úvod
 2.    Co je to vůbec digitalizace?
 3.    Prostředky digitalizace
 4.    Základní pojmy
 5.    Výběr optimálního skeneru
 6.    OCR - Optical Character Recognition
 7.    ICR - Intelligent Character Recognition
 8.    OMR - Optical Mark Recognition
 9.    OBR – Optical Bradle Recognition
 10.   Voiting – kombinace modulů
 11.   Doporučení
Úvod do problematiky

• Stávající ERP systém
• Digitalizace faktur,
  objednávek, … pro
  příslušný ERP systém
• Vzhledem k potřebám
  naší firmy zaměření
  pouze na digitalizaci
  papírových
  dokumentů
Co je to digitalizace?
• Převedení dokumentů do
  digitální formy
• Digitální dokument není
  náhradou originálu
       – je jenom novým
  dokumentem, vytvořeným
  za účelem zjednodušení
  správy a tím pádem
  snížením nákladů na ni
  vynaložených.
„Definice“ digitalizace
Žádná přesná pochopitelně neexistuje
Takže uvádím podle mého názoru
nejvýstižnější :

„Digitalizace je převod vybraných měřitelných
fyzikálních veličin digitalizovaného objektu do
numerických hodnot, jejich kódování a uložení
za účelem pozdějšího vygenerování jiných
fyzikálních veličin s cílem umožnit pozdějšímu
uživateli fyziologické vjemy nahrazující přímé
vnímaní originálu.“
                        http://www.ikaros.cz/node/450
Prostředky digitalizace

•   Mezi hardware, který využijeme při digitalizaci dokumentů v naší
    firmě rozhodně patří skener. Ten se využije v metodě zvané
    skenování, které umožňuje převod textu a obrazu do digitální
    podoby.Tento výraz pochází z anglického slova scan, což se dá
    přeložit jako „pečlivě prohlížet“.
Skenery – základní přehled 1

• Ruční – podobný žehličce
     • Tužkový skener – snímání řádků, čárových kódů
• Plochý skener – často se nazývá taktéž jako
  stolní skener
     • Stolní s podavačem (s ADF)
     • Stolní bez podavače (bez ADF)

           » Pozn.: ADF-Automatic Document Feeder
Skenery – základní přehled 2
• Rotační skener ,bubnový
  skener
          – Finančně velice náročné,
            vhodné pro
            profesionální využití
• 3Dskener
          – V praxi pro digitalizaci
            vzácných rukopisů,
            taktéž finančně náročné
• Digitální fotoaparát
          – Není sice klasický
            skener, ale dá se tak
            použít
Skenování z hlediska pojmů 1
• Rozlišení - Určuje jak kvalitní bude nasnímaný obraz
   – základní jednotkou je dpi (dots-per-inch, česky
     bod na palec) Skenery dnes běžně dokáží
     naskenovat předlohu od 100 do 9600 dpi. Pro
     běžnou kvalitu vystačíme s rozlišením do 600
     dpi.
   – S větší hustotou sítě pixelů roste kvalita
     nasnímaného obrazu v počítači
Skenování z hlediska pojmů 2
• Barevná hloubka
  – v minulosti se skenery dělily na černobílé a
    barevné. Dnes se již ve většině případů
    setkáváme pouze s barevnými. To ale
    neznamená, že tato zařízení neumějí snímat
    černobíle. Každý skener má nastavitelnou
    barevnou hloubku, tedy počet barev, které
    dokáže rozlišit a převést do počítače.
Způsoby skenování*




     • Black&White            • Grayscale        • Color
     • Binary                 • 8-bit gray       • 24-bit or 32-bit
     • Monochrome             • 256-level gray   • True color
     • Single bit

*http://www.dicomgroup.com/
Skenování z hlediska pojmů 3
• Komprese
  – Uplatňuje se u ní metoda ztráty informací nebo
    převodu na matematický algoritmus
           » bezztrátová komprese - po neskenování je digitální
             obraz identický s předlohou (GIF, PNG)
           » ztrátová komprese - dochází u ní ke ztrátě informací,
             přesto je výkonnější než bezztrátová, protože se vypouští
             barvy, které jsou tzv. podprahové (JPG, TIFF)
Velikost obrazu v závislosti na
            počtu barev




Pozn.: S počtem barev logicky roste počet bitů
Skenování z hlediska pojmů 4
• Prahování (Thresholding)
  – funkce, která upravuje jasové či barevné složky pixelů obrazu
    podle určitého předpisu.
  – Jednoduše určuje převod jednotlivých pixelů na bílou a černou
    barvu
• Dynamické prahování (VRS – VirtualReScan)
  – slouží ke zlepšení kvality skenovaných dokumentů
  – průběžně kontroluje a nastavuje správné vyrovnání, jas, kontrast a
    čirost zobrazení
Prahování (Thresholding)*
                         Úroveň prahování 95

                         Úroveň prahování 75

                         Úroveň prahování 55

                         Úroveň prahování 35

                         Úroveň prahování 15




                         Úroveň 15      Úroveň 35   Úroveň 55   Úroveň 75   Úroveň 95



*http://www.dicomgroup.com/
Dynamické prahování*




            8-bit grayscale   Black and white     Black and white
                                 bez VRS               VRS
                                                dynamické prahování
*http://www.dicomgroup.com/
Skenování z hlediska pojmů 5
• Výstupní formáty
  – při skenování je možné zvolit výstupní formát
  na výběr je celá paleta formátů, které dělíme:
   ○ grafické (např. BMP, TIFF, GIFF, JPG,..)
   ○ textové (např. TXT, RTF,PDF,..)
  Nutno rozhodnout, které z těchto, povětšinou jistě
   textových formátů využít v závislosti na
   dokumentu
Výběr vhodného skeneru
• Volba skeneru s optimálními
  vlastnostmi musí vycházet
  z objemů        zpracovávané
  dokumentace, rozměrů, typu a
  kvality papíru.

•   Kritéria
     –   Objem dokumentace
     –   Rozměr předlohy
     –   Hmotnost papíru
     –   Simplexní/duplexní skenování
     –   Rozlišení
OCR - Optical Character Recognition

• Převod strojově psaného
  textu do elektronické podoby
  (databáze symbolů)
• Optické rozpoznávání znaků
• Program je schopný se učit na
  základě výsledků
• Spellchecker – kontrola a
  doplňování slov
• V případě kvalitních
  podkladů velká úspora času –
  v opačném případě velká
  chybovost
                                  
ICR - Intelligent Character Recognition

• „Rozšíření OCR“
• Pro inteligentní rozpoznávání
  ručně psaného písma –
  „handwriting recognition“
• Převádí ho na alfanumerické
  znaky
• Ke zdokonalování dochází
  v průběhu zpracování,
  schopen naučit se nový
  rukopis, což výrazně
  zjednodušuje práci
• Nevýhodou je vysoká
  chybovost
                                        
OMR - Optical Mark Recognition

•Technologie pro rozpoznávání zaškrtávacích
značek na dokumentech
•V předpřipravených šablonách zaškrtávací pole
•Je nutné přesné rozložení daného dokumentu
•Používá se v dotaznících, testech, sázenkách,…
•Vhodné využití v souvislosti s OCR
             - pomocí čárového kódu automaticky
nastavit indexaci

        
OBR – Optical Braille Recognition

• Informace zapsaná Braillovým písmem z
  krátkého dopisu i kompletní knihy může být
  takto snadno přenesena do počítače, a to
  dokonce i když vůbec neznáte Braillovo
  písmo
Voiting – kombinace jednotlivých
         softwarových modulů
• Umožňuje kombinovat pro
  rozpoznávání textu více
  rozpoznávacích modulů,
  spolu s definováním
  různých pravidel a
  rozhodovacích algoritmů
• Výsledkem je výrazně
  vyšší kvalita
  rozpoznávání.
• Výrazně šetří čas při
  opravách dokumentů.
Doporučení
• Vzhledem ke složitosti
  tématu doporučuji nechat
  si udělat studii dokumentů
  autorizovanou firmou a
  dle    výsledků     interně
  implementovat         jejich
  doporučení
• Z hlediska efektivity se
  toto jeví jako nejlepší
  řešení
Použité zdroje:
• Literatura:
•   PECINOVSKÝ, Josef. Skenery a skenování. 2. aktualiz. vyd. Praha: Grada, 2003. Snadno a rychle. ISBN 80-247-0544-3.
•   HÁLA, Tomáš - MATOUŠEK, Michal. Skenery: praktický průvodce uživatele. 1. vyd. Praha: Computer Press, 1999.
    DTP&grafika. Rychle a jistě. ISBN 80-7226-217-3.


• Internet:
•   http://web.ff.cuni.cz/%7Ejedlickp/kurzy/multimedia1_2/multimedia5_2002/index.htm
•   http://www.lupa.cz/clanky/digitalizace-knihoven-je-beh-na-dlouhou-trat
•   http://www.inkam.cz/
•   http://www.efcon.cz/EFCON_WEB/efcon.nsf/czech/digitalizace.htm
•   http://digit.nkp.cz/knihcin/ookf/digit.htm
•   http://www.systemonline.cz/clanky/archivace-dat-iii-dil.htm
•   http://www.scanservice.cz/
•   http://www.oikt.czu.cz/?r=118
•   http://www.dicomgroup.com/
•   http://medard.soc.cas.cz/digidat/obraz_OCR.htm
•   http://www.systemonline.cz/
•   www.businessworld.cz/

More Related Content

Similar to Testing ppt

Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek ÚISK FF UK
 
TRIUMPH BOARD PORTABLE SLIM USB / WR
TRIUMPH BOARD PORTABLE SLIM USB / WRTRIUMPH BOARD PORTABLE SLIM USB / WR
TRIUMPH BOARD PORTABLE SLIM USB / WRAVprezentace
 
Big Brother (Jiří „Boris“ Täuber)
Big Brother (Jiří „Boris“ Täuber)Big Brother (Jiří „Boris“ Täuber)
Big Brother (Jiří „Boris“ Täuber)Maelström
 
Počítač poliačik d3a
Počítač poliačik d3aPočítač poliačik d3a
Počítač poliačik d3aRobHaru
 
Digitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůDigitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůMoravskaZemskaKnihovna
 
Externí zařízení a jejich součásti
Externí zařízení a jejich součástiExterní zařízení a jejich součásti
Externí zařízení a jejich součástiMichal Keltner
 
Základní typy digitálních fotoaparátů a jejich konstrukce
Základní typy digitálních fotoaparátů a jejich konstrukceZákladní typy digitálních fotoaparátů a jejich konstrukce
Základní typy digitálních fotoaparátů a jejich konstrukceBrabcak24
 
Prototypování webových aplikací
Prototypování webových aplikacíPrototypování webových aplikací
Prototypování webových aplikacíJakub Španihel
 
Okruh 15 MultiméDia A VirtuáLní Realita
Okruh 15   MultiméDia A VirtuáLní RealitaOkruh 15   MultiméDia A VirtuáLní Realita
Okruh 15 MultiméDia A VirtuáLní Realitaguestdc6e208
 
Kalibarce a sprava barev nejen pro fotografy 03 12-2015 low res
Kalibarce a sprava barev nejen pro fotografy 03 12-2015 low resKalibarce a sprava barev nejen pro fotografy 03 12-2015 low res
Kalibarce a sprava barev nejen pro fotografy 03 12-2015 low reswww.kurzyzive.cz
 
5. 3. Digitalni Centrum Avcr Martin Lhotak
5. 3.   Digitalni Centrum Avcr  Martin Lhotak5. 3.   Digitalni Centrum Avcr  Martin Lhotak
5. 3. Digitalni Centrum Avcr Martin LhotakKISK FF MU
 
Výběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduVýběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduJan Kodera
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyMoravskaZemskaKnihovna
 
Software pro čipové karty
Software pro čipové kartySoftware pro čipové karty
Software pro čipové kartyOKsystem
 
Dotykova zarizeni ve vyuce informatiky
Dotykova zarizeni ve vyuce informatikyDotykova zarizeni ve vyuce informatiky
Dotykova zarizeni ve vyuce informatikyINTERES - KISK
 
Technologie a prekladatel
Technologie a prekladatelTechnologie a prekladatel
Technologie a prekladatelSylva Ficova
 
Semináře M-Files: Konec hledání řešení pro správu firemních dat
Semináře M-Files: Konec hledání řešení pro správu firemních datSemináře M-Files: Konec hledání řešení pro správu firemních dat
Semináře M-Files: Konec hledání řešení pro správu firemních datJaroslav Prodelal
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)Tomas Moser
 

Similar to Testing ppt (20)

Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
Adolf Knoll: Digitální zpřístupnění historických a vzácných knihovních sbírek
 
TRIUMPH BOARD PORTABLE SLIM USB / WR
TRIUMPH BOARD PORTABLE SLIM USB / WRTRIUMPH BOARD PORTABLE SLIM USB / WR
TRIUMPH BOARD PORTABLE SLIM USB / WR
 
Základy Grafiky
Základy GrafikyZáklady Grafiky
Základy Grafiky
 
Komplexní analýza datové sítě
Komplexní analýza datové sítěKomplexní analýza datové sítě
Komplexní analýza datové sítě
 
Big Brother (Jiří „Boris“ Täuber)
Big Brother (Jiří „Boris“ Täuber)Big Brother (Jiří „Boris“ Täuber)
Big Brother (Jiří „Boris“ Täuber)
 
Počítač poliačik d3a
Počítač poliačik d3aPočítač poliačik d3a
Počítač poliačik d3a
 
Digitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůDigitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentů
 
Externí zařízení a jejich součásti
Externí zařízení a jejich součástiExterní zařízení a jejich součásti
Externí zařízení a jejich součásti
 
Základní typy digitálních fotoaparátů a jejich konstrukce
Základní typy digitálních fotoaparátů a jejich konstrukceZákladní typy digitálních fotoaparátů a jejich konstrukce
Základní typy digitálních fotoaparátů a jejich konstrukce
 
Prototypování webových aplikací
Prototypování webových aplikacíPrototypování webových aplikací
Prototypování webových aplikací
 
Okruh 15 MultiméDia A VirtuáLní Realita
Okruh 15   MultiméDia A VirtuáLní RealitaOkruh 15   MultiméDia A VirtuáLní Realita
Okruh 15 MultiméDia A VirtuáLní Realita
 
Kalibarce a sprava barev nejen pro fotografy 03 12-2015 low res
Kalibarce a sprava barev nejen pro fotografy 03 12-2015 low resKalibarce a sprava barev nejen pro fotografy 03 12-2015 low res
Kalibarce a sprava barev nejen pro fotografy 03 12-2015 low res
 
5. 3. Digitalni Centrum Avcr Martin Lhotak
5. 3.   Digitalni Centrum Avcr  Martin Lhotak5. 3.   Digitalni Centrum Avcr  Martin Lhotak
5. 3. Digitalni Centrum Avcr Martin Lhotak
 
Výběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduVýběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí cloudu
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
 
Software pro čipové karty
Software pro čipové kartySoftware pro čipové karty
Software pro čipové karty
 
Dotykova zarizeni ve vyuce informatiky
Dotykova zarizeni ve vyuce informatikyDotykova zarizeni ve vyuce informatiky
Dotykova zarizeni ve vyuce informatiky
 
Technologie a prekladatel
Technologie a prekladatelTechnologie a prekladatel
Technologie a prekladatel
 
Semináře M-Files: Konec hledání řešení pro správu firemních dat
Semináře M-Files: Konec hledání řešení pro správu firemních datSemináře M-Files: Konec hledání řešení pro správu firemních dat
Semináře M-Files: Konec hledání řešení pro správu firemních dat
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
 

Testing ppt

  • 1. Technologie digitalizace dokumentů Miroslav Pekárek (xpekm09@vse.cz)
  • 2. Technologie digitalizace dokumentů 1. Úvod 2. Co je to vůbec digitalizace? 3. Prostředky digitalizace 4. Základní pojmy 5. Výběr optimálního skeneru 6. OCR - Optical Character Recognition 7. ICR - Intelligent Character Recognition 8. OMR - Optical Mark Recognition 9. OBR – Optical Bradle Recognition 10. Voiting – kombinace modulů 11. Doporučení
  • 3. Úvod do problematiky • Stávající ERP systém • Digitalizace faktur, objednávek, … pro příslušný ERP systém • Vzhledem k potřebám naší firmy zaměření pouze na digitalizaci papírových dokumentů
  • 4. Co je to digitalizace? • Převedení dokumentů do digitální formy • Digitální dokument není náhradou originálu – je jenom novým dokumentem, vytvořeným za účelem zjednodušení správy a tím pádem snížením nákladů na ni vynaložených.
  • 5. „Definice“ digitalizace Žádná přesná pochopitelně neexistuje Takže uvádím podle mého názoru nejvýstižnější : „Digitalizace je převod vybraných měřitelných fyzikálních veličin digitalizovaného objektu do numerických hodnot, jejich kódování a uložení za účelem pozdějšího vygenerování jiných fyzikálních veličin s cílem umožnit pozdějšímu uživateli fyziologické vjemy nahrazující přímé vnímaní originálu.“ http://www.ikaros.cz/node/450
  • 6. Prostředky digitalizace • Mezi hardware, který využijeme při digitalizaci dokumentů v naší firmě rozhodně patří skener. Ten se využije v metodě zvané skenování, které umožňuje převod textu a obrazu do digitální podoby.Tento výraz pochází z anglického slova scan, což se dá přeložit jako „pečlivě prohlížet“.
  • 7. Skenery – základní přehled 1 • Ruční – podobný žehličce • Tužkový skener – snímání řádků, čárových kódů • Plochý skener – často se nazývá taktéž jako stolní skener • Stolní s podavačem (s ADF) • Stolní bez podavače (bez ADF) » Pozn.: ADF-Automatic Document Feeder
  • 8. Skenery – základní přehled 2 • Rotační skener ,bubnový skener – Finančně velice náročné, vhodné pro profesionální využití • 3Dskener – V praxi pro digitalizaci vzácných rukopisů, taktéž finančně náročné • Digitální fotoaparát – Není sice klasický skener, ale dá se tak použít
  • 9. Skenování z hlediska pojmů 1 • Rozlišení - Určuje jak kvalitní bude nasnímaný obraz – základní jednotkou je dpi (dots-per-inch, česky bod na palec) Skenery dnes běžně dokáží naskenovat předlohu od 100 do 9600 dpi. Pro běžnou kvalitu vystačíme s rozlišením do 600 dpi. – S větší hustotou sítě pixelů roste kvalita nasnímaného obrazu v počítači
  • 10. Skenování z hlediska pojmů 2 • Barevná hloubka – v minulosti se skenery dělily na černobílé a barevné. Dnes se již ve většině případů setkáváme pouze s barevnými. To ale neznamená, že tato zařízení neumějí snímat černobíle. Každý skener má nastavitelnou barevnou hloubku, tedy počet barev, které dokáže rozlišit a převést do počítače.
  • 11. Způsoby skenování* • Black&White • Grayscale • Color • Binary • 8-bit gray • 24-bit or 32-bit • Monochrome • 256-level gray • True color • Single bit *http://www.dicomgroup.com/
  • 12. Skenování z hlediska pojmů 3 • Komprese – Uplatňuje se u ní metoda ztráty informací nebo převodu na matematický algoritmus » bezztrátová komprese - po neskenování je digitální obraz identický s předlohou (GIF, PNG) » ztrátová komprese - dochází u ní ke ztrátě informací, přesto je výkonnější než bezztrátová, protože se vypouští barvy, které jsou tzv. podprahové (JPG, TIFF)
  • 13. Velikost obrazu v závislosti na počtu barev Pozn.: S počtem barev logicky roste počet bitů
  • 14. Skenování z hlediska pojmů 4 • Prahování (Thresholding) – funkce, která upravuje jasové či barevné složky pixelů obrazu podle určitého předpisu. – Jednoduše určuje převod jednotlivých pixelů na bílou a černou barvu • Dynamické prahování (VRS – VirtualReScan) – slouží ke zlepšení kvality skenovaných dokumentů – průběžně kontroluje a nastavuje správné vyrovnání, jas, kontrast a čirost zobrazení
  • 15. Prahování (Thresholding)* Úroveň prahování 95 Úroveň prahování 75 Úroveň prahování 55 Úroveň prahování 35 Úroveň prahování 15 Úroveň 15 Úroveň 35 Úroveň 55 Úroveň 75 Úroveň 95 *http://www.dicomgroup.com/
  • 16. Dynamické prahování* 8-bit grayscale Black and white Black and white bez VRS VRS dynamické prahování *http://www.dicomgroup.com/
  • 17. Skenování z hlediska pojmů 5 • Výstupní formáty – při skenování je možné zvolit výstupní formát na výběr je celá paleta formátů, které dělíme: ○ grafické (např. BMP, TIFF, GIFF, JPG,..) ○ textové (např. TXT, RTF,PDF,..) Nutno rozhodnout, které z těchto, povětšinou jistě textových formátů využít v závislosti na dokumentu
  • 18. Výběr vhodného skeneru • Volba skeneru s optimálními vlastnostmi musí vycházet z objemů zpracovávané dokumentace, rozměrů, typu a kvality papíru. • Kritéria – Objem dokumentace – Rozměr předlohy – Hmotnost papíru – Simplexní/duplexní skenování – Rozlišení
  • 19. OCR - Optical Character Recognition • Převod strojově psaného textu do elektronické podoby (databáze symbolů) • Optické rozpoznávání znaků • Program je schopný se učit na základě výsledků • Spellchecker – kontrola a doplňování slov • V případě kvalitních podkladů velká úspora času – v opačném případě velká chybovost 
  • 20. ICR - Intelligent Character Recognition • „Rozšíření OCR“ • Pro inteligentní rozpoznávání ručně psaného písma – „handwriting recognition“ • Převádí ho na alfanumerické znaky • Ke zdokonalování dochází v průběhu zpracování, schopen naučit se nový rukopis, což výrazně zjednodušuje práci • Nevýhodou je vysoká chybovost 
  • 21. OMR - Optical Mark Recognition •Technologie pro rozpoznávání zaškrtávacích značek na dokumentech •V předpřipravených šablonách zaškrtávací pole •Je nutné přesné rozložení daného dokumentu •Používá se v dotaznících, testech, sázenkách,… •Vhodné využití v souvislosti s OCR - pomocí čárového kódu automaticky nastavit indexaci 
  • 22. OBR – Optical Braille Recognition • Informace zapsaná Braillovým písmem z krátkého dopisu i kompletní knihy může být takto snadno přenesena do počítače, a to dokonce i když vůbec neznáte Braillovo písmo
  • 23. Voiting – kombinace jednotlivých softwarových modulů • Umožňuje kombinovat pro rozpoznávání textu více rozpoznávacích modulů, spolu s definováním různých pravidel a rozhodovacích algoritmů • Výsledkem je výrazně vyšší kvalita rozpoznávání. • Výrazně šetří čas při opravách dokumentů.
  • 24. Doporučení • Vzhledem ke složitosti tématu doporučuji nechat si udělat studii dokumentů autorizovanou firmou a dle výsledků interně implementovat jejich doporučení • Z hlediska efektivity se toto jeví jako nejlepší řešení
  • 25. Použité zdroje: • Literatura: • PECINOVSKÝ, Josef. Skenery a skenování. 2. aktualiz. vyd. Praha: Grada, 2003. Snadno a rychle. ISBN 80-247-0544-3. • HÁLA, Tomáš - MATOUŠEK, Michal. Skenery: praktický průvodce uživatele. 1. vyd. Praha: Computer Press, 1999. DTP&grafika. Rychle a jistě. ISBN 80-7226-217-3. • Internet: • http://web.ff.cuni.cz/%7Ejedlickp/kurzy/multimedia1_2/multimedia5_2002/index.htm • http://www.lupa.cz/clanky/digitalizace-knihoven-je-beh-na-dlouhou-trat • http://www.inkam.cz/ • http://www.efcon.cz/EFCON_WEB/efcon.nsf/czech/digitalizace.htm • http://digit.nkp.cz/knihcin/ookf/digit.htm • http://www.systemonline.cz/clanky/archivace-dat-iii-dil.htm • http://www.scanservice.cz/ • http://www.oikt.czu.cz/?r=118 • http://www.dicomgroup.com/ • http://medard.soc.cas.cz/digidat/obraz_OCR.htm • http://www.systemonline.cz/ • www.businessworld.cz/

Editor's Notes

  1. Úvodní strana
  2. Osnova části prezentace: Technologie digitalizace dokumentů
  3. Vzhledem k našemu novému ERP systému a našim současným potřebám, které se týkají především převodu dokumentů do digitální formy, se v tématu technologie digitalizace dokumentů zaměřím pouze na dokumenty typu – faktury, objednávky, dodací listy, apod. , tedy digitalizaci klasických papírových dokumentů, protože technologie pro digitalizaci magnetických audio či video pásků se zde jeví vzhledem k tématu jako zbytečná, proto ji zde zmiňovat vůbec nebudu.
  4. O digitalizaci se mluví velice často a všem nám je asi jasné, že jde o převedení čehokoli, například textu do digitální formy. Projdeme-li trochu co již bylo o digitalizaci řečeno a napsáno zjistíme, že tento základ je obsažen vždy, ale obvykle je tím automaticky myšleno o něco více a tyto další významy se již různí. Optimistický přístup hovořil dokonce o zmrazení času a neměnné náhradě originálu. Myslím, že toto je pouze zbožné přání a jenom efektivní využívání digitalizace skutečně ukáže, jak to ve skutečnosti s digitalizací je. Je třeba si totiž uvědomit, že digitální dokument není náhradou originálu, je jenom novým dokumentem, vytvořeným za účelem zjednodušení správy a tím pádem snížením nákladů na ni vynaložených.
  5. Jelikož neexistuje žádná přesná definice, tak zde uvádím tu, která se mi jeví jako nejvýstižnější: „ Digitalizace je převod vybraných měřitelných fyzikálních veličin digitalizovaného objektu do numerických hodnot, jejich kódování a uložení za účelem pozdějšího vygenerování jiných fyzikálních veličin s cílem umožnit pozdějšímu uživateli fyziologické vjemy nahrazující přímé vnímaní originálu.“
  6. Co potřebujeme k digitalizaci? Obecně lze říci, že tak jako pro většinu procesů v IT, tak i pro proces digitalizace potřebujeme především Hardware a Software. Mezi hardware, který využijeme při digitalizaci dokumentů v naší firmě rozhodně patří skener. Ten se využije v metodě zvané skenování, které umožňuje převod textu a obrazu do digitální podoby.Tento výraz pochází z anglického slova scan, což se dá přeložit jako „pečlivě prohlížet“.
  7. Co se týče druhů skenerů, rozlišujeme tyto základní skupiny: • Ruční skener – dnes již spíše muzejní exponát, podobný žehličce. Na jeho principech ovšem funguje tzv.. tužkový skener , který se dnes samozřejmě v dokonalejší verzi používá jako snímač čárových kódů. • Plochý skener – někdy se setkáváme s názvem stolní skener. Je to typický skener, který všichni dobře známe. Jde o zařízení ve tvaru kvádru se skleněnou plochou, kam se pokládá předloha. Pod sklem je umístěn světelný zdroj, který osvětluje předlohu, od níž se světlo odráží přes soustavu zrcadel na CCD (Charge Coupled Device) snímač. Čím je místo tmavší, tím méně světla odráží. Podle toho snímač pozná o jakou barvu jde a zapíše ji do elektronické podoby. Plocha stolního skeneru bývá omezena na formát A4. Existují však také zařízení pro snímání větších formátů (velkoformátové skenery). Ploché skenery jsou dnes díky své ceně nejrozšířenější a nacházejí široké uplatnění na pracovištích i v domácnostech. Stolní skenery rozlišujeme podle toho zda mají, či nemají podavač na stolní s podavačem (zásobníkem) a stolní bez podavače , někdy se využívá tzv..skupina produkčních skenerů (Desktop, Workgroup a Production ) 85% všech prodaných skenerů je z prvních dvou kategorií. Pozn.: Všechny obsahují automatický podavač dokumentů (ADF-Automatic Document Feeder)
  8. • Rotační skener – Někdy také nazývaný jako bubnový. Tento skener využívá elektronku zvanou fotonásobič, která výrazně zvyšuje intenzitu elektrického signálu a následně ji převádí do elektronické podoby. Předloha se připevní na rotující válec a fotonásobič čte postupně jeden řádek po druhém. Výsledkem je velmi kvalitní výstup. Rotační skenery jsou finančně náročné a slouží pouze k profesionálnímu použití. • 3D skenery, digitální fotoaparáty - Velmi drahé, ale kvalitní zařízení, které snímá předlohy shora. Slouží zejména ke skenování knih. V praxi mohou být 3D skenery využity k digitalizaci vzácných dokumentů a rukopisů, se kterými nelze z důvodu možného poškození příliš často manipulovat. Co se týče digitálních fotoaparátů, tak o skener v tom pravém slova smyslu se sice nejedná, ale mohou být využity podobně jako 3D skenery, ovšem jejich výstup je výrazně ovlivněn prostředím.
  9. Rozlišení - Určuje jak kvalitní bude nasnímaný obraz. Skener rozdělí obraz na síť tzv. pixelů (picture element, v češtině se někdy používá výraz obrazový bod). Pixel představuje nejmenší a dále nedělitelnou jednotku, která nese jednu barvu. S větší hustotou sítě pixelů roste kvalita nasnímaného obrazu v počítači. Rozlišení lze tedy definovat jako jako počet obrazových bodů na délkovou jednotku. Základní jednotkou je dpi (dots-per-inch, česky bod na palec) Skenery dnes běžně dokáží naskenovat předlohu od 100 do 9600 dpi. Pro běžnou kvalitu vystačíme s rozlišením do 600 dpi.
  10. Barevná hloubka - V minulosti se skenery dělily na černobílé a barevné. Dnes se již ve většině případů setkáváme pouze s barevnými. To ale neznamená, že tato zařízení neumějí snímat černobíle. Každý skener má nastavitelnou barevnou hloubku, tedy počet barev, které dokáže rozlišit a převést do počítače.
  11. Porovnání jednotlivých způsobů skenování – pro lepší přehlednost.
  12. Komprese - Při skenování je možné zmenšit velikost výsledného digitálního obrazového souboru pomocí tzv. komprese. Uplatňuje se u ní metoda ztráty informací nebo převodu na matematický algoritmus. Podle toho také kompresi dělíme na dvě skupiny: a) bezztrátová komprese - nedochází u ní ke ztrátě informací. Po neskenování je digitální obraz identický s předlohou. U bezztrátové komprese se obraz převádí na matematický vzorec. Ve skutečnosti to funguje tak, že se okolní barvy dopočítávají. Zobrazování takových obrázků však může zejména na pomalejších počítačích trvat déle (v dnešní době velmi rychlých počítačů tato vlastnost postupně ztrácí na významu). Užívá se u formátů GIF a PNG. b) ztrátová komprese - dochází u ní ke ztrátě informací, přesto je výkonnější než bezztrátová. Vypouští se barvy, které jsou tzv. podprahové (lidské oko je není schopné rozeznat) nebo téměř totožné. Obrázek tak vypadá na první pohled naprosto stejně jako předloha. Důležité je, že rozsah ztrátové komprese může uživatel nastavit sám. Užívá se u formátů JPG a TIFF.
  13. Tabulka velikosti obrazu v závislosti na počtu barev.
  14. Prahování (Thresholding) – funkce, která upravuje jasové či barevné složky pixelů obrazu podle určitého předpisu. Jednoduše určuje převod jednotlivých pixelů na bílou a černou barvu. (VRS – VirtualReScan) Technologie VRS slouží ke zlepšení kvality skenovaných dokumentů. VRS průběžně kontroluje a nastavuje správné vyrovnání, jas, kontrast a čirost zobrazení. VRS provádí kontrolu skenovaného dokumentu tak, aby se do aplikace dostal v co nejlepší možné kvalitě zobrazení. VRS taktéž sjednocuje uživatelské rozhraní pro různé typy skenerů. (Odpadá nutnost předpřipravených profilů skenování)
  15. Pro názorné pochopení prahování.
  16. Pro lepší pochopení dynamického prahování – názorná ukázka.
  17. Výstupní formáty -Při skenování je možné zvolit výstupní formát. Na výběr je celá paleta formátů, které dělíme na grafické (např. BMP, TIFF, GIFF, JPG,..) a textové (např. TXT, RTF,PDF,..) Nutno rozhodnout, které z těchto, povětšinou jistě textových formátů využít v závislosti na dokumentu.
  18. Volba skeneru s optimálními vlastnostmi musí vycházet z objemů zpracovávané dokumentace, rozměrů, typu a kvality papíru. • Objem dokumentace – nejlépe s ADF. Pro pravidelné každodenní zpracování dokumentace se obvykle využívají skenery se střední až vysokou zatížitelností – tzn. Skupina Workgroup nebo produktion. • Rozměru předlohy - Některé skenery umožňují přizpůsobit rozměr zásobníku formátu snímané předlohy, některé umožňují snímání pouze běžných formátů. Pro snímání dokumentů velmi malého nebo naopak velkého formátu se často využívají skenery s plochým ložem (tzv."Flat Bed") – ačkoliv umožňují zpracování dokumentů s netypickým formátem, oproti skenerům s automatickým podavačem vyžadují obsluhu, která musí dokumenty vkládat a vyjímat a prodlužuje se tak dobu snímání. • Hmotnost papíru - Předloha může být vytištěna na papíru různého typu lišícího se hmotností. Některé typy papíru (průklepový papír, ale naopak i papír kartonového typu) mají v případě nepřesného nastavení tloušťky papíru tendenci vstupovat do skeneru po dvojicích (tzv. doublefeed).Některé skenery bývají vybaveny automatickou kontrolou, která těmto problémům zamezí. • Simplexní/Duplexní snímání - Duplexní skenery snímají obě strany listu předlohy, pro snímání dokumentů na listech s potištěnou jednou stranou postačí simplexní skener. V praxi se vyskytují kombinace obou typů dokumentů, proto je třeba, aby použitý skener umožňoval přepínání mezi simplexním a duplexním režimem nebo aby skenovaní softwarová aplikace umožňovala jednoduše prázdné stránky odmazávat. • Rozlišení - Pro digitalizaci hůře čitelné předlohy nebo dokumentů obsahujících velké množství detailů se většinou požívají vyšší rozlišení (300 dpi u černobílého, 150 – 200 dpi u barevného skenování). Snadno čitelné dokumenty nebo dokumenty s nízkým podílem detailů je možno snímat i při menším rozlišení (200 dpi u černobílého, 100 – 150 dpi u barevného skenování). Nutno brát v potaz hledisko času a kapacitu databáze.
  19. Jedná se o technologii pro převod strojově psaného textu do elektronické podoby. Tato technologie umožňuje rychlý a levný způsob převodu velkého množství dokumentů. Funguje tak, že v prvním kroku rozdělí dokument podle naskenované předlohy do jednotlivých řádků. Dále rozděluje jednotlivá slova na řádku podle mezer mezi slovy. V další fázi rozděluje ve slovech jednotlivá písmena. V případě použití neproporciálního písma se jedná o relativně jednoduchou operaci. Problém nastává v případě použití písma proporciálního, kde každý znak má jinou šířku. Ještě obtížněji se převádí text, který je špatně čitelný např. poškozený papír, ze kterého se skenuje, písmena se navzájem dotýkají apod. Nakonec se jednotlivá písmena identifikují a to pomocí určitých charakteristik (čáry, mezery, uzly, úhly, atd.). Tomuto přístupu se říká topologická analýza. Dnes programy OCR procházejí textem několikrát a v posledních průchodech používají tzv. spellchecker, který daná slova kontroluje a popřípadě i doplňuje. Ještě přesnější převod zajišťují metody, kde se OCR software sám učí z již rozpoznaných písmen. Mezi výhody patří určitě úspora času, mezi nevýhody možnost velké chybovosti v případě špatně připravené, skenované předlohy.
  20. „ Rozšíření“ OCR .Technologie pro inteligentní rozpoznávání ručně psaného písma –„handwriting recognition“ (čísla a velká písmena psaná hůlkovým písmem) a převedení na alfanumerické znaky (vytěžování). Ke zdokonalování dochází v průběhu zpracování, schopen naučit se nový rukopis, což zjednodušuje práci – snadné přizpůsobení, předdefinování určitých symbolů. Nevýhodou je vyšší chybovost – čili nutnost více času stráveného kontrolou dokumentu.
  21. Technologie pro rozpoznávání zaškrtávacích značek na dokumentech, zejména dotaznících. V předpřipravených šablonách zaškrtávací pole,… (např. testy, čtečky čárových kódů,…) Zde je nutné přesné rozložení daného dokumentu – používají se pouze přípustné znaky. Velice vhodné využití v souvislosti s OCR, kde si můžeme velice zjednodušit zpracování faktur, objednávek – a pomocí čárového kódu automaticky nastavit indexaci.
  22. Jenom pro doplňění. Informace zapsaná Braillovým písmem z krátkého dopisu i kompletní knihy může být takto snadno přenesena do počítače, dokonce i když vůbec neznáte Braillovo písmo.
  23. Technologie, která umožňuje kombinovat pro rozpoznávání textu více rozpoznávacích modulů, spolu s definováním různých pravidel a rozhodovacích algoritmů. Výsledkem je výrazně vyšší kvalita rozpoznávání. Nutná zkušenost s dokumenty, sada nejčastěji vyskytujících se znaků. Výrazně šetří čas při opravách dokumentů.
  24. Vzhledem ke složitosti účelné digitalizace jako takové, bych doporučil nechat si zpracovat studii, kde by byly porovnávány dokumenty, a jejich jednotlivé vlastnosti, které potřebujeme pro náš ERP systém digitalizovat a podle typu jednotlivých dokumentů si nechat doporučit řešení. (Jednalo by se o detailní analýzu dokumentů, s kterými přijdeme do styku a je pro nás účelné je digitalizovat.) Toto řešení bych doporučoval implementovat prostřednictvím vlastních zdrojů, čímž se vyhneme nákladům na případný outsorcing těchto služeb. Náklady vynaložené na studii v tomto případě poslouží jako záruka funkčnosti požadovaného systému a vyhneme se tak velkým problémům, které by mohly nastat při interním řešení.
  25. Seznam použitých zdrojů v části prezentace: Technologie digitalizace dokumentů