Articoli e monografie tecnico/scientifiche possiedono una struttura complessa che oltre a testo libero comprende tabelle, equazioni matematiche, referenze bibliografiche, illustrazioni ed altri elementi. L'estrazione di informazione testuale da documenti digitalizzati (ad esempio tramite scanner) per mezzo di programmi di riconoscimento di caratteri (OCR) è oramai consolidata, ed è quindi possibile riconoscere il testo in documenti di buona qualità con alte percentuali di successo. Tuttavia è tuttora oggetto di studio la corretta estrazione delle informazioni strutturali sopra menzionate da documenti digitalizzati. Tale estrazione non è banale neanche per molti documenti "Digital Born", come ad esempio articoli e monografie PDF. Essendo quest'ultimo un formato di stampa non conserva, nella maggior parte dei casi, l'informazione strutturale. Non banale è anche la visualizzazione e successiva fruizione efficace di tale informazione su formati "reflowable" come HTML ed Epub. In questo intervento si descriveranno queste problematiche, alcuni tool realizzati per il riconoscimento e la conversione da documenti PDF e le prospettive applicative.
Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...
Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable
1. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti scientifici digitali: problematiche dei
formati reflowable
Simone Marinai
simone.marinai@unifi.it
Universit` degli Studi di Firenze
a
2. Documenti scientifici digitali: problematiche dei formati reflowable
Outline
Documenti digitalizzati
Ricerca su libri digitalizzati
Recupero basato sul riconoscimento
Recupero senza riconoscimento
Documenti “Digital Born”
Conversione di libri PDF in Epub
Problemi con documenti scientifici
Documenti su due colonne
Equazioni
Tabelle
Illustrazioni
Conclusioni
3. Documenti scientifici digitali: problematiche dei formati reflowable
Definizioni ....
I libri di ieri (e quelli di ieri l’altro)
in
quelli di domani (e di domani l’altro)
I libri di → articoli e monografie tecniche/scientifiche
ieri → documenti “digital born” (PDF)
(e quelli di ieri l’altro) → documenti “digitalizzati” (scanner)
in → conversione semi-automatica
quelli di domani → epub (forse ` oggi?)
e
(e di domani l’altro) → senza doverci tornare sopra...
4. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (PDF)
PDF Scaricato da Google Books
5. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (PDF su SONY reader)
6. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (Epub su SONY reader)
Epub Scaricato da Google Books
7. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Libro digitalizzato (Epub con Digital Editions)
8. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Ricerca su libri digitalizzati
Ricerca su libri digitalizzati
La ricerca standard nei lettori/visualizzatori ` basata su
e
keyword.
Ma se il testo non ` riconoscibile automaticamente?
e
Sono possibili altre ricerche, ad esempio basate sul layout?
9. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Ricerca su libri digitalizzati
Document Image Retrieval
La finalit` di Document Image Retrieval ` l’identificazione di
a e
documenti rilevanti in una collezione di immagini,
considerando soltanto l’aspetto visuale.
Task principali: recupero di documenti sulla base di
similitudine di layout o sulla base del contenuto testuale.
Due approcci:
Recupero basato sul riconoscimento.
Recupero senza riconoscimento (esplicito).
Il document retrieval si basa su tre passi principali:
1. memorizzazione e indicizzamento dei documenti,
2. formulazione query,
3. calcolo similarit` e ordinamento risultati.
a
10. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero basato sul riconoscimento
Recupero basato sul riconoscimento
Assunzione di base: un motore di riconoscimento (es. OCR)
pu` estrarre tutta l’informazione dai documenti.
o
Eventuali errori non influenzano troppo le performance di
recupero.
Vantaggi:
semplice da integrare in sistemi standard preesistenti (es.
basati su codifica ASCII del testo),
il calcolo della similarit` e l’ordinamento dei risultati hanno un
a
costo computazionale ridotto
Problemi:
documenti “rumorosi” (vecchi),
testo stampato con font non-standard,
documenti con layout complesso,
costi di correzione manuale.
11. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero basato sul riconoscimento
Optical Character Recognition (OCR)
Tecnologia per la conversione di immagini di documenti in
formati testuali.
Funziona bene con testo contemporaneo, stampato, di buona
qualit`.
a
Esistono libri del XIX secolo che parlano di modem ?!?
Si possono/(devono ?) correggere manualmente gli errori.
L’output dell’ OCR non corretto pu` essere impiegato per
o
indicizzare il testo.
Ci sono problemi per testi corti in cui non si pu` sfruttare la
o
ridondanza (parole ripetute).
Applicazioni interessanti anche con documenti manoscritti.
12. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero basato sul riconoscimento
Riconoscimento layout
Ha senso parlare di “layout di pagina” in un documento
reflowable?!?
13. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Recupero senza riconoscimento (esplicito)
Durante l’indicizzamento non si cerca di riconoscere
esplicitamente il contenuto.
Particolarmente interessante per documenti di pessima qualit`.
a
Es: “Keyword spotting”: tecniche per la localizzazione di
parole individuate dall’utente in un flusso informativo
(inizialmente audio).
La similarit` ` calcolata considerando l’immagine o
ae
caratteristiche a livello di immagine (feature).
Applicazioni recenti:
elaborazione di documenti storici,
elaborazione di collezioni estese ed eterogenee.
14. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
http://www.bl.uk/treasures/gutenberg/homepage.html
15. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Esempio di testo da Gutenberg Bible
ctum est autem post multos dies ut offerret
Cain de fructibus terrae munera Domino
Abel quoque obtulit de primogenitis
gregis sui et de adipibus eorum. Et respe =
16. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Problemi di visualizzazione/ricerca testo
http://pinakes.imss.fi.it:8080/pinakestext/home.jsf
17. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Problemi con layout
PDF HTML
18. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Sistema AIDI
19. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Sistema AIDI
20. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Sistema AIDI
21. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
Approcci al “recupero di documenti”
22. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti digitalizzati
Recupero senza riconoscimento
E in Ebook reader ?!?
23. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Documenti “Digital Born”
Documenti “recenti” sono facilmente indicizzabili dal punto di
vista testuale.
La conversione in formato reflowable ` talvolta difficile.
e
Articoli, libri PDF prodotti con strumenti di editoria
elettronica, ma NON marcati semanticamente.
Ad esempio, titoli di capitoli (o sotto-capitoli) marcati
tipograficamente (neretto, 12pt), ma non indicando la funzione
(titolo).
Il PDF ottenuto ` perfetto per la stampa, ma l’estrazione
e
dell’informazione pu` essere non banale.
o
Ad esempio: estrazione dell’indice (Table of Contents, ToC).
24. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
Conversione di libri PDF in Epub
L’estrazione del ToC ` importante per la conversione in Epub
e
consentendo un’agevole navigazione nelle sue parti (es.
capitoli).
I capitoli vengono “spostati” in pagine diverse quando il testo
viene ridimensionato (reflowed).
Un documento Epub ` un file ZIP contenente file con metadati
e
sul documento e file XHTML, immagini e stylesheet CSS.
Un file NCX contiene il ToC del documento che punta al
paragrafo corrispondente e non semplicemente alla pagina.
Vediamo alcuni esempi.
25. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Interfaccia
26. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Interfaccia
27. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Interfaccia
28. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Output Epub
29. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Output Epub
30. Documenti scientifici digitali: problematiche dei formati reflowable
Documenti “Digital Born”
Conversione di libri PDF in Epub
PDF Book Contents Extractor: Output PDF
31. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Problemi specifici con documenti scientifici
Documenti su due colonne
Problemi:
come determinare l’ordine di lettura (“reading order”),
oggetti (es. tabelle, equazioni) a cavallo di pi` colonne.
u
Tabelle
Problemi:
localizzazione (distinguere una tabella da un elenco),
comprensione (identificare righe e colonne),
visualizzazione (tabella pi` larga dello schermo).
u
Equazioni
Problemi:
localizzazione (distiguere equazioni da testo libero),
comprensione (“leggere” le equzioni (OCR-like)),
visualizzazione (visualizzazione “gradevole” in formato
reflowable (es. MathML o font SVG).
Illustrazioni
32. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Documenti su due colonne
Articolo su 2 colonne
33. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Documenti su due colonne
Articolo convertito ad una colonna
34. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Documenti su due colonne
35. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Equazioni
Equazioni
36. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Equazioni
Equazioni: Epub
37. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Equazioni
Equazioni: Epub
44. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Illustrazioni
Diagrammi chimici “facili” da visualizzare
45. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Illustrazioni
Diagrammi chimici “difficili” da visualizzare
46. Documenti scientifici digitali: problematiche dei formati reflowable
Problemi con documenti scientifici
Illustrazioni
Casi ancora peggiori...
47. Documenti scientifici digitali: problematiche dei formati reflowable
Conclusioni
Conclusioni
Documenti scientifici (articoli e monografie) pongono
problemi specifici per:
Conversione da formati:
digitalizzati (immagini),
digital-born (PDF).
Visualizzazione:
in formati fissi su schermi di piccole dimensioni,
in formati reflowable (es. html - epub).
Soluzioni?
tecnologiche: miglioramento metodi di estrazione
informazione,
parzialmente tecnologiche: come utilizzare standard esistenti
per visualizzare efficacemente oggetti complessi su schermi
“piccoli”.