SlideShare ist ein Scribd-Unternehmen logo
1 von 48
Downloaden Sie, um offline zu lesen
Documenti scientifici digitali: problematiche dei formati reflowable




            Documenti scientifici digitali: problematiche dei
                          formati reflowable

                                              Simone Marinai
                                           simone.marinai@unifi.it


                                    Universit` degli Studi di Firenze
                                             a
Documenti scientifici digitali: problematiche dei formati reflowable




Outline
       Documenti digitalizzati
          Ricerca su libri digitalizzati
          Recupero basato sul riconoscimento
          Recupero senza riconoscimento
       Documenti “Digital Born”
          Conversione di libri PDF in Epub
       Problemi con documenti scientifici
          Documenti su due colonne
          Equazioni
          Tabelle
          Illustrazioni
       Conclusioni
Documenti scientifici digitali: problematiche dei formati reflowable




Definizioni ....

       I libri di ieri (e quelli di ieri l’altro)
       in
       quelli di domani (e di domani l’altro)

         I libri di                                →       articoli e monografie tecniche/scientifiche
         ieri                                      →       documenti “digital born” (PDF)
         (e quelli di ieri l’altro)                →       documenti “digitalizzati” (scanner)
         in                                        →       conversione semi-automatica
         quelli di domani                          →       epub (forse ` oggi?)
                                                                       e
         (e di domani l’altro)                     →       senza doverci tornare sopra...
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati




Libro digitalizzato (PDF)




       PDF Scaricato da Google Books
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati




Libro digitalizzato (PDF su SONY reader)
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati




Libro digitalizzato (Epub su SONY reader)




       Epub Scaricato da Google Books
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati




Libro digitalizzato (Epub con Digital Editions)
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Ricerca su libri digitalizzati



Ricerca su libri digitalizzati
               La ricerca standard nei lettori/visualizzatori ` basata su
                                                              e
               keyword.
               Ma se il testo non ` riconoscibile automaticamente?
                                  e
               Sono possibili altre ricerche, ad esempio basate sul layout?
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Ricerca su libri digitalizzati



Document Image Retrieval

               La finalit` di Document Image Retrieval ` l’identificazione di
                        a                                e
               documenti rilevanti in una collezione di immagini,
               considerando soltanto l’aspetto visuale.
               Task principali: recupero di documenti sulla base di
               similitudine di layout o sulla base del contenuto testuale.
               Due approcci:
                        Recupero basato sul riconoscimento.
                        Recupero senza riconoscimento (esplicito).
               Il document retrieval si basa su tre passi principali:
                   1. memorizzazione e indicizzamento dei documenti,
                   2. formulazione query,
                   3. calcolo similarit` e ordinamento risultati.
                                       a
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero basato sul riconoscimento



Recupero basato sul riconoscimento
               Assunzione di base: un motore di riconoscimento (es. OCR)
               pu` estrarre tutta l’informazione dai documenti.
                 o
               Eventuali errori non influenzano troppo le performance di
               recupero.
               Vantaggi:
                       semplice da integrare in sistemi standard preesistenti (es.
                       basati su codifica ASCII del testo),
                       il calcolo della similarit` e l’ordinamento dei risultati hanno un
                                                 a
                       costo computazionale ridotto
               Problemi:
                       documenti “rumorosi” (vecchi),
                       testo stampato con font non-standard,
                       documenti con layout complesso,
                       costi di correzione manuale.
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero basato sul riconoscimento



Optical Character Recognition (OCR)

               Tecnologia per la conversione di immagini di documenti in
               formati testuali.
               Funziona bene con testo contemporaneo, stampato, di buona
               qualit`.
                     a
                       Esistono libri del XIX secolo che parlano di modem ?!?
               Si possono/(devono ?) correggere manualmente gli errori.
               L’output dell’ OCR non corretto pu` essere impiegato per
                                                 o
               indicizzare il testo.
                       Ci sono problemi per testi corti in cui non si pu` sfruttare la
                                                                        o
                       ridondanza (parole ripetute).
               Applicazioni interessanti anche con documenti manoscritti.
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero basato sul riconoscimento



Riconoscimento layout




       Ha senso parlare di “layout di pagina” in un documento
       reflowable?!?
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Recupero senza riconoscimento (esplicito)

               Durante l’indicizzamento non si cerca di riconoscere
               esplicitamente il contenuto.

               Particolarmente interessante per documenti di pessima qualit`.
                                                                           a
               Es: “Keyword spotting”: tecniche per la localizzazione di
               parole individuate dall’utente in un flusso informativo
               (inizialmente audio).
               La similarit` ` calcolata considerando l’immagine o
                           ae
               caratteristiche a livello di immagine (feature).
               Applicazioni recenti:
                       elaborazione di documenti storici,
                       elaborazione di collezioni estese ed eterogenee.
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento




       http://www.bl.uk/treasures/gutenberg/homepage.html
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Esempio di testo da Gutenberg Bible




                 ctum est autem post multos dies ut offerret
                 Cain de fructibus terrae munera Domino
                 Abel quoque obtulit de primogenitis
                 gregis sui et de adipibus eorum. Et respe =
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Problemi di visualizzazione/ricerca testo




       http://pinakes.imss.fi.it:8080/pinakestext/home.jsf
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Problemi con layout


                                     PDF                             HTML
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Sistema AIDI
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Sistema AIDI
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Sistema AIDI
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



Approcci al “recupero di documenti”
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti digitalizzati
     Recupero senza riconoscimento



E in Ebook reader ?!?
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”




Documenti “Digital Born”

               Documenti “recenti” sono facilmente indicizzabili dal punto di
               vista testuale.
               La conversione in formato reflowable ` talvolta difficile.
                                                     e
               Articoli, libri PDF prodotti con strumenti di editoria
               elettronica, ma NON marcati semanticamente.
                      Ad esempio, titoli di capitoli (o sotto-capitoli) marcati
                      tipograficamente (neretto, 12pt), ma non indicando la funzione
                      (titolo).
               Il PDF ottenuto ` perfetto per la stampa, ma l’estrazione
                                e
               dell’informazione pu` essere non banale.
                                   o
               Ad esempio: estrazione dell’indice (Table of Contents, ToC).
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”
     Conversione di libri PDF in Epub



Conversione di libri PDF in Epub

               L’estrazione del ToC ` importante per la conversione in Epub
                                    e
               consentendo un’agevole navigazione nelle sue parti (es.
               capitoli).
               I capitoli vengono “spostati” in pagine diverse quando il testo
               viene ridimensionato (reflowed).
               Un documento Epub ` un file ZIP contenente file con metadati
                                   e
               sul documento e file XHTML, immagini e stylesheet CSS.
               Un file NCX contiene il ToC del documento che punta al
               paragrafo corrispondente e non semplicemente alla pagina.
               Vediamo alcuni esempi.
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”
     Conversione di libri PDF in Epub



PDF Book Contents Extractor: Interfaccia
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”
     Conversione di libri PDF in Epub



PDF Book Contents Extractor: Interfaccia
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”
     Conversione di libri PDF in Epub



PDF Book Contents Extractor: Interfaccia
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”
     Conversione di libri PDF in Epub



PDF Book Contents Extractor: Output Epub
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”
     Conversione di libri PDF in Epub



PDF Book Contents Extractor: Output Epub
Documenti scientifici digitali: problematiche dei formati reflowable
   Documenti “Digital Born”
     Conversione di libri PDF in Epub



PDF Book Contents Extractor: Output PDF
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici




Problemi specifici con documenti scientifici
               Documenti su due colonne
               Problemi:
                      come determinare l’ordine di lettura (“reading order”),
                      oggetti (es. tabelle, equazioni) a cavallo di pi` colonne.
                                                                      u
               Tabelle
               Problemi:
                      localizzazione (distinguere una tabella da un elenco),
                      comprensione (identificare righe e colonne),
                      visualizzazione (tabella pi` larga dello schermo).
                                                 u
               Equazioni
               Problemi:
                      localizzazione (distiguere equazioni da testo libero),
                      comprensione (“leggere” le equzioni (OCR-like)),
                      visualizzazione (visualizzazione “gradevole” in formato
                      reflowable (es. MathML o font SVG).
               Illustrazioni
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Documenti su due colonne



Articolo su 2 colonne
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Documenti su due colonne



Articolo convertito ad una colonna
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Documenti su due colonne
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Equazioni



Equazioni
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Equazioni



Equazioni: Epub
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Equazioni



Equazioni: Epub
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Tabelle



Tabelle
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Tabelle



Tabelle: Epub
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Tabelle



Tabelle: PDF su SONY reader
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Tabelle



Tabelle: PDF su SONY reader
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Tabelle



Tabelle: Epub su SONY reader
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Tabelle



Tabelle: PDF difficile !!
                                       WhAt StudentS KnoW And cAn do: Student PerformAnce In reAdIng, mAthemAtIcS And ScIence




                                                                                       • Figure I. •
                                                                     Comparing Countries’ and eConomies’ performanCe
                                                                    Statistically significantly above the OecD average
                                                                    not statistically significantly different from the OecD average
                                                                    Statistically significantly below the OecD average


                                                                                                              On the reading subscales
                                                                                                                                                                      On the
                                                             On the overall      Access             Integrate          Reflect        Continuous   Non-continuous   mathematics   On the science
                                                             reading scale     and retrieve       and interpret      and evaluate        texts          texts          scale          scale
                                       oeCd average               493               495               493                494             494            493            496             501
                                       shanghai-China             556               549               558                557             564            539            600             575
                                       Korea                      539               542               541                542             538            542            546             538
                                       Finland                    536               532               538                536             535            535            541             554
                                       Hong Kong-China            533               530               530                540             538            522            555             549
                                       singapore                  526               526               525                529             522            539            562             542
                                       Canada                     524               517               522                535             524            527            527             529
                                       New Zealand                521               521               517                531             518            532            519             532
                                       Japan                      520               530               520                521             520            518            529             539
                                       Australia                  515               513               513                523             513            524            514             527
                                       Netherlands                508               519               504                510             506            514            526             522
                                       Belgium                    506               513               504                505             504            511            515             507
                                       Norway                     503               512               502                505             505            498            498             500
                                       Estonia                    501               503               500                503             497            512            512             528
                                       Switzerland                501               505               502                497             498            505            534             517
                                       Poland                     500               500               503                498             502            496            495             508
                                       Iceland                    500               507               503                496             501            499            507             496
                                       United States              500               492               495                512             500            503            487             502
                                       Liechtenstein              499               508               498                498             495            506            536             520
                                       Sweden                     497               505               494                502             499            498            494             495
                                       Germany                    497               501               501                491             496            497            513             520
                                       Ireland                    496               498               494                502             497            496            487             508
                                       France                     496               492               497                495             492            498            497             498
                                       Chinese taipei             495               496               499                493             496            500            543             520
                                       Denmark                    495               502               492                493             496            493            503             499
                                       United Kingdom             494               491               491                503             492            506            492             514
                                       Hungary                    494               501               496                489             497            487            490             503
                                       Portugal                   489               488               487                496             492            488            487             493
                                       macao-China                487               493               488                481             488            481            525             511
                                       Italy                      486               482               490                482             489            476            483             489
                                       Latvia                     484               476               484                492             484            487            482             494
                                       Slovenia                   483               489               489                470             484            476            501             512
                                       Greece                     483               468               484                489             487            472            466             470
                                       Spain                      481               480               481                483             484            473            483             488
                                       Czech Republic             478               479               488                462             479            474            493             500
                                       Slovak Republic            477               491               481                466             479            471            497             490
                                       Croatia                    476               492               472                471             478            472            460             486
                                       Israel                     474               463               473                483             477            467            447             455
                                       Luxembourg                 472               471               475                471             471            472            489             484
                                       Austria                    470               477               471                463             470            472            496             494
                                       Lithuania                  468               476               469                463             470            462            477             491
                                       Turkey                     464               467               459                473             466            461            445             454
                                       dubai (uae)                459               458               457                466             461            460            453             466
                                       russian federation         459               469               467                441             461            452            468             478
                                       Chile                      449               444               452                452             453            444            421             447
                                       serbia                     442               449               445                430             444            438            442             443
                                       Bulgaria                   429               430               436                417             433            421            428             439
                                       uruguay                    426               424               423                436             429            421            427             427
                                       Mexico                     425               433               418                432             426            424            419             416
                                       romania                    424               423               425                426             423            424            427             428
                                       thailand                   421               431               416                420             423            423            419             425
                                       trinidad and tobago        416               413               419                413             418            417            414             410
                                       Colombia                   413               404               411                422             415            409            381             402
                                       Brazil                     412               407               406                424             414            408            386             405
                                       montenegro                 408               408               420                383             411            398            403             401
                                       Jordan                     405               394               410                407             417            387            387             415
                                       tunisia                    404               393               393                427             408            393            371             401
                                       indonesia                  402               399               397                409             405            399            371             383
                                       argentina                  398               394               398                402             400            391            388             401
                                       Kazakhstan                 390               397               397                373             399            371            405             400
                                       albania                    385               380               393                376             392            366            377             391
                                       Qatar                      372               354               379                376             375            361            368             379
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Illustrazioni



Diagrammi chimici “facili” da visualizzare
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Illustrazioni



Diagrammi chimici “difficili” da visualizzare
Documenti scientifici digitali: problematiche dei formati reflowable
   Problemi con documenti scientifici
     Illustrazioni



Casi ancora peggiori...
Documenti scientifici digitali: problematiche dei formati reflowable
   Conclusioni




Conclusioni

                 Documenti scientifici (articoli e monografie) pongono
                 problemi specifici per:
                      Conversione da formati:
                              digitalizzati (immagini),
                              digital-born (PDF).
                      Visualizzazione:
                              in formati fissi su schermi di piccole dimensioni,
                              in formati reflowable (es. html - epub).
                      Soluzioni?
                              tecnologiche: miglioramento metodi di estrazione
                              informazione,
                              parzialmente tecnologiche: come utilizzare standard esistenti
                              per visualizzare efficacemente oggetti complessi su schermi
                              “piccoli”.
Documenti scientifici digitali: problematiche dei formati reflowable
   Conclusioni




       Commenti?



       Domande?

       simone.marinai@unifi.it
       www.dsi.unifi.it/∼simone

Weitere ähnliche Inhalte

Mehr von Ebook Lab Italia

Marco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBook
Marco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBookMarco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBook
Marco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBookEbook Lab Italia
 
Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...
Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...
Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...Ebook Lab Italia
 
Cristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che trovi
Cristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che troviCristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che trovi
Cristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che troviEbook Lab Italia
 
Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...
Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...
Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...Ebook Lab Italia
 
Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...
Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...
Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...Ebook Lab Italia
 
Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...
Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...
Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...Ebook Lab Italia
 

Mehr von Ebook Lab Italia (6)

Marco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBook
Marco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBookMarco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBook
Marco Carrara @ Ebook Lab Italia 2011 - Libroshima: cronache del dopo eBook
 
Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...
Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...
Sanford Forte @ Ebook Lab Italia 2011 - Nuovi business model per la scolastic...
 
Cristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che trovi
Cristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che troviCristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che trovi
Cristina Mussinelli @ Ebook Lab Italia 2011 - Paese che vai, mercato che trovi
 
Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...
Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...
Simonetta Pillon @ Ebook Lab Italia 2011 - Repertori e banche dati di opere d...
 
Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...
Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...
Giorgio Spedicato @ Ebook Lab Italia 2011 - Un approccio pragmatico al diritt...
 
Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...
Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...
Piotr Kowalczyk @ Ebook Lab Italia 2011 - Self-publishing, a source of innova...
 

Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

  • 1. Documenti scientifici digitali: problematiche dei formati reflowable Documenti scientifici digitali: problematiche dei formati reflowable Simone Marinai simone.marinai@unifi.it Universit` degli Studi di Firenze a
  • 2. Documenti scientifici digitali: problematiche dei formati reflowable Outline Documenti digitalizzati Ricerca su libri digitalizzati Recupero basato sul riconoscimento Recupero senza riconoscimento Documenti “Digital Born” Conversione di libri PDF in Epub Problemi con documenti scientifici Documenti su due colonne Equazioni Tabelle Illustrazioni Conclusioni
  • 3. Documenti scientifici digitali: problematiche dei formati reflowable Definizioni .... I libri di ieri (e quelli di ieri l’altro) in quelli di domani (e di domani l’altro) I libri di → articoli e monografie tecniche/scientifiche ieri → documenti “digital born” (PDF) (e quelli di ieri l’altro) → documenti “digitalizzati” (scanner) in → conversione semi-automatica quelli di domani → epub (forse ` oggi?) e (e di domani l’altro) → senza doverci tornare sopra...
  • 4. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Libro digitalizzato (PDF) PDF Scaricato da Google Books
  • 5. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Libro digitalizzato (PDF su SONY reader)
  • 6. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Libro digitalizzato (Epub su SONY reader) Epub Scaricato da Google Books
  • 7. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Libro digitalizzato (Epub con Digital Editions)
  • 8. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Ricerca su libri digitalizzati Ricerca su libri digitalizzati La ricerca standard nei lettori/visualizzatori ` basata su e keyword. Ma se il testo non ` riconoscibile automaticamente? e Sono possibili altre ricerche, ad esempio basate sul layout?
  • 9. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Ricerca su libri digitalizzati Document Image Retrieval La finalit` di Document Image Retrieval ` l’identificazione di a e documenti rilevanti in una collezione di immagini, considerando soltanto l’aspetto visuale. Task principali: recupero di documenti sulla base di similitudine di layout o sulla base del contenuto testuale. Due approcci: Recupero basato sul riconoscimento. Recupero senza riconoscimento (esplicito). Il document retrieval si basa su tre passi principali: 1. memorizzazione e indicizzamento dei documenti, 2. formulazione query, 3. calcolo similarit` e ordinamento risultati. a
  • 10. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero basato sul riconoscimento Recupero basato sul riconoscimento Assunzione di base: un motore di riconoscimento (es. OCR) pu` estrarre tutta l’informazione dai documenti. o Eventuali errori non influenzano troppo le performance di recupero. Vantaggi: semplice da integrare in sistemi standard preesistenti (es. basati su codifica ASCII del testo), il calcolo della similarit` e l’ordinamento dei risultati hanno un a costo computazionale ridotto Problemi: documenti “rumorosi” (vecchi), testo stampato con font non-standard, documenti con layout complesso, costi di correzione manuale.
  • 11. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero basato sul riconoscimento Optical Character Recognition (OCR) Tecnologia per la conversione di immagini di documenti in formati testuali. Funziona bene con testo contemporaneo, stampato, di buona qualit`. a Esistono libri del XIX secolo che parlano di modem ?!? Si possono/(devono ?) correggere manualmente gli errori. L’output dell’ OCR non corretto pu` essere impiegato per o indicizzare il testo. Ci sono problemi per testi corti in cui non si pu` sfruttare la o ridondanza (parole ripetute). Applicazioni interessanti anche con documenti manoscritti.
  • 12. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero basato sul riconoscimento Riconoscimento layout Ha senso parlare di “layout di pagina” in un documento reflowable?!?
  • 13. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Recupero senza riconoscimento (esplicito) Durante l’indicizzamento non si cerca di riconoscere esplicitamente il contenuto. Particolarmente interessante per documenti di pessima qualit`. a Es: “Keyword spotting”: tecniche per la localizzazione di parole individuate dall’utente in un flusso informativo (inizialmente audio). La similarit` ` calcolata considerando l’immagine o ae caratteristiche a livello di immagine (feature). Applicazioni recenti: elaborazione di documenti storici, elaborazione di collezioni estese ed eterogenee.
  • 14. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento http://www.bl.uk/treasures/gutenberg/homepage.html
  • 15. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Esempio di testo da Gutenberg Bible ctum est autem post multos dies ut offerret Cain de fructibus terrae munera Domino Abel quoque obtulit de primogenitis gregis sui et de adipibus eorum. Et respe =
  • 16. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Problemi di visualizzazione/ricerca testo http://pinakes.imss.fi.it:8080/pinakestext/home.jsf
  • 17. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Problemi con layout PDF HTML
  • 18. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Sistema AIDI
  • 19. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Sistema AIDI
  • 20. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Sistema AIDI
  • 21. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento Approcci al “recupero di documenti”
  • 22. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento E in Ebook reader ?!?
  • 23. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Documenti “Digital Born” Documenti “recenti” sono facilmente indicizzabili dal punto di vista testuale. La conversione in formato reflowable ` talvolta difficile. e Articoli, libri PDF prodotti con strumenti di editoria elettronica, ma NON marcati semanticamente. Ad esempio, titoli di capitoli (o sotto-capitoli) marcati tipograficamente (neretto, 12pt), ma non indicando la funzione (titolo). Il PDF ottenuto ` perfetto per la stampa, ma l’estrazione e dell’informazione pu` essere non banale. o Ad esempio: estrazione dell’indice (Table of Contents, ToC).
  • 24. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in Epub Conversione di libri PDF in Epub L’estrazione del ToC ` importante per la conversione in Epub e consentendo un’agevole navigazione nelle sue parti (es. capitoli). I capitoli vengono “spostati” in pagine diverse quando il testo viene ridimensionato (reflowed). Un documento Epub ` un file ZIP contenente file con metadati e sul documento e file XHTML, immagini e stylesheet CSS. Un file NCX contiene il ToC del documento che punta al paragrafo corrispondente e non semplicemente alla pagina. Vediamo alcuni esempi.
  • 25. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in Epub PDF Book Contents Extractor: Interfaccia
  • 26. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in Epub PDF Book Contents Extractor: Interfaccia
  • 27. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in Epub PDF Book Contents Extractor: Interfaccia
  • 28. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in Epub PDF Book Contents Extractor: Output Epub
  • 29. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in Epub PDF Book Contents Extractor: Output Epub
  • 30. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in Epub PDF Book Contents Extractor: Output PDF
  • 31. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Problemi specifici con documenti scientifici Documenti su due colonne Problemi: come determinare l’ordine di lettura (“reading order”), oggetti (es. tabelle, equazioni) a cavallo di pi` colonne. u Tabelle Problemi: localizzazione (distinguere una tabella da un elenco), comprensione (identificare righe e colonne), visualizzazione (tabella pi` larga dello schermo). u Equazioni Problemi: localizzazione (distiguere equazioni da testo libero), comprensione (“leggere” le equzioni (OCR-like)), visualizzazione (visualizzazione “gradevole” in formato reflowable (es. MathML o font SVG). Illustrazioni
  • 32. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Documenti su due colonne Articolo su 2 colonne
  • 33. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Documenti su due colonne Articolo convertito ad una colonna
  • 34. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Documenti su due colonne
  • 35. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Equazioni Equazioni
  • 36. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Equazioni Equazioni: Epub
  • 37. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Equazioni Equazioni: Epub
  • 38. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Tabelle Tabelle
  • 39. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Tabelle Tabelle: Epub
  • 40. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Tabelle Tabelle: PDF su SONY reader
  • 41. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Tabelle Tabelle: PDF su SONY reader
  • 42. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Tabelle Tabelle: Epub su SONY reader
  • 43. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Tabelle Tabelle: PDF difficile !! WhAt StudentS KnoW And cAn do: Student PerformAnce In reAdIng, mAthemAtIcS And ScIence • Figure I. • Comparing Countries’ and eConomies’ performanCe Statistically significantly above the OecD average not statistically significantly different from the OecD average Statistically significantly below the OecD average On the reading subscales On the   On the overall Access Integrate Reflect Continuous Non-continuous mathematics On the science reading scale and retrieve and interpret and evaluate texts texts scale scale oeCd average 493 495 493 494 494 493 496 501 shanghai-China 556 549 558 557 564 539 600 575 Korea 539 542 541 542 538 542 546 538 Finland 536 532 538 536 535 535 541 554 Hong Kong-China 533 530 530 540 538 522 555 549 singapore 526 526 525 529 522 539 562 542 Canada 524 517 522 535 524 527 527 529 New Zealand 521 521 517 531 518 532 519 532 Japan 520 530 520 521 520 518 529 539 Australia 515 513 513 523 513 524 514 527 Netherlands 508 519 504 510 506 514 526 522 Belgium 506 513 504 505 504 511 515 507 Norway 503 512 502 505 505 498 498 500 Estonia 501 503 500 503 497 512 512 528 Switzerland 501 505 502 497 498 505 534 517 Poland 500 500 503 498 502 496 495 508 Iceland 500 507 503 496 501 499 507 496 United States 500 492 495 512 500 503 487 502 Liechtenstein 499 508 498 498 495 506 536 520 Sweden 497 505 494 502 499 498 494 495 Germany 497 501 501 491 496 497 513 520 Ireland 496 498 494 502 497 496 487 508 France 496 492 497 495 492 498 497 498 Chinese taipei 495 496 499 493 496 500 543 520 Denmark 495 502 492 493 496 493 503 499 United Kingdom 494 491 491 503 492 506 492 514 Hungary 494 501 496 489 497 487 490 503 Portugal 489 488 487 496 492 488 487 493 macao-China 487 493 488 481 488 481 525 511 Italy 486 482 490 482 489 476 483 489 Latvia 484 476 484 492 484 487 482 494 Slovenia 483 489 489 470 484 476 501 512 Greece 483 468 484 489 487 472 466 470 Spain 481 480 481 483 484 473 483 488 Czech Republic 478 479 488 462 479 474 493 500 Slovak Republic 477 491 481 466 479 471 497 490 Croatia 476 492 472 471 478 472 460 486 Israel 474 463 473 483 477 467 447 455 Luxembourg 472 471 475 471 471 472 489 484 Austria 470 477 471 463 470 472 496 494 Lithuania 468 476 469 463 470 462 477 491 Turkey 464 467 459 473 466 461 445 454 dubai (uae) 459 458 457 466 461 460 453 466 russian federation 459 469 467 441 461 452 468 478 Chile 449 444 452 452 453 444 421 447 serbia 442 449 445 430 444 438 442 443 Bulgaria 429 430 436 417 433 421 428 439 uruguay 426 424 423 436 429 421 427 427 Mexico 425 433 418 432 426 424 419 416 romania 424 423 425 426 423 424 427 428 thailand 421 431 416 420 423 423 419 425 trinidad and tobago 416 413 419 413 418 417 414 410 Colombia 413 404 411 422 415 409 381 402 Brazil 412 407 406 424 414 408 386 405 montenegro 408 408 420 383 411 398 403 401 Jordan 405 394 410 407 417 387 387 415 tunisia 404 393 393 427 408 393 371 401 indonesia 402 399 397 409 405 399 371 383 argentina 398 394 398 402 400 391 388 401 Kazakhstan 390 397 397 373 399 371 405 400 albania 385 380 393 376 392 366 377 391 Qatar 372 354 379 376 375 361 368 379
  • 44. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Illustrazioni Diagrammi chimici “facili” da visualizzare
  • 45. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Illustrazioni Diagrammi chimici “difficili” da visualizzare
  • 46. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Illustrazioni Casi ancora peggiori...
  • 47. Documenti scientifici digitali: problematiche dei formati reflowable Conclusioni Conclusioni Documenti scientifici (articoli e monografie) pongono problemi specifici per: Conversione da formati: digitalizzati (immagini), digital-born (PDF). Visualizzazione: in formati fissi su schermi di piccole dimensioni, in formati reflowable (es. html - epub). Soluzioni? tecnologiche: miglioramento metodi di estrazione informazione, parzialmente tecnologiche: come utilizzare standard esistenti per visualizzare efficacemente oggetti complessi su schermi “piccoli”.
  • 48. Documenti scientifici digitali: problematiche dei formati reflowable Conclusioni Commenti? Domande? simone.marinai@unifi.it www.dsi.unifi.it/∼simone