SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa Andrea Bolioli 27 ottobre 2014, Bolzano - Bozen 
1
Ovvero, dalle pagine alle infografiche 
Come si costruisce 
un motore di ricerca semantico 
per un archivio storico ? 
Trasformando 
i contenuti testuali 
in dati analizzabili.
Dietro le quinte del processo (making of) 
Microfilm 
Copia digitale e OCR 
Indicizzazione full text 
Annnotazione semantica 
e infografiche 
1 
2 
3
Cosa abbiamo ottenuto ? Alcuni numeri 
4.800.000 
Articoli annotati automaticamente dal 1910 al 2005 
113.000 
Nomi di persona riconosciuti (PER con freq > 10) 
10.200 
Nomi di entità geopolitiche 
(GPE con freq > 10) 
6.500 
Nomi di organizzazioni 
(ORG con freq > 10) 
1.020 
Autori degli articoli 
(Author con freq > 10)
Dietro le quinte: la piattaforma di sviluppo 
http://lastampa.celi.it/lastampa-archivio/ accesso riservato
Dietro le quinte: la dashboard 
Fig: 
facet, annotazioni, tag
Dietro le quinte: la dashboard 
Fig: citazioni delle persone in prima pagina
Dietro le quinte: la dashboard 
Fig: citazioni delle persone in tutte le pagine
Come abbiamo fatto ? 
Selezione dei corpora di training e test: selezionare un campione significativo partendo da 12 milioni di articoli dal 1867 al 2005 
Annotazione manuale dei corpora: interfaccia web collaborativa per annotare velocemente 
Analisi degli errori di OCR: report e statistiche 
Annotazione automatica: classificatori automatici SVM (Support Vector Machine) e a regole linguistiche (pattern matching) 
Verifiche di accuratezza dei risultati e correzioni
Quali difficoltà abbiamo incontrato ? 
Errori di OCR: 
la quantità di errori di OCR è considerevole. Abbiamo annotato circa 16000 errori (e correzioni) in 900 articoli. 
Alcuni esempi: 
dustin hoflman, hoftman, holfman, hollman, hotfman, hotlman (dustin hoffmann) , pohtica (politica), poh (poli), de (dc) , pei (pci), doc um e nto (documento) , re- latore (relatore) 
Fig: distribuzione dei tipi di errore per anno
Difficoltà ? Dimensioni ed estensione temporale 
12 milioni di articoli e un periodo temporale di quasi 150 anni. 
Non esistevano casi analoghi in Italia di analisi semantica di testi su un intervallo così ampio. 
Es. delle citazioni di "Verdi" : persona, via, piazza, scuola, nave, teatro, orchestra, ecc. 
Fig: distribuzione delle citazioni 
di alcuni personaggi storici
Che cosa è utile per un archivio digitale ? 
Annotazione automatica, validazione degli esperti, 
annotazione manuale in crowdsourcing (per correggere gli errori di OCR e annotare le entità rilevanti). 
Integrazione di thesauri e ontologie (concetti, sinonimi e altre relazioni semantiche), espansione delle queries (ad es. scuola media <-> scuola secondaria di primo grado; edificio religioso del 700 -> Basilica di Superga), ricerca multilingue e cross- lingue. 
Esplorazione visuale e infografiche (grafi, grafici, timelines)
Che cosa è utile per un archivio digitale ? 
Usabilità, accessibilità, semplicità
Che cosa è (utile per) un archivio ? 
"L'archivio è anche ciò che fa sì che tutte queste cose dette non si accumulino all'infinito in una moltitudine amorfa, non si iscrivano in una linearità senza fratture, e non scompaiano solo per casuali accidentualità esterne; ma che si raggruppino in figure distinte, si compongano le une con le altre secondo molteplici rapporti, si conservino o si attenuino secondo regolarità specifiche." 
Michel Foucault (1969) 
L'archeologia del sapere / 
Die Archäologie des Wissens 
"Aber das Archiv ist auch das, was bewirkt, daß all diese gesagten 
Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl anhäufen, auch nicht allein schon bei zufälligen äußeren Umständen verschwinden.[…]"
Grazie per l'attenzione ! 
Per maggiori informazioni: 
Andrea Bolioli 
bolioli@cross-library.com info@celi.it 
@CrossLib @CELI_NLP 
15

Weitere ähnliche Inhalte

Andere mochten auch

ENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project OverviewENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project Overview
Europeana Newspapers
 
Realising the value of Europe's newspaper heritage
Realising the value of Europe's newspaper heritage Realising the value of Europe's newspaper heritage
Realising the value of Europe's newspaper heritage
Europeana Newspapers
 

Andere mochten auch (10)

The Europeana Newspapers Presentation - Cyberspace 2012
The Europeana Newspapers Presentation - Cyberspace 2012The Europeana Newspapers Presentation - Cyberspace 2012
The Europeana Newspapers Presentation - Cyberspace 2012
 
EurnewsLDN_Lucie_Guibault
EurnewsLDN_Lucie_GuibaultEurnewsLDN_Lucie_Guibault
EurnewsLDN_Lucie_Guibault
 
Performance Evaluation and Quality Assessment
Performance Evaluation and Quality AssessmentPerformance Evaluation and Quality Assessment
Performance Evaluation and Quality Assessment
 
ENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project OverviewENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project Overview
 
Refinement
RefinementRefinement
Refinement
 
Realising the value of Europe's newspaper heritage
Realising the value of Europe's newspaper heritage Realising the value of Europe's newspaper heritage
Realising the value of Europe's newspaper heritage
 
Europeana_Newspapers_ONB_infoday_HJLieder
Europeana_Newspapers_ONB_infoday_HJLiederEuropeana_Newspapers_ONB_infoday_HJLieder
Europeana_Newspapers_ONB_infoday_HJLieder
 
Principles of Usability Testing For Historic Newspapers
Principles of Usability Testing For Historic NewspapersPrinciples of Usability Testing For Historic Newspapers
Principles of Usability Testing For Historic Newspapers
 
ENP_Dutch_Infoday_SKruizinga
ENP_Dutch_Infoday_SKruizingaENP_Dutch_Infoday_SKruizinga
ENP_Dutch_Infoday_SKruizinga
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 

Ähnlich wie Europeana Newspapers LFT Infoday Bolioli

Biblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standardBiblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standard
amandadrafe
 
201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013
Stefano Lariccia
 

Ähnlich wie Europeana Newspapers LFT Infoday Bolioli (20)

Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico...
Ricerca semantica:  annotazioni manuali e automatiche  per l'Archivio storico...Ricerca semantica:  annotazioni manuali e automatiche  per l'Archivio storico...
Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico...
 
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
Francesca Ricci, Linked open data e ontologie per i beni culturali: le inizia...
 
Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...
Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...
Metodi e tecnologie per l’analisi automatica di documenti del passato: il pro...
 
Libri, biblioteche e scuole digitali. Seminario di Digital Humanities 2015
Libri, biblioteche e scuole digitali. Seminario di Digital Humanities 2015Libri, biblioteche e scuole digitali. Seminario di Digital Humanities 2015
Libri, biblioteche e scuole digitali. Seminario di Digital Humanities 2015
 
Seminario ismb Monaci Cataldi
Seminario ismb Monaci CataldiSeminario ismb Monaci Cataldi
Seminario ismb Monaci Cataldi
 
La ricerca nelle banche dati giuridiche, sociologiche, psicologiche
La ricerca nelle banche dati giuridiche, sociologiche, psicologicheLa ricerca nelle banche dati giuridiche, sociologiche, psicologiche
La ricerca nelle banche dati giuridiche, sociologiche, psicologiche
 
Les Bibliothèques Virtuelles Humanistes e il progetto EDITEF
Les Bibliothèques Virtuelles Humanistes e il progetto EDITEFLes Bibliothèques Virtuelles Humanistes e il progetto EDITEF
Les Bibliothèques Virtuelles Humanistes e il progetto EDITEF
 
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
 
Linked Open Data, Beni Culturali e integrazione uno sguardo sul futuro
Linked Open Data, Beni Culturali e integrazione uno sguardo sul futuroLinked Open Data, Beni Culturali e integrazione uno sguardo sul futuro
Linked Open Data, Beni Culturali e integrazione uno sguardo sul futuro
 
Linked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazioneLinked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazione
 
Biblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standardBiblioteche virtuali e digitali. La catalogazione e gli standard
Biblioteche virtuali e digitali. La catalogazione e gli standard
 
Linked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazioneLinked Open Data, Beni Culturali e integrazione
Linked Open Data, Beni Culturali e integrazione
 
Stelline 2013 - Gianluca Didino
Stelline 2013 - Gianluca DidinoStelline 2013 - Gianluca Didino
Stelline 2013 - Gianluca Didino
 
201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013
 
Milano bibliostar 2011 - come arricchire l’offerta informativa in cobire
Milano   bibliostar 2011 - come arricchire l’offerta informativa in cobireMilano   bibliostar 2011 - come arricchire l’offerta informativa in cobire
Milano bibliostar 2011 - come arricchire l’offerta informativa in cobire
 
Pubblicare Linked Open Data
Pubblicare Linked Open DataPubblicare Linked Open Data
Pubblicare Linked Open Data
 
Biblioteca digitale
Biblioteca digitaleBiblioteca digitale
Biblioteca digitale
 
Orientarsi nel museo virtuale: le Topic Maps e ontologie multilingua in accre...
Orientarsi nel museo virtuale: le Topic Maps e ontologie multilingua in accre...Orientarsi nel museo virtuale: le Topic Maps e ontologie multilingua in accre...
Orientarsi nel museo virtuale: le Topic Maps e ontologie multilingua in accre...
 
La descrizione degli archivi. xDams open source
La descrizione degli archivi.   xDams open source La descrizione degli archivi.   xDams open source
La descrizione degli archivi. xDams open source
 
Crema 2013 gentilini
Crema 2013 gentiliniCrema 2013 gentilini
Crema 2013 gentilini
 

Mehr von Europeana Newspapers

Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
Europeana Newspapers
 

Mehr von Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday Genereux
 
ENP_Dutch_Infoday_MWillems
ENP_Dutch_Infoday_MWillemsENP_Dutch_Infoday_MWillems
ENP_Dutch_Infoday_MWillems
 

Kürzlich hochgeladen

Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
lorenzodemidio01
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 

Kürzlich hochgeladen (19)

Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 

Europeana Newspapers LFT Infoday Bolioli

  • 1. Ricerca semantica: annotazioni manuali e automatiche per l'Archivio storico de La Stampa Andrea Bolioli 27 ottobre 2014, Bolzano - Bozen 1
  • 2. Ovvero, dalle pagine alle infografiche Come si costruisce un motore di ricerca semantico per un archivio storico ? Trasformando i contenuti testuali in dati analizzabili.
  • 3. Dietro le quinte del processo (making of) Microfilm Copia digitale e OCR Indicizzazione full text Annnotazione semantica e infografiche 1 2 3
  • 4. Cosa abbiamo ottenuto ? Alcuni numeri 4.800.000 Articoli annotati automaticamente dal 1910 al 2005 113.000 Nomi di persona riconosciuti (PER con freq > 10) 10.200 Nomi di entità geopolitiche (GPE con freq > 10) 6.500 Nomi di organizzazioni (ORG con freq > 10) 1.020 Autori degli articoli (Author con freq > 10)
  • 5. Dietro le quinte: la piattaforma di sviluppo http://lastampa.celi.it/lastampa-archivio/ accesso riservato
  • 6. Dietro le quinte: la dashboard Fig: facet, annotazioni, tag
  • 7. Dietro le quinte: la dashboard Fig: citazioni delle persone in prima pagina
  • 8. Dietro le quinte: la dashboard Fig: citazioni delle persone in tutte le pagine
  • 9. Come abbiamo fatto ? Selezione dei corpora di training e test: selezionare un campione significativo partendo da 12 milioni di articoli dal 1867 al 2005 Annotazione manuale dei corpora: interfaccia web collaborativa per annotare velocemente Analisi degli errori di OCR: report e statistiche Annotazione automatica: classificatori automatici SVM (Support Vector Machine) e a regole linguistiche (pattern matching) Verifiche di accuratezza dei risultati e correzioni
  • 10. Quali difficoltà abbiamo incontrato ? Errori di OCR: la quantità di errori di OCR è considerevole. Abbiamo annotato circa 16000 errori (e correzioni) in 900 articoli. Alcuni esempi: dustin hoflman, hoftman, holfman, hollman, hotfman, hotlman (dustin hoffmann) , pohtica (politica), poh (poli), de (dc) , pei (pci), doc um e nto (documento) , re- latore (relatore) Fig: distribuzione dei tipi di errore per anno
  • 11. Difficoltà ? Dimensioni ed estensione temporale 12 milioni di articoli e un periodo temporale di quasi 150 anni. Non esistevano casi analoghi in Italia di analisi semantica di testi su un intervallo così ampio. Es. delle citazioni di "Verdi" : persona, via, piazza, scuola, nave, teatro, orchestra, ecc. Fig: distribuzione delle citazioni di alcuni personaggi storici
  • 12. Che cosa è utile per un archivio digitale ? Annotazione automatica, validazione degli esperti, annotazione manuale in crowdsourcing (per correggere gli errori di OCR e annotare le entità rilevanti). Integrazione di thesauri e ontologie (concetti, sinonimi e altre relazioni semantiche), espansione delle queries (ad es. scuola media <-> scuola secondaria di primo grado; edificio religioso del 700 -> Basilica di Superga), ricerca multilingue e cross- lingue. Esplorazione visuale e infografiche (grafi, grafici, timelines)
  • 13. Che cosa è utile per un archivio digitale ? Usabilità, accessibilità, semplicità
  • 14. Che cosa è (utile per) un archivio ? "L'archivio è anche ciò che fa sì che tutte queste cose dette non si accumulino all'infinito in una moltitudine amorfa, non si iscrivano in una linearità senza fratture, e non scompaiano solo per casuali accidentualità esterne; ma che si raggruppino in figure distinte, si compongano le une con le altre secondo molteplici rapporti, si conservino o si attenuino secondo regolarità specifiche." Michel Foucault (1969) L'archeologia del sapere / Die Archäologie des Wissens "Aber das Archiv ist auch das, was bewirkt, daß all diese gesagten Dinge sich nicht bis ins Unendliche in einer amorphen Vielzahl anhäufen, auch nicht allein schon bei zufälligen äußeren Umständen verschwinden.[…]"
  • 15. Grazie per l'attenzione ! Per maggiori informazioni: Andrea Bolioli bolioli@cross-library.com info@celi.it @CrossLib @CELI_NLP 15