Dipl.-Ing. Ingmar Höbarth (Geschäftsführer Klima- und Energiefonds)Praxistage
Keynote: Energieeffizienz am Beispiel „Green IT“ – Nur ein „Werbegag“ oder konkreter Nutzenbringer? Was eine umweltschonende IT tatsächlich bringen kann – Dipl.-Ing. Ingmar Höbarth (Geschäftsführer Klima- und Energiefonds)
Dipl.-Ing. Ingmar Höbarth (Geschäftsführer Klima- und Energiefonds)Praxistage
Keynote: Energieeffizienz am Beispiel „Green IT“ – Nur ein „Werbegag“ oder konkreter Nutzenbringer? Was eine umweltschonende IT tatsächlich bringen kann – Dipl.-Ing. Ingmar Höbarth (Geschäftsführer Klima- und Energiefonds)
This document summarizes a workshop on the Europeana Newspapers Project. The project aims to digitize 18 million newspaper pages from 18 partners in 12 European countries. It will refine optical character recognition (OCR) and other metadata for 10 million pages and article segmentation for 2 million pages. The goals are to spread best practices for newspaper digitization, aggregate content for Europeana and The European Library, and encourage more libraries to contribute newspaper content to Europeana. Future work includes processing more content, addressing copyright issues for 20th century papers, and improving accessibility through full text search.
This document discusses publishers' perspectives on access to digitized newspapers. It outlines that publishers rely on exclusive rights to content as the basis for their business models and generating revenue through products and services. However, exceptions in copyright law aim to balance these rights with public interest. The options for policymakers regarding access include individual licensing, collective licensing, legal/compulsory licensing, and restricting rights. Publishers face challenges of declining print revenues but rising costs as they shift to developing digital services and new business models to survive. The key question is how to monetize content on digital platforms. The document advocates finding a "win-win" solution through licensing that considers various elements such as rights, costs, customers, and price.
The Europeana Newspapers Project aims to aggregate and refine over 18 million digitized newspaper pages for Europeana and The European Library. It will perform optical character recognition and article segmentation to convert images to searchable text. The project involves 17 partners from 12 countries who will provide newspaper content and refinements. It seeks to improve access to historical newspapers, establish best practices for digitization, and increase usage of Europeana's newspaper collections.
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...Europeana Newspapers
This document summarizes a presentation about using digitized newspaper archives as sources for digital historical research. It discusses how the speaker's research project analyzes the emergence of the United States as a reference culture in Dutch public discourse from 1890-1990 by mining over 9 million digitized newspaper pages. Examples are given of how text mining tools can be used to analyze trends in topic frequency over time and compare occurrences of words across periods. Challenges around data storage, processing power needs, and ensuring long-term access are also mentioned. Issues of data representativeness, gaps in digitized records, and properly interpreting results are raised as important aspects of source criticism for this type of digital historical research.
The Europeana Newspapers Project aims to aggregate over 18 million digitized newspaper pages from European newspaper collections onto the Europeana platform. The 17-partner consortium will refine newspaper collections, develop best practices for metadata and digitization workflows, and build a content browser for searching newspaper full texts. The project seeks to make Europeana the largest provider of pan-European newspaper collections and improve access to digitized newspapers for researchers, students, and citizens.
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATMartin Kaltenböck
Foliensatz im Rahmen des Open Data Support Trainings für die österr. Verwaltung am 15.9.2014, organisiert vom östterreichischen Bundeskanzleramt. Der LOD Pilot Österreich realisiert eine digitale Datenbasisinfrastruktur als Linked Open Data (vernetzten offenen Daten) für Österreich - auf Basis der offenen Daten von data.gv.at (Nationales Open Data Portal) und open.wien.gv.at (Datenportal der Stadt Wien). Hierbei werden 30-50 Basisdatensätze (Industriesektoren, Wirtschaftszweige oder Gemeindekennziffern etc) als Linked Open Data unter linked.data.gv.at publiziert und zur Wiederverwendung bereitgestellt. Das Projekt wurde von der Internetfoundation (netidee) Österreich finanziell unterstützt.
Fachveranstaltung «Nachhaltiges Finanzmanagement für Städte» der Konferenz der städtischen Finanzdirektorinnen und –direktoren 18. September 2020, Bern
PD Dr. Matthias Stürmer
Forschungsstelle Digitale Nachhaltigkeit
Institut für Informatik
Universität Bern
Vortrag zum Semantic Web MeetUp Vienna am 16. Oktober 2014, Top 24 im Arkadenhof des Wiener Rathaus zum Beta Launch des Linked Open Data Piloten Österreich (LOD Pilot AT).
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Praxistage
Breitband aus Sicht der Forschungsförderung. Was bringt die Nutzung, was wird gefördert? Von Erfolgsbeispielen lernen! Dipl.-Ing. Jan Freese (FFG), Dr. Christoph Ferch (Preiser Records), Dipl.-Ing. Thomas Zergoi (FFG)
Monitoring: Der Fokus liegt beim Zuhören und die Darstellung der Ergebnisse in Dashboard, die visuelles Prüfen der Ergebnisse und das Vordringen zu den Daten (Drill down) ermöglichen. Typischerweise erlauben sie das „Grundverständnis“ von Stimmungen über die Zuordnung von Keywords wie z.B. „gut“, „gross“ oder „schrecklich.
Textanalyse: Auf allen Plattformen aufbauend, ermöglichen sie das Verstehen der Bedeutungen hinter den Daten. Mit der Computerlinguistik (NLP) werden die Fakten, Meinungen und Stimmungen in den unterschiedlichsten Kanälen erklärt. Mit tiefergehen-den Reports und Visualisierungen erlaubt solche Lösung Vergleiche über längere Zeiträume und zeigt bislang unbekannte Korrelationen auf.
Luxid® strukturiert managt und nutzt den unstrukturierten Inhalt
Die patentierte und preisgekrönte, auf Computerlinguistik basierende Plattform Luxid® zur inhaltlichen Anreicherung ist die skalierbare Lösung zur Erkennung und Extraktion relevanter und im Fliesstext versteckter Informationsabschnitte und deren Anreicherung mit Metadaten.
Die Plattform Luxid® deckt die Information-Assets auf und optimiert deren Management, Verteilung, Zugang und Analyse.
Luxid® Annotation Factory mit ihren Funktionalitäten dient als das Pipeline für die Anwendung der Computerlinguistik:
Extraktion von Metadaten, Topics, Entitäten und Beziehungen aus dem Text
Kategorisierung von Dokumenten und deren Clustering
Extraktion-Engine für Syntax, Statistik, Taxonomie, Regeldefinition usw.
Luxid® Skill Cartridge Library für Vertiefungen in unterschiedliche Anwendungen bzw. Bereiche, wie z.B. Opinion Mining, Marketing, Medizin Biologie, Pharma usw.
Luxid® Content Enrichment Studio für kundenspezifische Anpassungen der bestehenden bzw. Entwicklung von gänzlich neuen Anwendungen.
Ich möchte auf die Bühne bitten: Lisbeth Mosnik die im BMVIT einge Datenprogramme koordiniert und sie um einen Überblick über die Österreichische Datenlandschaft, die laufenden Projekte und die nächsten anstehenden Aktivitäten bitten.
Vortrag von Georg Güntner (Salzburg Research) und Lydia Höller (dankl+partner consulting) im Rahmen der Außenwirtschaft Roadshow 2014 der Wirtschaftskammer in Salzburg. (27.10.2014)
This document summarizes a workshop on the Europeana Newspapers Project. The project aims to digitize 18 million newspaper pages from 18 partners in 12 European countries. It will refine optical character recognition (OCR) and other metadata for 10 million pages and article segmentation for 2 million pages. The goals are to spread best practices for newspaper digitization, aggregate content for Europeana and The European Library, and encourage more libraries to contribute newspaper content to Europeana. Future work includes processing more content, addressing copyright issues for 20th century papers, and improving accessibility through full text search.
This document discusses publishers' perspectives on access to digitized newspapers. It outlines that publishers rely on exclusive rights to content as the basis for their business models and generating revenue through products and services. However, exceptions in copyright law aim to balance these rights with public interest. The options for policymakers regarding access include individual licensing, collective licensing, legal/compulsory licensing, and restricting rights. Publishers face challenges of declining print revenues but rising costs as they shift to developing digital services and new business models to survive. The key question is how to monetize content on digital platforms. The document advocates finding a "win-win" solution through licensing that considers various elements such as rights, costs, customers, and price.
The Europeana Newspapers Project aims to aggregate and refine over 18 million digitized newspaper pages for Europeana and The European Library. It will perform optical character recognition and article segmentation to convert images to searchable text. The project involves 17 partners from 12 countries who will provide newspaper content and refinements. It seeks to improve access to historical newspapers, establish best practices for digitization, and increase usage of Europeana's newspaper collections.
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...Europeana Newspapers
This document summarizes a presentation about using digitized newspaper archives as sources for digital historical research. It discusses how the speaker's research project analyzes the emergence of the United States as a reference culture in Dutch public discourse from 1890-1990 by mining over 9 million digitized newspaper pages. Examples are given of how text mining tools can be used to analyze trends in topic frequency over time and compare occurrences of words across periods. Challenges around data storage, processing power needs, and ensuring long-term access are also mentioned. Issues of data representativeness, gaps in digitized records, and properly interpreting results are raised as important aspects of source criticism for this type of digital historical research.
The Europeana Newspapers Project aims to aggregate over 18 million digitized newspaper pages from European newspaper collections onto the Europeana platform. The 17-partner consortium will refine newspaper collections, develop best practices for metadata and digitization workflows, and build a content browser for searching newspaper full texts. The project seeks to make Europeana the largest provider of pan-European newspaper collections and improve access to digitized newspapers for researchers, students, and citizens.
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATMartin Kaltenböck
Foliensatz im Rahmen des Open Data Support Trainings für die österr. Verwaltung am 15.9.2014, organisiert vom östterreichischen Bundeskanzleramt. Der LOD Pilot Österreich realisiert eine digitale Datenbasisinfrastruktur als Linked Open Data (vernetzten offenen Daten) für Österreich - auf Basis der offenen Daten von data.gv.at (Nationales Open Data Portal) und open.wien.gv.at (Datenportal der Stadt Wien). Hierbei werden 30-50 Basisdatensätze (Industriesektoren, Wirtschaftszweige oder Gemeindekennziffern etc) als Linked Open Data unter linked.data.gv.at publiziert und zur Wiederverwendung bereitgestellt. Das Projekt wurde von der Internetfoundation (netidee) Österreich finanziell unterstützt.
Fachveranstaltung «Nachhaltiges Finanzmanagement für Städte» der Konferenz der städtischen Finanzdirektorinnen und –direktoren 18. September 2020, Bern
PD Dr. Matthias Stürmer
Forschungsstelle Digitale Nachhaltigkeit
Institut für Informatik
Universität Bern
Vortrag zum Semantic Web MeetUp Vienna am 16. Oktober 2014, Top 24 im Arkadenhof des Wiener Rathaus zum Beta Launch des Linked Open Data Piloten Österreich (LOD Pilot AT).
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Praxistage
Breitband aus Sicht der Forschungsförderung. Was bringt die Nutzung, was wird gefördert? Von Erfolgsbeispielen lernen! Dipl.-Ing. Jan Freese (FFG), Dr. Christoph Ferch (Preiser Records), Dipl.-Ing. Thomas Zergoi (FFG)
Monitoring: Der Fokus liegt beim Zuhören und die Darstellung der Ergebnisse in Dashboard, die visuelles Prüfen der Ergebnisse und das Vordringen zu den Daten (Drill down) ermöglichen. Typischerweise erlauben sie das „Grundverständnis“ von Stimmungen über die Zuordnung von Keywords wie z.B. „gut“, „gross“ oder „schrecklich.
Textanalyse: Auf allen Plattformen aufbauend, ermöglichen sie das Verstehen der Bedeutungen hinter den Daten. Mit der Computerlinguistik (NLP) werden die Fakten, Meinungen und Stimmungen in den unterschiedlichsten Kanälen erklärt. Mit tiefergehen-den Reports und Visualisierungen erlaubt solche Lösung Vergleiche über längere Zeiträume und zeigt bislang unbekannte Korrelationen auf.
Luxid® strukturiert managt und nutzt den unstrukturierten Inhalt
Die patentierte und preisgekrönte, auf Computerlinguistik basierende Plattform Luxid® zur inhaltlichen Anreicherung ist die skalierbare Lösung zur Erkennung und Extraktion relevanter und im Fliesstext versteckter Informationsabschnitte und deren Anreicherung mit Metadaten.
Die Plattform Luxid® deckt die Information-Assets auf und optimiert deren Management, Verteilung, Zugang und Analyse.
Luxid® Annotation Factory mit ihren Funktionalitäten dient als das Pipeline für die Anwendung der Computerlinguistik:
Extraktion von Metadaten, Topics, Entitäten und Beziehungen aus dem Text
Kategorisierung von Dokumenten und deren Clustering
Extraktion-Engine für Syntax, Statistik, Taxonomie, Regeldefinition usw.
Luxid® Skill Cartridge Library für Vertiefungen in unterschiedliche Anwendungen bzw. Bereiche, wie z.B. Opinion Mining, Marketing, Medizin Biologie, Pharma usw.
Luxid® Content Enrichment Studio für kundenspezifische Anpassungen der bestehenden bzw. Entwicklung von gänzlich neuen Anwendungen.
Ich möchte auf die Bühne bitten: Lisbeth Mosnik die im BMVIT einge Datenprogramme koordiniert und sie um einen Überblick über die Österreichische Datenlandschaft, die laufenden Projekte und die nächsten anstehenden Aktivitäten bitten.
Vortrag von Georg Güntner (Salzburg Research) und Lydia Höller (dankl+partner consulting) im Rahmen der Außenwirtschaft Roadshow 2014 der Wirtschaftskammer in Salzburg. (27.10.2014)
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSSWolfgang Ksoll
Das Projekt NextGEOSS aus dem EU Programm Horizon 2020, wo Erdbeobachtungsdaten von 27 Partnern in drei Jahren mit 10 Mio € Budget als Open Data zur Verfügung stellen. Wie organisiert man das Projektanagement? Wie kommuniziert man? Gibt es einen Business Case? Was passiert da inhaltlich?
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Martin Kaltenböck
Folien zum Vortrag von Martin Kaltenböck am 18.9.2014 bei der jährlichen Open Data CH Konferenz in Zürich, Schweiz - zum Thema Open Data Portal (ODP) Österreich (http://www.opendataportal.at) und Linked Open Data (LOD) Pilot Österreich.
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Martin Kaltenböck
Präsentation von Martin Kaltenböck (SWC) bei den Wissenschaftstagen der Akademie der Wissenschaften am 3.12. 2014 zum Thema - Einführung, Basis und Benefits von Linked Open Data (LOD) inkl. Best Practise: Linked Open Data Pilot Österreich (LOD Pilot AT - http://linkeddata.gv.at).
The Presentation of Hans-Jörg Lieder, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, at the BnF Information Day for Europeana Newspapers (November 2014).
Optical Character Recognition (OCR) technology can help users in their research by digitizing printed texts and enabling full-text search. However, OCR quality varies and error rates can be as high as 10-40% depending on factors like language and publication date. This can negatively impact researchers seeking all occurrences of search terms. Crowd-sourcing corrections for searched words and utilizing external knowledge sources like Wikipedia could help improve search results and researchers' experiences. Machine learning applied to large digitized collections also has potential to extract additional useful information and insights not readily apparent from the text alone.
The document discusses Optical Layout Recognition (OLR) to convert scanned newspaper pages into structured digital files. It describes CCS's role in providing OLR technology and services to structure over 2 million newspaper pages from 5 European library partners. The general OLR workflow involves scanning, layout analysis to identify text blocks and zones, OCR, and quality assurance. CCS will analyze page layouts to recognize elements like articles, headlines, images and classify page types. Libraries can perform final quality assurance checking on the structured output, which is packaged in METS and ALTO formats for preservation and improved search and access capabilities.
The Europeana Newspapers project is digitizing newspapers from the 17th-20th centuries across 22 European languages. It has provided full text for over 2 million newspaper pages and metadata for over 18 million additional pages. Usability testing was conducted with researchers and improvements were made to search, browsing, and display functionality based on feedback. Researchers value the project for enabling new large-scale, interdisciplinary, and computational analyses of digitized newspaper archives.
The document discusses the Europeana Newspapers project, which aims to digitize over 18 million newspaper pages from various European newspapers ranging from the 17th to 20th centuries. The project involves 12 content providers, 2 networking partners, 4 technology providers and 1 aggregator working together to improve access to historical newspapers. Key aspects of the project include cultural cooperation, skills sharing, improved search capabilities through technologies like optical character recognition. The project highlights how digitization has improved access to historical newspapers and their coverage of events like the Titanic disaster across different European countries.
This document discusses optical character recognition (OCR) of historical newspapers. It describes the digitization process, which includes image capturing, text and structure recognition, natural language processing, and content representation. OCR accuracy can be improved through layout analysis, structural metadata extraction, and identifying different content units like articles, advertisements, and entertainment sections. The goal is to make the content and knowledge within digitized newspapers accessible beyond the scanned text.
1. Bessere Suchergebnisse durch Named Entity Recognition
Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale
27.10.2014 EURAC Bozen / Bolzano
Clemens Neudecker, State Library Berlin
@cneudecker
2. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
2
Was ist eigentlich „Named Entity Recognition“?
•Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden.
•Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten.
•Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
3. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Oder: Was ist eigentlich ein „Named Entity“?
• PERSON:
•Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)
• ORGANISATION:
•Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)
• ORT:
•Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“)
3
4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
NER (I)
4
1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
5. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
NER (II)
5
2. Disambiguieren von Begriffen (Beispiel “Jordan”)
durch Kontextinformationen
6. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
NER (III)
6
3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
7. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Sprachunterstützung
3 Sprachen:
• Deutsch
• Niederländisch
• Französisch
7
8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Ansatz
•Machine learning vs. Regelbasierter (rule-based) Ansatz
•Vorteile Machine-learning:
•Keine (quasi) linguistische Expertise notwendig
•Verarbeitung von großen Mengen möglich
•Vorteile Regelbasiert:
•Sehr hohe Genauigkeiten möglich
•Berücksichtigung spezieller Grammatiken
8
9. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Software
• Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL
• Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner
9
10. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Training
•Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora
• Veröffentlichung des annotierten Korpus als Open Data
10
11. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Probleme und Herausforderungen
•OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung
•Historische Schreibvarianten für Orts- und Personennamen
•In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen
Anpassungen der Software für OCR Problematik
11
12. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Erste Resultate: Niederländisch
12
Personen
Orte
Organisationen
Precision
0.940
0.950
0.942
Recall
0.588
0.760
0.559
F-measure
0.689
0.838
0.671
13. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Warum überhaupt Named Entity Recognition?
•Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)
13
14. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Beispiel für die Präsentation aus Nutzersicht: Digi20
•Digi20 Projekt der BSB
14
http://digi20.digitale-sammlungen.de/
15. Danke für Ihre Aufmerksamkeit!
Grazie per la vostra attenzione!
@eurnews
http://www.europeana-newspapers.eu
http://www.theeuropeanlibrary.org/tel4/newspapers
http://www.europeana.eu/