SlideShare ist ein Scribd-Unternehmen logo
1 von 42
Text & Data Mining (TDM)
Clemens Neudecker (@cneudecker)
Digital Humanities Network | SBB-PK | 13/02/2019
CC-BY Davide Bonazzi
www.copyrightuser.org
Contents
• Preliminary remarks
• Workflow
• Textmining
• Datamining
• Datasets
• Outlook
Preliminary remarks
Definitions
• Text Mining is the computational process of
discovering and extracting knowledge from
unstructured data.
• Data Mining is the computational process of
discovering and extracting knowledge from
structured data.
• Intellectual Property Office, UK:
[TDM describes…]“the use of automated
analytical techniques to analyze text and
data for patterns, trends and other useful
information”
Caveats…
CC-BY-SA
www.denkschets.nl
TDM: German Law
• Gesetz über Urheberrecht und verwandte Schutzrechte, § 60d Text und Data Mining:
• (1) Um eine Vielzahl von Werken (Ursprungsmaterial) für die wissenschaftliche Forschung
automatisiert auszuwerten, ist es zulässig, 1. das Ursprungsmaterial auch automatisiert und
systematisch zu vervielfältigen, um daraus insbesondere durch Normalisierung, Strukturierung und
Kategorisierung ein auszuwertendes Korpus zu erstellen, und 2. das Korpus einem bestimmt
abgegrenzten Kreis von Personen für die gemeinsame wissenschaftliche Forschung sowie einzelnen
Dritten zur Überprüfung der Qualität wissenschaftlicher Forschung öffentlich zugänglich zu machen.
Der Nutzer darf hierbei nur nicht kommerzielle Zwecke verfolgen.
• (2) Werden Datenbankwerke nach Maßgabe des Absatzes 1 genutzt, so gilt dies als übliche Benutzung
nach § 55a Satz 1. Werden unwesentliche Teile von Datenbanken nach Maßgabe des Absatzes 1
genutzt, so gilt dies mit der normalen Auswertung der Datenbank sowie mit den berechtigten
Interessen des Datenbankherstellers im Sinne von § 87b Absatz 1 Satz 2 und § 87e als vereinbar.
• (3) Das Korpus und die Vervielfältigungen des Ursprungsmaterials sind nach Abschluss der
Forschungsarbeiten zu löschen; die öffentliche Zugänglichmachung ist zu beenden. Zulässig ist es
jedoch, das Korpus und die Vervielfältigungen des Ursprungsmaterials den in den §§ 60e und 60f
genannten Institutionen zur dauerhaften Aufbewahrung zu übermitteln.
TDM: German Law
• Gesetz über Urheberrecht und verwandte Schutzrechte, § 60e Bibliotheken:
• (1) Öffentlich zugängliche Bibliotheken, die keine unmittelbaren oder mittelbaren kommerziellen
Zwecke verfolgen (Bibliotheken), dürfen ein Werk aus ihrem Bestand oder ihrer Ausstellung für Zwecke
der Zugänglichmachung, Indexierung, Katalogisierung, Erhaltung und Restaurierung vervielfältigen
oder vervielfältigen lassen, auch mehrfach und mit technisch bedingten Änderungen.
• (2) Verbreiten dürfen Bibliotheken Vervielfältigungen eines Werkes aus ihrem Bestand an andere
Bibliotheken oder an in § 60f genannte Institutionen für Zwecke der Restaurierung. Verleihen dürfen sie
restaurierte Werke sowie Vervielfältigungsstücke von Zeitungen, vergriffenen oder zerstörten Werken
aus ihrem Bestand.
• (3) Verbreiten dürfen Bibliotheken Vervielfältigungen eines in § 2 Absatz 1 Nummer 4 bis 7 genannten
Werkes, sofern dies in Zusammenhang mit dessen öffentlicher Ausstellung oder zur Dokumentation des
Bestandes der Bibliothek erfolgt.
• (4) Zugänglich machen dürfen Bibliotheken an Terminals in ihren Räumen ein Werk aus ihrem Bestand
ihren Nutzern für deren Forschung oder private Studien. Sie dürfen den Nutzern je Sitzung
Vervielfältigungen an den Terminals von bis zu 10 Prozent eines Werkes sowie von einzelnen
Abbildungen, Beiträgen aus derselben Fachzeitschrift oder wissenschaftlichen Zeitschrift, sonstigen
Werken geringen Umfangs und vergriffenen Werken zu nicht kommerziellen Zwecken ermöglichen.
• (5) Auf Einzelbestellung an Nutzer zu nicht kommerziellen Zwecken übermitteln dürfen Bibliotheken
Vervielfältigungen von bis zu 10 Prozent eines erschienenen Werkes sowie einzelne Beiträge, die in
Fachzeitschriften oder wissenschaftlichen Zeitschriften erschienen sind.
TDM: German Law
• See also:
text-und-data-mining.de
#tdm18trier
libereurope.eu/text-data-mining/
Workflow
Workflow
1. Selection of a Dataset
2. Data Normalisation and Cleansing
3. Data Analysis
a) Syntactical/Semantic Analysis (Text Mining)
b) Statistical Analysis (Data Mining)
Selection
• Metadata vs. Data
• Incompleteness vs. Representativeness
(„Digitization Bias“)
• Quality
Cleansing
• OCR Errors
• Spelling Variants, Abbreviations
• Historical Sources
• Duplicates
• and many more…
• Open Source Tools:
– OpenRefine
– Catmandu
Textmining
Syntactical/Semantic Analysis
• Natural Language Processing
– Part-of-Speech Tagging
– Lemmatization
– Named Entity Recognition
– asf.
Natural Language Processing
• github.com/nltk
• github.com/explosion/spaCy
• github.com/allenai/allennlp
• github.com/zalandoresearch/flair
Part of Speech Tagging
• Analysis of Part-Of-Speech Tagging of
Historical German Texts
Markus Paluch, Gabriele Rotari, David Steding,
Maximilian Weß, Maria Moritz, Marco Büchler
Example
PRP = Personal pronoun IN = Preposition
VBZ = Verb DT = Determinator
NNS = Noun (plural) NN = Noun
Source: nlpforhackers.io
Lemmatization
…or rather „Canonicalization“
• Finite-State Canonicalization Techniques for
Historical German
Bryan Jurish
Example
• bin, war, ist  sein
• Ein Buch lesen  Buch
• Buch den Flug!  buchen
• Historical Variants („Canonicalization“):
seyn  sein
Theile  Teil
Franckreich  Frankreich
Sequence Tagging (NER)
• Bidirectional LSTM-CRF Models for Sequence Tagging
Zhiheng Huang, Wei Xu, Kai Yu
• Neural Architectures for Named Entity Recognition
Guillaume Lample, Miguel Ballesteros, Sandeep
Subramanian, Kazuya Kawakami, Chris Dyer
• End-to-end Sequence Labeling via Bi-directional LSTM-
CNNs-CRF
Xuezhe Ma, Eduard Hovy
github.com/guillaumegenthial/tf_ner
Example
Source: https://medium.com/@hiranhsw
Embeddings
• Efficient Estimation of Word Representations in Vector
Space
Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
code.google.com/archive/p/word2vec/
• GloVe: Global Vectors for Word Representation
Jeffrey Pennington, Richard Socher, Christopher D. Manning
github.com/stanfordnlp/GloVe
• Bag of Tricks for Efficient Text Classification
Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas
Mikolov
github.com/facebookresearch/fastText
Example
Source: http://ruder.io/word-embeddings-1/
ELMo and BERT
• Deep contextualized word representations
Embeddings from Language Models (ELMo)
Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner,
Christopher Clark, Kenton Lee, Luke Zettlemoyer
github.com/allenai/allennlp/blob/master/tutorials/how_to/
elmo.md
• Pre-training of Deep Bidirectional Transformers for Language
Understanding
Bidirectional Encoder Representations from Transformers
(BERT)
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
github.com/google-research/bert
Example
http://jalammar.github.io/illustrated-bert/
Datamining
Statistical Analysis
• Frequency analysis (e.g. TF-IDF)
• Topic Modelling
• Ngrams
• Metadata Parsing
• OCR Parsing
TF-IDF (VSM)
• Term-weighting approaches in automatic text
retrieval
Gerard Salton, Christopher Buckley
code.google.com/archive/p/tfidf/
Example
TF = Term Frequency, i.e. how frequent does a
word appear within a document
IDF = Inverse Document Frequency, i.e. how
frequent does a word appear in the whole corpus
TF : IDF = Relevance of a term in the whole corpus
Topic Modelling
• Software framework for topic modelling with
large corpora
Radim Rehurek , Petr Sojka
github.com/rare-technologies/gensim
• MALLET: A Machine Learning for Language
Toolkit
Andrew McCallum
github.com/mimno/Mallet
Example
Source: https://www.slideshare.net/vitomirkovanovic/topic-modeling-for-learning-analytics-researchers-lak15-tutorial
Ngrams
• storage.googleapis.com/books/ngrams/books
/datasetsv2.html
• books.google.com/ngrams
• kbresearch.nl/ngramviewer/
Example
Source: http://recognize-speech.com/language-model/n-gram-model/comparison
Tools
• github.com/altomator/EN-data_mining
• github.com/elektrobohemian/StabiHacks
• github.com/cneud/alto-tools
• r-project.org
Datasets
SBB Datasets
• github.com/cneud/ner-corpora
– volume: 200,000 annotated (BIO) tokens
– source: 4 Newspaper Titles (1870 – 1932)
• primaresearch.org/datasets/ENP
– volume: 50 pages
– source: Various Newspaper Titles
• ocr-d.de/daten
– volume: approx. 400 pages
– source: SBB Digitized Collections (1600 – 1900)
SBB Datasets
• Europeana Newspapers Ngrams
– 1-5-Grams
– 4 Newspaper Titles (1870 – 1932)
– Ca. 11 GiB
• Europeana Newspapers Word Embeddings
– Models for 10 year slices
– 4 Newspaper Titles (1870 – 1932)
– Ca. 20 GiB
Other Datasets
• deutschestextarchiv.de/download
– volume: 3,500 transcribed (TEI) books
– source: German literature (1600 – 1900)
• gutenberg.org/browse/languages/de
(http://block.pglaf.org/germany.shtml)
– volume: ???
– source: German literature
• dumps.wikimedia.org/dewikisource/
– volume: ???
– source: German literature
Outlook
QURATOR
• BMBF-funded research project
• Timeframe: 01/11/2018 – 31/10/2021
• Goals (a.o.t.):
– Document analysis by extrinsic features
(„Clustering“)
– Document analysis by intrinsic features
(„Profiling“)
– Natural Language Processing
– Linking of entities to Wikidata
SONAR-IDH
• DFG-funded research project
• Timeframe: 01/07/2019 – 30/06/2021
• Goals (a.o.t.):
– Development of a standardized (NLP-)Pipeline
– (Meta-)data normalisation
– Pattern matching and mapping
– Statistical analysis of metadata from the
ZDB and Kalliope databases
– Linking of entities to the GND
Thank you for your attention!
Questions please?
Clemens Neudecker (@cneudecker)
Digital Humanities Network | SBB-PK | 13/02/2019

Weitere ähnliche Inhalte

Ähnlich wie Text and Data Mining

MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...Becker Hans-Georg
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Semesterarbeiten
SemesterarbeitenSemesterarbeiten
Semesterarbeitenscuy
 
Repositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenRepositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenPascal-Nicolas Becker
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenGeorg Rehm
 
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Kai Eckert
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickPeter Mayr
 
20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik20091124 Koeln Warum Semantik
20091124 Koeln Warum SemantikStefan Gradmann
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickPeter Mayr
 
"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er VersionPeter Mayr
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildaupanitzm
 
Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15Matthias Arnold
 

Ähnlich wie Text and Data Mining (20)

MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Semesterarbeiten
SemesterarbeitenSemesterarbeiten
Semesterarbeiten
 
Repositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenRepositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellen
 
Repositorieninhalte als LinkedData bereitstellen
Repositorieninhalte als LinkedData bereitstellenRepositorieninhalte als LinkedData bereitstellen
Repositorieninhalte als LinkedData bereitstellen
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
 
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
 
Forschungsdaten – Nach der Publikation ist vor der Archivierung!
Forschungsdaten – Nach der Publikation ist vor der Archivierung!Forschungsdaten – Nach der Publikation ist vor der Archivierung!
Forschungsdaten – Nach der Publikation ist vor der Archivierung!
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im Überblick
 
20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im Überblick
 
"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version
 
DSpace und das Semantic Web
DSpace und das Semantic WebDSpace und das Semantic Web
DSpace und das Semantic Web
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text
BIT I SoSem 2015 | Basisinformationstechnologie II - 04_TextBIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text
BIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 

Text and Data Mining

  • 1. Text & Data Mining (TDM) Clemens Neudecker (@cneudecker) Digital Humanities Network | SBB-PK | 13/02/2019 CC-BY Davide Bonazzi www.copyrightuser.org
  • 2. Contents • Preliminary remarks • Workflow • Textmining • Datamining • Datasets • Outlook
  • 4. Definitions • Text Mining is the computational process of discovering and extracting knowledge from unstructured data. • Data Mining is the computational process of discovering and extracting knowledge from structured data. • Intellectual Property Office, UK: [TDM describes…]“the use of automated analytical techniques to analyze text and data for patterns, trends and other useful information”
  • 6. TDM: German Law • Gesetz über Urheberrecht und verwandte Schutzrechte, § 60d Text und Data Mining: • (1) Um eine Vielzahl von Werken (Ursprungsmaterial) für die wissenschaftliche Forschung automatisiert auszuwerten, ist es zulässig, 1. das Ursprungsmaterial auch automatisiert und systematisch zu vervielfältigen, um daraus insbesondere durch Normalisierung, Strukturierung und Kategorisierung ein auszuwertendes Korpus zu erstellen, und 2. das Korpus einem bestimmt abgegrenzten Kreis von Personen für die gemeinsame wissenschaftliche Forschung sowie einzelnen Dritten zur Überprüfung der Qualität wissenschaftlicher Forschung öffentlich zugänglich zu machen. Der Nutzer darf hierbei nur nicht kommerzielle Zwecke verfolgen. • (2) Werden Datenbankwerke nach Maßgabe des Absatzes 1 genutzt, so gilt dies als übliche Benutzung nach § 55a Satz 1. Werden unwesentliche Teile von Datenbanken nach Maßgabe des Absatzes 1 genutzt, so gilt dies mit der normalen Auswertung der Datenbank sowie mit den berechtigten Interessen des Datenbankherstellers im Sinne von § 87b Absatz 1 Satz 2 und § 87e als vereinbar. • (3) Das Korpus und die Vervielfältigungen des Ursprungsmaterials sind nach Abschluss der Forschungsarbeiten zu löschen; die öffentliche Zugänglichmachung ist zu beenden. Zulässig ist es jedoch, das Korpus und die Vervielfältigungen des Ursprungsmaterials den in den §§ 60e und 60f genannten Institutionen zur dauerhaften Aufbewahrung zu übermitteln.
  • 7. TDM: German Law • Gesetz über Urheberrecht und verwandte Schutzrechte, § 60e Bibliotheken: • (1) Öffentlich zugängliche Bibliotheken, die keine unmittelbaren oder mittelbaren kommerziellen Zwecke verfolgen (Bibliotheken), dürfen ein Werk aus ihrem Bestand oder ihrer Ausstellung für Zwecke der Zugänglichmachung, Indexierung, Katalogisierung, Erhaltung und Restaurierung vervielfältigen oder vervielfältigen lassen, auch mehrfach und mit technisch bedingten Änderungen. • (2) Verbreiten dürfen Bibliotheken Vervielfältigungen eines Werkes aus ihrem Bestand an andere Bibliotheken oder an in § 60f genannte Institutionen für Zwecke der Restaurierung. Verleihen dürfen sie restaurierte Werke sowie Vervielfältigungsstücke von Zeitungen, vergriffenen oder zerstörten Werken aus ihrem Bestand. • (3) Verbreiten dürfen Bibliotheken Vervielfältigungen eines in § 2 Absatz 1 Nummer 4 bis 7 genannten Werkes, sofern dies in Zusammenhang mit dessen öffentlicher Ausstellung oder zur Dokumentation des Bestandes der Bibliothek erfolgt. • (4) Zugänglich machen dürfen Bibliotheken an Terminals in ihren Räumen ein Werk aus ihrem Bestand ihren Nutzern für deren Forschung oder private Studien. Sie dürfen den Nutzern je Sitzung Vervielfältigungen an den Terminals von bis zu 10 Prozent eines Werkes sowie von einzelnen Abbildungen, Beiträgen aus derselben Fachzeitschrift oder wissenschaftlichen Zeitschrift, sonstigen Werken geringen Umfangs und vergriffenen Werken zu nicht kommerziellen Zwecken ermöglichen. • (5) Auf Einzelbestellung an Nutzer zu nicht kommerziellen Zwecken übermitteln dürfen Bibliotheken Vervielfältigungen von bis zu 10 Prozent eines erschienenen Werkes sowie einzelne Beiträge, die in Fachzeitschriften oder wissenschaftlichen Zeitschriften erschienen sind.
  • 8. TDM: German Law • See also: text-und-data-mining.de #tdm18trier libereurope.eu/text-data-mining/
  • 10. Workflow 1. Selection of a Dataset 2. Data Normalisation and Cleansing 3. Data Analysis a) Syntactical/Semantic Analysis (Text Mining) b) Statistical Analysis (Data Mining)
  • 11. Selection • Metadata vs. Data • Incompleteness vs. Representativeness („Digitization Bias“) • Quality
  • 12. Cleansing • OCR Errors • Spelling Variants, Abbreviations • Historical Sources • Duplicates • and many more… • Open Source Tools: – OpenRefine – Catmandu
  • 14. Syntactical/Semantic Analysis • Natural Language Processing – Part-of-Speech Tagging – Lemmatization – Named Entity Recognition – asf.
  • 15. Natural Language Processing • github.com/nltk • github.com/explosion/spaCy • github.com/allenai/allennlp • github.com/zalandoresearch/flair
  • 16. Part of Speech Tagging • Analysis of Part-Of-Speech Tagging of Historical German Texts Markus Paluch, Gabriele Rotari, David Steding, Maximilian Weß, Maria Moritz, Marco Büchler
  • 17. Example PRP = Personal pronoun IN = Preposition VBZ = Verb DT = Determinator NNS = Noun (plural) NN = Noun Source: nlpforhackers.io
  • 18. Lemmatization …or rather „Canonicalization“ • Finite-State Canonicalization Techniques for Historical German Bryan Jurish
  • 19. Example • bin, war, ist  sein • Ein Buch lesen  Buch • Buch den Flug!  buchen • Historical Variants („Canonicalization“): seyn  sein Theile  Teil Franckreich  Frankreich
  • 20. Sequence Tagging (NER) • Bidirectional LSTM-CRF Models for Sequence Tagging Zhiheng Huang, Wei Xu, Kai Yu • Neural Architectures for Named Entity Recognition Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer • End-to-end Sequence Labeling via Bi-directional LSTM- CNNs-CRF Xuezhe Ma, Eduard Hovy github.com/guillaumegenthial/tf_ner
  • 22. Embeddings • Efficient Estimation of Word Representations in Vector Space Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean code.google.com/archive/p/word2vec/ • GloVe: Global Vectors for Word Representation Jeffrey Pennington, Richard Socher, Christopher D. Manning github.com/stanfordnlp/GloVe • Bag of Tricks for Efficient Text Classification Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov github.com/facebookresearch/fastText
  • 24. ELMo and BERT • Deep contextualized word representations Embeddings from Language Models (ELMo) Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer github.com/allenai/allennlp/blob/master/tutorials/how_to/ elmo.md • Pre-training of Deep Bidirectional Transformers for Language Understanding Bidirectional Encoder Representations from Transformers (BERT) Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova github.com/google-research/bert
  • 27. Statistical Analysis • Frequency analysis (e.g. TF-IDF) • Topic Modelling • Ngrams • Metadata Parsing • OCR Parsing
  • 28. TF-IDF (VSM) • Term-weighting approaches in automatic text retrieval Gerard Salton, Christopher Buckley code.google.com/archive/p/tfidf/
  • 29. Example TF = Term Frequency, i.e. how frequent does a word appear within a document IDF = Inverse Document Frequency, i.e. how frequent does a word appear in the whole corpus TF : IDF = Relevance of a term in the whole corpus
  • 30. Topic Modelling • Software framework for topic modelling with large corpora Radim Rehurek , Petr Sojka github.com/rare-technologies/gensim • MALLET: A Machine Learning for Language Toolkit Andrew McCallum github.com/mimno/Mallet
  • 36. SBB Datasets • github.com/cneud/ner-corpora – volume: 200,000 annotated (BIO) tokens – source: 4 Newspaper Titles (1870 – 1932) • primaresearch.org/datasets/ENP – volume: 50 pages – source: Various Newspaper Titles • ocr-d.de/daten – volume: approx. 400 pages – source: SBB Digitized Collections (1600 – 1900)
  • 37. SBB Datasets • Europeana Newspapers Ngrams – 1-5-Grams – 4 Newspaper Titles (1870 – 1932) – Ca. 11 GiB • Europeana Newspapers Word Embeddings – Models for 10 year slices – 4 Newspaper Titles (1870 – 1932) – Ca. 20 GiB
  • 38. Other Datasets • deutschestextarchiv.de/download – volume: 3,500 transcribed (TEI) books – source: German literature (1600 – 1900) • gutenberg.org/browse/languages/de (http://block.pglaf.org/germany.shtml) – volume: ??? – source: German literature • dumps.wikimedia.org/dewikisource/ – volume: ??? – source: German literature
  • 40. QURATOR • BMBF-funded research project • Timeframe: 01/11/2018 – 31/10/2021 • Goals (a.o.t.): – Document analysis by extrinsic features („Clustering“) – Document analysis by intrinsic features („Profiling“) – Natural Language Processing – Linking of entities to Wikidata
  • 41. SONAR-IDH • DFG-funded research project • Timeframe: 01/07/2019 – 30/06/2021 • Goals (a.o.t.): – Development of a standardized (NLP-)Pipeline – (Meta-)data normalisation – Pattern matching and mapping – Statistical analysis of metadata from the ZDB and Kalliope databases – Linking of entities to the GND
  • 42. Thank you for your attention! Questions please? Clemens Neudecker (@cneudecker) Digital Humanities Network | SBB-PK | 13/02/2019