Text and Data Mining

Text & Data Mining (TDM)
Clemens Neudecker (@cneudecker)
Digital Humanities Network | SBB-PK | 13/02/2019
CC-BY Davide Bonazzi
www.copyrightuser.org

Contents
• Preliminary remarks
• Workflow
• Textmining
• Datamining
• Datasets
• Outlook

Definitions
• Text Mining is the computational process of
discovering and extracting knowledge from
unstructured data.
• Data Mining is the computational process of
discovering and extracting knowledge from
structured data.
• Intellectual Property Office, UK:
[TDM describes…]“the use of automated
analytical techniques to analyze text and
data for patterns, trends and other useful
information”

Caveats…
CC-BY-SA
www.denkschets.nl

TDM: German Law
• Gesetz über Urheberrecht und verwandte Schutzrechte, § 60d Text und Data Mining:
• (1) Um eine Vielzahl von Werken (Ursprungsmaterial) für die wissenschaftliche Forschung
automatisiert auszuwerten, ist es zulässig, 1. das Ursprungsmaterial auch automatisiert und
systematisch zu vervielfältigen, um daraus insbesondere durch Normalisierung, Strukturierung und
Kategorisierung ein auszuwertendes Korpus zu erstellen, und 2. das Korpus einem bestimmt
abgegrenzten Kreis von Personen für die gemeinsame wissenschaftliche Forschung sowie einzelnen
Dritten zur Überprüfung der Qualität wissenschaftlicher Forschung öffentlich zugänglich zu machen.
Der Nutzer darf hierbei nur nicht kommerzielle Zwecke verfolgen.
• (2) Werden Datenbankwerke nach Maßgabe des Absatzes 1 genutzt, so gilt dies als übliche Benutzung
nach § 55a Satz 1. Werden unwesentliche Teile von Datenbanken nach Maßgabe des Absatzes 1
genutzt, so gilt dies mit der normalen Auswertung der Datenbank sowie mit den berechtigten
Interessen des Datenbankherstellers im Sinne von § 87b Absatz 1 Satz 2 und § 87e als vereinbar.
• (3) Das Korpus und die Vervielfältigungen des Ursprungsmaterials sind nach Abschluss der
Forschungsarbeiten zu löschen; die öffentliche Zugänglichmachung ist zu beenden. Zulässig ist es
jedoch, das Korpus und die Vervielfältigungen des Ursprungsmaterials den in den §§ 60e und 60f
genannten Institutionen zur dauerhaften Aufbewahrung zu übermitteln.

TDM: German Law
• Gesetz über Urheberrecht und verwandte Schutzrechte, § 60e Bibliotheken:
• (1) Öffentlich zugängliche Bibliotheken, die keine unmittelbaren oder mittelbaren kommerziellen
Zwecke verfolgen (Bibliotheken), dürfen ein Werk aus ihrem Bestand oder ihrer Ausstellung für Zwecke
der Zugänglichmachung, Indexierung, Katalogisierung, Erhaltung und Restaurierung vervielfältigen
oder vervielfältigen lassen, auch mehrfach und mit technisch bedingten Änderungen.
• (2) Verbreiten dürfen Bibliotheken Vervielfältigungen eines Werkes aus ihrem Bestand an andere
Bibliotheken oder an in § 60f genannte Institutionen für Zwecke der Restaurierung. Verleihen dürfen sie
restaurierte Werke sowie Vervielfältigungsstücke von Zeitungen, vergriffenen oder zerstörten Werken
aus ihrem Bestand.
• (3) Verbreiten dürfen Bibliotheken Vervielfältigungen eines in § 2 Absatz 1 Nummer 4 bis 7 genannten
Werkes, sofern dies in Zusammenhang mit dessen öffentlicher Ausstellung oder zur Dokumentation des
Bestandes der Bibliothek erfolgt.
• (4) Zugänglich machen dürfen Bibliotheken an Terminals in ihren Räumen ein Werk aus ihrem Bestand
ihren Nutzern für deren Forschung oder private Studien. Sie dürfen den Nutzern je Sitzung
Vervielfältigungen an den Terminals von bis zu 10 Prozent eines Werkes sowie von einzelnen
Abbildungen, Beiträgen aus derselben Fachzeitschrift oder wissenschaftlichen Zeitschrift, sonstigen
Werken geringen Umfangs und vergriffenen Werken zu nicht kommerziellen Zwecken ermöglichen.
• (5) Auf Einzelbestellung an Nutzer zu nicht kommerziellen Zwecken übermitteln dürfen Bibliotheken
Vervielfältigungen von bis zu 10 Prozent eines erschienenen Werkes sowie einzelne Beiträge, die in
Fachzeitschriften oder wissenschaftlichen Zeitschriften erschienen sind.

TDM: German Law
• See also:
text-und-data-mining.de
#tdm18trier
libereurope.eu/text-data-mining/

Workflow
1. Selection of a Dataset
2. Data Normalisation and Cleansing
3. Data Analysis
a) Syntactical/Semantic Analysis (Text Mining)
b) Statistical Analysis (Data Mining)

Selection
• Metadata vs. Data
• Incompleteness vs. Representativeness
(„Digitization Bias“)
• Quality

Cleansing
• OCR Errors
• Spelling Variants, Abbreviations
• Historical Sources
• Duplicates
• and many more…
• Open Source Tools:
– OpenRefine
– Catmandu

Syntactical/Semantic Analysis
• Natural Language Processing
– Part-of-Speech Tagging
– Lemmatization
– Named Entity Recognition
– asf.

Natural Language Processing
• github.com/nltk
• github.com/explosion/spaCy
• github.com/allenai/allennlp
• github.com/zalandoresearch/flair

Part of Speech Tagging
• Analysis of Part-Of-Speech Tagging of
Historical German Texts
Markus Paluch, Gabriele Rotari, David Steding,
Maximilian Weß, Maria Moritz, Marco Büchler

Example
PRP = Personal pronoun IN = Preposition
VBZ = Verb DT = Determinator
NNS = Noun (plural) NN = Noun
Source: nlpforhackers.io

Lemmatization
…or rather „Canonicalization“
• Finite-State Canonicalization Techniques for
Historical German
Bryan Jurish

Example
• bin, war, ist  sein
• Ein Buch lesen  Buch
• Buch den Flug!  buchen
• Historical Variants („Canonicalization“):
seyn  sein
Theile  Teil
Franckreich  Frankreich

Sequence Tagging (NER)
• Bidirectional LSTM-CRF Models for Sequence Tagging
Zhiheng Huang, Wei Xu, Kai Yu
• Neural Architectures for Named Entity Recognition
Guillaume Lample, Miguel Ballesteros, Sandeep
Subramanian, Kazuya Kawakami, Chris Dyer
• End-to-end Sequence Labeling via Bi-directional LSTM-
CNNs-CRF
Xuezhe Ma, Eduard Hovy
github.com/guillaumegenthial/tf_ner

Example
Source: https://medium.com/@hiranhsw

Embeddings
• Efficient Estimation of Word Representations in Vector
Space
Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
code.google.com/archive/p/word2vec/
• GloVe: Global Vectors for Word Representation
Jeffrey Pennington, Richard Socher, Christopher D. Manning
github.com/stanfordnlp/GloVe
• Bag of Tricks for Efficient Text Classification
Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas
Mikolov
github.com/facebookresearch/fastText

Example
Source: http://ruder.io/word-embeddings-1/

ELMo and BERT
• Deep contextualized word representations
Embeddings from Language Models (ELMo)
Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner,
Christopher Clark, Kenton Lee, Luke Zettlemoyer
github.com/allenai/allennlp/blob/master/tutorials/how_to/
elmo.md
• Pre-training of Deep Bidirectional Transformers for Language
Understanding
Bidirectional Encoder Representations from Transformers
(BERT)
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
github.com/google-research/bert

Example
http://jalammar.github.io/illustrated-bert/

Statistical Analysis
• Frequency analysis (e.g. TF-IDF)
• Topic Modelling
• Ngrams
• Metadata Parsing
• OCR Parsing

TF-IDF (VSM)
• Term-weighting approaches in automatic text
retrieval
Gerard Salton, Christopher Buckley
code.google.com/archive/p/tfidf/

Example
TF = Term Frequency, i.e. how frequent does a
word appear within a document
IDF = Inverse Document Frequency, i.e. how
frequent does a word appear in the whole corpus
TF : IDF = Relevance of a term in the whole corpus

Topic Modelling
• Software framework for topic modelling with
large corpora
Radim Rehurek , Petr Sojka
github.com/rare-technologies/gensim
• MALLET: A Machine Learning for Language
Toolkit
Andrew McCallum
github.com/mimno/Mallet

Example
Source: https://www.slideshare.net/vitomirkovanovic/topic-modeling-for-learning-analytics-researchers-lak15-tutorial

Ngrams
• storage.googleapis.com/books/ngrams/books
/datasetsv2.html
• books.google.com/ngrams
• kbresearch.nl/ngramviewer/

Example
Source: http://recognize-speech.com/language-model/n-gram-model/comparison

Tools
• github.com/altomator/EN-data_mining
• github.com/elektrobohemian/StabiHacks
• github.com/cneud/alto-tools
• r-project.org

SBB Datasets
• github.com/cneud/ner-corpora
– volume: 200,000 annotated (BIO) tokens
– source: 4 Newspaper Titles (1870 – 1932)
• primaresearch.org/datasets/ENP
– volume: 50 pages
– source: Various Newspaper Titles
• ocr-d.de/daten
– volume: approx. 400 pages
– source: SBB Digitized Collections (1600 – 1900)

SBB Datasets
• Europeana Newspapers Ngrams
– 1-5-Grams
– 4 Newspaper Titles (1870 – 1932)
– Ca. 11 GiB
• Europeana Newspapers Word Embeddings
– Models for 10 year slices
– 4 Newspaper Titles (1870 – 1932)
– Ca. 20 GiB

Other Datasets
• deutschestextarchiv.de/download
– volume: 3,500 transcribed (TEI) books
– source: German literature (1600 – 1900)
• gutenberg.org/browse/languages/de
(http://block.pglaf.org/germany.shtml)
– volume: ???
– source: German literature
• dumps.wikimedia.org/dewikisource/
– volume: ???
– source: German literature

QURATOR
• BMBF-funded research project
• Timeframe: 01/11/2018 – 31/10/2021
• Goals (a.o.t.):
– Document analysis by extrinsic features
(„Clustering“)
– Document analysis by intrinsic features
(„Profiling“)
– Natural Language Processing
– Linking of entities to Wikidata

SONAR-IDH
• DFG-funded research project
• Timeframe: 01/07/2019 – 30/06/2021
• Goals (a.o.t.):
– Development of a standardized (NLP-)Pipeline
– (Meta-)data normalisation
– Pattern matching and mapping
– Statistical analysis of metadata from the
ZDB and Kalliope databases
– Linking of entities to the GND

Thank you for your attention!
Questions please?
Clemens Neudecker (@cneudecker)
Digital Humanities Network | SBB-PK | 13/02/2019

Text and Data Mining

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Text and Data Mining

Ähnlich wie Text and Data Mining (20)

Mehr von cneudecker

Mehr von cneudecker (20)

Text and Data Mining