Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Text and Data Mining

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Nächste SlideShare
Patente für Talente
Patente für Talente
Wird geladen in …3
×

Hier ansehen

1 von 42 Anzeige

Weitere Verwandte Inhalte

Ähnlich wie Text and Data Mining (20)

Weitere von cneudecker (20)

Anzeige

Aktuellste (20)

Text and Data Mining

  1. 1. Text & Data Mining (TDM) Clemens Neudecker (@cneudecker) Digital Humanities Network | SBB-PK | 13/02/2019 CC-BY Davide Bonazzi www.copyrightuser.org
  2. 2. Contents • Preliminary remarks • Workflow • Textmining • Datamining • Datasets • Outlook
  3. 3. Preliminary remarks
  4. 4. Definitions • Text Mining is the computational process of discovering and extracting knowledge from unstructured data. • Data Mining is the computational process of discovering and extracting knowledge from structured data. • Intellectual Property Office, UK: [TDM describes…]“the use of automated analytical techniques to analyze text and data for patterns, trends and other useful information”
  5. 5. Caveats… CC-BY-SA www.denkschets.nl
  6. 6. TDM: German Law • Gesetz über Urheberrecht und verwandte Schutzrechte, § 60d Text und Data Mining: • (1) Um eine Vielzahl von Werken (Ursprungsmaterial) für die wissenschaftliche Forschung automatisiert auszuwerten, ist es zulässig, 1. das Ursprungsmaterial auch automatisiert und systematisch zu vervielfältigen, um daraus insbesondere durch Normalisierung, Strukturierung und Kategorisierung ein auszuwertendes Korpus zu erstellen, und 2. das Korpus einem bestimmt abgegrenzten Kreis von Personen für die gemeinsame wissenschaftliche Forschung sowie einzelnen Dritten zur Überprüfung der Qualität wissenschaftlicher Forschung öffentlich zugänglich zu machen. Der Nutzer darf hierbei nur nicht kommerzielle Zwecke verfolgen. • (2) Werden Datenbankwerke nach Maßgabe des Absatzes 1 genutzt, so gilt dies als übliche Benutzung nach § 55a Satz 1. Werden unwesentliche Teile von Datenbanken nach Maßgabe des Absatzes 1 genutzt, so gilt dies mit der normalen Auswertung der Datenbank sowie mit den berechtigten Interessen des Datenbankherstellers im Sinne von § 87b Absatz 1 Satz 2 und § 87e als vereinbar. • (3) Das Korpus und die Vervielfältigungen des Ursprungsmaterials sind nach Abschluss der Forschungsarbeiten zu löschen; die öffentliche Zugänglichmachung ist zu beenden. Zulässig ist es jedoch, das Korpus und die Vervielfältigungen des Ursprungsmaterials den in den §§ 60e und 60f genannten Institutionen zur dauerhaften Aufbewahrung zu übermitteln.
  7. 7. TDM: German Law • Gesetz über Urheberrecht und verwandte Schutzrechte, § 60e Bibliotheken: • (1) Öffentlich zugängliche Bibliotheken, die keine unmittelbaren oder mittelbaren kommerziellen Zwecke verfolgen (Bibliotheken), dürfen ein Werk aus ihrem Bestand oder ihrer Ausstellung für Zwecke der Zugänglichmachung, Indexierung, Katalogisierung, Erhaltung und Restaurierung vervielfältigen oder vervielfältigen lassen, auch mehrfach und mit technisch bedingten Änderungen. • (2) Verbreiten dürfen Bibliotheken Vervielfältigungen eines Werkes aus ihrem Bestand an andere Bibliotheken oder an in § 60f genannte Institutionen für Zwecke der Restaurierung. Verleihen dürfen sie restaurierte Werke sowie Vervielfältigungsstücke von Zeitungen, vergriffenen oder zerstörten Werken aus ihrem Bestand. • (3) Verbreiten dürfen Bibliotheken Vervielfältigungen eines in § 2 Absatz 1 Nummer 4 bis 7 genannten Werkes, sofern dies in Zusammenhang mit dessen öffentlicher Ausstellung oder zur Dokumentation des Bestandes der Bibliothek erfolgt. • (4) Zugänglich machen dürfen Bibliotheken an Terminals in ihren Räumen ein Werk aus ihrem Bestand ihren Nutzern für deren Forschung oder private Studien. Sie dürfen den Nutzern je Sitzung Vervielfältigungen an den Terminals von bis zu 10 Prozent eines Werkes sowie von einzelnen Abbildungen, Beiträgen aus derselben Fachzeitschrift oder wissenschaftlichen Zeitschrift, sonstigen Werken geringen Umfangs und vergriffenen Werken zu nicht kommerziellen Zwecken ermöglichen. • (5) Auf Einzelbestellung an Nutzer zu nicht kommerziellen Zwecken übermitteln dürfen Bibliotheken Vervielfältigungen von bis zu 10 Prozent eines erschienenen Werkes sowie einzelne Beiträge, die in Fachzeitschriften oder wissenschaftlichen Zeitschriften erschienen sind.
  8. 8. TDM: German Law • See also: text-und-data-mining.de #tdm18trier libereurope.eu/text-data-mining/
  9. 9. Workflow
  10. 10. Workflow 1. Selection of a Dataset 2. Data Normalisation and Cleansing 3. Data Analysis a) Syntactical/Semantic Analysis (Text Mining) b) Statistical Analysis (Data Mining)
  11. 11. Selection • Metadata vs. Data • Incompleteness vs. Representativeness („Digitization Bias“) • Quality
  12. 12. Cleansing • OCR Errors • Spelling Variants, Abbreviations • Historical Sources • Duplicates • and many more… • Open Source Tools: – OpenRefine – Catmandu
  13. 13. Textmining
  14. 14. Syntactical/Semantic Analysis • Natural Language Processing – Part-of-Speech Tagging – Lemmatization – Named Entity Recognition – asf.
  15. 15. Natural Language Processing • github.com/nltk • github.com/explosion/spaCy • github.com/allenai/allennlp • github.com/zalandoresearch/flair
  16. 16. Part of Speech Tagging • Analysis of Part-Of-Speech Tagging of Historical German Texts Markus Paluch, Gabriele Rotari, David Steding, Maximilian Weß, Maria Moritz, Marco Büchler
  17. 17. Example PRP = Personal pronoun IN = Preposition VBZ = Verb DT = Determinator NNS = Noun (plural) NN = Noun Source: nlpforhackers.io
  18. 18. Lemmatization …or rather „Canonicalization“ • Finite-State Canonicalization Techniques for Historical German Bryan Jurish
  19. 19. Example • bin, war, ist  sein • Ein Buch lesen  Buch • Buch den Flug!  buchen • Historical Variants („Canonicalization“): seyn  sein Theile  Teil Franckreich  Frankreich
  20. 20. Sequence Tagging (NER) • Bidirectional LSTM-CRF Models for Sequence Tagging Zhiheng Huang, Wei Xu, Kai Yu • Neural Architectures for Named Entity Recognition Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer • End-to-end Sequence Labeling via Bi-directional LSTM- CNNs-CRF Xuezhe Ma, Eduard Hovy github.com/guillaumegenthial/tf_ner
  21. 21. Example Source: https://medium.com/@hiranhsw
  22. 22. Embeddings • Efficient Estimation of Word Representations in Vector Space Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean code.google.com/archive/p/word2vec/ • GloVe: Global Vectors for Word Representation Jeffrey Pennington, Richard Socher, Christopher D. Manning github.com/stanfordnlp/GloVe • Bag of Tricks for Efficient Text Classification Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov github.com/facebookresearch/fastText
  23. 23. Example Source: http://ruder.io/word-embeddings-1/
  24. 24. ELMo and BERT • Deep contextualized word representations Embeddings from Language Models (ELMo) Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer github.com/allenai/allennlp/blob/master/tutorials/how_to/ elmo.md • Pre-training of Deep Bidirectional Transformers for Language Understanding Bidirectional Encoder Representations from Transformers (BERT) Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova github.com/google-research/bert
  25. 25. Example http://jalammar.github.io/illustrated-bert/
  26. 26. Datamining
  27. 27. Statistical Analysis • Frequency analysis (e.g. TF-IDF) • Topic Modelling • Ngrams • Metadata Parsing • OCR Parsing
  28. 28. TF-IDF (VSM) • Term-weighting approaches in automatic text retrieval Gerard Salton, Christopher Buckley code.google.com/archive/p/tfidf/
  29. 29. Example TF = Term Frequency, i.e. how frequent does a word appear within a document IDF = Inverse Document Frequency, i.e. how frequent does a word appear in the whole corpus TF : IDF = Relevance of a term in the whole corpus
  30. 30. Topic Modelling • Software framework for topic modelling with large corpora Radim Rehurek , Petr Sojka github.com/rare-technologies/gensim • MALLET: A Machine Learning for Language Toolkit Andrew McCallum github.com/mimno/Mallet
  31. 31. Example Source: https://www.slideshare.net/vitomirkovanovic/topic-modeling-for-learning-analytics-researchers-lak15-tutorial
  32. 32. Ngrams • storage.googleapis.com/books/ngrams/books /datasetsv2.html • books.google.com/ngrams • kbresearch.nl/ngramviewer/
  33. 33. Example Source: http://recognize-speech.com/language-model/n-gram-model/comparison
  34. 34. Tools • github.com/altomator/EN-data_mining • github.com/elektrobohemian/StabiHacks • github.com/cneud/alto-tools • r-project.org
  35. 35. Datasets
  36. 36. SBB Datasets • github.com/cneud/ner-corpora – volume: 200,000 annotated (BIO) tokens – source: 4 Newspaper Titles (1870 – 1932) • primaresearch.org/datasets/ENP – volume: 50 pages – source: Various Newspaper Titles • ocr-d.de/daten – volume: approx. 400 pages – source: SBB Digitized Collections (1600 – 1900)
  37. 37. SBB Datasets • Europeana Newspapers Ngrams – 1-5-Grams – 4 Newspaper Titles (1870 – 1932) – Ca. 11 GiB • Europeana Newspapers Word Embeddings – Models for 10 year slices – 4 Newspaper Titles (1870 – 1932) – Ca. 20 GiB
  38. 38. Other Datasets • deutschestextarchiv.de/download – volume: 3,500 transcribed (TEI) books – source: German literature (1600 – 1900) • gutenberg.org/browse/languages/de (http://block.pglaf.org/germany.shtml) – volume: ??? – source: German literature • dumps.wikimedia.org/dewikisource/ – volume: ??? – source: German literature
  39. 39. Outlook
  40. 40. QURATOR • BMBF-funded research project • Timeframe: 01/11/2018 – 31/10/2021 • Goals (a.o.t.): – Document analysis by extrinsic features („Clustering“) – Document analysis by intrinsic features („Profiling“) – Natural Language Processing – Linking of entities to Wikidata
  41. 41. SONAR-IDH • DFG-funded research project • Timeframe: 01/07/2019 – 30/06/2021 • Goals (a.o.t.): – Development of a standardized (NLP-)Pipeline – (Meta-)data normalisation – Pattern matching and mapping – Statistical analysis of metadata from the ZDB and Kalliope databases – Linking of entities to the GND
  42. 42. Thank you for your attention! Questions please? Clemens Neudecker (@cneudecker) Digital Humanities Network | SBB-PK | 13/02/2019

×