Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftlicher Publikationen
Nicolas Schelp
CRITIC: Near Copy Detection
in large text corpora
Tobias Varlemann
INSPIRE: Insight to Scientific Publications
and References
Adrian Wilke
27. Juni 2013
Schelp - Varlemann - Wilke
1
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Schelp - Varlemann - Wilke
2
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Datenhaltung in einer MySQL Datenbank
→ nicht verteilt
→ begrenzte Speicherkapazität
→ Zugriffszeiten
Datenaufbereitung zentralisiert auf einem Server
→ nicht skalierend
→ lange Laufzeiten
Ähnlichkeiten zwischen Publikationen nur aus
Clusteranalyse abgeleitet
Ergebnisse der Ähnlichkeitsbestimmung nicht
interpretierbar
→ Welche Dokumente sind zu ähnlich?
→ Welche passen inhaltlich nicht zum Korpus?
→ Wann handelt es sich um Plagiate?
Schelp - Varlemann - Wilke
3
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Clusteranalyse wurde vorberechnet
→ Bei neuen Dokumenten nicht erweiterbar
Keine verteilte Berechnung des Dokumenten-Netzwerks
(Publikationen und Referenzen)
→ lange Laufzeiten
Relativ schlechte Datenqualität bei der Extraktion der
Bibliometriken
Vorschläge nur rudimentär aus der Clusteranalyse
→ Keine Empfehlungen anhand der Bibliometriken
Schelp - Varlemann - Wilke
4
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - HCPA Computercluster
17 Slaves
96 Prozessorkerne
248GB Arbeitsspeicher
102TB Festplattenkapazität
+ Master (64GB RAM)
+ NAS (5,4TB)
Schelp - Varlemann - Wilke
5
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Grundlagen
Schelp - Varlemann - Wilke
6
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Neue Wege für die Verarbeitung dieser Daten.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Neue Wege für die Verarbeitung dieser Daten.
Spezielle Frameworks für die Skalierung auf viele hundert
Rechenkerne.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Hadoop / MapReduce
Reducer PhaseShuffle and SortMapper PhaseInputsplit
Tasktrackernode 2
Tasktrackernode 1
Block
A
Map
Block
B
Map
Block
C
Map
Block
D
Map
Reduce
Block
A
Reduce
Block
A
K V
K V
K V
K V
Inputfile
Outputfile
Schelp - Varlemann - Wilke
9
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Storm
Schelp - Varlemann - Wilke
10
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
Feste Zuordnung von Knoten zu Channels
Schelp - Varlemann - Wilke
11
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
Feste Zuordnung von Knoten zu Channels
Publish–Subscribe Pattern
Schelp - Varlemann - Wilke
11
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
Feste Zuordnung von Knoten zu Channels
Publish–Subscribe Pattern
Lose Kopplung einzelner Komponenten
Schelp - Varlemann - Wilke
11
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
HBase
verteilte Datenhaltung
nicht-rational
Terabytes – Petabytes
Zeilen: Rowkeys
Zeilen in Regionen
zusammengefasst
Schelp - Varlemann - Wilke
12
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
HBase: Datenlokatität vs. Verteilung
Schelp - Varlemann - Wilke
13
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Extraktion Metadaten
Schelp - Varlemann - Wilke
14
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC: Near Copy Detection in large text
corpora
Schelp - Varlemann - Wilke
15
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Motivation
http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki
Schelp - Varlemann - Wilke
16
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Motivation
http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de
Schelp - Varlemann - Wilke
17
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Ein Plagiat umfasst unter anderem die Unterlassung
von geeigneten Quellenhinweisen bei der Verwendung
der Formulierungen oder besonderen Wortwahl eines
anderen, der Zusammenfassung der Argumente von
anderen oder die Darstellung vom Gedankengang
eines anderen.
Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003)
Schelp - Varlemann - Wilke
19
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
Schelp - Varlemann - Wilke
20
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
Formen von Textübernahmen
Direkte Kopie
Entfernen/Hinzufügen/Verändern von Worten
Entfernen/Hinzufügen/Verändern von Sätzen
Übersetzen von Texten
Schelp - Varlemann - Wilke
20
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Intrinsische Algorithmen
Stylometriken
Zeichen-/Wortfrequenzen
POS Frequenzen
Identifikation der Autoren anhand unterschiedlicher
Schreibstile
Schelp - Varlemann - Wilke
21
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Intrinsische Algorithmen
Stylometriken
Zeichen-/Wortfrequenzen
POS Frequenzen
Identifikation der Autoren anhand unterschiedlicher
Schreibstile
Extrinsische Algorithmen
Verwendung eines externen Korpus
Suche nach Verweisen im Korpus
Fuzzyset
Schelp - Varlemann - Wilke
21
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Fuzzyset NCD
ToolsMa
pred
Tools-Driver HBaseUser
5.4: writeNCDData
5.3: CalculateNCD
5.2: Data
5.1: getData
5: updateNCD
4: writeMISCData
3.1: Texts
3: getTexts2.6: MISC
2.5.3: writeWordnet
2.5.2: Texts
POS Lemata
2.5.1: getTexts
getPOS getLemata
2.5: Wordnet
2.4.3: writeLemata
2.4.2: Texts
2.4.1: getTexts
2.4: Lemmatize
2.3.3: writePOS
2.3.2: Texts
2.3.1: getTexts
2.3: POS
2.2.3: writeTexts
2.2.2: PDFs
2.2.1: getPDFs
2.2: PDF2TXT
2.1:
2: Preprocess PDFs
1: Upload PDFs
Schelp - Varlemann - Wilke
24
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Calculate
Fuzzyset NCD
Similarity
Write Results
Choose
Candidate
Schelp - Varlemann - Wilke
25
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Job1_1
Job1_2
Job1_3
Job1_4
Job2_1
Job3_1
Job3_2
Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1
<<datastore>>
Sentence Table
<<datastore>>
NewSentence
Sequencefile
<<datastore>>
NewDocuments
Sequencefile
<<datastore>>
sourceSentences
BDB
<<datastore>>
WordLookup Table
<<datastore>>
Job1_3
SequenceFile
<<datastore>>
targetSentences
BDB
<<datastore>>
Document Table
<<datastore>>
SentenceSim
Sequencefile
<<datastore>>
DocSentSim
Sequencefile
<<datastore>>
Block Sequencefile
sentence
<<datastore>>
DocSim Table
<<datastore>>
SimDoc Table
<<datastore>>
DocDocBlock Table
Job 4_2_2
<<datastore>>
DocDocSim
Sequencefile
Calculate
Prepare
Write
Lookup
get
write
Schelp - Varlemann - Wilke
26
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
INSPIRE: Insight to Scientific Publications
and References
Verteilte Berechnung von Bibliometriken auf großen Datenmengen
Schelp - Varlemann - Wilke
27
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
5-Phasen-Modell
XML
JSON
TupelPDF
PDF, txt
XML
JSON
Tupel
PDF, txt
Schreibender Zugriff
Lesender Zugriff
MySQL
Konvertierung
Extraktion Integration
Deduplikation
PräsentationDateisystem
HBase
1
2 3
4
5
Schelp - Varlemann - Wilke
28
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 1: Konvertierung
Eingabe > 650.000 PDF-Dateien
Ziel Datenaufbereitung: Eingabeformat für Extraktion
Ausgabe Volltexte
Schelp - Varlemann - Wilke
29
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 2: Extraktion
Eingabe Datensätze als Volltexte und PDF
Ziel Extraktion von Metadaten
Berechnung Software: ParsCit, GROBID
Ausgabe Metadaten in 3 XML-Formaten
Auszug: GROBID Header
<title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning
</title> [...]
<author>
<persName>
<forename type="first">Johannes</forename>
<surname>Magenheim</surname>
</persName>
<affiliation>
<orgName type="institution">University of Paderborn</orgName>
<address><country key="DE">Germany</country></address>
</affiliation>
</author>
Schelp - Varlemann - Wilke
30
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 2→3: XML Felder zur Identifikation
Tabelle: ParCit 11 Mio. Ref.
Schlüssel Anzahl %
rawString 11.023.889 1,00
marker 11.023.889 1,00
context 10.695.648 0,97
author 10.523.513 0,95
date 10.378.402 0,94
title 9.361.532 0,85
pages 7.765.207 0,70
journal 6.838.383 0,62
volume 6.776.944 0,61
location 2.319.741 0,21
booktitle 1.519.236 0,14
publisher 1.354.680 0,12
issue 888.605 0,08
institution 359.638 0,03
note 318.288 0,03
editor 311.625 0,03
tech 146.817 0,01
Tabelle: GROBID 2 Mio. Ref.
Schlüssel Anzahl %
title 2.110.480 1,00
surname 1.897.603 0,90
date 1.894.521 0,90
forename 1.703.017 0,81
biblScope 1.683.384 0,80
publisher 209.928 0,10
pubPlace 143.760 0,07
address 90.667 0,04
editor 63.894 0,03
note 45.233 0,02
Schelp - Varlemann - Wilke
31
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration
Eingabe Metadaten in 3 unterschiedlichen XML-Formaten
Ziel Zusammenführung für jede Publikation
Ausgabe Metadaten im JSON-Format
Levenshtein-Distanz:
Minimale Anzahl der Operationen
Einfügen, Löschen und Ersetzen
von Zeichen
Schelp - Varlemann - Wilke
32
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration und Normalisierung
1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung
2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue)
3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue)
und (u¨, ue)
4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“
5. Entferne alle diakritischen Zeichen
6. Ersetze das Zeichen (ß, ss)
7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem
Leerzeichen
8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette
Schelp - Varlemann - Wilke
33
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration von Referenzen
Schelp - Varlemann - Wilke
34
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 4: Deduplikation
Eingabe Metadaten im JSON-Format
Ziel Aufbau des Dokumenten-Netzwerks
Ausgabe Graph der Publikationen und Referenzierungen
Schelp - Varlemann - Wilke
35
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 5: Präsentation
Eingabe Dokumenten-Netzwerk
Ziel Berechnung vom Literaturempfehlungen
Ausgabe Listen mit verlinkten Ergebnissen
Schelp - Varlemann - Wilke
36
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie
Bibliografische
Kopplung
(Kessler 1963)
Fester Wert
Im Beispiel:
BK(A, B) = 3
Kozitation
Small (1973) und
Marshakova (1973)
Wert wächst
Im Beispiel:
K(A, B) = 3
Z
Y
X
A B
Z
Y
X
A B
Schelp - Varlemann - Wilke
37
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie: Distanz von Zitationen
In-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009)
Citation Proximity Analysis (CPA) Gipp & Beel (2009)
Distanz-Klasse Gewichtung
Gleiches Dokument 1
Gleicher Abschnitt 2
Gleicher Absatz 3
Gleicher Satz 4
Gleiche Markierung [1,2] 5
Schelp - Varlemann - Wilke
38
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie: Beipiel zur Distanz von Zitationen
Schelp - Varlemann - Wilke
39
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftlicher Publikationen
Identifikation von Grundähnlichkeiten und Implementierung eines
Algorithmus für dynamisch erweiterbare Clusterings
Schelp - Varlemann - Wilke
40
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ziele
Datenaufbereitung
→ Flexibles Echtzeitsystem
Ähnlichkeitsbestimmung
→ Einfluss der Parameter
→ Identifikation von Ausreißern
Erweiterbare Clusterings
→ Hinzufügen von neuen Publikationen ohne
Neuberechnung
Schelp - Varlemann - Wilke
41
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Anforderungen
Berechnungen in Echtzeit
Skalierbar
Ausgelegt für größere Datenmengen
Verteilt auf einem Computercluster
Austauschbare Komponenten in der Verarbeitungskette
Verarbeitungsprozess beliebig erweiterbar
Schelp - Varlemann - Wilke
42
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Konzept
Verteilte Berechnungen in Echtzeit auf dem
Computercluster
→ Storm Projekt
Verarbeitungsschritte sind unterschiedliche, voneinander
abhängige Aufgaben
→ Jeweils eine Topologie in Storm
Kommunikation untereinander wird benötigt
→ ActiveMQ Topics
→ Publisher/Subscriber Modell
Schelp - Varlemann - Wilke
43
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Bus Konzept
«component»
ActiveMQ
«component»
PDFUploader Topologie
«component»
PDFConverter Topologie
«component»
ParsCit Topologie
«component»
HBase
Nachrichten verschicken/empfangen
Datenbankzugriff
Nachrichten verschicken/empfangen Nachrichten verschicken/empfangen
...
Datenbankzugriff Datenbankzugriff
Weitere Topologien
Schelp - Varlemann - Wilke
44
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Topologieaufbau
«component»
Spout
«component»
Bolt
«component»
ActiveMQ
«component»
HBase
1: benachrichtigt 7: bestätigt
2: leitet Nachricht weiter
3: prüft/holt Eingabefelder 4: beantwortet
5: verarbeitet
6: bestätigt
Schelp - Varlemann - Wilke
45
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Vernetzung
Schelp - Varlemann - Wilke
46

INSPIRE: Insight to Scientific Publications and References

  • 1.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Nicolas Schelp CRITIC: Near Copy Detection in large text corpora Tobias Varlemann INSPIRE: Insight to Scientific Publications and References Adrian Wilke 27. Juni 2013 Schelp - Varlemann - Wilke 1
  • 2.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Schelp - Varlemann - Wilke 2
  • 3.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Datenhaltung in einer MySQL Datenbank → nicht verteilt → begrenzte Speicherkapazität → Zugriffszeiten Datenaufbereitung zentralisiert auf einem Server → nicht skalierend → lange Laufzeiten Ähnlichkeiten zwischen Publikationen nur aus Clusteranalyse abgeleitet Ergebnisse der Ähnlichkeitsbestimmung nicht interpretierbar → Welche Dokumente sind zu ähnlich? → Welche passen inhaltlich nicht zum Korpus? → Wann handelt es sich um Plagiate? Schelp - Varlemann - Wilke 3
  • 4.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Clusteranalyse wurde vorberechnet → Bei neuen Dokumenten nicht erweiterbar Keine verteilte Berechnung des Dokumenten-Netzwerks (Publikationen und Referenzen) → lange Laufzeiten Relativ schlechte Datenqualität bei der Extraktion der Bibliometriken Vorschläge nur rudimentär aus der Clusteranalyse → Keine Empfehlungen anhand der Bibliometriken Schelp - Varlemann - Wilke 4
  • 5.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - HCPA Computercluster 17 Slaves 96 Prozessorkerne 248GB Arbeitsspeicher 102TB Festplattenkapazität + Master (64GB RAM) + NAS (5,4TB) Schelp - Varlemann - Wilke 5
  • 6.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Grundlagen Schelp - Varlemann - Wilke 6
  • 7.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Schelp - Varlemann - Wilke 7
  • 8.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Schelp - Varlemann - Wilke 7
  • 9.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Schelp - Varlemann - Wilke 7
  • 10.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Spezielle Frameworks für die Skalierung auf viele hundert Rechenkerne. Schelp - Varlemann - Wilke 7
  • 11.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 12.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 13.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 14.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 15.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Hadoop / MapReduce Reducer PhaseShuffle and SortMapper PhaseInputsplit Tasktrackernode 2 Tasktrackernode 1 Block A Map Block B Map Block C Map Block D Map Reduce Block A Reduce Block A K V K V K V K V Inputfile Outputfile Schelp - Varlemann - Wilke 9
  • 16.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Storm Schelp - Varlemann - Wilke 10
  • 17.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Schelp - Varlemann - Wilke 11
  • 18.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Schelp - Varlemann - Wilke 11
  • 19.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Lose Kopplung einzelner Komponenten Schelp - Varlemann - Wilke 11
  • 20.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase verteilte Datenhaltung nicht-rational Terabytes – Petabytes Zeilen: Rowkeys Zeilen in Regionen zusammengefasst Schelp - Varlemann - Wilke 12
  • 21.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase: Datenlokatität vs. Verteilung Schelp - Varlemann - Wilke 13
  • 22.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Extraktion Metadaten Schelp - Varlemann - Wilke 14
  • 23.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC: Near Copy Detection in large text corpora Schelp - Varlemann - Wilke 15
  • 24.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki Schelp - Varlemann - Wilke 16
  • 25.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de Schelp - Varlemann - Wilke 17
  • 26.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 27.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 28.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 29.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 30.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 31.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Ein Plagiat umfasst unter anderem die Unterlassung von geeigneten Quellenhinweisen bei der Verwendung der Formulierungen oder besonderen Wortwahl eines anderen, der Zusammenfassung der Argumente von anderen oder die Darstellung vom Gedankengang eines anderen. Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003) Schelp - Varlemann - Wilke 19
  • 32.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesfindung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Schelp - Varlemann - Wilke 20
  • 33.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesfindung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Formen von Textübernahmen Direkte Kopie Entfernen/Hinzufügen/Verändern von Worten Entfernen/Hinzufügen/Verändern von Sätzen Übersetzen von Texten Schelp - Varlemann - Wilke 20
  • 34.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identifikation der Autoren anhand unterschiedlicher Schreibstile Schelp - Varlemann - Wilke 21
  • 35.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identifikation der Autoren anhand unterschiedlicher Schreibstile Extrinsische Algorithmen Verwendung eines externen Korpus Suche nach Verweisen im Korpus Fuzzyset Schelp - Varlemann - Wilke 21
  • 36.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 37.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 38.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 39.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 40.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort Schelp - Varlemann - Wilke 23
  • 41.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Schelp - Varlemann - Wilke 23
  • 42.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23
  • 43.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23
  • 44.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Fuzzyset NCD ToolsMa pred Tools-Driver HBaseUser 5.4: writeNCDData 5.3: CalculateNCD 5.2: Data 5.1: getData 5: updateNCD 4: writeMISCData 3.1: Texts 3: getTexts2.6: MISC 2.5.3: writeWordnet 2.5.2: Texts POS Lemata 2.5.1: getTexts getPOS getLemata 2.5: Wordnet 2.4.3: writeLemata 2.4.2: Texts 2.4.1: getTexts 2.4: Lemmatize 2.3.3: writePOS 2.3.2: Texts 2.3.1: getTexts 2.3: POS 2.2.3: writeTexts 2.2.2: PDFs 2.2.1: getPDFs 2.2: PDF2TXT 2.1: 2: Preprocess PDFs 1: Upload PDFs Schelp - Varlemann - Wilke 24
  • 45.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Calculate Fuzzyset NCD Similarity Write Results Choose Candidate Schelp - Varlemann - Wilke 25
  • 46.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Job1_1 Job1_2 Job1_3 Job1_4 Job2_1 Job3_1 Job3_2 Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1 <<datastore>> Sentence Table <<datastore>> NewSentence Sequencefile <<datastore>> NewDocuments Sequencefile <<datastore>> sourceSentences BDB <<datastore>> WordLookup Table <<datastore>> Job1_3 SequenceFile <<datastore>> targetSentences BDB <<datastore>> Document Table <<datastore>> SentenceSim Sequencefile <<datastore>> DocSentSim Sequencefile <<datastore>> Block Sequencefile sentence <<datastore>> DocSim Table <<datastore>> SimDoc Table <<datastore>> DocDocBlock Table Job 4_2_2 <<datastore>> DocDocSim Sequencefile Calculate Prepare Write Lookup get write Schelp - Varlemann - Wilke 26
  • 47.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos INSPIRE: Insight to Scientific Publications and References Verteilte Berechnung von Bibliometriken auf großen Datenmengen Schelp - Varlemann - Wilke 27
  • 48.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos 5-Phasen-Modell XML JSON TupelPDF PDF, txt XML JSON Tupel PDF, txt Schreibender Zugriff Lesender Zugriff MySQL Konvertierung Extraktion Integration Deduplikation PräsentationDateisystem HBase 1 2 3 4 5 Schelp - Varlemann - Wilke 28
  • 49.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 1: Konvertierung Eingabe > 650.000 PDF-Dateien Ziel Datenaufbereitung: Eingabeformat für Extraktion Ausgabe Volltexte Schelp - Varlemann - Wilke 29
  • 50.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2: Extraktion Eingabe Datensätze als Volltexte und PDF Ziel Extraktion von Metadaten Berechnung Software: ParsCit, GROBID Ausgabe Metadaten in 3 XML-Formaten Auszug: GROBID Header <title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning </title> [...] <author> <persName> <forename type="first">Johannes</forename> <surname>Magenheim</surname> </persName> <affiliation> <orgName type="institution">University of Paderborn</orgName> <address><country key="DE">Germany</country></address> </affiliation> </author> Schelp - Varlemann - Wilke 30
  • 51.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2→3: XML Felder zur Identifikation Tabelle: ParCit 11 Mio. Ref. Schlüssel Anzahl % rawString 11.023.889 1,00 marker 11.023.889 1,00 context 10.695.648 0,97 author 10.523.513 0,95 date 10.378.402 0,94 title 9.361.532 0,85 pages 7.765.207 0,70 journal 6.838.383 0,62 volume 6.776.944 0,61 location 2.319.741 0,21 booktitle 1.519.236 0,14 publisher 1.354.680 0,12 issue 888.605 0,08 institution 359.638 0,03 note 318.288 0,03 editor 311.625 0,03 tech 146.817 0,01 Tabelle: GROBID 2 Mio. Ref. Schlüssel Anzahl % title 2.110.480 1,00 surname 1.897.603 0,90 date 1.894.521 0,90 forename 1.703.017 0,81 biblScope 1.683.384 0,80 publisher 209.928 0,10 pubPlace 143.760 0,07 address 90.667 0,04 editor 63.894 0,03 note 45.233 0,02 Schelp - Varlemann - Wilke 31
  • 52.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration Eingabe Metadaten in 3 unterschiedlichen XML-Formaten Ziel Zusammenführung für jede Publikation Ausgabe Metadaten im JSON-Format Levenshtein-Distanz: Minimale Anzahl der Operationen Einfügen, Löschen und Ersetzen von Zeichen Schelp - Varlemann - Wilke 32
  • 53.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration und Normalisierung 1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung 2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue) 3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue) und (u¨, ue) 4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“ 5. Entferne alle diakritischen Zeichen 6. Ersetze das Zeichen (ß, ss) 7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem Leerzeichen 8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette Schelp - Varlemann - Wilke 33
  • 54.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration von Referenzen Schelp - Varlemann - Wilke 34
  • 55.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 4: Deduplikation Eingabe Metadaten im JSON-Format Ziel Aufbau des Dokumenten-Netzwerks Ausgabe Graph der Publikationen und Referenzierungen Schelp - Varlemann - Wilke 35
  • 56.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 5: Präsentation Eingabe Dokumenten-Netzwerk Ziel Berechnung vom Literaturempfehlungen Ausgabe Listen mit verlinkten Ergebnissen Schelp - Varlemann - Wilke 36
  • 57.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie Bibliografische Kopplung (Kessler 1963) Fester Wert Im Beispiel: BK(A, B) = 3 Kozitation Small (1973) und Marshakova (1973) Wert wächst Im Beispiel: K(A, B) = 3 Z Y X A B Z Y X A B Schelp - Varlemann - Wilke 37
  • 58.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Distanz von Zitationen In-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009) Citation Proximity Analysis (CPA) Gipp & Beel (2009) Distanz-Klasse Gewichtung Gleiches Dokument 1 Gleicher Abschnitt 2 Gleicher Absatz 3 Gleicher Satz 4 Gleiche Markierung [1,2] 5 Schelp - Varlemann - Wilke 38
  • 59.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Beipiel zur Distanz von Zitationen Schelp - Varlemann - Wilke 39
  • 60.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Identifikation von Grundähnlichkeiten und Implementierung eines Algorithmus für dynamisch erweiterbare Clusterings Schelp - Varlemann - Wilke 40
  • 61.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ziele Datenaufbereitung → Flexibles Echtzeitsystem Ähnlichkeitsbestimmung → Einfluss der Parameter → Identifikation von Ausreißern Erweiterbare Clusterings → Hinzufügen von neuen Publikationen ohne Neuberechnung Schelp - Varlemann - Wilke 41
  • 62.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Anforderungen Berechnungen in Echtzeit Skalierbar Ausgelegt für größere Datenmengen Verteilt auf einem Computercluster Austauschbare Komponenten in der Verarbeitungskette Verarbeitungsprozess beliebig erweiterbar Schelp - Varlemann - Wilke 42
  • 63.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Konzept Verteilte Berechnungen in Echtzeit auf dem Computercluster → Storm Projekt Verarbeitungsschritte sind unterschiedliche, voneinander abhängige Aufgaben → Jeweils eine Topologie in Storm Kommunikation untereinander wird benötigt → ActiveMQ Topics → Publisher/Subscriber Modell Schelp - Varlemann - Wilke 43
  • 64.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Bus Konzept «component» ActiveMQ «component» PDFUploader Topologie «component» PDFConverter Topologie «component» ParsCit Topologie «component» HBase Nachrichten verschicken/empfangen Datenbankzugriff Nachrichten verschicken/empfangen Nachrichten verschicken/empfangen ... Datenbankzugriff Datenbankzugriff Weitere Topologien Schelp - Varlemann - Wilke 44
  • 65.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Topologieaufbau «component» Spout «component» Bolt «component» ActiveMQ «component» HBase 1: benachrichtigt 7: bestätigt 2: leitet Nachricht weiter 3: prüft/holt Eingabefelder 4: beantwortet 5: verarbeitet 6: bestätigt Schelp - Varlemann - Wilke 45
  • 66.
    Motivation Grundlagen NearCopy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Vernetzung Schelp - Varlemann - Wilke 46