INSPIRE: Insight to Scientific Publications and References

Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftlicher Publikationen
Nicolas Schelp
CRITIC: Near Copy Detection
in large text corpora
Tobias Varlemann
INSPIRE: Insight to Scientiﬁc Publications
and References
Adrian Wilke
27. Juni 2013
Schelp - Varlemann - Wilke
1

Motivation - Projektgruppe
2

Datenhaltung in einer MySQL Datenbank
→ nicht verteilt
→ begrenzte Speicherkapazität
→ Zugriffszeiten
Datenaufbereitung zentralisiert auf einem Server
→ nicht skalierend
→ lange Laufzeiten
Ähnlichkeiten zwischen Publikationen nur aus
Clusteranalyse abgeleitet
Ergebnisse der Ähnlichkeitsbestimmung nicht
interpretierbar
→ Welche Dokumente sind zu ähnlich?
→ Welche passen inhaltlich nicht zum Korpus?
→ Wann handelt es sich um Plagiate?
3

Clusteranalyse wurde vorberechnet
→ Bei neuen Dokumenten nicht erweiterbar
Keine verteilte Berechnung des Dokumenten-Netzwerks
(Publikationen und Referenzen)
→ lange Laufzeiten
Relativ schlechte Datenqualität bei der Extraktion der
Bibliometriken
Vorschläge nur rudimentär aus der Clusteranalyse
→ Keine Empfehlungen anhand der Bibliometriken
4

Motivation - HCPA Computercluster
17 Slaves
96 Prozessorkerne
248GB Arbeitsspeicher
102TB Festplattenkapazität
+ Master (64GB RAM)
+ NAS (5,4TB)
5

Grundlagen
6

Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
7

Big Data
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
7

Big Data
verarbeiten.
Neue Wege für die Verarbeitung dieser Daten.
7

Big Data
verarbeiten.
Neue Wege für die Verarbeitung dieser Daten.
Spezielle Frameworks für die Skalierung auf viele hundert
Rechenkerne.
7

Batch- / Streamverarbeitung
8

Hadoop / MapReduce
Reducer PhaseShuffle and SortMapper PhaseInputsplit
Tasktrackernode 2
Tasktrackernode 1
Block
A
Map
Block
B
Map
Block
C
Map
Block
D
Map
Reduce
Block
A
Reduce
Block
A
K V
K V
K V
K V
Inputfile
Outputfile
9

Storm
10

Feste Kommunikationskanäle in Storm
Feste Zuordnung von Knoten zu Channels
11

Publish–Subscribe Pattern
11

Publish–Subscribe Pattern
Lose Kopplung einzelner Komponenten
11

HBase
verteilte Datenhaltung
nicht-rational
Terabytes – Petabytes
Zeilen: Rowkeys
Zeilen in Regionen
zusammengefasst
12

HBase: Datenlokatität vs. Verteilung
13

Extraktion Metadaten
14

CRITIC: Near Copy Detection in large text
corpora
15

CRITIC Motivation
http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki
16

CRITIC Motivation
http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de
17

Was ist ein Plagiat?
18

Was ist ein Plagiat?
Ein Plagiat umfasst unter anderem die Unterlassung
von geeigneten Quellenhinweisen bei der Verwendung
der Formulierungen oder besonderen Wortwahl eines
anderen, der Zusammenfassung der Argumente von
anderen oder die Darstellung vom Gedankengang
eines anderen.
Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003)
19

CRITIC Aufgabenstellung
Unterschied Plagiatesﬁndung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
20

Unterschied Plagiatesﬁndung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
Formen von Textübernahmen
Direkte Kopie
Entfernen/Hinzufügen/Verändern von Worten
Entfernen/Hinzufügen/Verändern von Sätzen
Übersetzen von Texten
20

Intrinsische Algorithmen
Stylometriken
Zeichen-/Wortfrequenzen
POS Frequenzen
Identiﬁkation der Autoren anhand unterschiedlicher
Schreibstile
21

Intrinsische Algorithmen
Stylometriken
Zeichen-/Wortfrequenzen
POS Frequenzen
Identiﬁkation der Autoren anhand unterschiedlicher
Schreibstile
Extrinsische Algorithmen
Verwendung eines externen Korpus
Suche nach Verweisen im Korpus
Fuzzyset
21

Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
22

- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
23

W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
23

W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
23

CRITIC Umsetzung
Fuzzyset NCD
ToolsMa
pred
Tools-Driver HBaseUser
5.4: writeNCDData
5.3: CalculateNCD
5.2: Data
5.1: getData
5: updateNCD
4: writeMISCData
3.1: Texts
3: getTexts2.6: MISC
2.5.3: writeWordnet
2.5.2: Texts
POS Lemata
2.5.1: getTexts
getPOS getLemata
2.5: Wordnet
2.4.3: writeLemata
2.4.2: Texts
2.4.1: getTexts
2.4: Lemmatize
2.3.3: writePOS
2.3.2: Texts
2.3.1: getTexts
2.3: POS
2.2.3: writeTexts
2.2.2: PDFs
2.2.1: getPDFs
2.2: PDF2TXT
2.1:
2: Preprocess PDFs
1: Upload PDFs
24

CRITIC Umsetzung
Calculate
Fuzzyset NCD
Similarity
Write Results
Choose
Candidate
25

CRITIC Umsetzung
Job1_1
Job1_2
Job1_3
Job1_4
Job2_1
Job3_1
Job3_2
Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1
<<datastore>>
Sentence Table
<<datastore>>
NewSentence
Sequencefile
<<datastore>>
NewDocuments
Sequencefile
<<datastore>>
sourceSentences
BDB
<<datastore>>
WordLookup Table
<<datastore>>
Job1_3
SequenceFile
<<datastore>>
targetSentences
BDB
<<datastore>>
Document Table
<<datastore>>
SentenceSim
Sequencefile
<<datastore>>
DocSentSim
Sequencefile
<<datastore>>
Block Sequencefile
sentence
<<datastore>>
DocSim Table
<<datastore>>
SimDoc Table
<<datastore>>
DocDocBlock Table
Job 4_2_2
<<datastore>>
DocDocSim
Sequencefile
Calculate
Prepare
Write
Lookup
get
write
26

INSPIRE: Insight to Scientiﬁc Publications
and References
Verteilte Berechnung von Bibliometriken auf großen Datenmengen
27

5-Phasen-Modell
XML
JSON
TupelPDF
PDF, txt
XML
JSON
Tupel
PDF, txt
Schreibender Zugriﬀ
Lesender Zugriﬀ
MySQL
Konvertierung
Extraktion Integration
Deduplikation
PräsentationDateisystem
HBase
1
2 3
4
5
28

Phase 1: Konvertierung
Eingabe > 650.000 PDF-Dateien
Ziel Datenaufbereitung: Eingabeformat für Extraktion
Ausgabe Volltexte
29

Phase 2: Extraktion
Eingabe Datensätze als Volltexte und PDF
Ziel Extraktion von Metadaten
Berechnung Software: ParsCit, GROBID
Ausgabe Metadaten in 3 XML-Formaten
Auszug: GROBID Header
<title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning
</title> [...]
<author>
<persName>
<forename type="first">Johannes</forename>
<surname>Magenheim</surname>
</persName>
<affiliation>
<orgName type="institution">University of Paderborn</orgName>
<address><country key="DE">Germany</country></address>
</affiliation>
</author>
30

Phase 2→3: XML Felder zur Identiﬁkation
Tabelle: ParCit 11 Mio. Ref.
Schlüssel Anzahl %
rawString 11.023.889 1,00
marker 11.023.889 1,00
context 10.695.648 0,97
author 10.523.513 0,95
date 10.378.402 0,94
title 9.361.532 0,85
pages 7.765.207 0,70
journal 6.838.383 0,62
volume 6.776.944 0,61
location 2.319.741 0,21
booktitle 1.519.236 0,14
publisher 1.354.680 0,12
issue 888.605 0,08
institution 359.638 0,03
note 318.288 0,03
editor 311.625 0,03
tech 146.817 0,01
Tabelle: GROBID 2 Mio. Ref.
Schlüssel Anzahl %
title 2.110.480 1,00
surname 1.897.603 0,90
date 1.894.521 0,90
forename 1.703.017 0,81
biblScope 1.683.384 0,80
publisher 209.928 0,10
pubPlace 143.760 0,07
address 90.667 0,04
editor 63.894 0,03
note 45.233 0,02
31

Phase 3: Integration
Eingabe Metadaten in 3 unterschiedlichen XML-Formaten
Ziel Zusammenführung für jede Publikation
Ausgabe Metadaten im JSON-Format
Levenshtein-Distanz:
Minimale Anzahl der Operationen
Einfügen, Löschen und Ersetzen
von Zeichen
32

Phase 3: Integration und Normalisierung
1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung
2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue)
3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue)
und (u¨, ue)
4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“
5. Entferne alle diakritischen Zeichen
6. Ersetze das Zeichen (ß, ss)
7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem
Leerzeichen
8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette
33

Phase 3: Integration von Referenzen
34

Phase 4: Deduplikation
Eingabe Metadaten im JSON-Format
Ziel Aufbau des Dokumenten-Netzwerks
Ausgabe Graph der Publikationen und Referenzierungen
35

Phase 5: Präsentation
Eingabe Dokumenten-Netzwerk
Ziel Berechnung vom Literaturempfehlungen
Ausgabe Listen mit verlinkten Ergebnissen
36

Bibliometrie
Bibliograﬁsche
Kopplung
(Kessler 1963)
Fester Wert
Im Beispiel:
BK(A, B) = 3
Kozitation
Small (1973) und
Marshakova (1973)
Wert wächst
Im Beispiel:
K(A, B) = 3
Z
Y
X
A B
Z
Y
X
A B
37

Bibliometrie: Distanz von Zitationen
In-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009)
Citation Proximity Analysis (CPA) Gipp & Beel (2009)
Distanz-Klasse Gewichtung
Gleiches Dokument 1
Gleicher Abschnitt 2
Gleicher Absatz 3
Gleicher Satz 4
Gleiche Markierung [1,2] 5
38

Bibliometrie: Beipiel zur Distanz von Zitationen
39

wissenschaftlicher Publikationen
Identiﬁkation von Grundähnlichkeiten und Implementierung eines
Algorithmus für dynamisch erweiterbare Clusterings
40

Ziele
Datenaufbereitung
→ Flexibles Echtzeitsystem
→ Einﬂuss der Parameter
→ Identiﬁkation von Ausreißern
Erweiterbare Clusterings
→ Hinzufügen von neuen Publikationen ohne
Neuberechnung
41

Datenaufbereitung - Anforderungen
Berechnungen in Echtzeit
Skalierbar
Ausgelegt für größere Datenmengen
Verteilt auf einem Computercluster
Austauschbare Komponenten in der Verarbeitungskette
Verarbeitungsprozess beliebig erweiterbar
42

Datenaufbereitung - Konzept
Verteilte Berechnungen in Echtzeit auf dem
Computercluster
→ Storm Projekt
Verarbeitungsschritte sind unterschiedliche, voneinander
abhängige Aufgaben
→ Jeweils eine Topologie in Storm
Kommunikation untereinander wird benötigt
→ ActiveMQ Topics
→ Publisher/Subscriber Modell
43

Datenaufbereitung - Bus Konzept
«component»
ActiveMQ
«component»
PDFUploader Topologie
«component»
PDFConverter Topologie
«component»
ParsCit Topologie
«component»
HBase
Nachrichten verschicken/empfangen
Datenbankzugriff
Nachrichten verschicken/empfangen Nachrichten verschicken/empfangen
...
Datenbankzugriff Datenbankzugriff
Weitere Topologien
44

Datenaufbereitung - Topologieaufbau
«component»
Spout
«component»
Bolt
«component»
ActiveMQ
«component»
HBase
1: benachrichtigt 7: bestätigt
2: leitet Nachricht weiter
3: prüft/holt Eingabefelder 4: beantwortet
5: verarbeitet
6: bestätigt
45

Datenaufbereitung - Vernetzung
46

INSPIRE: Insight to Scientific Publications and References

Weitere ähnliche Inhalte

Andere mochten auch

Mehr von Adrian Wilke

INSPIRE: Insight to Scientific Publications and References