Ähnlichkeitsbestimmung wissenschaftlicher Publikationen
CRITIC: Near Copy Detection in large text corpora
INSPIRE: Insight to Scientific Publications and References
INSPIRE: Insight to Scientific Publications and References
1. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftlicher Publikationen
Nicolas Schelp
CRITIC: Near Copy Detection
in large text corpora
Tobias Varlemann
INSPIRE: Insight to Scientific Publications
and References
Adrian Wilke
27. Juni 2013
Schelp - Varlemann - Wilke
1
3. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Datenhaltung in einer MySQL Datenbank
→ nicht verteilt
→ begrenzte Speicherkapazität
→ Zugriffszeiten
Datenaufbereitung zentralisiert auf einem Server
→ nicht skalierend
→ lange Laufzeiten
Ähnlichkeiten zwischen Publikationen nur aus
Clusteranalyse abgeleitet
Ergebnisse der Ähnlichkeitsbestimmung nicht
interpretierbar
→ Welche Dokumente sind zu ähnlich?
→ Welche passen inhaltlich nicht zum Korpus?
→ Wann handelt es sich um Plagiate?
Schelp - Varlemann - Wilke
3
4. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Clusteranalyse wurde vorberechnet
→ Bei neuen Dokumenten nicht erweiterbar
Keine verteilte Berechnung des Dokumenten-Netzwerks
(Publikationen und Referenzen)
→ lange Laufzeiten
Relativ schlechte Datenqualität bei der Extraktion der
Bibliometriken
Vorschläge nur rudimentär aus der Clusteranalyse
→ Keine Empfehlungen anhand der Bibliometriken
Schelp - Varlemann - Wilke
4
7. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Schelp - Varlemann - Wilke
7
8. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Schelp - Varlemann - Wilke
7
9. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Neue Wege für die Verarbeitung dieser Daten.
Schelp - Varlemann - Wilke
7
10. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Neue Wege für die Verarbeitung dieser Daten.
Spezielle Frameworks für die Skalierung auf viele hundert
Rechenkerne.
Schelp - Varlemann - Wilke
7
15. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Hadoop / MapReduce
Reducer PhaseShuffle and SortMapper PhaseInputsplit
Tasktrackernode 2
Tasktrackernode 1
Block
A
Map
Block
B
Map
Block
C
Map
Block
D
Map
Reduce
Block
A
Reduce
Block
A
K V
K V
K V
K V
Inputfile
Outputfile
Schelp - Varlemann - Wilke
9
23. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC: Near Copy Detection in large text
corpora
Schelp - Varlemann - Wilke
15
26. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
27. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
28. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
29. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
30. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
31. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Ein Plagiat umfasst unter anderem die Unterlassung
von geeigneten Quellenhinweisen bei der Verwendung
der Formulierungen oder besonderen Wortwahl eines
anderen, der Zusammenfassung der Argumente von
anderen oder die Darstellung vom Gedankengang
eines anderen.
Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003)
Schelp - Varlemann - Wilke
19
32. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
Schelp - Varlemann - Wilke
20
33. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
Formen von Textübernahmen
Direkte Kopie
Entfernen/Hinzufügen/Verändern von Worten
Entfernen/Hinzufügen/Verändern von Sätzen
Übersetzen von Texten
Schelp - Varlemann - Wilke
20
35. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Intrinsische Algorithmen
Stylometriken
Zeichen-/Wortfrequenzen
POS Frequenzen
Identifikation der Autoren anhand unterschiedlicher
Schreibstile
Extrinsische Algorithmen
Verwendung eines externen Korpus
Suche nach Verweisen im Korpus
Fuzzyset
Schelp - Varlemann - Wilke
21
36. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
37. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
38. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
39. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
40. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
Schelp - Varlemann - Wilke
23
41. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Schelp - Varlemann - Wilke
23
42. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke
23
43. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke
23
47. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
INSPIRE: Insight to Scientific Publications
and References
Verteilte Berechnung von Bibliometriken auf großen Datenmengen
Schelp - Varlemann - Wilke
27
52. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration
Eingabe Metadaten in 3 unterschiedlichen XML-Formaten
Ziel Zusammenführung für jede Publikation
Ausgabe Metadaten im JSON-Format
Levenshtein-Distanz:
Minimale Anzahl der Operationen
Einfügen, Löschen und Ersetzen
von Zeichen
Schelp - Varlemann - Wilke
32
53. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration und Normalisierung
1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung
2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue)
3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue)
und (u¨, ue)
4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“
5. Entferne alle diakritischen Zeichen
6. Ersetze das Zeichen (ß, ss)
7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem
Leerzeichen
8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette
Schelp - Varlemann - Wilke
33
54. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration von Referenzen
Schelp - Varlemann - Wilke
34
55. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 4: Deduplikation
Eingabe Metadaten im JSON-Format
Ziel Aufbau des Dokumenten-Netzwerks
Ausgabe Graph der Publikationen und Referenzierungen
Schelp - Varlemann - Wilke
35
56. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 5: Präsentation
Eingabe Dokumenten-Netzwerk
Ziel Berechnung vom Literaturempfehlungen
Ausgabe Listen mit verlinkten Ergebnissen
Schelp - Varlemann - Wilke
36
57. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie
Bibliografische
Kopplung
(Kessler 1963)
Fester Wert
Im Beispiel:
BK(A, B) = 3
Kozitation
Small (1973) und
Marshakova (1973)
Wert wächst
Im Beispiel:
K(A, B) = 3
Z
Y
X
A B
Z
Y
X
A B
Schelp - Varlemann - Wilke
37
59. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie: Beipiel zur Distanz von Zitationen
Schelp - Varlemann - Wilke
39
60. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftlicher Publikationen
Identifikation von Grundähnlichkeiten und Implementierung eines
Algorithmus für dynamisch erweiterbare Clusterings
Schelp - Varlemann - Wilke
40
61. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ziele
Datenaufbereitung
→ Flexibles Echtzeitsystem
Ähnlichkeitsbestimmung
→ Einfluss der Parameter
→ Identifikation von Ausreißern
Erweiterbare Clusterings
→ Hinzufügen von neuen Publikationen ohne
Neuberechnung
Schelp - Varlemann - Wilke
41
62. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Anforderungen
Berechnungen in Echtzeit
Skalierbar
Ausgelegt für größere Datenmengen
Verteilt auf einem Computercluster
Austauschbare Komponenten in der Verarbeitungskette
Verarbeitungsprozess beliebig erweiterbar
Schelp - Varlemann - Wilke
42
63. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Konzept
Verteilte Berechnungen in Echtzeit auf dem
Computercluster
→ Storm Projekt
Verarbeitungsschritte sind unterschiedliche, voneinander
abhängige Aufgaben
→ Jeweils eine Topologie in Storm
Kommunikation untereinander wird benötigt
→ ActiveMQ Topics
→ Publisher/Subscriber Modell
Schelp - Varlemann - Wilke
43
75. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung - Gegenüberstellung
Terme
Lemmas
Stämme
Nomen
Terme
Lemmas
Stämme
Nomen
Terme
Lemmas
Stämme
Nomen
5
10
15
20
25
30
35
Boxplot der Ähnlichkeiten (Tanimoto)
Ähnlichkeit(in%)
EDMEDIA
ECTEL
ICWL
Schelp - Varlemann - Wilke
55
76. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung - Kombination
Terme Tanimoto
863 (extrem)
Terme Euklid TF
3047 (mild)
Nomen Cosinus TF
3242 (mild)
211
97
Schelp - Varlemann - Wilke
56
77. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Erweiterbare Clusterings
Clusteranalyse durchgeführt
→ Statisches Clustering erstellt
Neue Publikationen kommen hinzu
→ Clusteranalyse muss komplett neu gestartet werden
Neues Dokument
Bestehendes Clustering
?
Schelp - Varlemann - Wilke
57
78. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Erweiterbare Clusterings
Bestehende Cluster werden durch neue Dokumente erweitert,
indem diese mit Hilfe des gewählten Proximitätsmaßes den
nächst gelegenen, zuvor berechneten Cluster-
Schwerpunkten (Centroiden) zugeordnet werden.
Neues Dokument
Bestehendes Clustering
0.3
0.25
0.54
0.86
0.1
!
Schelp - Varlemann - Wilke
58
79. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Erweiterbare Clusterings
Vorteile
Einfache Berechnung
→ Clusteranzahl entsprechend viele Berechnungen
Stabil bei hinreichend großen Clustern
→ Änderungen durch Erweiterungen klein
Nachteile
Falsche Startparameter
→ Auswahl der Parameter zu Beginn der Clusteranalyse
Probleme mit kleinen Clustern
→ Größerer Einfluss auf kleine Cluster
Anzahl Fehler nimmt mit jeder Erweiterung zu
→ Qualität nimmt mit Fehlern ab
Schelp - Varlemann - Wilke
59
80. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Erweiterbare Clusterings -
Strategien zur Neuberechnung
Manuelle Neuberechnung
Kontinuierliche Neuberechnung
→ Fehleranzahl so gering wie möglich
→ Aber: Verbraucht die meisten Ressourcen
Neuberechnung nach Zeit t
Neuberechnung nach x neuen Dokumenten
→ Nach wie vielen?
→ Abschätzen!
Schelp - Varlemann - Wilke
60