SlideShare ist ein Scribd-Unternehmen logo
1 von 66
Downloaden Sie, um offline zu lesen
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftlicher Publikationen
Nicolas Schelp
CRITIC: Near Copy Detection
in large text corpora
Tobias Varlemann
INSPIRE: Insight to Scientific Publications
and References
Adrian Wilke
27. Juni 2013
Schelp - Varlemann - Wilke
1
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Schelp - Varlemann - Wilke
2
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Datenhaltung in einer MySQL Datenbank
→ nicht verteilt
→ begrenzte Speicherkapazität
→ Zugriffszeiten
Datenaufbereitung zentralisiert auf einem Server
→ nicht skalierend
→ lange Laufzeiten
Ähnlichkeiten zwischen Publikationen nur aus
Clusteranalyse abgeleitet
Ergebnisse der Ähnlichkeitsbestimmung nicht
interpretierbar
→ Welche Dokumente sind zu ähnlich?
→ Welche passen inhaltlich nicht zum Korpus?
→ Wann handelt es sich um Plagiate?
Schelp - Varlemann - Wilke
3
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Clusteranalyse wurde vorberechnet
→ Bei neuen Dokumenten nicht erweiterbar
Keine verteilte Berechnung des Dokumenten-Netzwerks
(Publikationen und Referenzen)
→ lange Laufzeiten
Relativ schlechte Datenqualität bei der Extraktion der
Bibliometriken
Vorschläge nur rudimentär aus der Clusteranalyse
→ Keine Empfehlungen anhand der Bibliometriken
Schelp - Varlemann - Wilke
4
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - HCPA Computercluster
17 Slaves
96 Prozessorkerne
248GB Arbeitsspeicher
102TB Festplattenkapazität
+ Master (64GB RAM)
+ NAS (5,4TB)
Schelp - Varlemann - Wilke
5
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Grundlagen
Schelp - Varlemann - Wilke
6
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Neue Wege für die Verarbeitung dieser Daten.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung von Datensets die zu groß
sind um sie mit herkömmlichen Programmen zu
verarbeiten.
Bezieht sich nicht nur auf die Eingabedaten sondern auch
auf Zwischenergebnisse.
Neue Wege für die Verarbeitung dieser Daten.
Spezielle Frameworks für die Skalierung auf viele hundert
Rechenkerne.
Schelp - Varlemann - Wilke
7
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke
8
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Hadoop / MapReduce
Reducer PhaseShuffle and SortMapper PhaseInputsplit
Tasktrackernode 2
Tasktrackernode 1
Block
A
Map
Block
B
Map
Block
C
Map
Block
D
Map
Reduce
Block
A
Reduce
Block
A
K V
K V
K V
K V
Inputfile
Outputfile
Schelp - Varlemann - Wilke
9
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Storm
Schelp - Varlemann - Wilke
10
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
Feste Zuordnung von Knoten zu Channels
Schelp - Varlemann - Wilke
11
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
Feste Zuordnung von Knoten zu Channels
Publish–Subscribe Pattern
Schelp - Varlemann - Wilke
11
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
Feste Zuordnung von Knoten zu Channels
Publish–Subscribe Pattern
Lose Kopplung einzelner Komponenten
Schelp - Varlemann - Wilke
11
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
HBase
verteilte Datenhaltung
nicht-rational
Terabytes – Petabytes
Zeilen: Rowkeys
Zeilen in Regionen
zusammengefasst
Schelp - Varlemann - Wilke
12
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
HBase: Datenlokatität vs. Verteilung
Schelp - Varlemann - Wilke
13
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Extraktion Metadaten
Schelp - Varlemann - Wilke
14
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC: Near Copy Detection in large text
corpora
Schelp - Varlemann - Wilke
15
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Motivation
http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki
Schelp - Varlemann - Wilke
16
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Motivation
http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de
Schelp - Varlemann - Wilke
17
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlemann - Wilke
18
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Ein Plagiat umfasst unter anderem die Unterlassung
von geeigneten Quellenhinweisen bei der Verwendung
der Formulierungen oder besonderen Wortwahl eines
anderen, der Zusammenfassung der Argumente von
anderen oder die Darstellung vom Gedankengang
eines anderen.
Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003)
Schelp - Varlemann - Wilke
19
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
Schelp - Varlemann - Wilke
20
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
Unterschiedliche Zitationsstile
Schwerig zu unterscheiden
Anderes Themengebiet
-> Near copy detection (NCD)
Formen von Textübernahmen
Direkte Kopie
Entfernen/Hinzufügen/Verändern von Worten
Entfernen/Hinzufügen/Verändern von Sätzen
Übersetzen von Texten
Schelp - Varlemann - Wilke
20
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Intrinsische Algorithmen
Stylometriken
Zeichen-/Wortfrequenzen
POS Frequenzen
Identifikation der Autoren anhand unterschiedlicher
Schreibstile
Schelp - Varlemann - Wilke
21
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Intrinsische Algorithmen
Stylometriken
Zeichen-/Wortfrequenzen
POS Frequenzen
Identifikation der Autoren anhand unterschiedlicher
Schreibstile
Extrinsische Algorithmen
Verwendung eines externen Korpus
Suche nach Verweisen im Korpus
Fuzzyset
Schelp - Varlemann - Wilke
21
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke
22
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke
23
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Fuzzyset NCD
ToolsMa
pred
Tools-Driver HBaseUser
5.4: writeNCDData
5.3: CalculateNCD
5.2: Data
5.1: getData
5: updateNCD
4: writeMISCData
3.1: Texts
3: getTexts2.6: MISC
2.5.3: writeWordnet
2.5.2: Texts
POS Lemata
2.5.1: getTexts
getPOS getLemata
2.5: Wordnet
2.4.3: writeLemata
2.4.2: Texts
2.4.1: getTexts
2.4: Lemmatize
2.3.3: writePOS
2.3.2: Texts
2.3.1: getTexts
2.3: POS
2.2.3: writeTexts
2.2.2: PDFs
2.2.1: getPDFs
2.2: PDF2TXT
2.1:
2: Preprocess PDFs
1: Upload PDFs
Schelp - Varlemann - Wilke
24
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Calculate
Fuzzyset NCD
Similarity
Write Results
Choose
Candidate
Schelp - Varlemann - Wilke
25
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Job1_1
Job1_2
Job1_3
Job1_4
Job2_1
Job3_1
Job3_2
Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1
<<datastore>>
Sentence Table
<<datastore>>
NewSentence
Sequencefile
<<datastore>>
NewDocuments
Sequencefile
<<datastore>>
sourceSentences
BDB
<<datastore>>
WordLookup Table
<<datastore>>
Job1_3
SequenceFile
<<datastore>>
targetSentences
BDB
<<datastore>>
Document Table
<<datastore>>
SentenceSim
Sequencefile
<<datastore>>
DocSentSim
Sequencefile
<<datastore>>
Block Sequencefile
sentence
<<datastore>>
DocSim Table
<<datastore>>
SimDoc Table
<<datastore>>
DocDocBlock Table
Job 4_2_2
<<datastore>>
DocDocSim
Sequencefile
Calculate
Prepare
Write
Lookup
get
write
Schelp - Varlemann - Wilke
26
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
INSPIRE: Insight to Scientific Publications
and References
Verteilte Berechnung von Bibliometriken auf großen Datenmengen
Schelp - Varlemann - Wilke
27
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
5-Phasen-Modell
XML
JSON
TupelPDF
PDF, txt
XML
JSON
Tupel
PDF, txt
Schreibender Zugriff
Lesender Zugriff
MySQL
Konvertierung
Extraktion Integration
Deduplikation
PräsentationDateisystem
HBase
1
2 3
4
5
Schelp - Varlemann - Wilke
28
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 1: Konvertierung
Eingabe > 650.000 PDF-Dateien
Ziel Datenaufbereitung: Eingabeformat für Extraktion
Ausgabe Volltexte
Schelp - Varlemann - Wilke
29
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 2: Extraktion
Eingabe Datensätze als Volltexte und PDF
Ziel Extraktion von Metadaten
Berechnung Software: ParsCit, GROBID
Ausgabe Metadaten in 3 XML-Formaten
Auszug: GROBID Header
<title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning
</title> [...]
<author>
<persName>
<forename type="first">Johannes</forename>
<surname>Magenheim</surname>
</persName>
<affiliation>
<orgName type="institution">University of Paderborn</orgName>
<address><country key="DE">Germany</country></address>
</affiliation>
</author>
Schelp - Varlemann - Wilke
30
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 2→3: XML Felder zur Identifikation
Tabelle: ParCit 11 Mio. Ref.
Schlüssel Anzahl %
rawString 11.023.889 1,00
marker 11.023.889 1,00
context 10.695.648 0,97
author 10.523.513 0,95
date 10.378.402 0,94
title 9.361.532 0,85
pages 7.765.207 0,70
journal 6.838.383 0,62
volume 6.776.944 0,61
location 2.319.741 0,21
booktitle 1.519.236 0,14
publisher 1.354.680 0,12
issue 888.605 0,08
institution 359.638 0,03
note 318.288 0,03
editor 311.625 0,03
tech 146.817 0,01
Tabelle: GROBID 2 Mio. Ref.
Schlüssel Anzahl %
title 2.110.480 1,00
surname 1.897.603 0,90
date 1.894.521 0,90
forename 1.703.017 0,81
biblScope 1.683.384 0,80
publisher 209.928 0,10
pubPlace 143.760 0,07
address 90.667 0,04
editor 63.894 0,03
note 45.233 0,02
Schelp - Varlemann - Wilke
31
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration
Eingabe Metadaten in 3 unterschiedlichen XML-Formaten
Ziel Zusammenführung für jede Publikation
Ausgabe Metadaten im JSON-Format
Levenshtein-Distanz:
Minimale Anzahl der Operationen
Einfügen, Löschen und Ersetzen
von Zeichen
Schelp - Varlemann - Wilke
32
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration und Normalisierung
1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung
2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue)
3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue)
und (u¨, ue)
4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“
5. Entferne alle diakritischen Zeichen
6. Ersetze das Zeichen (ß, ss)
7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem
Leerzeichen
8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette
Schelp - Varlemann - Wilke
33
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration von Referenzen
Schelp - Varlemann - Wilke
34
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 4: Deduplikation
Eingabe Metadaten im JSON-Format
Ziel Aufbau des Dokumenten-Netzwerks
Ausgabe Graph der Publikationen und Referenzierungen
Schelp - Varlemann - Wilke
35
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 5: Präsentation
Eingabe Dokumenten-Netzwerk
Ziel Berechnung vom Literaturempfehlungen
Ausgabe Listen mit verlinkten Ergebnissen
Schelp - Varlemann - Wilke
36
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie
Bibliografische
Kopplung
(Kessler 1963)
Fester Wert
Im Beispiel:
BK(A, B) = 3
Kozitation
Small (1973) und
Marshakova (1973)
Wert wächst
Im Beispiel:
K(A, B) = 3
Z
Y
X
A B
Z
Y
X
A B
Schelp - Varlemann - Wilke
37
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie: Distanz von Zitationen
In-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009)
Citation Proximity Analysis (CPA) Gipp & Beel (2009)
Distanz-Klasse Gewichtung
Gleiches Dokument 1
Gleicher Abschnitt 2
Gleicher Absatz 3
Gleicher Satz 4
Gleiche Markierung [1,2] 5
Schelp - Varlemann - Wilke
38
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie: Beipiel zur Distanz von Zitationen
Schelp - Varlemann - Wilke
39
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftlicher Publikationen
Identifikation von Grundähnlichkeiten und Implementierung eines
Algorithmus für dynamisch erweiterbare Clusterings
Schelp - Varlemann - Wilke
40
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ziele
Datenaufbereitung
→ Flexibles Echtzeitsystem
Ähnlichkeitsbestimmung
→ Einfluss der Parameter
→ Identifikation von Ausreißern
Erweiterbare Clusterings
→ Hinzufügen von neuen Publikationen ohne
Neuberechnung
Schelp - Varlemann - Wilke
41
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Anforderungen
Berechnungen in Echtzeit
Skalierbar
Ausgelegt für größere Datenmengen
Verteilt auf einem Computercluster
Austauschbare Komponenten in der Verarbeitungskette
Verarbeitungsprozess beliebig erweiterbar
Schelp - Varlemann - Wilke
42
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Konzept
Verteilte Berechnungen in Echtzeit auf dem
Computercluster
→ Storm Projekt
Verarbeitungsschritte sind unterschiedliche, voneinander
abhängige Aufgaben
→ Jeweils eine Topologie in Storm
Kommunikation untereinander wird benötigt
→ ActiveMQ Topics
→ Publisher/Subscriber Modell
Schelp - Varlemann - Wilke
43
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Bus Konzept
«component»
ActiveMQ
«component»
PDFUploader Topologie
«component»
PDFConverter Topologie
«component»
ParsCit Topologie
«component»
HBase
Nachrichten verschicken/empfangen
Datenbankzugriff
Nachrichten verschicken/empfangen Nachrichten verschicken/empfangen
...
Datenbankzugriff Datenbankzugriff
Weitere Topologien
Schelp - Varlemann - Wilke
44
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Topologieaufbau
«component»
Spout
«component»
Bolt
«component»
ActiveMQ
«component»
HBase
1: benachrichtigt 7: bestätigt
2: leitet Nachricht weiter
3: prüft/holt Eingabefelder 4: beantwortet
5: verarbeitet
6: bestätigt
Schelp - Varlemann - Wilke
45
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Vernetzung
Schelp - Varlemann - Wilke
46

Weitere ähnliche Inhalte

Andere mochten auch

Exercise Physiology 2
Exercise Physiology 2Exercise Physiology 2
Exercise Physiology 2natjkeen
 
HM Sports Psychology
HM Sports PsychologyHM Sports Psychology
HM Sports Psychologynatjkeen
 
Patterns Physical Activity
Patterns Physical ActivityPatterns Physical Activity
Patterns Physical Activitynatjkeen
 
Sports coaching
Sports coachingSports coaching
Sports coachingnatjkeen
 
World wide web trabajo
World wide web trabajoWorld wide web trabajo
World wide web trabajoCarlos Matias
 
Propuesta Sobre el Uso de la TIC en Educacio Media
Propuesta Sobre el Uso de la TIC en Educacio MediaPropuesta Sobre el Uso de la TIC en Educacio Media
Propuesta Sobre el Uso de la TIC en Educacio MediaRosalinda Isabel
 
Bolo da turma 11
Bolo da turma 11Bolo da turma 11
Bolo da turma 11Maria Lima
 
Graficas aceitunas
Graficas aceitunasGraficas aceitunas
Graficas aceitunasjoseparty
 
presentación gráficos en power point
presentación gráficos en power point presentación gráficos en power point
presentación gráficos en power point rocket75
 
向上正確版103年2月
向上正確版103年2月向上正確版103年2月
向上正確版103年2月dieticianwei
 

Andere mochten auch (19)

Exercise Physiology 2
Exercise Physiology 2Exercise Physiology 2
Exercise Physiology 2
 
HM Sports Psychology
HM Sports PsychologyHM Sports Psychology
HM Sports Psychology
 
Patterns Physical Activity
Patterns Physical ActivityPatterns Physical Activity
Patterns Physical Activity
 
Sports coaching
Sports coachingSports coaching
Sports coaching
 
Modelo incremental
Modelo incremental Modelo incremental
Modelo incremental
 
World wide web trabajo
World wide web trabajoWorld wide web trabajo
World wide web trabajo
 
Vga n vidia geforce3
Vga n vidia geforce3Vga n vidia geforce3
Vga n vidia geforce3
 
Propuesta Sobre el Uso de la TIC en Educacio Media
Propuesta Sobre el Uso de la TIC en Educacio MediaPropuesta Sobre el Uso de la TIC en Educacio Media
Propuesta Sobre el Uso de la TIC en Educacio Media
 
Bolo da turma 11
Bolo da turma 11Bolo da turma 11
Bolo da turma 11
 
Articulo 5
Articulo 5Articulo 5
Articulo 5
 
Sálario...
Sálario...Sálario...
Sálario...
 
Graficas aceitunas
Graficas aceitunasGraficas aceitunas
Graficas aceitunas
 
presentación gráficos en power point
presentación gráficos en power point presentación gráficos en power point
presentación gráficos en power point
 
EstáCio Apr Corporativa 1 T09 Port V2
EstáCio Apr Corporativa 1 T09 Port V2EstáCio Apr Corporativa 1 T09 Port V2
EstáCio Apr Corporativa 1 T09 Port V2
 
Um desafio de Deus
Um desafio de DeusUm desafio de Deus
Um desafio de Deus
 
CYPF Draft Forum Agenda October 2016
CYPF Draft Forum Agenda October 2016CYPF Draft Forum Agenda October 2016
CYPF Draft Forum Agenda October 2016
 
向上正確版103年2月
向上正確版103年2月向上正確版103年2月
向上正確版103年2月
 
Malsubito
MalsubitoMalsubito
Malsubito
 
masiljoperu sac
masiljoperu sacmasiljoperu sac
masiljoperu sac
 

Mehr von Adrian Wilke

Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)Adrian Wilke
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyAdrian Wilke
 
Algebraic Property Graphs
Algebraic Property GraphsAlgebraic Property Graphs
Algebraic Property GraphsAdrian Wilke
 
Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...Adrian Wilke
 
36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data Science36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data ScienceAdrian Wilke
 
Zotero Visualisierungen
Zotero VisualisierungenZotero Visualisierungen
Zotero VisualisierungenAdrian Wilke
 
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15Adrian Wilke
 
Ant Colony Optimization: Routing
Ant Colony Optimization: RoutingAnt Colony Optimization: Routing
Ant Colony Optimization: RoutingAdrian Wilke
 
knowAAN final presentation
knowAAN final presentationknowAAN final presentation
knowAAN final presentationAdrian Wilke
 
Analyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher PublikationenAnalyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher PublikationenAdrian Wilke
 
Analyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher PublikationenAnalyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher PublikationenAdrian Wilke
 

Mehr von Adrian Wilke (11)

Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germany
 
Algebraic Property Graphs
Algebraic Property GraphsAlgebraic Property Graphs
Algebraic Property Graphs
 
Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...
 
36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data Science36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data Science
 
Zotero Visualisierungen
Zotero VisualisierungenZotero Visualisierungen
Zotero Visualisierungen
 
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
 
Ant Colony Optimization: Routing
Ant Colony Optimization: RoutingAnt Colony Optimization: Routing
Ant Colony Optimization: Routing
 
knowAAN final presentation
knowAAN final presentationknowAAN final presentation
knowAAN final presentation
 
Analyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher PublikationenAnalyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher Publikationen
 
Analyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher PublikationenAnalyse wissenschaftlicher Publikationen
Analyse wissenschaftlicher Publikationen
 

INSPIRE: Insight to Scientific Publications and References

  • 1. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Nicolas Schelp CRITIC: Near Copy Detection in large text corpora Tobias Varlemann INSPIRE: Insight to Scientific Publications and References Adrian Wilke 27. Juni 2013 Schelp - Varlemann - Wilke 1
  • 2. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Schelp - Varlemann - Wilke 2
  • 3. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Datenhaltung in einer MySQL Datenbank → nicht verteilt → begrenzte Speicherkapazität → Zugriffszeiten Datenaufbereitung zentralisiert auf einem Server → nicht skalierend → lange Laufzeiten Ähnlichkeiten zwischen Publikationen nur aus Clusteranalyse abgeleitet Ergebnisse der Ähnlichkeitsbestimmung nicht interpretierbar → Welche Dokumente sind zu ähnlich? → Welche passen inhaltlich nicht zum Korpus? → Wann handelt es sich um Plagiate? Schelp - Varlemann - Wilke 3
  • 4. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Clusteranalyse wurde vorberechnet → Bei neuen Dokumenten nicht erweiterbar Keine verteilte Berechnung des Dokumenten-Netzwerks (Publikationen und Referenzen) → lange Laufzeiten Relativ schlechte Datenqualität bei der Extraktion der Bibliometriken Vorschläge nur rudimentär aus der Clusteranalyse → Keine Empfehlungen anhand der Bibliometriken Schelp - Varlemann - Wilke 4
  • 5. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - HCPA Computercluster 17 Slaves 96 Prozessorkerne 248GB Arbeitsspeicher 102TB Festplattenkapazität + Master (64GB RAM) + NAS (5,4TB) Schelp - Varlemann - Wilke 5
  • 6. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Grundlagen Schelp - Varlemann - Wilke 6
  • 7. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Schelp - Varlemann - Wilke 7
  • 8. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Schelp - Varlemann - Wilke 7
  • 9. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Schelp - Varlemann - Wilke 7
  • 10. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Spezielle Frameworks für die Skalierung auf viele hundert Rechenkerne. Schelp - Varlemann - Wilke 7
  • 11. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 12. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 13. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 14. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  • 15. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Hadoop / MapReduce Reducer PhaseShuffle and SortMapper PhaseInputsplit Tasktrackernode 2 Tasktrackernode 1 Block A Map Block B Map Block C Map Block D Map Reduce Block A Reduce Block A K V K V K V K V Inputfile Outputfile Schelp - Varlemann - Wilke 9
  • 16. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Storm Schelp - Varlemann - Wilke 10
  • 17. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Schelp - Varlemann - Wilke 11
  • 18. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Schelp - Varlemann - Wilke 11
  • 19. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Lose Kopplung einzelner Komponenten Schelp - Varlemann - Wilke 11
  • 20. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase verteilte Datenhaltung nicht-rational Terabytes – Petabytes Zeilen: Rowkeys Zeilen in Regionen zusammengefasst Schelp - Varlemann - Wilke 12
  • 21. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase: Datenlokatität vs. Verteilung Schelp - Varlemann - Wilke 13
  • 22. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Extraktion Metadaten Schelp - Varlemann - Wilke 14
  • 23. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC: Near Copy Detection in large text corpora Schelp - Varlemann - Wilke 15
  • 24. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki Schelp - Varlemann - Wilke 16
  • 25. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de Schelp - Varlemann - Wilke 17
  • 26. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 27. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 28. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 29. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 30. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  • 31. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Ein Plagiat umfasst unter anderem die Unterlassung von geeigneten Quellenhinweisen bei der Verwendung der Formulierungen oder besonderen Wortwahl eines anderen, der Zusammenfassung der Argumente von anderen oder die Darstellung vom Gedankengang eines anderen. Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003) Schelp - Varlemann - Wilke 19
  • 32. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesfindung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Schelp - Varlemann - Wilke 20
  • 33. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesfindung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Formen von Textübernahmen Direkte Kopie Entfernen/Hinzufügen/Verändern von Worten Entfernen/Hinzufügen/Verändern von Sätzen Übersetzen von Texten Schelp - Varlemann - Wilke 20
  • 34. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identifikation der Autoren anhand unterschiedlicher Schreibstile Schelp - Varlemann - Wilke 21
  • 35. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identifikation der Autoren anhand unterschiedlicher Schreibstile Extrinsische Algorithmen Verwendung eines externen Korpus Suche nach Verweisen im Korpus Fuzzyset Schelp - Varlemann - Wilke 21
  • 36. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 37. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 38. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 39. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  • 40. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort Schelp - Varlemann - Wilke 23
  • 41. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Schelp - Varlemann - Wilke 23
  • 42. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23
  • 43. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23
  • 44. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Fuzzyset NCD ToolsMa pred Tools-Driver HBaseUser 5.4: writeNCDData 5.3: CalculateNCD 5.2: Data 5.1: getData 5: updateNCD 4: writeMISCData 3.1: Texts 3: getTexts2.6: MISC 2.5.3: writeWordnet 2.5.2: Texts POS Lemata 2.5.1: getTexts getPOS getLemata 2.5: Wordnet 2.4.3: writeLemata 2.4.2: Texts 2.4.1: getTexts 2.4: Lemmatize 2.3.3: writePOS 2.3.2: Texts 2.3.1: getTexts 2.3: POS 2.2.3: writeTexts 2.2.2: PDFs 2.2.1: getPDFs 2.2: PDF2TXT 2.1: 2: Preprocess PDFs 1: Upload PDFs Schelp - Varlemann - Wilke 24
  • 45. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Calculate Fuzzyset NCD Similarity Write Results Choose Candidate Schelp - Varlemann - Wilke 25
  • 46. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Job1_1 Job1_2 Job1_3 Job1_4 Job2_1 Job3_1 Job3_2 Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1 <<datastore>> Sentence Table <<datastore>> NewSentence Sequencefile <<datastore>> NewDocuments Sequencefile <<datastore>> sourceSentences BDB <<datastore>> WordLookup Table <<datastore>> Job1_3 SequenceFile <<datastore>> targetSentences BDB <<datastore>> Document Table <<datastore>> SentenceSim Sequencefile <<datastore>> DocSentSim Sequencefile <<datastore>> Block Sequencefile sentence <<datastore>> DocSim Table <<datastore>> SimDoc Table <<datastore>> DocDocBlock Table Job 4_2_2 <<datastore>> DocDocSim Sequencefile Calculate Prepare Write Lookup get write Schelp - Varlemann - Wilke 26
  • 47. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos INSPIRE: Insight to Scientific Publications and References Verteilte Berechnung von Bibliometriken auf großen Datenmengen Schelp - Varlemann - Wilke 27
  • 48. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos 5-Phasen-Modell XML JSON TupelPDF PDF, txt XML JSON Tupel PDF, txt Schreibender Zugriff Lesender Zugriff MySQL Konvertierung Extraktion Integration Deduplikation PräsentationDateisystem HBase 1 2 3 4 5 Schelp - Varlemann - Wilke 28
  • 49. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 1: Konvertierung Eingabe > 650.000 PDF-Dateien Ziel Datenaufbereitung: Eingabeformat für Extraktion Ausgabe Volltexte Schelp - Varlemann - Wilke 29
  • 50. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2: Extraktion Eingabe Datensätze als Volltexte und PDF Ziel Extraktion von Metadaten Berechnung Software: ParsCit, GROBID Ausgabe Metadaten in 3 XML-Formaten Auszug: GROBID Header <title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning </title> [...] <author> <persName> <forename type="first">Johannes</forename> <surname>Magenheim</surname> </persName> <affiliation> <orgName type="institution">University of Paderborn</orgName> <address><country key="DE">Germany</country></address> </affiliation> </author> Schelp - Varlemann - Wilke 30
  • 51. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2→3: XML Felder zur Identifikation Tabelle: ParCit 11 Mio. Ref. Schlüssel Anzahl % rawString 11.023.889 1,00 marker 11.023.889 1,00 context 10.695.648 0,97 author 10.523.513 0,95 date 10.378.402 0,94 title 9.361.532 0,85 pages 7.765.207 0,70 journal 6.838.383 0,62 volume 6.776.944 0,61 location 2.319.741 0,21 booktitle 1.519.236 0,14 publisher 1.354.680 0,12 issue 888.605 0,08 institution 359.638 0,03 note 318.288 0,03 editor 311.625 0,03 tech 146.817 0,01 Tabelle: GROBID 2 Mio. Ref. Schlüssel Anzahl % title 2.110.480 1,00 surname 1.897.603 0,90 date 1.894.521 0,90 forename 1.703.017 0,81 biblScope 1.683.384 0,80 publisher 209.928 0,10 pubPlace 143.760 0,07 address 90.667 0,04 editor 63.894 0,03 note 45.233 0,02 Schelp - Varlemann - Wilke 31
  • 52. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration Eingabe Metadaten in 3 unterschiedlichen XML-Formaten Ziel Zusammenführung für jede Publikation Ausgabe Metadaten im JSON-Format Levenshtein-Distanz: Minimale Anzahl der Operationen Einfügen, Löschen und Ersetzen von Zeichen Schelp - Varlemann - Wilke 32
  • 53. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration und Normalisierung 1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung 2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue) 3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue) und (u¨, ue) 4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“ 5. Entferne alle diakritischen Zeichen 6. Ersetze das Zeichen (ß, ss) 7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem Leerzeichen 8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette Schelp - Varlemann - Wilke 33
  • 54. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration von Referenzen Schelp - Varlemann - Wilke 34
  • 55. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 4: Deduplikation Eingabe Metadaten im JSON-Format Ziel Aufbau des Dokumenten-Netzwerks Ausgabe Graph der Publikationen und Referenzierungen Schelp - Varlemann - Wilke 35
  • 56. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 5: Präsentation Eingabe Dokumenten-Netzwerk Ziel Berechnung vom Literaturempfehlungen Ausgabe Listen mit verlinkten Ergebnissen Schelp - Varlemann - Wilke 36
  • 57. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie Bibliografische Kopplung (Kessler 1963) Fester Wert Im Beispiel: BK(A, B) = 3 Kozitation Small (1973) und Marshakova (1973) Wert wächst Im Beispiel: K(A, B) = 3 Z Y X A B Z Y X A B Schelp - Varlemann - Wilke 37
  • 58. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Distanz von Zitationen In-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009) Citation Proximity Analysis (CPA) Gipp & Beel (2009) Distanz-Klasse Gewichtung Gleiches Dokument 1 Gleicher Abschnitt 2 Gleicher Absatz 3 Gleicher Satz 4 Gleiche Markierung [1,2] 5 Schelp - Varlemann - Wilke 38
  • 59. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Beipiel zur Distanz von Zitationen Schelp - Varlemann - Wilke 39
  • 60. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Identifikation von Grundähnlichkeiten und Implementierung eines Algorithmus für dynamisch erweiterbare Clusterings Schelp - Varlemann - Wilke 40
  • 61. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ziele Datenaufbereitung → Flexibles Echtzeitsystem Ähnlichkeitsbestimmung → Einfluss der Parameter → Identifikation von Ausreißern Erweiterbare Clusterings → Hinzufügen von neuen Publikationen ohne Neuberechnung Schelp - Varlemann - Wilke 41
  • 62. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Anforderungen Berechnungen in Echtzeit Skalierbar Ausgelegt für größere Datenmengen Verteilt auf einem Computercluster Austauschbare Komponenten in der Verarbeitungskette Verarbeitungsprozess beliebig erweiterbar Schelp - Varlemann - Wilke 42
  • 63. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Konzept Verteilte Berechnungen in Echtzeit auf dem Computercluster → Storm Projekt Verarbeitungsschritte sind unterschiedliche, voneinander abhängige Aufgaben → Jeweils eine Topologie in Storm Kommunikation untereinander wird benötigt → ActiveMQ Topics → Publisher/Subscriber Modell Schelp - Varlemann - Wilke 43
  • 64. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Bus Konzept «component» ActiveMQ «component» PDFUploader Topologie «component» PDFConverter Topologie «component» ParsCit Topologie «component» HBase Nachrichten verschicken/empfangen Datenbankzugriff Nachrichten verschicken/empfangen Nachrichten verschicken/empfangen ... Datenbankzugriff Datenbankzugriff Weitere Topologien Schelp - Varlemann - Wilke 44
  • 65. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Topologieaufbau «component» Spout «component» Bolt «component» ActiveMQ «component» HBase 1: benachrichtigt 7: bestätigt 2: leitet Nachricht weiter 3: prüft/holt Eingabefelder 4: beantwortet 5: verarbeitet 6: bestätigt Schelp - Varlemann - Wilke 45
  • 66. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Vernetzung Schelp - Varlemann - Wilke 46
  • 67. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Laufzeiten Topologie Laufzeit Dokumente Fehler Geschwindigkeit Geschwindigkeit Bolt Latenz hh:mm:ss Dokumente / s ms / Dokument ms PDFUploader 04:53:19 602.122 383 34,21 29,23 234 PDFConverter 12:59:25 601.739 5.310 12,87 77,72 522 ParsCit 12:59:35 596.429 163.824 12,75 78,43 4.909 Tokenizer 12:59:40 432.605 571 9,25 108,14 428 POSTagger 12:59:40 432.034 0 9,24 108,28 571 Lemmatizer 12:59:40 432.034 0 9,24 108,28 888 Stemmer 12:59:40 432.034 0 9,24 108,28 49 Springer 12:59:40 602.122 170.088 12,87 77,69 7.601 → Fehlerquote: 28,25% → Speedup: 97,8 PDFUploader 00:24:14 40.125 0 27,60 36,24 414 PDFConverter 00:48:26 40.125 114 13,81 72,42 557 ParsCit 01:04:54 40.011 43 10,28 97,32 5.240 Tokenizer 01:05:59 39.968 0 10,10 99,05 659 POSTagger 01:05:59 39.968 0 10,10 99,05 834 Lemmatizer 01:05:59 39.968 0 10,10 99,05 1.150 Stemmer 01:05:59 39.968 0 10,10 99,05 64 PLosONE 01:05:59 40.125 157 10,14 98,67 8.918 → Fehlerquote: 0,39% → Speedup: 90,4 Schelp - Varlemann - Wilke 47
  • 68. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Übersicht Terme Korpus Dokumente Unikate Ø Terme Ø Unikate ECTEL 331 29.887 3.646 891 EdITLib 24.092 383.513 2.644 737 ICWL 424 31.950 3.144 807 PLosONE 39.968 2.398.936 5.546 1.263 Springer 432.034 12.062.250 4.036 902 Springer/Behavioral Science 71.123 2.044.854 4.844 1.068 Springer/Biomedical and Life Sciences 32.621 1.455.362 3.446 891 Springer/Business and Economics 53.821 2.079.857 5.543 1.129 Springer/Chemistry and Materials Science 66.091 1.746.941 2.088 582 Springer/Computer Science 34.640 1.885.056 6.060 1.114 Springer/Earth and Environmental Science 27.372 1.577.741 4.724 1.064 Springer/Engineering 23.745 800.269 2.835 679 Springer/Humanities, Social Sciences and Law 19.791 1.183.543 6.011 1.338 Springer/Mathematics and Statistics 32.381 1.835.413 3.477 719 Springer/Medicine 36.117 1.076.790 3.099 793 Springer/Physics and Astronomy 34.332 1.089.731 2.932 680 Zusammenfassung 496.849 13.852.836 4.089 923 Schelp - Varlemann - Wilke 48
  • 69. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - EDMEDIA Nomen Schelp - Varlemann - Wilke 49
  • 70. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung Verteilte Berechnung der paarweisen Ähnlichkeiten → MapReduce-Job in Hadoop Quadratisch zur Anzahl Dokumente → Sehr großer Speicherbedarf → SequenceFiles in HDFS pro Korpus/Ordner Einfluss der Parameterauswahl auf Verteilung Ziel: Identifizierung von auffälligen Paaren → Zu ähnlich ⇒ Plagiate? → Geringe Ähnlichkeit ⇒ Fach-/Korpusfremd? Konzept: Statistische Analyse → Finden von Ausreißern Schelp - Varlemann - Wilke 50
  • 71. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - kurze Wiederholung Wie wird die Proximität berechnet? 1. Festlegung Retrieval-Modell → Vector Space Model → Dokumente = Merkmalsvektoren 2. Merkmalsauswahl/-extraktion → Terme/Lemmas/Nomen... 3. Merkmalsgewichtung → Relative Termhäufigkeit (TF) → + inverse Dokumenthäufigkeit (TF-IDF) 4. Proximitätsbestimmung → Distanzmaße (Euklidische Distanz) → Ähnlichkeitsmaße (Kosinusähnlichkeit) Schelp - Varlemann - Wilke 51
  • 72. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Auswirkung Gewichtung Verteilung der Ähnlichkeiten (EDMEDIA, Terme, Cosinus) Ähnlichkeit (in %) AnzahlderDokumentpaare(inMio.) 0 10 20 30 40 50 60 70 80 90 100 012345678910 TF−IDF TF Schelp - Varlemann - Wilke 52
  • 73. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Verteilung Tanimoto Verteilung der Ähnlichkeiten (EDMEDIA, Terme, Tanimoto) Ähnlichkeit (in %) AnzahlderDokumentpaare(in100.000) 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 00.511.522.533.54 Schelp - Varlemann - Wilke 53
  • 74. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Statistische Analyse Ausreißerkandidat unterer Whisker oberer Whisker Median oberes Quartil unteres Quartil Ausreißerkandidat Ausreißerkandidat Schelp - Varlemann - Wilke 54
  • 75. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Gegenüberstellung Terme Lemmas Stämme Nomen Terme Lemmas Stämme Nomen Terme Lemmas Stämme Nomen 5 10 15 20 25 30 35 Boxplot der Ähnlichkeiten (Tanimoto) Ähnlichkeit(in%) EDMEDIA ECTEL ICWL Schelp - Varlemann - Wilke 55
  • 76. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Kombination Terme Tanimoto 863 (extrem) Terme Euklid TF 3047 (mild) Nomen Cosinus TF 3242 (mild) 211 97 Schelp - Varlemann - Wilke 56
  • 77. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Clusteranalyse durchgeführt → Statisches Clustering erstellt Neue Publikationen kommen hinzu → Clusteranalyse muss komplett neu gestartet werden Neues Dokument Bestehendes Clustering ? Schelp - Varlemann - Wilke 57
  • 78. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Bestehende Cluster werden durch neue Dokumente erweitert, indem diese mit Hilfe des gewählten Proximitätsmaßes den nächst gelegenen, zuvor berechneten Cluster- Schwerpunkten (Centroiden) zugeordnet werden. Neues Dokument Bestehendes Clustering 0.3 0.25 0.54 0.86 0.1 ! Schelp - Varlemann - Wilke 58
  • 79. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Vorteile Einfache Berechnung → Clusteranzahl entsprechend viele Berechnungen Stabil bei hinreichend großen Clustern → Änderungen durch Erweiterungen klein Nachteile Falsche Startparameter → Auswahl der Parameter zu Beginn der Clusteranalyse Probleme mit kleinen Clustern → Größerer Einfluss auf kleine Cluster Anzahl Fehler nimmt mit jeder Erweiterung zu → Qualität nimmt mit Fehlern ab Schelp - Varlemann - Wilke 59
  • 80. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Strategien zur Neuberechnung Manuelle Neuberechnung Kontinuierliche Neuberechnung → Fehleranzahl so gering wie möglich → Aber: Verbraucht die meisten Ressourcen Neuberechnung nach Zeit t Neuberechnung nach x neuen Dokumenten → Nach wie vielen? → Abschätzen! Schelp - Varlemann - Wilke 60
  • 81. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Abschätzung + ? ReferenzReferenz Dokument- menge Schelp - Varlemann - Wilke 61
  • 82. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Fehlerquote Tabelle: Gemessene Fehlerquote bei der dynamischen Erweiterung des Clusterings der EDMEDIA-Publikationen Publikationen Anteil Fehler Fehlerquote Trefferquote 10 0,13% 0 0,0% 100,0% 50 0,67% 3 6,0% 94,0% 100 1,35% 7 7,0% 93,0% 500 7,13% 46 9,2% 90,8% 1.000 15,36% 138 13,8% 86,2% 0 200 400 600 800 1000 020406080100120140 Fehlerhäufigkeit EDMEDIA Anzahl der neu hinzugefügten Publikationen AnzahlderFehler Schelp - Varlemann - Wilke 62
  • 83. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Livedemo Livedemo Startpunkt Schelp - Varlemann - Wilke 63
  • 84. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data: HBase Tabellen Größe Dokumenten Tabelle: 940GB Fuzzyset Tabellen: 690GB Schelp - Varlemann - Wilke 64
  • 85. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenhaltung Dokumentengraph Kandidaten Neo4j, eine Not only SQL (NoSQL) Graphdatenbank Titan, eine verteilte Graphdatenbank mit Verwendung von HBase als Backend MySQL, als Vertreter relationaler Datenbanken Auswahl Methode Benchmark Fokus Live-Berechnung Literaturempfehlungen Schelp - Varlemann - Wilke 65
  • 86. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Benchmark 1: Aufbau Netzwerk & Bibliometriken 1 10 100 1000 10000 100000 0 2 4 6 8 10 12 14 16 18 20 DurchschnittlicheZeitfürBerechnung(ms) Anzahl der Knoten im Netzwerk (Mio.) Bibliografische Kopplung MySQL Kozitation MySQL Bibliografische Kopplung Neo4j Kozitation Neo4j Bibliografische Kopplung Titan Kozitation Titan Schelp - Varlemann - Wilke 66
  • 87. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Benchmark 2: Parallele Anfragen Auswahl links: 10 Mio., rechts: 20 Mio. · Anfragen oben: 10 unten: 20 0 1000 2000 3000 4000 5000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 1000 2000 3000 4000 5000 6000 7000 8000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 500 1000 1500 2000 2500 3000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 500 1000 1500 2000 2500 3000 3500 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation Schelp - Varlemann - Wilke 67
  • 88. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ergebnisse: Demonstration des Frontends Schelp - Varlemann - Wilke 68
  • 89. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Vielen Dank für Ihre Aufmerksamkeit. Fragen? Schelp - Varlemann - Wilke 69
  • 90. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 70
  • 91. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 71
  • 92. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 72
  • 93. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 73
  • 94. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 74
  • 95. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 75
  • 96. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 76
  • 97. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 77
  • 98. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 78
  • 99. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 79
  • 100. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 80
  • 101. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 81
  • 102. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 82
  • 103. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 83
  • 104. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 84
  • 105. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 85