INSPIRE: Insight to Scientific Publications and References

1. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Nicolas Schelp CRITIC: Near Copy Detection in large text corpora Tobias Varlemann INSPIRE: Insight to Scientiﬁc Publications and References Adrian Wilke 27. Juni 2013 Schelp - Varlemann - Wilke 1

2. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Schelp - Varlemann - Wilke 2

3. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Datenhaltung in einer MySQL Datenbank → nicht verteilt → begrenzte Speicherkapazität → Zugriffszeiten Datenaufbereitung zentralisiert auf einem Server → nicht skalierend → lange Laufzeiten Ähnlichkeiten zwischen Publikationen nur aus Clusteranalyse abgeleitet Ergebnisse der Ähnlichkeitsbestimmung nicht interpretierbar → Welche Dokumente sind zu ähnlich? → Welche passen inhaltlich nicht zum Korpus? → Wann handelt es sich um Plagiate? Schelp - Varlemann - Wilke 3

4. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Clusteranalyse wurde vorberechnet → Bei neuen Dokumenten nicht erweiterbar Keine verteilte Berechnung des Dokumenten-Netzwerks (Publikationen und Referenzen) → lange Laufzeiten Relativ schlechte Datenqualität bei der Extraktion der Bibliometriken Vorschläge nur rudimentär aus der Clusteranalyse → Keine Empfehlungen anhand der Bibliometriken Schelp - Varlemann - Wilke 4

5. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - HCPA Computercluster 17 Slaves 96 Prozessorkerne 248GB Arbeitsspeicher 102TB Festplattenkapazität + Master (64GB RAM) + NAS (5,4TB) Schelp - Varlemann - Wilke 5

6. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Grundlagen Schelp - Varlemann - Wilke 6

7. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Schelp - Varlemann - Wilke 7

8. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Schelp - Varlemann - Wilke 7

9. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Schelp - Varlemann - Wilke 7

10. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Spezielle Frameworks für die Skalierung auf viele hundert Rechenkerne. Schelp - Varlemann - Wilke 7

11. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8

15. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Hadoop / MapReduce Reducer PhaseShuffle and SortMapper PhaseInputsplit Tasktrackernode 2 Tasktrackernode 1 Block A Map Block B Map Block C Map Block D Map Reduce Block A Reduce Block A K V K V K V K V Inputfile Outputfile Schelp - Varlemann - Wilke 9

16. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Storm Schelp - Varlemann - Wilke 10

17. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Schelp - Varlemann - Wilke 11

18. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Schelp - Varlemann - Wilke 11

19. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Lose Kopplung einzelner Komponenten Schelp - Varlemann - Wilke 11

20. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase verteilte Datenhaltung nicht-rational Terabytes – Petabytes Zeilen: Rowkeys Zeilen in Regionen zusammengefasst Schelp - Varlemann - Wilke 12

21. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase: Datenlokatität vs. Verteilung Schelp - Varlemann - Wilke 13

22. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Extraktion Metadaten Schelp - Varlemann - Wilke 14

23. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC: Near Copy Detection in large text corpora Schelp - Varlemann - Wilke 15

24. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki Schelp - Varlemann - Wilke 16

25. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de Schelp - Varlemann - Wilke 17

26. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18

31. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Ein Plagiat umfasst unter anderem die Unterlassung von geeigneten Quellenhinweisen bei der Verwendung der Formulierungen oder besonderen Wortwahl eines anderen, der Zusammenfassung der Argumente von anderen oder die Darstellung vom Gedankengang eines anderen. Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003) Schelp - Varlemann - Wilke 19

32. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesﬁndung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Schelp - Varlemann - Wilke 20

33. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesﬁndung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Formen von Textübernahmen Direkte Kopie Entfernen/Hinzufügen/Verändern von Worten Entfernen/Hinzufügen/Verändern von Sätzen Übersetzen von Texten Schelp - Varlemann - Wilke 20

34. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identiﬁkation der Autoren anhand unterschiedlicher Schreibstile Schelp - Varlemann - Wilke 21

35. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identiﬁkation der Autoren anhand unterschiedlicher Schreibstile Extrinsische Algorithmen Verwendung eines externen Korpus Suche nach Verweisen im Korpus Fuzzyset Schelp - Varlemann - Wilke 21

36. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22

40. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort Schelp - Varlemann - Wilke 23

41. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Schelp - Varlemann - Wilke 23

42. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23

43. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23

44. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Fuzzyset NCD ToolsMa pred Tools-Driver HBaseUser 5.4: writeNCDData 5.3: CalculateNCD 5.2: Data 5.1: getData 5: updateNCD 4: writeMISCData 3.1: Texts 3: getTexts2.6: MISC 2.5.3: writeWordnet 2.5.2: Texts POS Lemata 2.5.1: getTexts getPOS getLemata 2.5: Wordnet 2.4.3: writeLemata 2.4.2: Texts 2.4.1: getTexts 2.4: Lemmatize 2.3.3: writePOS 2.3.2: Texts 2.3.1: getTexts 2.3: POS 2.2.3: writeTexts 2.2.2: PDFs 2.2.1: getPDFs 2.2: PDF2TXT 2.1: 2: Preprocess PDFs 1: Upload PDFs Schelp - Varlemann - Wilke 24

45. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Calculate Fuzzyset NCD Similarity Write Results Choose Candidate Schelp - Varlemann - Wilke 25

46. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Job1_1 Job1_2 Job1_3 Job1_4 Job2_1 Job3_1 Job3_2 Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1 <<datastore>> Sentence Table <<datastore>> NewSentence Sequencefile <<datastore>> NewDocuments Sequencefile <<datastore>> sourceSentences BDB <<datastore>> WordLookup Table <<datastore>> Job1_3 SequenceFile <<datastore>> targetSentences BDB <<datastore>> Document Table <<datastore>> SentenceSim Sequencefile <<datastore>> DocSentSim Sequencefile <<datastore>> Block Sequencefile sentence <<datastore>> DocSim Table <<datastore>> SimDoc Table <<datastore>> DocDocBlock Table Job 4_2_2 <<datastore>> DocDocSim Sequencefile Calculate Prepare Write Lookup get write Schelp - Varlemann - Wilke 26

47. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos INSPIRE: Insight to Scientiﬁc Publications and References Verteilte Berechnung von Bibliometriken auf großen Datenmengen Schelp - Varlemann - Wilke 27

48. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos 5-Phasen-Modell XML JSON TupelPDF PDF, txt XML JSON Tupel PDF, txt Schreibender Zugriﬀ Lesender Zugriﬀ MySQL Konvertierung Extraktion Integration Deduplikation PräsentationDateisystem HBase 1 2 3 4 5 Schelp - Varlemann - Wilke 28

49. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 1: Konvertierung Eingabe > 650.000 PDF-Dateien Ziel Datenaufbereitung: Eingabeformat für Extraktion Ausgabe Volltexte Schelp - Varlemann - Wilke 29

50. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2: Extraktion Eingabe Datensätze als Volltexte und PDF Ziel Extraktion von Metadaten Berechnung Software: ParsCit, GROBID Ausgabe Metadaten in 3 XML-Formaten Auszug: GROBID Header <title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning </title> [...] <author> <persName> <forename type="first">Johannes</forename> <surname>Magenheim</surname> </persName> <affiliation> <orgName type="institution">University of Paderborn</orgName> <address><country key="DE">Germany</country></address> </affiliation> </author> Schelp - Varlemann - Wilke 30

51. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2→3: XML Felder zur Identiﬁkation Tabelle: ParCit 11 Mio. Ref. Schlüssel Anzahl % rawString 11.023.889 1,00 marker 11.023.889 1,00 context 10.695.648 0,97 author 10.523.513 0,95 date 10.378.402 0,94 title 9.361.532 0,85 pages 7.765.207 0,70 journal 6.838.383 0,62 volume 6.776.944 0,61 location 2.319.741 0,21 booktitle 1.519.236 0,14 publisher 1.354.680 0,12 issue 888.605 0,08 institution 359.638 0,03 note 318.288 0,03 editor 311.625 0,03 tech 146.817 0,01 Tabelle: GROBID 2 Mio. Ref. Schlüssel Anzahl % title 2.110.480 1,00 surname 1.897.603 0,90 date 1.894.521 0,90 forename 1.703.017 0,81 biblScope 1.683.384 0,80 publisher 209.928 0,10 pubPlace 143.760 0,07 address 90.667 0,04 editor 63.894 0,03 note 45.233 0,02 Schelp - Varlemann - Wilke 31

52. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration Eingabe Metadaten in 3 unterschiedlichen XML-Formaten Ziel Zusammenführung für jede Publikation Ausgabe Metadaten im JSON-Format Levenshtein-Distanz: Minimale Anzahl der Operationen Einfügen, Löschen und Ersetzen von Zeichen Schelp - Varlemann - Wilke 32

53. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration und Normalisierung 1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung 2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue) 3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue) und (u¨, ue) 4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“ 5. Entferne alle diakritischen Zeichen 6. Ersetze das Zeichen (ß, ss) 7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem Leerzeichen 8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette Schelp - Varlemann - Wilke 33

54. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration von Referenzen Schelp - Varlemann - Wilke 34

55. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 4: Deduplikation Eingabe Metadaten im JSON-Format Ziel Aufbau des Dokumenten-Netzwerks Ausgabe Graph der Publikationen und Referenzierungen Schelp - Varlemann - Wilke 35

56. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 5: Präsentation Eingabe Dokumenten-Netzwerk Ziel Berechnung vom Literaturempfehlungen Ausgabe Listen mit verlinkten Ergebnissen Schelp - Varlemann - Wilke 36

57. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie Bibliograﬁsche Kopplung (Kessler 1963) Fester Wert Im Beispiel: BK(A, B) = 3 Kozitation Small (1973) und Marshakova (1973) Wert wächst Im Beispiel: K(A, B) = 3 Z Y X A B Z Y X A B Schelp - Varlemann - Wilke 37

58. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Distanz von Zitationen In-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009) Citation Proximity Analysis (CPA) Gipp & Beel (2009) Distanz-Klasse Gewichtung Gleiches Dokument 1 Gleicher Abschnitt 2 Gleicher Absatz 3 Gleicher Satz 4 Gleiche Markierung [1,2] 5 Schelp - Varlemann - Wilke 38

59. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Beipiel zur Distanz von Zitationen Schelp - Varlemann - Wilke 39

60. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Identiﬁkation von Grundähnlichkeiten und Implementierung eines Algorithmus für dynamisch erweiterbare Clusterings Schelp - Varlemann - Wilke 40

61. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ziele Datenaufbereitung → Flexibles Echtzeitsystem Ähnlichkeitsbestimmung → Einﬂuss der Parameter → Identiﬁkation von Ausreißern Erweiterbare Clusterings → Hinzufügen von neuen Publikationen ohne Neuberechnung Schelp - Varlemann - Wilke 41

62. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Anforderungen Berechnungen in Echtzeit Skalierbar Ausgelegt für größere Datenmengen Verteilt auf einem Computercluster Austauschbare Komponenten in der Verarbeitungskette Verarbeitungsprozess beliebig erweiterbar Schelp - Varlemann - Wilke 42

63. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Konzept Verteilte Berechnungen in Echtzeit auf dem Computercluster → Storm Projekt Verarbeitungsschritte sind unterschiedliche, voneinander abhängige Aufgaben → Jeweils eine Topologie in Storm Kommunikation untereinander wird benötigt → ActiveMQ Topics → Publisher/Subscriber Modell Schelp - Varlemann - Wilke 43

64. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Bus Konzept «component» ActiveMQ «component» PDFUploader Topologie «component» PDFConverter Topologie «component» ParsCit Topologie «component» HBase Nachrichten verschicken/empfangen Datenbankzugriff Nachrichten verschicken/empfangen Nachrichten verschicken/empfangen ... Datenbankzugriff Datenbankzugriff Weitere Topologien Schelp - Varlemann - Wilke 44

65. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Topologieaufbau «component» Spout «component» Bolt «component» ActiveMQ «component» HBase 1: benachrichtigt 7: bestätigt 2: leitet Nachricht weiter 3: prüft/holt Eingabefelder 4: beantwortet 5: verarbeitet 6: bestätigt Schelp - Varlemann - Wilke 45

66. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Vernetzung Schelp - Varlemann - Wilke 46

67. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Laufzeiten Topologie Laufzeit Dokumente Fehler Geschwindigkeit Geschwindigkeit Bolt Latenz hh:mm:ss Dokumente / s ms / Dokument ms PDFUploader 04:53:19 602.122 383 34,21 29,23 234 PDFConverter 12:59:25 601.739 5.310 12,87 77,72 522 ParsCit 12:59:35 596.429 163.824 12,75 78,43 4.909 Tokenizer 12:59:40 432.605 571 9,25 108,14 428 POSTagger 12:59:40 432.034 0 9,24 108,28 571 Lemmatizer 12:59:40 432.034 0 9,24 108,28 888 Stemmer 12:59:40 432.034 0 9,24 108,28 49 Springer 12:59:40 602.122 170.088 12,87 77,69 7.601 → Fehlerquote: 28,25% → Speedup: 97,8 PDFUploader 00:24:14 40.125 0 27,60 36,24 414 PDFConverter 00:48:26 40.125 114 13,81 72,42 557 ParsCit 01:04:54 40.011 43 10,28 97,32 5.240 Tokenizer 01:05:59 39.968 0 10,10 99,05 659 POSTagger 01:05:59 39.968 0 10,10 99,05 834 Lemmatizer 01:05:59 39.968 0 10,10 99,05 1.150 Stemmer 01:05:59 39.968 0 10,10 99,05 64 PLosONE 01:05:59 40.125 157 10,14 98,67 8.918 → Fehlerquote: 0,39% → Speedup: 90,4 Schelp - Varlemann - Wilke 47

68. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Übersicht Terme Korpus Dokumente Unikate Ø Terme Ø Unikate ECTEL 331 29.887 3.646 891 EdITLib 24.092 383.513 2.644 737 ICWL 424 31.950 3.144 807 PLosONE 39.968 2.398.936 5.546 1.263 Springer 432.034 12.062.250 4.036 902 Springer/Behavioral Science 71.123 2.044.854 4.844 1.068 Springer/Biomedical and Life Sciences 32.621 1.455.362 3.446 891 Springer/Business and Economics 53.821 2.079.857 5.543 1.129 Springer/Chemistry and Materials Science 66.091 1.746.941 2.088 582 Springer/Computer Science 34.640 1.885.056 6.060 1.114 Springer/Earth and Environmental Science 27.372 1.577.741 4.724 1.064 Springer/Engineering 23.745 800.269 2.835 679 Springer/Humanities, Social Sciences and Law 19.791 1.183.543 6.011 1.338 Springer/Mathematics and Statistics 32.381 1.835.413 3.477 719 Springer/Medicine 36.117 1.076.790 3.099 793 Springer/Physics and Astronomy 34.332 1.089.731 2.932 680 Zusammenfassung 496.849 13.852.836 4.089 923 Schelp - Varlemann - Wilke 48

69. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - EDMEDIA Nomen Schelp - Varlemann - Wilke 49

70. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung Verteilte Berechnung der paarweisen Ähnlichkeiten → MapReduce-Job in Hadoop Quadratisch zur Anzahl Dokumente → Sehr großer Speicherbedarf → SequenceFiles in HDFS pro Korpus/Ordner Einﬂuss der Parameterauswahl auf Verteilung Ziel: Identiﬁzierung von auffälligen Paaren → Zu ähnlich ⇒ Plagiate? → Geringe Ähnlichkeit ⇒ Fach-/Korpusfremd? Konzept: Statistische Analyse → Finden von Ausreißern Schelp - Varlemann - Wilke 50

71. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - kurze Wiederholung Wie wird die Proximität berechnet? 1. Festlegung Retrieval-Modell → Vector Space Model → Dokumente = Merkmalsvektoren 2. Merkmalsauswahl/-extraktion → Terme/Lemmas/Nomen... 3. Merkmalsgewichtung → Relative Termhäuﬁgkeit (TF) → + inverse Dokumenthäuﬁgkeit (TF-IDF) 4. Proximitätsbestimmung → Distanzmaße (Euklidische Distanz) → Ähnlichkeitsmaße (Kosinusähnlichkeit) Schelp - Varlemann - Wilke 51

72. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Auswirkung Gewichtung Verteilung der Ähnlichkeiten (EDMEDIA, Terme, Cosinus) Ähnlichkeit (in %) AnzahlderDokumentpaare(inMio.) 0 10 20 30 40 50 60 70 80 90 100 012345678910 TF−IDF TF Schelp - Varlemann - Wilke 52

73. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Verteilung Tanimoto Verteilung der Ähnlichkeiten (EDMEDIA, Terme, Tanimoto) Ähnlichkeit (in %) AnzahlderDokumentpaare(in100.000) 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 00.511.522.533.54 Schelp - Varlemann - Wilke 53

74. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Statistische Analyse Ausreißerkandidat unterer Whisker oberer Whisker Median oberes Quartil unteres Quartil Ausreißerkandidat Ausreißerkandidat Schelp - Varlemann - Wilke 54

75. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Gegenüberstellung Terme Lemmas Stämme Nomen Terme Lemmas Stämme Nomen Terme Lemmas Stämme Nomen 5 10 15 20 25 30 35 Boxplot der Ähnlichkeiten (Tanimoto) Ähnlichkeit(in%) EDMEDIA ECTEL ICWL Schelp - Varlemann - Wilke 55

76. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Kombination Terme Tanimoto 863 (extrem) Terme Euklid TF 3047 (mild) Nomen Cosinus TF 3242 (mild) 211 97 Schelp - Varlemann - Wilke 56

77. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Clusteranalyse durchgeführt → Statisches Clustering erstellt Neue Publikationen kommen hinzu → Clusteranalyse muss komplett neu gestartet werden Neues Dokument Bestehendes Clustering ? Schelp - Varlemann - Wilke 57

78. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Bestehende Cluster werden durch neue Dokumente erweitert, indem diese mit Hilfe des gewählten Proximitätsmaßes den nächst gelegenen, zuvor berechneten Cluster- Schwerpunkten (Centroiden) zugeordnet werden. Neues Dokument Bestehendes Clustering 0.3 0.25 0.54 0.86 0.1 ! Schelp - Varlemann - Wilke 58

79. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Vorteile Einfache Berechnung → Clusteranzahl entsprechend viele Berechnungen Stabil bei hinreichend großen Clustern → Änderungen durch Erweiterungen klein Nachteile Falsche Startparameter → Auswahl der Parameter zu Beginn der Clusteranalyse Probleme mit kleinen Clustern → Größerer Einﬂuss auf kleine Cluster Anzahl Fehler nimmt mit jeder Erweiterung zu → Qualität nimmt mit Fehlern ab Schelp - Varlemann - Wilke 59

80. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Strategien zur Neuberechnung Manuelle Neuberechnung Kontinuierliche Neuberechnung → Fehleranzahl so gering wie möglich → Aber: Verbraucht die meisten Ressourcen Neuberechnung nach Zeit t Neuberechnung nach x neuen Dokumenten → Nach wie vielen? → Abschätzen! Schelp - Varlemann - Wilke 60

81. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Abschätzung + ? ReferenzReferenz Dokument- menge Schelp - Varlemann - Wilke 61

82. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Fehlerquote Tabelle: Gemessene Fehlerquote bei der dynamischen Erweiterung des Clusterings der EDMEDIA-Publikationen Publikationen Anteil Fehler Fehlerquote Trefferquote 10 0,13% 0 0,0% 100,0% 50 0,67% 3 6,0% 94,0% 100 1,35% 7 7,0% 93,0% 500 7,13% 46 9,2% 90,8% 1.000 15,36% 138 13,8% 86,2% 0 200 400 600 800 1000 020406080100120140 Fehlerhäufigkeit EDMEDIA Anzahl der neu hinzugefügten Publikationen AnzahlderFehler Schelp - Varlemann - Wilke 62

83. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Livedemo Livedemo Startpunkt Schelp - Varlemann - Wilke 63

84. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data: HBase Tabellen Größe Dokumenten Tabelle: 940GB Fuzzyset Tabellen: 690GB Schelp - Varlemann - Wilke 64

85. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenhaltung Dokumentengraph Kandidaten Neo4j, eine Not only SQL (NoSQL) Graphdatenbank Titan, eine verteilte Graphdatenbank mit Verwendung von HBase als Backend MySQL, als Vertreter relationaler Datenbanken Auswahl Methode Benchmark Fokus Live-Berechnung Literaturempfehlungen Schelp - Varlemann - Wilke 65

86. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Benchmark 1: Aufbau Netzwerk & Bibliometriken 1 10 100 1000 10000 100000 0 2 4 6 8 10 12 14 16 18 20 DurchschnittlicheZeitfürBerechnung(ms) Anzahl der Knoten im Netzwerk (Mio.) Bibliografische Kopplung MySQL Kozitation MySQL Bibliografische Kopplung Neo4j Kozitation Neo4j Bibliografische Kopplung Titan Kozitation Titan Schelp - Varlemann - Wilke 66

87. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Benchmark 2: Parallele Anfragen Auswahl links: 10 Mio., rechts: 20 Mio. · Anfragen oben: 10 unten: 20 0 1000 2000 3000 4000 5000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 1000 2000 3000 4000 5000 6000 7000 8000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 500 1000 1500 2000 2500 3000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 500 1000 1500 2000 2500 3000 3500 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation Schelp - Varlemann - Wilke 67

88. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ergebnisse: Demonstration des Frontends Schelp - Varlemann - Wilke 68

89. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Vielen Dank für Ihre Aufmerksamkeit. Fragen? Schelp - Varlemann - Wilke 69

90. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 70

INSPIRE: Insight to Scientific Publications and References

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (19)

Mehr von Adrian Wilke

Mehr von Adrian Wilke (11)

INSPIRE: Insight to Scientific Publications and References