Das Dokument behandelt Grundlagen und Techniken der Near Copy Detection (NCD) zur Erkennung von Ähnlichkeiten zwischen wissenschaftlichen Publikationen und Plagiaten. Es beschreibt die Herausforderungen bei der Verarbeitung großer Datenmengen, die notwendigen Technologien wie Hadoop und HBase sowie den Einsatz von Bibliometriken zur Verbesserung der Analyse und den Umgang mit den gewonnenen Daten. Zudem werden verschiedene Ansätze zur Textübernahme und die Differenzierung zwischen Plagiaterkennung und NCD erläutert.