Thesaurusvisualisierung mit ICE-Map und SEMTINEL

Thesauruspflege mit ICE-Map und Semtinel

Thesaurusvisualisierung mit
ICE-Map und SEMTINEL

Kai Eckert
Universitätsbibliothek
Universität Mannheim

PETRUS-Workshop
Deutsche Nationalbibliothek
21. März 2011
Frankfurt

ZBW Workshop, Hamburg, 10. März 2011


Forschungsschwerpunkte

● Effizienzsteigerung bei der Thesauruspflege in
Bibliotheken.
● Entwicklung von Werkzeugen und Prozessen, um
alternative Methoden der Verschlagwortung nutzbar zu
machen, ohne die Qualität zu gefährden.
● Durch bestmögliche Automatisierung den Menschen beim
Aufbau, der Pflege und der Nutzung eines Thesaurus zu
unterstützen.
● Dadurch den Einsatz thesaurusbasierter
Suchanwendungen auch in Bereichen ermöglichen, in
denen das bislang zu aufwändig ist.

Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 2/27


Visual Datamining

Cholera-Ausbruch 1854.
John Snow entdeckt die
Ursache durch Daten-
visualisierung.
Motivation für uns:
„Ich will das sehen!“



ICE-Map Visualisierung

● Motivation: „Ich will das sehen!“
● Wie sieht denn der Thesaurus eigentlich aus?
● Welche Begriffe wurden denn zugewiesen?
● Gibt es Bereiche, die hauptsächlich verwendet wurden?
● Wie unterscheiden sich die Zuweisungen, wenn
verschiedene Verfahren zum Einsatz kommen
(Intellektuell, Automatisch, Tagging, ...)?



Wo setzen wir an?



Wie visualisiere ich einen Thesaurus?



Slice and Dice Algorithmus



Squarified Layout



Intuitive Identifikation von problematischen
Konzepten
● Sehr hohe Anzahl Zuordnungen:
– Zu allgemein – sollte aufgeteilt werden
– Nicht signifikant
– Fehlerhafte Zuweisungen
● Sehr geringe Anzahl Zuordnungen:
– Zu spezialisiert – sollte mit anderen Begriffen
zusammengeführt werden
– Fehlende Synonyme
– Nicht signifikant
– Fehlende Zuweisungen



Berücksichtigung der Thesaurus-Hierarchie

● Hohe Anzahl Höher in der Hierarchie
– Allgemeinere Begriffe
● Niedrige Anzahl Niedriger in der Hierarchie
– Speziellere Konzepte



IC Differenz Analyse
Intrinsischer Informationsgehalt:
Informationsgehalt: ● Vorgestellt von Seco, Veale und Hayes
● Vorgestellt von Resnik
● Basiert auf der Anzahl der Unterbegriffe
● Basiert auf der Auftrittswahrscheinlichkeit Alternativ: Referenzset IC
in der Dokumentenbasis ● z.B. Manuell vergebene Schlagwörter

IC c=−log P c IIC c=−log
max 
hypoc1

D IC c= IC c− IIC c
Intuitiv: Ein Wert zwischen -1 und 1, der angibt, ob
ein Begriff eine auffällige Häufigkeit hat bezüglich seiner
Position im Thesaurus oder im Vergleich zur Referenz.


Anwendungen der ICE-Map Analyse



Begrifflichkeiten

● IC Differenz Analyse: Das statistische Framework zur
Berechnung der IC Differenz eines Konzepts.
● ICE-Map Visualisierung: Die Visualierung der IC
Differenz Analyse mittels einer Treemap, plus
Navigationsunterstützung (Treeview, Rootline)
● SEMTINEL: Die Plattform zur Entwicklung und Nutzung
von Analysen und Visualisierungen, also der ganze Rest.

“Sorry für die Verwirrung ;-)”



SEMTINEL ist...
– Eine Plattform zur Entwicklung eigener Anwendungen
● Integration in thesaurusbasierte Suchanwendungen
– Eine erweiterbare Anwendung, für die man eigene
Module entwickeln kann
● Analysen, Visualisierungen, Import-/Exportfilter, Editoren,
…
– Eine Anwendung zur Entwicklung von Analysen
● Entwicklung zur Laufzeit, noch nicht realisiert.
– Eine Anwendung zum Experimentieren
● Kombination von vorhandenen Analysen und
Visualisierungen
– Ein Werkzeug für Thesaurus-Ersteller und -Nutzer
● Einsatz der Werkzeuge, die von anderen entwickelt
wurden



Netbeans Platform



SEMTINEL Architektur



SEMTINEL Datenmodell



Experiment API

Configuration

Visualizations/
Datasets Output Analyses



Konfiguration eines Experiments

Drag and Drop Support.
Erweiterbares Datenmodell.
Mehrfachauswahl möglich.
Register und Register Set.



Hierarchische Analysen



Explanation API

● Jede Analyse liefert Informationen:
– Was wird in der Analyse gemacht?
– Auf welchen Analysen baut sie auf?
– Was sind die Eingabewerte?
– Welche Zwischenergebnisse wurden berechnet?
– Welches Ergebnis wird zurückgegeben?



Gruppierung von Experimenten

Group Management



Vielen Dank.

http://www.semtinel.org

Fragen und Anregungen:

eckert@bib.uni-mannheim.de


Thesaurusvisualisierung mit ICE-Map und SEMTINEL

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Kai Eckert

Mehr von Kai Eckert (14)

Thesaurusvisualisierung mit ICE-Map und SEMTINEL