2. Datengrundlage
‣ Gela: 1.273 Datensätze
‣ Bergemann: 275 Datensätze
‣ Sind nicht Teil der Primärdaten!
‣ Perspektive: Collection Level Description gemäß DCCAP
3. Indexierung
‣ Sprachenprofil laut Katalogisierung:
‣ Italienisch: 1.221, Englisch: 203, Deutsch: 118, Französisch: 73...
‣ Momentan: Deutsches Stemming für alle Textfelder
‣ Perspektive: Automatisierte Bestimmung der Sprachen für
‣ Titel, Paralleltitel, Abstract
‣ Perspektive: Stopwords?
4. Indexierung
‣ Verwendung der Hyperonyme/Hyponyme aus dem Thesaurus als
Synonyme
‣ Baustoff => Ziegel, Holz, Stein, Kies, Mörtel, Glas, Opus
Caementitium, Lehm, Ton, Sand