SlideShare ist ein Scribd-Unternehmen logo
1 von 55
Downloaden Sie, um offline zu lesen
VZG Projekt Colibri/DDC     38. Deutscher Bibliothekartag, Erfurt

                                                                                                          Fundy-Nationalpark
                                                                                                            ul, 25. Mai 2008




                                                          Für eilige Leser

                                              Ulrike Reiner
                                 Automatische DDC-Klassifizierung von
                                   bibliografischen Titeldatensätzen

                                                             Version: Lite
VZG




                          Verbundzentrale des GBV (VZG)          38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 1)
Automatische DDC-Klassifizierung von
                            bibliografischen Titeldatensätzen
VZG Projekt Colibri/DDC

                                             - Inhalt des Vortrages -                                   Fundy-Nationalpark
                                                                                                          ul, 25. Mai 2008




                                 DDC System, Bibliografische Titeldatensätze

                                                          OCLC classify

                               VZG Colibri/DDC (Klassifizierungskomponente,
                                  Wettbewerb, Ergebnisse und Bewertung)
VZG




                          Verbundzentrale des GBV (VZG)        38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 2)
VZG Projekt Colibri/DDC        Colibri/DDC - Forschungsfrage Q1
                                                                                                   Fundy-Nationalpark
                                                                                                     ul, 25. Mai 2008




                                 Ist es möglich, eine inhaltlich stimmige
                          DDC-Titelklassifikation aller GVK-PLUS-Titeldatensätze
                                         automatisch zu erzielen?
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 3)
VZG Projekt Colibri/DDC      Dewey-Dezimalklassifikation (DDC)
                                               Mini-DDC-Ausschnitt
                                                                                                   Fundy-Nationalpark
                                                                                                     ul, 25. Mai 2008




                          Ebene
                           1. 000 (Informatik, ...) ...
                                      ...
                           2. ...     020 (Bibliotheks- und Informationswissen. ...) ...
                                     ...
                           3. ... 006 (Spezielle Computerverfahren) ...
                                      ...
                              ...
                                      ...
                          12. ... 025.302855741 (Einsatz von Dateiorganisation ...)
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 4)
DDC-Klassifzierung:
                                        ein Thema (Kleidung)–
VZG Projekt Colibri/DDC

                                        mehrere Systemstellen !                                    Fundy-Nationalpark
                                                                                                     ul, 25. Mai 2008




                                Kleidung wird z. B. abgehandelt in Psychologie,
                                            Ethnologie und Künste
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 5)
VZG Projekt Colibri/DDC                   DDC-Klassifzierung:
                                        ein Thema (Der Apfel) –
                                         welche Systemstelle?                                      Fundy-Nationalpark
                                                                                                     ul, 25. Mai 2008




                          DNB-Titeldatensatz DNB984784829 im MAB2-Format
                          ...
                          026 DNB984784829
                          ...
                          037bger
                          ...
                          331 Der Apfel
                          ...
                          540aISBN 978-3-938793-62-6 Pp. : EUR 98.00
                          540aISBN 3-938793-62-7 Pp. : EUR 98.00
                          ...
                          700 |100ÎDNB
                          705a a110 c110 eDDC22ger
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 6)
VZG Projekt Colibri/DDC        Intellektuelle DDC-Klassifizierung
                                         Der Apfel: 110 (Metaphysik)
                                                                                                   Fundy-Nationalpark
                                                                                                     ul, 25. Mai 2008




                                             Aleksandar Kellenberg:
                                         Metaphysische Untersuchungen –
                                               Erster Teil: Der Apfel
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 7)
OCLC Classify
                            (an experimental classification web service)
VZG Projekt Colibri/DDC
                                       Der Apfel {372.133}                                          Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                    Jockweg, Bernd:
                                                       Der Apfel
                                             DDC Klasse: 372.133 (100%)
                                          (Unterrichtsmaterialien-Primärbildung)
VZG




                          Verbundzentrale des GBV (VZG)    38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 8)
VZG Projekt Colibri/DDC       Intellektuelle DDC-Klassifizierung
                                 Mitt liv, min frihet : {297,...,920.72}
                                                                                                     Fundy-Nationalpark
                                                                                                       ul, 25. Mai 2008




                          Mitt liv, min frihet : en selvbiografi / Ayaan Hirsi Ali ;
                                        oversatt av Poul Henrik Poulsen
                          DDC Classification: 297, 305.486, 305.486092, 305.48697,
                                             305.486971092, 920.0092, 920.72

                          Beispiel aus: [ http://www.onb.ac.at/events/files/rype.ppt ], p. 8
VZG




                          Verbundzentrale des GBV (VZG)     38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 9)
OCLC Classify
VZG Projekt Colibri/DDC       Mein Leben, meine Freiheit : {324.2092}
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                            Hirsi Ali, Ayaan: Mein Leben, meine Freiheit
                                             (Holdings: 1)
                          DDC Klasse: 324.2092 (100%) (Politiker--Biografien )
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 10)
OCLC Classify
VZG Projekt Colibri/DDC            The caged virgin - an emancipation
                                   proclamation for women and Islam                                 Fundy-Nationalpark
                                         {297.082,...,922.97}                                         ul, 25. Mai 2008




                            Hirsi Ali, Ayaan: The caged virgin – an emancipation
                            proclamation for women and Islam (Holdings: 1.407)
                             DDC Klassen: 297.082 (88.91%), 305.48697(6.68%),
                                       922.97 (3.55%), Unclassified (4.41%)
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 11)
Initiative Colibri/DDC-Wettbewerb (Juni 2009)
                           Ziel: bester automatischer DDC-Klassifizierer
VZG Projekt Colibri/DDC
                            für bibliografische Titeldatensätze gesucht                             Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008



                                            Start                                           Ziel ☺

                          System
                          Colibri/DDC

                          System X                        ???



                          System Y                                ???



                          System Z
VZG




                                                                                         TOP-System?


                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 12)
Initiative Colibri/DDC-Wettbewerb (Juni 2009)
                           Ziel: bester automatischer DDC-Klassifizierer
VZG Projekt Colibri/DDC
                            für bibliografische Titeldatensätze gesucht                             Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                        Systemtest
                                             Modell / Beschreibung des Systems
                                                 Zu testende Hypothesen
                                              Bewertungskriterien und –maße
                                               Daten ermitteln und bewerten
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 13)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (1)
                                             Colibri/DDC-Modell (1)
                                                                                                       Fundy-Nationalpark
                                                                                                         ul, 25. Mai 2008




                          Pica+ : {..., 021A, ..., 044K, ...}; MAB2: {..., 310, ..., 410, ...}
                                                   {Apfel, Apfelbeere, Aronia}

                                                634:= {..., <021A>-aronia, ...}

                           DNB991499077 := {..., <331>-aronia, <902s>-aronia, ...}

                            vc_DB := {000, 006.31, 025.302855741, 634 , ..., 999.23}
VZG




                          Verbundzentrale des GBV (VZG)      38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 14)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (2)
                                             Colibri/DDC-Modell (2)
                                                                                                        Fundy-Nationalpark
                                                                                                          ul, 25. Mai 2008




                                                          IR-Komponente
                                          Vektorprodukt als Ähnlichkeitsmaß

                          DDC-Notationskandidat(en): DDC-Klasse mit größtem
                                          Ähnlichkeitswert
VZG




                          Verbundzentrale des GBV (VZG)       38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 15)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (3)
                                             Colibri/DDC-Modell (3)
                                                                                                        Fundy-Nationalpark
                                                                                                          ul, 25. Mai 2008




                                                          KI-Komponente

                                           Heuristische Funktion
                          Obergrenze für Berücksichtigung von Häufigkeitswerten von
                          Deskriptorwerten, Wert wird zur Laufzeit durch heuristische
                                         Regeln dynamisch bestimmt
VZG




                          Verbundzentrale des GBV (VZG)       38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 16)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (4)
                                             Colibri/DDC-Modell (4)
                                                                                                        Fundy-Nationalpark
                                                                                                          ul, 25. Mai 2008




                                                          KI-Komponente

                          Heuristische Regel, z. B. Berücksichtigung spezifischer
                                                  Begriffe
                          Wenn Differenz zwischen zwei Häufigkeitswerten größer als
                          „200“ dann cutoff_val_dyn := kleinerer Wert der beiden
                                              Häufigkeitswerte
VZG




                          Verbundzentrale des GBV (VZG)       38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 17)
Automatische DDC-Klassifizierung (5)
                                        VZG Colibri/DDC-Suchsystem
VZG Projekt Colibri/DDC

                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                              DDC-basierte Anfragen -> DDC-Suchsystem ->
                                        DDC-basierte Antworten
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 18)
Automatische DDC-Klassifizierung (6)
                          Softwaresystem-Architektur DDC-Suchsystem
VZG Projekt Colibri/DDC

                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                   Eingabedaten -> DDC-Suchsystem mit
                                 Systemkomponenten (DDC-Klassifizierung,
                                Frage-Beantwortung, DDC-Notationssynthese
                                      und –Analyse) -> Ausgabedaten
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 19)
Automatische DDC-Klassifizierung (7)
                          Standard-Testbestände: Information Retrieval
VZG Projekt Colibri/DDC

                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                            Cranfield, TREC, GOV2, CLEF, Reuters-21578, RCV1,
                                             20 NEWSGROUPS
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 20)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (8)
                                  Colibri/DDC-Systemtest: Testbestände
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                       DDC-Daten-/Wissensbasis 2004/2008
                                        DNB-DDC-Testbestände 2007/2009

                                                Andere Testbestände? Z. B.
                                               100.000 BASE-Titeldatensätze
                                              426.254 NORBOK-Titeldatensätze
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 21)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (9)
                                             Colibri/DDC-Systemtest
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                              Kriterium für Tests/Experimente: Wiederholbarkeit!
                                Verwendete Hard- und Software: 2.2 GHz, 16GB
                               Hauptspeicher. SuSE Linux Enterprise 10, gawk-3.1.5,
                                         ca. 1.250 Zeilen Programmcode.
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 22)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (10)
                                                     Eingabedaten
                                                                                                      Fundy-Nationalpark
                                                                                                        ul, 25. Mai 2008




                               DDC-System 2004: Elektronische Form als XML-Datei
                             DDC-Daten-Wissensbasis 2004: 3,0 Mio. Titeldatensätze
                             DDC-Daten-Wissensbasis 2008: 4,3 Mio. Titeldatensätze
                              DNB-DDC-Testbestand 2007: 25.653 Titeldatensätze
                              DNB-DDC-Testbestand 2009: 30.717 Titeldatensätze
VZG




                          Verbundzentrale des GBV (VZG)     38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 23)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (11)
                                            Datenkonvertierung (1)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                               Datenkonvertierung
                             Eliminierung: irrelevante Deskriptorwerte, Sonderzeichen
                                 Deskriptorwerte: Transliterierung, Kleinschreibung

                                        Berücksichtigte MAB2-Felder
                          026, 037, 100, 310, 331, 335, 341, 370, 410, 412, 451, 540,
                                 542, 700, 705, 902/12/22 s/g, 907/17/27 s/g
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 24)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (12)
                                            Datenkonvertierung (2)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                    Berücksichtigte Pica+ - Kategorien
                           001A, 003@, 004A, 004B, 004D, 005A, 006G, 006L, 006Y,
                          007G, 021A, 022A/01, 027D, 028A, 028B, 028C, 028E, 033A,
                           036C, 039B, 041A, 044A, 044C, 044E, 044F, 044G, 044K,
                            044L, 045A, 045F, 045Q, 045U,144Z/244Z, 145Z/245Z
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 25)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (13)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                   Erstellung der (invertierten) DDC-Daten-/
                               Wissensbasis aus Daten des DDC-Systems und aus
                                           GVK-DDC-Titeldatensätzen

                            Größe der invertierten DDC-Daten-/Wissensbasis
                          2004 (510 MB): ca. 3 Min. Einlesezeit in den Hauptspeicher
                          2008 (712 MB): ca. 5 Min. Einlesezeit in den Hauptspeicher
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 26)
VZG Projekt Colibri/DDC        Intellektuelle DDC-Klassifizierung
                                         Der Apfel: 110 (Metaphysik)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                          Aleksandar Kellenberg: Metaphysische Untersuchungen –
                                            Erster Teil: Der Apfel
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 27)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (14)
                                Der Apfel: {334.683411, ... ,391.0092}
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                          correlation(dnb_A0745_DNB0984784829#ger#dno_i{1
                          10}#dno_a{M300,D330,S338,s334.683411,s338.108,s
                          338.10942,s338.13,s338.17411,s343.73084,s391.0092
                          }#consi: 2#matched: 1,1{apfel}): 00x.xxx xxx xxx xxx
                          (0)
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 28)
Automatische DDC-Klassifizierung (15)
                                           ?
VZG Projekt Colibri/DDC

                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                       Petra Neumayer; Birgit Funfack: Aronia –
                                         Powerbiostoffe aus der Apfelbeere
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 29)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (16)
                          Powerbiostoffe aus der Apfelbeere : {615.321}
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                          correlation(dnb_A0912_DNB0991499077#ger#dno_i{
                          615.32373}#dno_a{M600,D610,S61,s615.321}#consi:
                          11#matched: 2,2{naturheilmittel, vitalitaet}):
                          111.110 00x xxx xxx (0.625)
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 30)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (17)
                                                     Bewertung (1)
                                                                                                      Fundy-Nationalpark
                                                                                                        ul, 25. Mai 2008




                                                  Projekt Colibri/DDC
                                             Korrelationsmaße C, CP und CN

                          Stellenweiser Ziffernvergleich von links nach rechts zwischen
                          intellektuell vergebener (dno_i) und automatisch ermittelter
                                              DDC-Notation (dno_a)
VZG




                          Verbundzentrale des GBV (VZG)     38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 31)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (18)
                                                     Bewertung (2)
                                                                                                       Fundy-Nationalpark
                                                                                                         ul, 25. Mai 2008




                                                      Projekt Colibri/DDC
                          dno_i = 158.1 (Persönliche Weiterentwicklung und Analyse)
                                   dno_a = 158 (Angewandte Psychologie)

                             CP = 111.0xx xxx xxx xxx; CN = (1+1+1+0)/4 = 0.75
VZG




                          Verbundzentrale des GBV (VZG)      38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 32)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (19)
                                                     Bewertung (3)
                                                                                                      Fundy-Nationalpark
                                                                                                        ul, 25. Mai 2008




                                           Projekt Scorpion/DDC
                              Bewertungsmaße H (=S1), T(=S2), O (=S3), G (=S4),
                                    Sp (=S4), Co (=S5), Sy (=S6), B (=S7),
                                         E (=S8), Cl (=S9), R (=S10)
VZG




                          Verbundzentrale des GBV (VZG)     38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 33)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (20)
                                                     Bewertung (4)
                                                                                                       Fundy-Nationalpark
                                                                                                         ul, 25. Mai 2008




                                                      Projekt Pfeffer/RVK
                            Vergleich der automatischen und manuellen Klassifikation
                          Suche des nächsten gemeinsamen Vaterknoten im RVK-Baum
                                      Bewertungsmaß: perfekt (=P1), gut (=P2),
                                            mäßig (=P3), schlecht (=P3)
VZG




                          Verbundzentrale des GBV (VZG)      38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 34)
VZG Projekt Colibri/DDC    Automatische DDC-Klassifizierung (21)
                                                      Bewertung (5)
                                                                                                       Fundy-Nationalpark
                                                                                                         ul, 25. Mai 2008




                          Colibri/DDC                                 Scorpion/DDC      Pfeffer/RVK
                          -------------------------------------------------------------------------
                          Bsp.dno_i      dno_a   CP          C CN     S1 S2 S3 S4 S8 S9 S10   P
                          -------------------------------------------------------------------------
                          14. 111.8      110     110.0       2 0.50 x x                 x     P2
                          15. 571.5929   571     111.0000    3 0.43 x x x Sp         x x      P3
                          16. 111.85     110     110.00      2 0.40 x x                 x     P2



                                Vergleichende Betrachtung mit unterschiedlichen
                                              Bewertungsmaßen
VZG




                           Verbundzentrale des GBV (VZG)     38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 35)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (22)
                                                    Bewertung (6)
                                                                                                        Fundy-Nationalpark
                                                                                                          ul, 25. Mai 2008




                                       Klasse K                        Mensch urteilt:
                                                                     (korrekte Zuordnung)
                                                               gehört zu K gehört nicht zu K

                               Maschine ermittelt:                     a                           b
                                  gehört zu K
                               Maschine ermittelt:                     c                           d
                                gehört nicht zu K

                                                          Vierfeldertafel
VZG




                          Verbundzentrale des GBV (VZG)       38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 36)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (23)
                                                    Bewertung (7)
                                                                                                            Fundy-Nationalpark
                                                                                                              ul, 25. Mai 2008




                                                           Bewertungsmasse
                                                          Precision P = a / (a+b)
                                                           Recall R = a / (a+c)
                                                           Fallout F = b / (b+d)
                                                   F-Measure = 2*P*R / (P+R)
VZG




                          Verbundzentrale des GBV (VZG)           38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 37)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (24)
                                                    Bewertung (8)
                                                                                                     Fundy-Nationalpark
                                                                                                       ul, 25. Mai 2008




                                                Weitere Bewertungsmasse
                           Accuracy, Error, Percent too specific, Percent too general,
                           Average overlap, Accuracy at level, Eleven-point average
                                  precision, Precision-recall breakeven point
VZG




                          Verbundzentrale des GBV (VZG)    38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 38)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (25)
                                                     Bewertung (9)
                                                                                                      Fundy-Nationalpark
                                                                                                        ul, 25. Mai 2008




                             DNB-Titeldatensätze mit intellektuell vergebener
                                DDC-Notation -> DDC-Suchsystem -> DNB-
                             Titeldatensätze mit intellektuell und automatisch
                                      vergebenen DDC-Notationen ->
                            automatische Bewertung -> automatisch bewertete
                                        Klassifizierungsergebnisse
VZG




                          Verbundzentrale des GBV (VZG)     38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 39)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (26)
                                          Klassifizierungsergebnisse
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                           Name der Ergebnisdatei res...            res (Anz.)          tit (Anz.)            t
                                                                                                            [min]

                          res_vc_IDB-2004_in_DNB-2007                 16.694              25.653           133
                          res_vc_IDB-2008_in_DNB-2007                 15.365              25.653           136
                          res_vc_IDB-2004_in_DNB-2009                 21.591              30.717           120
                          res_vc_IDB-2008_in_DNB-2009                 21.422              30.717           140
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 40)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (27)
                                 Automatisch bewertete Ergebnisse (1)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                          Hypothesen
                          a) Unterschied bei unterschiedlichen Daten-/Wissens-
                             basen ist signifikant
                          b) Unterschied bei verschiedenen Testbeständen ist
                             nicht signifikant
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 41)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (28)
                                 Automatisch bewertete Ergebnisse (2)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                          Übereinstimmung mindestens in der DDC-Hauptklasse
                                           63,85% (CN>0)
                                     Verteilung der Übereinstimmungen, z. B.
                                    36,15% (C=0); 13.71% (C=1); 26,29% (C=2)
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 42)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (29)
                                 Automatisch bewertete Ergebnisse (3)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                    Hypothese
                           Es gibt signifikante Unterschiede zwischen den DDC-Klassen
                                                 (gemessen mit CN)
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 43)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (30)
                                 Automatisch bewertete Ergebnisse (4)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                     Hypothese
                                          Es gibt signifikante Unterschiede
                                             zwischen den DDC-Klassen
                                     (gemessen mit Recall, Precision, F-Measure)
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 44)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (31)
                                 Automatisch bewertete Ergebnisse (5)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                   Hypothese
                          Es gibt keinen signifikanten Unterschied zwischen deutschen
                                        und englischen Titeldatensätzen
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 45)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (32)
                                 Automatisch bewertete Ergebnisse (6)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                       Hypothese
                                    Es gibt signifikante Unterschiede zwischen den
                                                    Reihen A, B und H
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 46)
VZG Projekt Colibri/DDC   Automatische DDC-Klassifizierung (33)
                                 Automatisch bewertete Ergebnisse (7)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                    Hypothese
                           Es gibt signifikante Unterschiede hinsichtlich der Stelligkeit
                                                der DDC-Notationen
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 47)
VZG Projekt Colibri/DDC          Stand der automatischen DDC-
                                        Klassifizierung
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                                 Eingabedaten
                            einzelne - ggf. mehrere zusammenhängende – Wörter,
                          keine Volltexte, keine linguistischen Verfahren, kein Lexikon
                                     Ermittlung der DDC-Notationskandidaten
                                     Algorithmus verwendet IR- und KI-Verfahren
                                            IR: Vektorprodukt, binäre Vektoren
                                                 KI: heuristische Regeln
                                    2 Klassenaggregationen für Ergebnisausgabe
                           Automatische Bewertung der Klassifizierungsergebnisse
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 48)
VZG Projekt Colibri/DDC         Perspektiven zur automatischen
                                    DDC-Klassifizierung (1)
                                                                                                    Fundy-Nationalpark
                                                                                                      ul, 25. Mai 2008




                                   Vergrößerung der DDC-Daten-/Wissensbasis
                             Verbesserung der Sacherschliessung bei unzureichend
                                        erschlossenen Titeldatensätzen
                          Erweiterung der heuristischen Funktion, Verwendung weiterer
                                   (KI/IR)-Algorithmen, Lexikonerstellung
                               Eliminierung weiterer irrelevanter Deskriptorwerte
                                    Andere Methode der (Klassenaggregation zur)
                                                Ergebnisausgabe
                                      Anreiz durch Colibri/DDC-Wettbewerb ☺
VZG




                          Verbundzentrale des GBV (VZG)   38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 49)
Perspektiven zur automatischen
                                         DDC-Klassifizierung (2)
VZG Projekt Colibri/DDC

                                                                                                              Fundy-Nationalpark

                          Zuallererst neue Energie aufnehmen ...                                                ul, 25. Mai 2008




                                                                                            Vielen Dank für
                                                                                             Ihr Interesse
                                                                                            am VZG-Projekt
                                                                                              Colibri/DDC



                          Fundy Nationalpark, ul, 25. Mai 2008

                          Für Colibri-Unterstützung und –Diskussionen gilt mein Dank:
VZG




                          Dipl.-Kfm. Reiner Diedrichs, Direktor der Verbundzentrale (VZG) des GBV, Göttingen
                          Prof. Dr. Erhard Konrad (i.R.), Fakultät Elektrotechnik und Informatik, TU Berlin, Berlin
                          Dipl.-Inform. (FH) Alfred Vogelbacher, Network Support Engineer Solaris, Sun Microsystems
                            GmbH, Berlin

                             Verbundzentrale des GBV (VZG)          38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 50)
VZG Projekt Colibri/DDC                                    Literatur:
                                 Information Retrieval & Bewertung (1)
                                                                                                           Fundy-Nationalpark
                                                                                                             ul, 25. Mai 2008



                          [ SALTON 1971 ] The SMART Retrieval System – Experiments
                            in Document Processing (ed. Gerard Salton). Prentice-Hall,
                            Englewood Cliffs, NJ, 1971.

                          [ Jones 1981 ] Karen Spärck Jones: Information Retrieval
                            Experiment. Butterworths, London, 1981.

                          [ Jones 1996 ] Karen Spärck Jones; Julia R. Galliers: Evaluating
                            Natural Language Processing Systems. An Analysis and
                            Review. Lecture Notes in Artificial Intelligence 1083. Springer,
                            Berlin, 1996.

                          [ Voorhees/Harman 2005 ] TREC: Experiment and Evaluation
                            in Information Retrieval (ed. by Ellen M. Voorhees; Donna K.
                            Harman). MIT Press, Cambridge Massachusetts, 2005.
VZG




                           Verbundzentrale des GBV (VZG)         38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 51)
VZG Projekt Colibri/DDC                                    Literatur:
                                 Information Retrieval & Bewertung (2)
                                                                                                           Fundy-Nationalpark
                                                                                                             ul, 25. Mai 2008




                          [ Moens 2000 ] Marie-Francine Moens: Automatic Indexing and
                            Abstracting of Document Texts. Kluwer Academic Publishers,
                            London, 2000.

                          [ Manning/Raghavan/Schütze 2008 ] Christopher D. Manning;
                            Prabhakar Raghavan; Hinrich Schütze: Introduction to
                            Information Retrieval. Cambridge University Press, Juli 2008.
                            Online: http://www-csli.stanford.edu/~hinrich/information-
                            retrieval-book.html.

                          [ CLEF ] Cross-Language Evaluation Forum (CLEF) . Online:
                            http://www.clef-campaign.org/.
VZG




                           Verbundzentrale des GBV (VZG)         38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 52)
VZG Projekt Colibri/DDC                                    Literatur:
                           Automatische Klassifizierung & Bewertung (1)
                                                                                                           Fundy-Nationalpark
                                                                                                             ul, 25. Mai 2008




                          [ Reiner 2008 ] Ulrike Reiner: DDC-based Search in the Data of
                            the German National Bibliography. In: New Perspectives on
                            Subject Indexing and Classification. Essays in Honour of Magda
                            Heiner-Freiling. Deutsche Nationalbibliothek. Leipzig, Frankfurt am
                            Main, Berlin, 2008, pp. 121-129.

                          [ Reiner 2009 ] Ulrike Reiner: Bewertung von automatisch DDC-
                            klassifizierten Titeldatensätzen der Deutschen Nationalbib-
                            liothek (DNB). VZG-Colibri-Bericht 1/2008. Online:
                            http://taipan.dyndns.org/~ul/colibri05.pdf.

                          [ Oberhauser 2004 ] Otto Oberhauser: Automatisches
                            Klassifizieren. Verfahren zur Erschliessung elektronischer
                            Dokumente. Master's Thesis. Zusatzstudiengang Bibliotheks- und
                            Informationswissenschaft. Fakultät für Informations- und
VZG




                            Kommunikationswissenschaften, Fachhochschule Köln, 2004.


                           Verbundzentrale des GBV (VZG)         38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 53)
VZG Projekt Colibri/DDC                                    Literatur:
                           Automatische Klassifizierung & Bewertung (2)
                                                                                                           Fundy-Nationalpark
                                                                                                             ul, 25. Mai 2008


                          [ Wille 2006 ] Jens Wille: Automatisches Klassifizieren biblio-
                            graphischer Beschreibungsdaten - Vorgehensweise und
                            Ergebnisse. Diplomarbeit. Studiengang Bibliothekswesen
                            Fakultät für Informations- und Kommunikationswissenschaften,
                            Fachhochschule Köln, 2006.
                          [ Pfeffer 2008 ] Magnus Pfeffer: Automatische Vergabe von RVK-
                            Notationen mittels fallbasiertem Schließen. Vortrag: 97.
                            Deutscher Bibliothekartag. 5. Juni 2008, Mannheim.
                          [ Mehler/Waltinger 2009a ] Alexander Mehler; Ulli Waltinger:
                            Automatic Enrichment of Metadata. Vortrag: „9th International
                            Bielefeld Conference“. 4. Februar 2009, Bielefeld.
                          [ Mehler/Waltinger 2009b ] Alexander Mehler; Ulli Waltinger:
                            Enhancing Document Modeling by Means of Open Topic
                            Models: Crossing the Frontier of Classification Schemes
VZG




                            in Digital Libraries by Example of the DDC. Wird publiziert
                            in: Library Hi Tech, 2009.

                           Verbundzentrale des GBV (VZG)         38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 54)
VZG Projekt Colibri/DDC

                                                                                                       Fundy-Nationalpark
                                                                                                         ul, 25. Mai 2008




                                     Für an Details interessierte Leser

                                             Ulrike Reiner
                                Automatische DDC-Klassifizierung von
                                  bibliografischen Titeldatensätzen

                                                          Version: Full
                                          http://www.opus-bayern.de/bib-
                                              info/volltexte/2009/736/
VZG




                          Verbundzentrale des GBV (VZG)      38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 55)

Weitere ähnliche Inhalte

Empfohlen

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Bibtag09: Automatische_DDC-Klassifizierung_Lite

  • 1. VZG Projekt Colibri/DDC 38. Deutscher Bibliothekartag, Erfurt Fundy-Nationalpark ul, 25. Mai 2008 Für eilige Leser Ulrike Reiner Automatische DDC-Klassifizierung von bibliografischen Titeldatensätzen Version: Lite VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 1)
  • 2. Automatische DDC-Klassifizierung von bibliografischen Titeldatensätzen VZG Projekt Colibri/DDC - Inhalt des Vortrages - Fundy-Nationalpark ul, 25. Mai 2008 DDC System, Bibliografische Titeldatensätze OCLC classify VZG Colibri/DDC (Klassifizierungskomponente, Wettbewerb, Ergebnisse und Bewertung) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 2)
  • 3. VZG Projekt Colibri/DDC Colibri/DDC - Forschungsfrage Q1 Fundy-Nationalpark ul, 25. Mai 2008 Ist es möglich, eine inhaltlich stimmige DDC-Titelklassifikation aller GVK-PLUS-Titeldatensätze automatisch zu erzielen? VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 3)
  • 4. VZG Projekt Colibri/DDC Dewey-Dezimalklassifikation (DDC) Mini-DDC-Ausschnitt Fundy-Nationalpark ul, 25. Mai 2008 Ebene 1. 000 (Informatik, ...) ... ... 2. ... 020 (Bibliotheks- und Informationswissen. ...) ... ... 3. ... 006 (Spezielle Computerverfahren) ... ... ... ... 12. ... 025.302855741 (Einsatz von Dateiorganisation ...) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 4)
  • 5. DDC-Klassifzierung: ein Thema (Kleidung)– VZG Projekt Colibri/DDC mehrere Systemstellen ! Fundy-Nationalpark ul, 25. Mai 2008 Kleidung wird z. B. abgehandelt in Psychologie, Ethnologie und Künste VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 5)
  • 6. VZG Projekt Colibri/DDC DDC-Klassifzierung: ein Thema (Der Apfel) – welche Systemstelle? Fundy-Nationalpark ul, 25. Mai 2008 DNB-Titeldatensatz DNB984784829 im MAB2-Format ... 026 DNB984784829 ... 037bger ... 331 Der Apfel ... 540aISBN 978-3-938793-62-6 Pp. : EUR 98.00 540aISBN 3-938793-62-7 Pp. : EUR 98.00 ... 700 |100ÎDNB 705a a110 c110 eDDC22ger VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 6)
  • 7. VZG Projekt Colibri/DDC Intellektuelle DDC-Klassifizierung Der Apfel: 110 (Metaphysik) Fundy-Nationalpark ul, 25. Mai 2008 Aleksandar Kellenberg: Metaphysische Untersuchungen – Erster Teil: Der Apfel VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 7)
  • 8. OCLC Classify (an experimental classification web service) VZG Projekt Colibri/DDC Der Apfel {372.133} Fundy-Nationalpark ul, 25. Mai 2008 Jockweg, Bernd: Der Apfel DDC Klasse: 372.133 (100%) (Unterrichtsmaterialien-Primärbildung) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 8)
  • 9. VZG Projekt Colibri/DDC Intellektuelle DDC-Klassifizierung Mitt liv, min frihet : {297,...,920.72} Fundy-Nationalpark ul, 25. Mai 2008 Mitt liv, min frihet : en selvbiografi / Ayaan Hirsi Ali ; oversatt av Poul Henrik Poulsen DDC Classification: 297, 305.486, 305.486092, 305.48697, 305.486971092, 920.0092, 920.72 Beispiel aus: [ http://www.onb.ac.at/events/files/rype.ppt ], p. 8 VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 9)
  • 10. OCLC Classify VZG Projekt Colibri/DDC Mein Leben, meine Freiheit : {324.2092} Fundy-Nationalpark ul, 25. Mai 2008 Hirsi Ali, Ayaan: Mein Leben, meine Freiheit (Holdings: 1) DDC Klasse: 324.2092 (100%) (Politiker--Biografien ) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 10)
  • 11. OCLC Classify VZG Projekt Colibri/DDC The caged virgin - an emancipation proclamation for women and Islam Fundy-Nationalpark {297.082,...,922.97} ul, 25. Mai 2008 Hirsi Ali, Ayaan: The caged virgin – an emancipation proclamation for women and Islam (Holdings: 1.407) DDC Klassen: 297.082 (88.91%), 305.48697(6.68%), 922.97 (3.55%), Unclassified (4.41%) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 11)
  • 12. Initiative Colibri/DDC-Wettbewerb (Juni 2009) Ziel: bester automatischer DDC-Klassifizierer VZG Projekt Colibri/DDC für bibliografische Titeldatensätze gesucht Fundy-Nationalpark ul, 25. Mai 2008 Start Ziel ☺ System Colibri/DDC System X ??? System Y ??? System Z VZG TOP-System? Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 12)
  • 13. Initiative Colibri/DDC-Wettbewerb (Juni 2009) Ziel: bester automatischer DDC-Klassifizierer VZG Projekt Colibri/DDC für bibliografische Titeldatensätze gesucht Fundy-Nationalpark ul, 25. Mai 2008 Systemtest Modell / Beschreibung des Systems Zu testende Hypothesen Bewertungskriterien und –maße Daten ermitteln und bewerten VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 13)
  • 14. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (1) Colibri/DDC-Modell (1) Fundy-Nationalpark ul, 25. Mai 2008 Pica+ : {..., 021A, ..., 044K, ...}; MAB2: {..., 310, ..., 410, ...} {Apfel, Apfelbeere, Aronia} 634:= {..., <021A>-aronia, ...} DNB991499077 := {..., <331>-aronia, <902s>-aronia, ...} vc_DB := {000, 006.31, 025.302855741, 634 , ..., 999.23} VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 14)
  • 15. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (2) Colibri/DDC-Modell (2) Fundy-Nationalpark ul, 25. Mai 2008 IR-Komponente Vektorprodukt als Ähnlichkeitsmaß DDC-Notationskandidat(en): DDC-Klasse mit größtem Ähnlichkeitswert VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 15)
  • 16. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (3) Colibri/DDC-Modell (3) Fundy-Nationalpark ul, 25. Mai 2008 KI-Komponente Heuristische Funktion Obergrenze für Berücksichtigung von Häufigkeitswerten von Deskriptorwerten, Wert wird zur Laufzeit durch heuristische Regeln dynamisch bestimmt VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 16)
  • 17. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (4) Colibri/DDC-Modell (4) Fundy-Nationalpark ul, 25. Mai 2008 KI-Komponente Heuristische Regel, z. B. Berücksichtigung spezifischer Begriffe Wenn Differenz zwischen zwei Häufigkeitswerten größer als „200“ dann cutoff_val_dyn := kleinerer Wert der beiden Häufigkeitswerte VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 17)
  • 18. Automatische DDC-Klassifizierung (5) VZG Colibri/DDC-Suchsystem VZG Projekt Colibri/DDC Fundy-Nationalpark ul, 25. Mai 2008 DDC-basierte Anfragen -> DDC-Suchsystem -> DDC-basierte Antworten VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 18)
  • 19. Automatische DDC-Klassifizierung (6) Softwaresystem-Architektur DDC-Suchsystem VZG Projekt Colibri/DDC Fundy-Nationalpark ul, 25. Mai 2008 Eingabedaten -> DDC-Suchsystem mit Systemkomponenten (DDC-Klassifizierung, Frage-Beantwortung, DDC-Notationssynthese und –Analyse) -> Ausgabedaten VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 19)
  • 20. Automatische DDC-Klassifizierung (7) Standard-Testbestände: Information Retrieval VZG Projekt Colibri/DDC Fundy-Nationalpark ul, 25. Mai 2008 Cranfield, TREC, GOV2, CLEF, Reuters-21578, RCV1, 20 NEWSGROUPS VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 20)
  • 21. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (8) Colibri/DDC-Systemtest: Testbestände Fundy-Nationalpark ul, 25. Mai 2008 DDC-Daten-/Wissensbasis 2004/2008 DNB-DDC-Testbestände 2007/2009 Andere Testbestände? Z. B. 100.000 BASE-Titeldatensätze 426.254 NORBOK-Titeldatensätze VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 21)
  • 22. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (9) Colibri/DDC-Systemtest Fundy-Nationalpark ul, 25. Mai 2008 Kriterium für Tests/Experimente: Wiederholbarkeit! Verwendete Hard- und Software: 2.2 GHz, 16GB Hauptspeicher. SuSE Linux Enterprise 10, gawk-3.1.5, ca. 1.250 Zeilen Programmcode. VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 22)
  • 23. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (10) Eingabedaten Fundy-Nationalpark ul, 25. Mai 2008 DDC-System 2004: Elektronische Form als XML-Datei DDC-Daten-Wissensbasis 2004: 3,0 Mio. Titeldatensätze DDC-Daten-Wissensbasis 2008: 4,3 Mio. Titeldatensätze DNB-DDC-Testbestand 2007: 25.653 Titeldatensätze DNB-DDC-Testbestand 2009: 30.717 Titeldatensätze VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 23)
  • 24. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (11) Datenkonvertierung (1) Fundy-Nationalpark ul, 25. Mai 2008 Datenkonvertierung Eliminierung: irrelevante Deskriptorwerte, Sonderzeichen Deskriptorwerte: Transliterierung, Kleinschreibung Berücksichtigte MAB2-Felder 026, 037, 100, 310, 331, 335, 341, 370, 410, 412, 451, 540, 542, 700, 705, 902/12/22 s/g, 907/17/27 s/g VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 24)
  • 25. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (12) Datenkonvertierung (2) Fundy-Nationalpark ul, 25. Mai 2008 Berücksichtigte Pica+ - Kategorien 001A, 003@, 004A, 004B, 004D, 005A, 006G, 006L, 006Y, 007G, 021A, 022A/01, 027D, 028A, 028B, 028C, 028E, 033A, 036C, 039B, 041A, 044A, 044C, 044E, 044F, 044G, 044K, 044L, 045A, 045F, 045Q, 045U,144Z/244Z, 145Z/245Z VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 25)
  • 26. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (13) Fundy-Nationalpark ul, 25. Mai 2008 Erstellung der (invertierten) DDC-Daten-/ Wissensbasis aus Daten des DDC-Systems und aus GVK-DDC-Titeldatensätzen Größe der invertierten DDC-Daten-/Wissensbasis 2004 (510 MB): ca. 3 Min. Einlesezeit in den Hauptspeicher 2008 (712 MB): ca. 5 Min. Einlesezeit in den Hauptspeicher VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 26)
  • 27. VZG Projekt Colibri/DDC Intellektuelle DDC-Klassifizierung Der Apfel: 110 (Metaphysik) Fundy-Nationalpark ul, 25. Mai 2008 Aleksandar Kellenberg: Metaphysische Untersuchungen – Erster Teil: Der Apfel VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 27)
  • 28. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (14) Der Apfel: {334.683411, ... ,391.0092} Fundy-Nationalpark ul, 25. Mai 2008 correlation(dnb_A0745_DNB0984784829#ger#dno_i{1 10}#dno_a{M300,D330,S338,s334.683411,s338.108,s 338.10942,s338.13,s338.17411,s343.73084,s391.0092 }#consi: 2#matched: 1,1{apfel}): 00x.xxx xxx xxx xxx (0) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 28)
  • 29. Automatische DDC-Klassifizierung (15) ? VZG Projekt Colibri/DDC Fundy-Nationalpark ul, 25. Mai 2008 Petra Neumayer; Birgit Funfack: Aronia – Powerbiostoffe aus der Apfelbeere VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 29)
  • 30. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (16) Powerbiostoffe aus der Apfelbeere : {615.321} Fundy-Nationalpark ul, 25. Mai 2008 correlation(dnb_A0912_DNB0991499077#ger#dno_i{ 615.32373}#dno_a{M600,D610,S61,s615.321}#consi: 11#matched: 2,2{naturheilmittel, vitalitaet}): 111.110 00x xxx xxx (0.625) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 30)
  • 31. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (17) Bewertung (1) Fundy-Nationalpark ul, 25. Mai 2008 Projekt Colibri/DDC Korrelationsmaße C, CP und CN Stellenweiser Ziffernvergleich von links nach rechts zwischen intellektuell vergebener (dno_i) und automatisch ermittelter DDC-Notation (dno_a) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 31)
  • 32. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (18) Bewertung (2) Fundy-Nationalpark ul, 25. Mai 2008 Projekt Colibri/DDC dno_i = 158.1 (Persönliche Weiterentwicklung und Analyse) dno_a = 158 (Angewandte Psychologie) CP = 111.0xx xxx xxx xxx; CN = (1+1+1+0)/4 = 0.75 VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 32)
  • 33. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (19) Bewertung (3) Fundy-Nationalpark ul, 25. Mai 2008 Projekt Scorpion/DDC Bewertungsmaße H (=S1), T(=S2), O (=S3), G (=S4), Sp (=S4), Co (=S5), Sy (=S6), B (=S7), E (=S8), Cl (=S9), R (=S10) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 33)
  • 34. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (20) Bewertung (4) Fundy-Nationalpark ul, 25. Mai 2008 Projekt Pfeffer/RVK Vergleich der automatischen und manuellen Klassifikation Suche des nächsten gemeinsamen Vaterknoten im RVK-Baum Bewertungsmaß: perfekt (=P1), gut (=P2), mäßig (=P3), schlecht (=P3) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 34)
  • 35. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (21) Bewertung (5) Fundy-Nationalpark ul, 25. Mai 2008 Colibri/DDC Scorpion/DDC Pfeffer/RVK ------------------------------------------------------------------------- Bsp.dno_i dno_a CP C CN S1 S2 S3 S4 S8 S9 S10 P ------------------------------------------------------------------------- 14. 111.8 110 110.0 2 0.50 x x x P2 15. 571.5929 571 111.0000 3 0.43 x x x Sp x x P3 16. 111.85 110 110.00 2 0.40 x x x P2 Vergleichende Betrachtung mit unterschiedlichen Bewertungsmaßen VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 35)
  • 36. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (22) Bewertung (6) Fundy-Nationalpark ul, 25. Mai 2008 Klasse K Mensch urteilt: (korrekte Zuordnung) gehört zu K gehört nicht zu K Maschine ermittelt: a b gehört zu K Maschine ermittelt: c d gehört nicht zu K Vierfeldertafel VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 36)
  • 37. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (23) Bewertung (7) Fundy-Nationalpark ul, 25. Mai 2008 Bewertungsmasse Precision P = a / (a+b) Recall R = a / (a+c) Fallout F = b / (b+d) F-Measure = 2*P*R / (P+R) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 37)
  • 38. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (24) Bewertung (8) Fundy-Nationalpark ul, 25. Mai 2008 Weitere Bewertungsmasse Accuracy, Error, Percent too specific, Percent too general, Average overlap, Accuracy at level, Eleven-point average precision, Precision-recall breakeven point VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 38)
  • 39. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (25) Bewertung (9) Fundy-Nationalpark ul, 25. Mai 2008 DNB-Titeldatensätze mit intellektuell vergebener DDC-Notation -> DDC-Suchsystem -> DNB- Titeldatensätze mit intellektuell und automatisch vergebenen DDC-Notationen -> automatische Bewertung -> automatisch bewertete Klassifizierungsergebnisse VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 39)
  • 40. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (26) Klassifizierungsergebnisse Fundy-Nationalpark ul, 25. Mai 2008 Name der Ergebnisdatei res... res (Anz.) tit (Anz.) t [min] res_vc_IDB-2004_in_DNB-2007 16.694 25.653 133 res_vc_IDB-2008_in_DNB-2007 15.365 25.653 136 res_vc_IDB-2004_in_DNB-2009 21.591 30.717 120 res_vc_IDB-2008_in_DNB-2009 21.422 30.717 140 VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 40)
  • 41. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (27) Automatisch bewertete Ergebnisse (1) Fundy-Nationalpark ul, 25. Mai 2008 Hypothesen a) Unterschied bei unterschiedlichen Daten-/Wissens- basen ist signifikant b) Unterschied bei verschiedenen Testbeständen ist nicht signifikant VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 41)
  • 42. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (28) Automatisch bewertete Ergebnisse (2) Fundy-Nationalpark ul, 25. Mai 2008 Übereinstimmung mindestens in der DDC-Hauptklasse 63,85% (CN>0) Verteilung der Übereinstimmungen, z. B. 36,15% (C=0); 13.71% (C=1); 26,29% (C=2) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 42)
  • 43. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (29) Automatisch bewertete Ergebnisse (3) Fundy-Nationalpark ul, 25. Mai 2008 Hypothese Es gibt signifikante Unterschiede zwischen den DDC-Klassen (gemessen mit CN) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 43)
  • 44. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (30) Automatisch bewertete Ergebnisse (4) Fundy-Nationalpark ul, 25. Mai 2008 Hypothese Es gibt signifikante Unterschiede zwischen den DDC-Klassen (gemessen mit Recall, Precision, F-Measure) VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 44)
  • 45. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (31) Automatisch bewertete Ergebnisse (5) Fundy-Nationalpark ul, 25. Mai 2008 Hypothese Es gibt keinen signifikanten Unterschied zwischen deutschen und englischen Titeldatensätzen VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 45)
  • 46. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (32) Automatisch bewertete Ergebnisse (6) Fundy-Nationalpark ul, 25. Mai 2008 Hypothese Es gibt signifikante Unterschiede zwischen den Reihen A, B und H VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 46)
  • 47. VZG Projekt Colibri/DDC Automatische DDC-Klassifizierung (33) Automatisch bewertete Ergebnisse (7) Fundy-Nationalpark ul, 25. Mai 2008 Hypothese Es gibt signifikante Unterschiede hinsichtlich der Stelligkeit der DDC-Notationen VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 47)
  • 48. VZG Projekt Colibri/DDC Stand der automatischen DDC- Klassifizierung Fundy-Nationalpark ul, 25. Mai 2008 Eingabedaten einzelne - ggf. mehrere zusammenhängende – Wörter, keine Volltexte, keine linguistischen Verfahren, kein Lexikon Ermittlung der DDC-Notationskandidaten Algorithmus verwendet IR- und KI-Verfahren IR: Vektorprodukt, binäre Vektoren KI: heuristische Regeln 2 Klassenaggregationen für Ergebnisausgabe Automatische Bewertung der Klassifizierungsergebnisse VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 48)
  • 49. VZG Projekt Colibri/DDC Perspektiven zur automatischen DDC-Klassifizierung (1) Fundy-Nationalpark ul, 25. Mai 2008 Vergrößerung der DDC-Daten-/Wissensbasis Verbesserung der Sacherschliessung bei unzureichend erschlossenen Titeldatensätzen Erweiterung der heuristischen Funktion, Verwendung weiterer (KI/IR)-Algorithmen, Lexikonerstellung Eliminierung weiterer irrelevanter Deskriptorwerte Andere Methode der (Klassenaggregation zur) Ergebnisausgabe Anreiz durch Colibri/DDC-Wettbewerb ☺ VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 49)
  • 50. Perspektiven zur automatischen DDC-Klassifizierung (2) VZG Projekt Colibri/DDC Fundy-Nationalpark Zuallererst neue Energie aufnehmen ... ul, 25. Mai 2008 Vielen Dank für Ihr Interesse am VZG-Projekt Colibri/DDC Fundy Nationalpark, ul, 25. Mai 2008 Für Colibri-Unterstützung und –Diskussionen gilt mein Dank: VZG Dipl.-Kfm. Reiner Diedrichs, Direktor der Verbundzentrale (VZG) des GBV, Göttingen Prof. Dr. Erhard Konrad (i.R.), Fakultät Elektrotechnik und Informatik, TU Berlin, Berlin Dipl.-Inform. (FH) Alfred Vogelbacher, Network Support Engineer Solaris, Sun Microsystems GmbH, Berlin Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 50)
  • 51. VZG Projekt Colibri/DDC Literatur: Information Retrieval & Bewertung (1) Fundy-Nationalpark ul, 25. Mai 2008 [ SALTON 1971 ] The SMART Retrieval System – Experiments in Document Processing (ed. Gerard Salton). Prentice-Hall, Englewood Cliffs, NJ, 1971. [ Jones 1981 ] Karen Spärck Jones: Information Retrieval Experiment. Butterworths, London, 1981. [ Jones 1996 ] Karen Spärck Jones; Julia R. Galliers: Evaluating Natural Language Processing Systems. An Analysis and Review. Lecture Notes in Artificial Intelligence 1083. Springer, Berlin, 1996. [ Voorhees/Harman 2005 ] TREC: Experiment and Evaluation in Information Retrieval (ed. by Ellen M. Voorhees; Donna K. Harman). MIT Press, Cambridge Massachusetts, 2005. VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 51)
  • 52. VZG Projekt Colibri/DDC Literatur: Information Retrieval & Bewertung (2) Fundy-Nationalpark ul, 25. Mai 2008 [ Moens 2000 ] Marie-Francine Moens: Automatic Indexing and Abstracting of Document Texts. Kluwer Academic Publishers, London, 2000. [ Manning/Raghavan/Schütze 2008 ] Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze: Introduction to Information Retrieval. Cambridge University Press, Juli 2008. Online: http://www-csli.stanford.edu/~hinrich/information- retrieval-book.html. [ CLEF ] Cross-Language Evaluation Forum (CLEF) . Online: http://www.clef-campaign.org/. VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 52)
  • 53. VZG Projekt Colibri/DDC Literatur: Automatische Klassifizierung & Bewertung (1) Fundy-Nationalpark ul, 25. Mai 2008 [ Reiner 2008 ] Ulrike Reiner: DDC-based Search in the Data of the German National Bibliography. In: New Perspectives on Subject Indexing and Classification. Essays in Honour of Magda Heiner-Freiling. Deutsche Nationalbibliothek. Leipzig, Frankfurt am Main, Berlin, 2008, pp. 121-129. [ Reiner 2009 ] Ulrike Reiner: Bewertung von automatisch DDC- klassifizierten Titeldatensätzen der Deutschen Nationalbib- liothek (DNB). VZG-Colibri-Bericht 1/2008. Online: http://taipan.dyndns.org/~ul/colibri05.pdf. [ Oberhauser 2004 ] Otto Oberhauser: Automatisches Klassifizieren. Verfahren zur Erschliessung elektronischer Dokumente. Master's Thesis. Zusatzstudiengang Bibliotheks- und Informationswissenschaft. Fakultät für Informations- und VZG Kommunikationswissenschaften, Fachhochschule Köln, 2004. Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 53)
  • 54. VZG Projekt Colibri/DDC Literatur: Automatische Klassifizierung & Bewertung (2) Fundy-Nationalpark ul, 25. Mai 2008 [ Wille 2006 ] Jens Wille: Automatisches Klassifizieren biblio- graphischer Beschreibungsdaten - Vorgehensweise und Ergebnisse. Diplomarbeit. Studiengang Bibliothekswesen Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln, 2006. [ Pfeffer 2008 ] Magnus Pfeffer: Automatische Vergabe von RVK- Notationen mittels fallbasiertem Schließen. Vortrag: 97. Deutscher Bibliothekartag. 5. Juni 2008, Mannheim. [ Mehler/Waltinger 2009a ] Alexander Mehler; Ulli Waltinger: Automatic Enrichment of Metadata. Vortrag: „9th International Bielefeld Conference“. 4. Februar 2009, Bielefeld. [ Mehler/Waltinger 2009b ] Alexander Mehler; Ulli Waltinger: Enhancing Document Modeling by Means of Open Topic Models: Crossing the Frontier of Classification Schemes VZG in Digital Libraries by Example of the DDC. Wird publiziert in: Library Hi Tech, 2009. Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 54)
  • 55. VZG Projekt Colibri/DDC Fundy-Nationalpark ul, 25. Mai 2008 Für an Details interessierte Leser Ulrike Reiner Automatische DDC-Klassifizierung von bibliografischen Titeldatensätzen Version: Full http://www.opus-bayern.de/bib- info/volltexte/2009/736/ VZG Verbundzentrale des GBV (VZG) 38. Deutscher Bibliothekartag (ul, 3. Juni 2009, S. 55)